【无标题】

最编程 2024-10-03 10:21:13

...

TRACE: Table Reconstruction Aligned to Corner and Edges(ICDAR 2023)

一.前述

    作者认为表格的两阶段识别方法通常会导致模块之间的错误传播，并会导致训练和推理效率低下。作者分析了表格，认为每个单元格都是由相连的边组成的边界。
    基于以上这点，作者提出了一种自底向上重构表的新方法。该方法将单元格边界从低级特征(如角和边)中分离出来，并通过组合单元格来定位表的位置。作者认
为该方法比两阶段更易训练，更少的计算量。在ICDAR2013表格数据集上以及Wired Table in the Wild(WTW)数据集上达到了state-of-the-art。

二.概述

在这里插入图片描述

    如上图所示，是两阶段识别方法与本文提出的方法的区别。作者提出一种叫做TRACE(Table Recostruction Aligned to Corners and Edges)的
表格重建方法，该方法是一种端到端方法，它的目的是找到单元格的边和角，然后自底向上的重建表格。作者利用单个分割模型去预测低级特征(角和边)，而不是单
元格或内容的边界框。然后利用简单的后处理去重构table。
使用单个模型可以提高训练和推理的时效，作者主要是通过将边分类为显式的线条和隐式的线条。本文主要的贡献如下：
1.提出利用单一的端到端模型对表格进行重构。
2.利用单元格的角和边，以自底向上的方式去重构表格。
3.将边分类为显式和隐式线条。

三.方法概述

    本文的方法使用深度学习模型去预测形成单元格的角和边的segmentation maps。模型输出五个segmentation maps,第一个通道用于检测单元格的角，
 另外四个通道用于检测单元格框的水平和垂直边。文中将边定义为单元格之间的分隔线，并且预测四种类型的边，因为每个边可以代表一条显式或隐式的线，不
 管是垂直的还是水平的。通过聚合边的maps的二值化过程，通过连通组件标记得到一个候选表区域。.在单元格重建步骤中，作者通过将每个表候选区域的水平
 边投影到y平面，将垂直边投影到x平面来计算分离的位置。这里，角也用于寻找分隔线。如果单元格边界框之间没有边，则会合并跨单元格。最后，通过不同的
 单元格的组合来定位表中的区域。如上图所示，四种类型的边用不同的颜色表示；显式的水平边为蓝色，显式的垂直边为绿色，隐式的水平边为黄色，隐式的垂
 直边为紫色。

1.角和边的预测模型(Corner and Edges Prediction Model)

    作者利用一个基于CNN的分隔模型进行训练，去获取corner和edge的信息。作者采用ResNet-50作为特征抽取的backbone，整个架构类似U-Net模型，此架构能够聚合低阶和高阶特征。最后的输出有五个通道：corner map；显示的水平/垂直edge map；隐示的水平/垂直edge map。
为了生成真实标签，这里需要单元格边界框和每条边的属性。对于corner map，本文渲染一个以单元格的每个角点为中心的固定大小的高斯热图。对于edge map，在单元格的每条边都绘制一个固定厚度的线段。这里，水平和垂直边的真实值(ground truth)是在不同的通道上产生的。此外，边的属性表示线段是否可见。如果可见，使用显式边缘通道，如果不可见，则使用隐式边缘通道。

文中使用MSE loss损失函数，如下：

这里，Si§表示第i个segmentation map的真值，Si∗§表示像素p处的预测的segmentation map。

作者认为本文方法有别于传统的检测方法，主要有两点：
(1).检测低阶视觉特征（有效处理空的单元格），而不是高级语义元素（单元格边界框或内容边界框）。
(2).在生成分隔符时，能够识别显式和隐式边。（可见线和不可见线之间的区别有助于从表格图像中找到分隔符。）
在获得底阶特征后，通过后处理中的一系列启发式技术实现表的重建。

2.重构后处理

识别和后处理步骤如下：

(1).模型预测输出corner和edge的maps

(2).在图像修正步骤中，对推断的segmentation maps进行二值化，然后使用所有二值化edge maps的组合来近似每个表的位置。霍夫线变换用于检测二值化边中的线。通过使水平线和垂直线相垂直来修正表格图像。大多数扫描的文档图像不需要进行此修正。

(3).利用一种分隔合并策略重构表格，如下图。

它首先将显式水平边映射投影到y平面上，并将显式垂直边映射投影到x平面上。在平面上投影边组的中点被认为是每条分离线的位置。
在隐式水平线的情况下，投影可能不能清楚地分开它们。当表中的一行包含空单元格时，由于内容边界的歧义，隐式的水平线可能会被合并。
为了解决这个问题，我们使用了corner map。对corner map应用相同的二值化和投影过程。如果投影的线组较厚，有两个以上的角峰点，
则根据角点组的峰点计算最终的分隔点，而不是线组的中点。

(4).分隔后的步骤便是单元格合并。这个过程利用显式和隐式的edge maps。基本规则是，如果两个相邻的单元格在其分隔符的中点缺乏binary edge map，
则删除分隔符，并合并单元格。

(5).最后，通过计算所有被检测到的单元格的左上角、右上角、左下角和右下角的坐标来确定表位置的四条边。

作者提出，在未来计划利用弱监督技术去训练多样化数据。

上一篇：硒模块入门

下一篇： (C 语言饕餮） 5. 显示饕餮身体的一个节点 - 3. 下一个节点的位置（地址/指针）

【无标题】

TRACE: Table Reconstruction Aligned to Corner and Edges(ICDAR 2023)

一.前述

二.概述

三.方法概述

1.角和边的预测模型(Corner and Edges Prediction Model)

2.重构后处理

【无标题】

无标题】Elasticsearch for windows

【无标题】

【无标题】

【无标题】

无标题】NQI质量基础一站式服务平台助力企业发展

【无标题】

【暂无标题】-海康威视

相约星期二大家的必修课，社会学教授对人生珍贵的思考无标题文章

[无标题] Vue + vue2.0 的蚂蚁金服设计在添加企业公章前上传图片

【无标题】

TRACE: Table Reconstruction Aligned to Corner and Edges(ICDAR 2023)

一.前述

二.概述

三.方法概述

1.角和边的预测模型(Corner and Edges Prediction Model)

2.重构后处理

【无标题】

无标题】Elasticsearch for windows

【无标题】

【无标题】

【无标题】

无标题】NQI质量基础一站式服务平台助力企业发展

【无标题】

【暂无标题】-海康威视

相约星期二 大家的必修课，社会学教授对人生珍贵的思考 无标题文章

[无标题] Vue + vue2.0 的蚂蚁金服设计 在添加企业公章前上传图片

相约星期二大家的必修课，社会学教授对人生珍贵的思考无标题文章

[无标题] Vue + vue2.0 的蚂蚁金服设计在添加企业公章前上传图片