一种基于领域噪音自适应的文档布局分析方法和系统技术方案

技术编号：41476649 阅读：23 留言：0更新日期：2024-05-30 14:28

一种基于领域噪音自适应的文档布局分析方法和系统，所述方法包括：将文档布局分析数据所属的领域以文本的形式，通过文字编码器得到相应的特征向量；采用第一预设规则对待使用的trasnformer encoder模型进行初始化；将文本特征向量和图片通过不同方式进行处理，得到相同维度的向量；将文本向量与图片向量进行拼接，得到特征图；将得到的特征图送入目标检测框中进行检测，得到文档布局分析结果。本发明专利技术适用于不同类型的文档图像呈现出独特的布局结构和标签分布情况，解决了现有的模型只是单纯的将文档布局分析当作目标检测任务而忽略了其噪音和所属的领域，导致检测的精度不高的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及的是orc文字识别领域，特别涉及一种基于领域噪音自适应的文档布局分析方法。

技术介绍

1、文档布局分析数据因为其本身的多样性，使得数据正确的标注是一件非常困难的事情，尽管可以通过不断完善标注规范手册来缓解这个问题，如doclaynet、m6doc数据集，但是数据的歧义性所引入的噪音是无法避免的。事实上，文档数据的标签与噪音是和其所属领域高度相关的，如金融报告、法律文件、专利、科技论文等等。现有的模型只是单纯的将文档布局分析当作目标检测任务而忽略了其噪音和所属的领域，导致检测的精度不高。

技术实现思路

1、鉴于上述问题，提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于领域噪音自适应的文档布局分析方法和系统。

2、为了解决上述技术问题，本申请实施例公开了如下技术方案：

3、一种基于领域噪音自适应的文档布局分析方法，包括：

4、s100.将文档布局分析数据所属的领域以文本的形式，通过文字编码器得到相应的特征向量；

5、s200.采用第一预设规则对待使用的trasnformer encoder模型进行初始化；

6、s300.将文本特征向量和图片通过不同方式进行处理，得到相同维度的向量；

7、s400.将文本向量与图片向量进行拼接，得到特征图；

8、s500.将得到的特征图送入目标检测框中进行检测，得到文档布局分析结果。

9、进一步地，s100中，通过文字

10、进一步地，s200中，采用第一预设规则对待使用的trasnformer encoder模型进行初始化，第一预设规则包括：利用dit或者layoutlmv3中已经通过历史文档数据预训练获取的transformer encoder权重，初始化待使用的trasnformer encoder模型。

11、进一步地，s300中，将文本特征向量和图片通过不同方式进行处理，得到相同维度的向量，对文本特征向量处理的方式为：将文本的特征向量通过线性层进行线性映射，映射得到768维度的向量。

12、进一步地，s300中，将文本特征向量和图片通过不同方式进行处理，得到相同维度的向量，对图片处理的方式为：将图片通过patch embedding的方式，得到768维度的向量。

13、进一步地，s400中，将文本向量与图片向量进行拼接，得到特征图，具体方法包括：将文本向量与图片向量进行拼接，通过12层transformer encoder得到特征向量，然后将tranformer encoder的第4，6，8，12层的输出结果的视觉部分取出，通过fpn网络得到特征图。

14、进一步地，将tranformer encoder的第4，6，8，12层的输出结果的视觉部分取出，其中，tranformer encoder的第4层下采样2倍；tranformer encoder的第6层保持不变，tranformer encoder的第8层上采样2倍，tranformer encoder的第12层上采样4倍。

15、进一步地，s500中，将得到的特征图送入目标检测框中进行检测，得到文档布局分析结果，目标检测框至少包括mask rcnn，faster rcnn，cascade rcnn。

16、本专利技术还公开了一种基于领域噪音自适应的文档布局分析系统，包括：特征向量获取单元、模型初始化单元、文本向量与图片向量获取单元、特征图获取单元、特征图检测单元；其中：

17、特征向量获取单元，用于将文档布局分析数据所属的领域以文本的形式，通过文字编码器得到相应的特征向量；

18、模型初始化单元，用于采用第一预设规则对待使用的trasnformer encoder模型进行初始化；

19、文本向量与图片向量获取单元，用于将文本特征向量和图片通过不同方式进行处理，得到相同维度的向量；

20、特征图获取单元，用于将文本向量与图片向量进行拼接，得到特征图；

21、特征图检测单元，用于将得到的特征图送入目标检测框中进行检测，得到文档布局分析结果。

22、本专利技术还公开了一种电子设备，包括：

23、存储器，用于存储可由处理器执行的指令；

24、处理器，用于执行指令以实现一种基于领域噪音自适应的文档布局分析方法。

25、本专利技术实施例提供的上述技术方案的有益效果至少包括：

26、本专利技术公开了一种基于领域噪音自适应的文档布局分析方法和系统，所述方法包括：将文档布局分析数据所属的领域以文本的形式，通过文字编码器得到相应的特征向量；采用第一预设规则对待使用的trasnformer encoder模型进行初始化；将文本特征向量和图片通过不同方式进行处理，得到相同维度的向量；将文本向量与图片向量进行拼接，得到特征图；将得到的特征图送入目标检测框中进行检测，得到文档布局分析结果。本专利技术适用于不同类型的文档图像呈现出独特的布局结构和标签分布情况，解决了现有的模型只是单纯的将文档布局分析当作目标检测任务而忽略了其噪音和所属的领域，导致检测的精度不高的问题。

27、下面通过附图和实施例，对本专利技术的技术方案做进一步的详细描述。

本文档来自技高网...

【技术保护点】

1.一种基于领域噪音自适应的文档布局分析方法，其特征在于，包括：

2.如权利要求1所述的一种基于领域噪音自适应的文档布局分析方法，其特征在于，S100中，通过文字编码器得到相应的特征向量，具体方法包括：采用已训练好的CLIP模型文字编码器得到相应的特征向量，同时冻结CLIP text encoder的权重。

3.如权利要求1所述的一种基于领域噪音自适应的文档布局分析方法，其特征在于，S200中，采用第一预设规则对待使用的trasnformer encoder模型进行初始化，第一预设规则包括：利用DiT或者layoutlmv3中已经通过历史文档数据预训练获取的transformerencoder权重，初始化待使用的trasnformer encoder模型。

4.如权利要求1所述的一种基于领域噪音自适应的文档布局分析方法，其特征在于，S300中，将文本特征向量和图片通过不同方式进行处理，得到相同维度的向量，对文本特征向量处理的方式为：将文本的特征向量通过线性层进行线性映射，映射得到768维度的向量。

5.如权利要求1所述的一种基于领域

6.如权利要求1所述的一种基于领域噪音自适应的文档布局分析方法，其特征在于，S400中，将文本向量与图片向量进行拼接，得到特征图，具体方法包括：将文本向量与图片向量进行拼接，通过12层transformer encoder得到特征向量，然后将tranformer encoder的第4，6，8，12层的输出结果的视觉部分取出，通过FPN网络得到特征图。

7.如权利要求1所述的一种基于领域噪音自适应的文档布局分析方法，其特征在于，将tranformer encoder的第4，6，8，12层的输出结果的视觉部分取出，其中，tranformerencoder的第4层下采样2倍；tranformer encoder的第6层保持不变，tranformer encoder的第8层上采样2倍，tranformer encoder的第12层上采样4倍。

8.如权利要求1所述的一种基于领域噪音自适应的文档布局分析方法，其特征在于，S500中，将得到的特征图送入目标检测框中进行检测，得到文档布局分析结果，目标检测框至少包括Mask RCNN，Faster RCNN，Cascade RCNN。

9.一种基于领域噪音自适应的文档布局分析系统，其特征在于，包括：特征向量获取单元、模型初始化单元、文本向量与图片向量获取单元、特征图获取单元、特征图检测单元；其中：

10.一种电子设备，其特征在于，包括：

...

【技术特征摘要】

1.一种基于领域噪音自适应的文档布局分析方法，其特征在于，包括：

2.如权利要求1所述的一种基于领域噪音自适应的文档布局分析方法，其特征在于，s100中，通过文字编码器得到相应的特征向量，具体方法包括：采用已训练好的clip模型文字编码器得到相应的特征向量，同时冻结clip text encoder的权重。

3.如权利要求1所述的一种基于领域噪音自适应的文档布局分析方法，其特征在于，s200中，采用第一预设规则对待使用的trasnformer encoder模型进行初始化，第一预设规则包括：利用dit或者layoutlmv3中已经通过历史文档数据预训练获取的transformerencoder权重，初始化待使用的trasnformer encoder模型。

4.如权利要求1所述的一种基于领域噪音自适应的文档布局分析方法，其特征在于，s300中，将文本特征向量和图片通过不同方式进行处理，得到相同维度的向量，对文本特征向量处理的方式为：将文本的特征向量通过线性层进行线性映射，映射得到768维度的向量。

5.如权利要求1所述的一种基于领域噪音自适应的文档布局分析方法，其特征在于，s300中，将文本特征向量和图片通过不同方式进行处理，得到相同维度的向量，对图片处理的方式为：将图片通过patch embedding的方式，得到768维度的向量。

6.如权利要...

【专利技术属性】
技术研发人员：周玉，邓彪，张子睿，
申请(专利权)人：北京中科凡语科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人