一种用于领域可泛化文本识别的序列风格一致性学习方法和系统技术方案

技术编号：34718230 阅读：22 留言：0更新日期：2022-08-31 18:02

本发明专利技术公开了一种用于领域可泛化文本识别的序列风格一致性学习方法和系统，属于文本识别领域。包括：1、提取图片特征序列；2、对提取的图片特征序列进行数据增强处理；3、对初始特征序列和增强特征序列进行解耦处理并进行熵损失优化；4、通过风格一致性学习来减小风格相关特征和任务特征之间的相关性，优化对比学习损失；5、模型预测阶段仅使用任务相关序列特征进行预测。相比于现有的传统方法，本发明专利技术首次针对文本识别任务提出了领域可泛化的方法，填补了该项技术的空白，并实现了比当前最先进的领域泛化模型更好的性能。领域泛化模型更好的性能。领域泛化模型更好的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于领域可泛化文本识别的序列风格一致性学习方法和系统

[0001]本专利技术涉及文本识别领域，具体涉及一种用于领域可泛化文本识别的序列风格一致性学习方法和系统。

技术介绍

[0002]许多基于深度学习的文本识别方法有着不错的性能，但由于泛化性不高，很难满足真实世界的文本识别需求。目前已有的文本识别方法在训练和测试模型过程中大多使用相同风格的数据样本，没有考虑到数据样本之间的独立性和分布唯一性。训练好的模型遇到新的风格的图片，比如不同的字体或不同的角度，其准确率并不高，说明模型的领域泛化性较差，导致这一问题的原因是域偏移。
[0003]用于图像分类任务的领域可泛化方法可以很好的解决域偏移问题，但由于图像分类任务和文本识别任务之间的不同，目前已有的图像分类任务的领域可泛化方法不能够直接用于文本识别任务，文本识别模型缺少有效的领域可泛化方法。

技术实现思路

[0004]针对上述问题，本专利技术提供一种用于领域可泛化文本识别的序列风格一致性学习方法和系统，以提高文本识别模型的领域可泛化能力。
[0005]为此，本专利技术采用的技术方案如下：
[0006]一种用于领域可泛化文本识别的序列风格一致性学习方法，包括如下步骤：
[0007]S1：提取不同风格文本图片的特征信息，得到初始特征序列S；
[0008]S2：将步骤S1得到的初始特征序列S进行数据增强处理，得到增强特征序列
[0009]S3：对初始特征序列S和增强特征序列进行特征序列解耦处理，得到与初始特征序...

【技术保护点】

【技术特征摘要】
1.一种用于领域可泛化文本识别的序列风格一致性学习方法，其特征在于，包括如下步骤：S1：提取不同风格文本图片的特征信息，得到初始特征序列S；S2：将步骤S1得到的初始特征序列S进行数据增强处理，得到增强特征序列S3：对初始特征序列S和增强特征序列进行特征序列解耦处理，得到与初始特征序列S维度相同的初始风格相关特征序列S
s
、初始任务相关特征序列S
t
、增强风格相关特征序列以及增强任务相关特征序列S4：通过风格相关序列编码器对初始风格相关特征序列S
s
和增强风格相关特征序列进行编码，得到编码后的初始风格相关特征序列S
′
s
、编码后的增强风格相关特征序列通过任务相关序列编码器对初始任务相关特征序列S
t
和增强任务相关特征序列进行编码，得到编码后的初始任务相关特征序列S
′
t
、编码后的增强任务相关特征序列S5：利用步骤S4得到的四种编码后的特征序列S
′
s
、S
′
t
、优化文本识别模型在训练过程中的熵损失；S6：利用步骤S4得到的四种编码后的特征序列S
′
s
、S
′
t
、通过风格一致性学习来减小风格相关特征和任务特征之间的相关性，优化文本识别模型在训练过程中的对比学习损失；S7：利用训练好的文本识别模型获取待识别文本图片的编码后的初始任务相关特征序列S
′
t
，利用S
′
t
生成文本识别结果。2.根据权利要求1所述的一种用于领域可泛化文本识别的序列风格一致性学习方法，其特征在于，步骤S2所述数据增强处理方式为切片替换、随机重排或随机掩蔽。3.根据权利要求1所述的一种用于领域可泛化文本识别的序列风格一致性学习方法，其特征在于，步骤S3所述的特征序列解耦处理，具体步骤为：S3
‑
1：将初始特征序列S输入至多层感知器中，生成权重向量α；将增强特征序列输入至多层感知器中，生成权重向量S3
‑
2：利用上述步骤S3
‑
1得到的权重向量α，计算得到初始风格相关特征序列S
s
、初始任务相关特征序列S
t
，计算公式为：S
s
＝(1
‑
α)SS
s
＝αS利用上述步骤S3
‑
1得到的权重向量计算得到增强风格相关特征序列增强任务相关特征序列计算公式为：计算公式为：4.根据权利要求1所述的一种用于领域可泛化文本识别的序列风格一致性学习方法，其特征在于，步骤S5所述的熵损失包括交叉熵损失和逆熵损失，优化损失具体步骤为：S5
‑
1：对S
′
s
、S
′
t
、分别进行平均池化操作，接着通过softmax层得到N个风格类别
的概率分布向量p
s
、p
t
、S5
‑
2：利用上述步骤S5
‑
1得到的概率分布向量p
s
、计算交叉熵损失，在训练过程中使它最小化，计算公式为：它最小化，计算公式为：其中，q
i
为第i种风格类别的one
‑
hot标签，N为风格类别数量，p
s,i
表示概率分布向量p
s
中对第i种风格类别的概率，表示概率分布向量中对第i种风格类别的概率，表示初始风格相关交叉熵损失，表示增强风格相关交叉熵损失；S5
‑
3：利用上述步骤S5
‑
1得到的概率分布向量p<...

【专利技术属性】
技术研发人员：佘清顺，张鹏程，赵洲，
申请(专利权)人：杭州一知智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人