System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据处理,特别涉及一种文本处理方法、装置、存储介质及电子设备。
技术介绍
1、在数字化与信息化日新月异的时代背景下,图像文本识别技术,作为计算机视觉与人工智能深度融合的典范,已被广泛应用于各个领域中。此技术的核心在于从纷繁复杂的图像中精准捕捉并解析出文本信息,进而促进信息的快速流通与高效利用。
2、然而,在图像中的文本信息排版或者语言字符集复杂多样的情况下,往往会导致图像文本识别准确率低,容易出现识别错误。
技术实现思路
1、本专利技术所要解决的技术问题是提供一种文本处理方法、装置、存储介质及电子设备,能够准确地获得图像中的文本信息。具体方案如下:
2、一种文本处理方法,包括:
3、获取待处理的图像;
4、对所述图像进行文本识别,获得所述图像的文本识别结果;
5、确定所述文本识别结果中的各个文本信息的文本类型;
6、对于每个所述文本信息,若检测到不存在与所述文本信息相匹配的文本纠错规则,则获取所述文本信息的特征向量,将所述文本信息的特征向量输入到所述文本信息所属文本类型对应的纠错模型中,获得所述文本信息的纠错识别结果;在所述文本信息与所述纠错识别结果不一致的情况下,则利用所述纠错识别结果替换所述文本信息。
7、上述的方法,可选的,检测到不存在与文本信息相匹配的文本纠错规则的过程,包括:
8、将所述文本信息与预设的纠错规则表进行匹配,所述纠错规则表中包括多个预设的识别错误文本
9、若所述纠错规则表中不存在与所述文本信息一致的识别错误文本,则确定不存在与所述文本信息相匹配的文本纠错规则。
10、上述的方法,可选的,设置纠错规则表的过程,包括:
11、获取参考文本数据;
12、确定所述参考文本数据中的各个候选文本的出现次数以及识别错误次数;
13、根据每个所述候选文本的出现次数以及识别错误次数,在各个所述候选文本中确定出目标文本;
14、根据每个目标文本以及每个目标文本的识别错误文本,生成每个所述识别错误文本对应的纠错规则;
15、根据各个所述识别错误文本对应的纠错规则生成纠错规则表。
16、上述的方法,可选的,所述获取所述文本信息的特征向量,包括:
17、获取所述文本信息的语境信息以及目标图像区域,所述语境信息包括所述文本信息以及所述文本信息的相邻文本信息;所述目标图像区域为所述图像中与所述文本信息相对应的图像区域;
18、将所述文本信息、所述语境信息以及所述目标图像区域进行向量化,并将向量化后的所述文本信息、所述语境信息以及所述目标图像区域进行融合,获得特征向量。
19、上述的方法,可选的,所述纠错模型是预先基于所述文本类型的训练数据集对初始神经网络模型训练得到的;
20、基于所述文本类型的训练数据集训练初始神经网络模型,得到所述纠错模型过程,包括:
21、获取所述文本类型的训练数据集以及待训练的初始神经网络模型;所述文本类型的训练数据集包括所述文本类型的训练样本以及所述训练样本的样本标签,所述训练样本包括错误文本信息、所述错误文本信息的语境信息以及所述错误文本信息的图像区域,所述样本标签包括所述错误文本信息对应的参考文本;
22、在所述训练数据集的各个训练样本中选取出当前用于训练的目标训练样本;
23、对所述目标训练样本进行向量化,获得所述初始神经网络模型的输入向量;
24、将所述输入向量输入到所述初始神经网络模型中,获得所述初始神经网络模型输出的识别结果;
25、通过预设的损失函数、所述识别结果以及所述目标训练样本的样本标签,计算得到所述初始神经网络模型的损失函数值;
26、利用所述损失函数值更新所述初始神经网络模型的模型参数;
27、在更新模型参数后的所述初始神经网络模型不满足预设的训练完成条件的情况下,返回执行在所述训练数据集的各个训练样本中选取出当前用于训练的目标训练样本的步骤;
28、在更新模型参数后的所述初始神经网络模型满足预设的训练完成条件的情况下,将更新模型参数后的所述初始神经网络模型确定为所述文本类型的纠错模型。
29、一种文本处理装置,包括:
30、获取单元,用于获取待处理的图像;
31、识别单元,用于对所述图像进行文本识别,获得所述图像的文本识别结果;
32、确定单元,用于确定所述文本识别结果中的各个文本信息的文本类型;
33、纠错单元,用于对于每个所述文本信息,若检测到不存在与所述文本信息相匹配的文本纠错规则,则获取所述文本信息的特征向量,将所述文本信息的特征向量输入到所述文本信息所属文本类型对应的纠错模型中,获得所述文本信息的纠错识别结果;在所述文本信息与所述纠错识别结果不一致的情况下,则利用所述纠错识别结果替换所述文本信息。
34、上述的装置,可选的,所述纠错单元,包括:
35、匹配子单元,用于将所述文本信息与预设的纠错规则表进行匹配,所述纠错规则表中包括多个预设的识别错误文本各自对应的文本纠错规则;
36、确定子单元,用于若所述纠错规则表中不存在与所述文本信息一致的识别错误文本,则确定不存在与所述文本信息相匹配的文本纠错规则。
37、上述的装置,可选的,所述纠错模型是所述纠错单元预先基于所述文本类型的训练数据集对初始神经网络模型训练得到的;
38、所述纠错单元,包括:
39、获取子单元,用于获取所述文本类型的训练数据集以及待训练的初始神经网络模型;所述文本类型的训练数据集包括所述文本类型的训练样本以及所述训练样本的样本标签,所述训练样本包括错误文本信息、所述错误文本信息的语境信息以及所述错误文本信息的图像区域,所述样本标签包括所述错误文本信息对应的参考文本;
40、选取子单元,用于在所述训练数据集的各个训练样本中选取出当前用于训练的目标训练样本;
41、第一执行子单元,用于对所述目标训练样本进行向量化,获得所述初始神经网络模型的输入向量;
42、第二执行子单元,用于将所述输入向量输入到所述初始神经网络模型中,获得所述初始神经网络模型输出的识别结果;
43、计算子单元,用于通过预设的损失函数、所述识别结果以及所述目标训练样本的样本标签,计算得到所述初始神经网络模型的损失函数值;
44、更新子单元,用于利用所述损失函数值更新所述初始神经网络模型的模型参数;
45、第三执行子单元,用于在更新模型参数后的所述初始神经网络模型不满足预设的训练完成条件的情况下,返回触发所述选取子单元执行在所述训练数据集的各个训练样本中选取出当前用于训练的目标训练样本的过程;
46、第四执行子单元,用于在更新模型参数后的所述初始神经网络模本文档来自技高网...
【技术保护点】
1.一种文本处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,检测到不存在与文本信息相匹配的文本纠错规则的过程,包括:
3.根据权利要求2所述的方法,其特征在于,设置纠错规则表的过程,包括:
4.根据权利要求1所述的方法,其特征在于,所述获取所述文本信息的特征向量,包括:
5.根据权利要求1所述的方法,其特征在于,所述纠错模型是预先基于所述文本类型的训练数据集对初始神经网络模型训练得到的;
6.一种文本处理装置,其特征在于,包括:
7.根据权利要求6所述的装置,其特征在于,所述纠错单元,包括:
8.根据权利要求6所述的装置,其特征在于,所述纠错模型是所述纠错单元预先基于所述文本类型的训练数据集对初始神经网络模型训练得到的;
9.一种存储介质,其特征在于,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如权利要求1~5任意一项所述的文本处理方法。
10.一种电子设备,其特征在于,包括存储器,以及一个或者一个以上的指令,其中
...【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,检测到不存在与文本信息相匹配的文本纠错规则的过程,包括:
3.根据权利要求2所述的方法,其特征在于,设置纠错规则表的过程,包括:
4.根据权利要求1所述的方法,其特征在于,所述获取所述文本信息的特征向量,包括:
5.根据权利要求1所述的方法,其特征在于,所述纠错模型是预先基于所述文本类型的训练数据集对初始神经网络模型训练得到的;
6.一种文本处理装置,其特征在于,包括:
7.根据权利要求6所述的装...
【专利技术属性】
技术研发人员:刘宇,胡可云,陈联忠,
申请(专利权)人:北京嘉和海森健康科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。