文本内容的输出方法及装置、电子设备制造方法及图纸

技术编号:34131102 阅读:14 留言:0更新日期:2022-07-14 15:26
本发明专利技术实施例提供了一种文本内容的输出方法及装置、电子设备,该方法包括:获取包含文本内容的文本图像;以文本内容的段落为单位,分割文本图像,得到多个文本区域;针对每一文本区域,提取文本区域的目标特征;基于多个文本区域各自的目标特征以及按照阅读顺序排列的段落间的预设关联关系,将多个文本区域按照阅读顺序进行排列,得到排序结果;按照排序结果输出文本区域或文本区域中的文本。本发明专利技术以文本内容的段落为单位分割文本图像,使得文本内容通过段落的形式输出,降低文本输出的错误率;根据提取的多个文本区域各自的目标特征以及按照阅读顺序排列的段落间的预设关联关系,使得文本内容按照阅读顺序输出,进一步降低文本输出的错误率。本输出的错误率。本输出的错误率。

【技术实现步骤摘要】
文本内容的输出方法及装置、电子设备


[0001]本专利技术涉及文字识别领域,尤其涉及一种文本内容的输出方法及装置、电子设备。

技术介绍

[0002]人们在生产和生活中,要处理大量的文字、报表和文本。为了减轻人们的劳动,提高处理效率,科学家们提出了利用计算机来识别字符的文字识别技术。
[0003]目前人们往往使用OCR(光学字符识别,Optical Character Recognition)技术来进行文字识别。OCR是指电子设备检查字符,通过检测暗亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。翻译完成之后,将得到的文字进行排序整理,最后将识别到的文字输出给用户。
[0004]然而,现有的OCR技术采用从上而下,从左到右的排序方式进行文本排序,这种排序方式使得这项技术在进行类似于报刊图片这样的复杂图片的文本输出时错误率较高,例如,一张图片上有两栏并列的文本内容,正确顺序是先展示一栏文本内容,再展示另一栏文本内容,然而现在的文字识别技术利用OCR将其翻译完成之后,采用从左到右的排序方式进行排序,就会出现同一行的文字分别属于两栏文本的情况,进而导致语句不通顺,从而使得文本输出错误率较高。

技术实现思路

[0005]鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的文本内容的输出方法及装置、电子设备。
[0006]第一方面,本专利技术实施例提供了一种文本内容的输出方法,所述方法包括:
[0007]获取包含文本内容的文本图像;
[0008]以所述文本内容的段落为单位,分割所述文本图像,得到多个文本区域,其中,每一所述文本区域包括所述文本内容的至少一个段落;
[0009]针对每一所述文本区域,提取所述文本区域的目标特征,其中,所述目标特征包括所述文本区域在所述文本图像中的位置特征和/或所述文本区域中文本的语义特征;
[0010]基于所述多个文本区域各自的所述目标特征以及按照阅读顺序排列的段落间的预设关联关系,将所述多个文本区域按照所述阅读顺序进行排列,得到排序结果,其中,所述预设关联关系包括:预先设置的位置关联关系和/或预先设置的语义关联关系;
[0011]按照所述排序结果输出所述文本区域或所述文本区域中的文本。
[0012]可选地,在所述获取包含文本内容的文本图像之前,所述方法还包括:
[0013]获取按照阅读顺序排列的段落组成的训练样本;
[0014]基于所述训练样本中段落间的位置关联关系和/或语义关联关系对初始模型进行训练,得到训练好的排序模型;
[0015]所述基于所述多个文本区域各自的所述目标特征以及按照阅读顺序排列的段落间的预设关联关系,将所述多个文本区域按照所述阅读顺序进行排列,得到排序结果,包
括:
[0016]将所述多个文本区域各自的所述目标特征均输入所述排序模型,得到所述排序模型输出的排序结果。
[0017]可选地,所述训练样本包括:包含文本内容的目标数量的训练图片;
[0018]所述基于所述训练样本中段落间的位置关联关系和/或语义关联关系对初始模型进行训练,得到训练好的排序模型,包括:
[0019]针对每一所述训练图片,以所述训练图片中所述文本内容的段落为单位,分割所述训练图片,得到多个训练文本区域,其中,每一所述训练文本区域包括所述训练图片中所述文本内容的至少一个段落;
[0020]针对每一所述训练图片,提取所述训练图片的每一所述训练文本区域的训练特征,其中,所述训练特征包括所述训练文本区域在所述训练图片中的位置特征和/或所述训练文本区域中文本的语义特征;
[0021]基于所述目标数量的训练图片的各所述训练文本区域的所述训练特征对所述初始模型进行迭代训练,得到训练好的所述排序模型,其中,在所述迭代训练过程中,基于所述初始模型的输出结果与预设结果调整所述初始模型的模型参数,所述预设结果包括所述训练图片中各所述训练文本区域按照阅读顺序排列的排序结果。
[0022]可选地,在目标特征包括所述文本区域在所述文本图像中的位置特征和所述文本区域中文本的语义特征的情况下,所述提取所述文本区域中的目标特征,包括:
[0023]分别提取所述文本区域在所述文本图像中的位置特征和所述文本区域中文本的语义特征;
[0024]将所述位置特征和所述语义特征进行特征融合,得到所述目标特征。
[0025]可选地,所述以所述文本内容的段落为单位,分割所述文本图像,得到多个文本区域,包括:
[0026]基于所述文本图像中图像内容的数据形式,分割所述文本图像,得到包含文本数据形式的目标图像区域;
[0027]以段落为单位,分割所述目标图像区域,得到多个所述文本区域。
[0028]第二方面,本专利技术实施例还提供了一种文本内容的输出装置,所述装置包括:
[0029]第一获取模块,用于获取包含文本内容的文本图像;
[0030]分割模块,用于以所述文本内容的段落为单位,分割所述文本图像,得到多个文本区域,其中,每一所述文本区域包括所述文本内容的至少一个段落;
[0031]提取模块,用于针对每一所述文本区域,提取所述文本区域的目标特征,其中,所述目标特征包括所述文本区域在所述文本图像中的位置特征和/或所述文本区域中文本的语义特征;
[0032]排序模块,用于基于所述多个文本区域各自的所述目标特征以及按照阅读顺序排列的段落间的预设关联关系,将所述多个文本区域按照所述阅读顺序进行排列,得到排序结果,其中,所述预设关联关系包括:预先设置的位置关联关系和/或预先设置的语义关联关系;
[0033]输出模块,用于按照所述排序结果输出所述文本区域或所述文本区域中的文本。
[0034]可选地,所述装置还包括:
[0035]第二获取模块,用于获取按照阅读顺序排列的段落组成的训练样本;
[0036]训练模块,用于基于所述训练样本中段落间的位置关联关系和/或语义关联关系对初始模型进行训练,得到训练好的排序模型;
[0037]所述排序模块,包括:
[0038]排序单元,用于将所述多个文本区域各自的所述目标特征均输入所述排序模型,得到所述排序模型输出的排序结果。
[0039]可选地,所述训练样本包括:包含文本内容的目标数量的训练图片;
[0040]所述训练模块,包括:
[0041]分割单元,用于针对每一所述训练图片,以所述训练图片中所述文本内容的段落为单位,分割所述训练图片,得到多个训练文本区域,其中,每一所述训练文本区域包括所述训练图片中所述文本内容的至少一个段落;
[0042]提取单元,用于针对每一所述训练图片,提取所述训练图片的每一所述训练文本区域的训练特征,其中,所述训练特征包括所述训练文本区域在所述训练图片中的位置特征和/或所述训练文本区域中文本的语义特征;
[0043]训练单元,用于基于所述目标数量的训练图片的各所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本内容的输出方法,其特征在于,所述方法包括:获取包含文本内容的文本图像;以所述文本内容的段落为单位,分割所述文本图像,得到多个文本区域,其中,每一所述文本区域包括所述文本内容的至少一个段落;针对每一所述文本区域,提取所述文本区域的目标特征,其中,所述目标特征包括所述文本区域在所述文本图像中的位置特征和/或所述文本区域中文本的语义特征;基于所述多个文本区域各自的所述目标特征以及按照阅读顺序排列的段落间的预设关联关系,将所述多个文本区域按照所述阅读顺序进行排列,得到排序结果,其中,所述预设关联关系包括:预先设置的位置关联关系和/或预先设置的语义关联关系;按照所述排序结果输出所述文本区域或所述文本区域中的文本。2.根据权利要求1所述的方法,其特征在于,在所述获取包含文本内容的文本图像之前,所述方法还包括:获取按照阅读顺序排列的段落组成的训练样本;基于所述训练样本中段落间的位置关联关系和/或语义关联关系对初始模型进行训练,得到训练好的排序模型;所述基于所述多个文本区域各自的所述目标特征以及按照阅读顺序排列的段落间的预设关联关系,将所述多个文本区域按照所述阅读顺序进行排列,得到排序结果,包括:将所述多个文本区域各自的所述目标特征均输入所述排序模型,得到所述排序模型输出的排序结果。3.根据权利要求2所述的方法,其特征在于,所述训练样本包括:包含文本内容的目标数量的训练图片;所述基于所述训练样本中段落间的位置关联关系和/或语义关联关系对初始模型进行训练,得到训练好的排序模型,包括:针对每一所述训练图片,以所述训练图片中所述文本内容的段落为单位,分割所述训练图片,得到多个训练文本区域,其中,每一所述训练文本区域包括所述训练图片中所述文本内容的至少一个段落;针对每一所述训练图片,提取所述训练图片的每一所述训练文本区域的训练特征,其中,所述训练特征包括所述训练文本区域在所述训练图片中的位置特征和/或所述训练文本区域中文本的语义特征;基于所述目标数量的训练图片的各所述训练文本区域的所述训练特征对所述初始模型进行迭代训练,得到训练好的所述排序模型,其中,在所述迭代训练过程中,基于所述初始模型的输出结果与预设结果调整所述初始模型的模型参数,所述预设结果包括所述训练图片中各所述训练文本区域按照阅读顺序排列的排序结果。4.根据权利要求1所述的方法,其特征在于,在目标特征包括所述文本区域在所述文本图像中的位置特征和所述文本区域中文本的语义特征的情况下,所述提取所述文本区域中的目标特征,包括:分别提取所述文本区域在所述文本图像中的位置特征和所述文本区域中文本的语义特征;将所述位置特征和所述语义特征进行特征融合,得到所述目标特征。
5.根据权利要求1所述的方法,其特征在于,所述以所述文本内容的段落为单位,分割所述文本图像,得到多个文本区域,包括:基于所述文本图像...

【专利技术属性】
技术研发人员:高大帅武卫东
申请(专利权)人:北京捷通鸿泰科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1