基于人工智能的文本信息提取方法、装置、设备及介质制造方法及图纸

技术编号:35488075 阅读:17 留言:0更新日期:2022-11-05 16:42
本发明专利技术涉及人工智能技术领域,尤其涉及一种基于人工智能的文本信息提取方法、装置、设备及介质。该方法将待处理图像输入字符识别模型,得到识别字符和对应的中心点,根据识别字符的中心点,确定关联字符,根据关联字符的中心点,确定识别字符的边界信息,根据边界信息,确定识别字符的边界特征值,将边界特征值组成的边界特征向量作为嵌入向量,将嵌入向量和识别字符输入语言模型,得到文本信息提取结果,为识别字符进行中心点预测,使字符识别模型能够更准确地对字符分割,提高了字符识别的准确率,同时,根据识别字符的边界信息构建边界特征向量,为语言模型提供有效的位置信息,提高语义分析的准确率,从而提高了文本信息提取的准确率。准确率。准确率。

【技术实现步骤摘要】
基于人工智能的文本信息提取方法、装置、设备及介质


[0001]本专利技术涉及人工智能
,尤其涉及一种基于人工智能的文本信息提取方法、装置、设备及介质。

技术介绍

[0002]目前,随着人工智能技术的发展,文本信息数字化由人工录入计算机的方式逐渐转变为由机器识别并进行提取的方式,通常采用基于包围框的光学字符识别技术来进行机器识别,光学字符识别(Optical Character Recognition,OCR)是指将印刷字符的形状翻译成计算机文字的过程,在OCR过程中将较为靠近的印刷字符划分为同一包围框,将同一包围框内的印刷字符视作一个词或一个句子进行处理,能够提高文本识别的准确率。
[0003]但是,印刷文本中印刷字符的间距通常是不确定的,所划分的包围框内可能存在多个词或句子的情况,由于字符识别过程时会考虑上下文信息,在出现此类情况时会导致上下文信息错乱,从而在字符识别时引入无关信息,导致文本信息提取的准确率较低,因此,如何提高文本信息提取的准确率成为了亟需解决的问题。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供了一种基于人工智能的文本信息提取方法、装置、设备及介质,以解决文本信息提取的准确率较低的问题。
[0005]第一方面,本专利技术实施例提供一种基于人工智能的文本信息提取方法,所述文本信息提取方法包括:
[0006]将获取的待处理图像输入训练好的字符识别模型,得到识别结果,所述识别结果包括至少一个识别字符和对应识别字符的中心点;
[0007]针对任一识别字符,根据所述识别字符的中心点,确定与所述识别字符相邻的识别字符为关联字符;
[0008]根据所述关联字符的中心点,确定所述识别字符的边界信息;
[0009]在检测到所述边界信息满足预设条件时,确定所述识别字符的边界特征值为第一特征值,否则,确定所述识别字符的边界特征值为第二特征值,得到每个识别字符的边界特征值;
[0010]将所有识别字符的边界特征值组成的边界特征向量作为嵌入向量,将所述嵌入向量和所述识别字符组成的字符序列输入训练好的语言模型,得到文本信息提取结果。
[0011]第二方面,本专利技术实施例提供一种基于人工智能的文本信息提取装置,所述文本信息提取装置包括:
[0012]字符识别模块,用于将获取的待处理图像输入训练好的字符识别模型,得到识别结果,所述识别结果包括至少一个识别字符和对应识别字符的中心点;
[0013]字符关联模块,用于针对任一识别字符,根据所述识别字符的中心点,确定与所述识别字符相邻的识别字符为关联字符;
[0014]边界确定模块,用于根据所述关联字符的中心点,确定所述识别字符的边界信息;
[0015]特征值确定模块,用于在检测到所述边界信息满足预设条件时,确定所述识别字符的边界特征值为第一特征值,否则,确定所述识别字符的边界特征值为第二特征值,得到每个识别字符的边界特征值;
[0016]信息提取模块,用于将所有识别字符的边界特征值组成的边界特征向量作为嵌入向量,将所述嵌入向量和所述识别字符组成的字符序列输入训练好的语言模型,得到文本信息提取结果。
[0017]第三方面,本专利技术实施例提供一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的文本信息提取方法。
[0018]第四方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的文本信息提取方法。
[0019]本专利技术实施例与现有技术相比存在的有益效果是:
[0020]将获取的待处理图像输入训练好的字符识别模型,得到识别结果,识别结果包括至少一个识别字符和对应识别字符的中心点,针对任一识别字符,根据识别字符的中心点,确定与识别字符相邻的识别字符为关联字符,根据关联字符的中心点,确定识别字符的边界信息,在检测到边界信息满足预设条件时,确定识别字符的边界特征值为第一特征值,否则,确定识别字符的边界特征值为第二特征值,得到每个识别字符的边界特征值,将所有识别字符的边界特征值组成的边界特征向量作为嵌入向量,将嵌入向量和识别字符组成的字符序列输入训练好的语言模型,得到文本信息提取结果,为每个识别字符进行中心点预测,使字符识别模型能够更准确地对字符分割,提高了字符识别的准确率,同时,根据识别字符的边界信息构建边界特征向量,为语言模型提供有效的位置信息,提高语义分析的准确率,从而提高了文本信息提取的准确率。
附图说明
[0021]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0022]图1是本专利技术实施例一提供的一种基于人工智能的文本信息提取方法的一应用环境示意图;
[0023]图2是本专利技术实施例一提供的一种基于人工智能的文本信息提取方法的流程示意图;
[0024]图3是本专利技术实施例二提供的一种基于人工智能的文本信息提取方法的流程示意图;
[0025]图4是本专利技术实施例三提供的一种基于人工智能的文本信息提取装置的结构示意图;
[0026]图5是本专利技术实施例四提供的一种计算机设备的结构示意图。
具体实施方式
[0027]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本专利技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本专利技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本专利技术的描述。
[0028]应当理解,当在本专利技术说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0029]还应当理解,在本专利技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0030]如在本专利技术说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0031]另外,在本专利技术说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0032]在本专利技术说明书中描述的参考“一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的文本信息提取方法,其特征在于,所述方法包括:将获取的待处理图像输入训练好的字符识别模型,得到识别结果,所述识别结果包括至少一个识别字符和对应识别字符的中心点;针对任一识别字符,根据所述识别字符的中心点,确定与所述识别字符相邻的识别字符为关联字符;根据所述关联字符的中心点,确定所述识别字符的边界信息;在检测到所述边界信息满足预设条件时,确定所述识别字符的边界特征值为第一特征值,否则,确定所述识别字符的边界特征值为第二特征值,得到每个识别字符的边界特征值;将所有识别字符的边界特征值组成的边界特征向量作为嵌入向量,将所述嵌入向量和所述识别字符组成的字符序列输入训练好的语言模型,得到文本信息提取结果。2.根据权利要求1所述的文本信息提取方法,其特征在于,所述训练好的字符识别模型包括训练好的文本检测模型和训练好的文本识别模型;所述将获取的待处理图像输入训练好的字符识别模型,得到识别结果包括:将所述待处理图像输入训练好的文本检测模型,得到包围框定位点;根据所述包围框定位点确定包围框,并根据所述包围框从所述待处理图像中裁剪得到待处理区域图像;将所述待处理区域图像输入训练好的文本识别模型,得到至少一个识别字符和对应识别字符的中心点。3.根据权利要求2所述的文本信息提取方法,其特征在于,以待处理区域样本图像作为所述文本识别模型训练时的训练样本,以实际字符作为所述文本识别模型训练时的训练标签,以交叉熵损失作为所述文本识别模型训练时的损失函数;所述文本识别模型的训练过程包括:根据预设步长将所述待处理区域样本图像划分为M个子样本图像;针对任一子样本图像,将所述子样本图像输入所述文本识别模型,得到初始样本字符;根据所述初始样本字符和所述实际字符,计算所述交叉熵损失,以所述交叉熵损失为依据,采用梯度下降法更新所述文本识别模型的参数,直至所述交叉熵损失收敛,得到初步训练好的文本识别模型。4.根据权利要求3所述的文本信息提取方法,其特征在于,在所述得到初步训练好的文本识别模型之后,还包括:针对任一子样本图像,将所述子样本图像输入所述初步训练好的文本识别模型,得到更新样本字符和对应更新样本字符的中心点;将属于同一更新样本字符的子样本图像合并,得到N个更新子样本图像,提取每个更新子样本图像的中心点作为识别字符中心点标签;根据所述对应更新样本字符的中心点和所述识别字符中心点标签,计算所述交叉熵损失,以所述交叉熵损失为依据,采用梯度下降法更新所述文本识别模型的参数,直至所述交叉熵损失收敛,得到训练好的文本识别模型。5.根据权利要求1至4任一项所述的文本信息提取方法,其特征在于,所述根据所述关联字符的中心点,确定所述识别字符的边界信息包括:
比较所述关联字符的中心点横坐标和所述识别字符的中心点横坐标,若所述关联字符的中心点横坐标小于所述识别字符的中心点横坐标,则确...

【专利技术属性】
技术研发人员:刘东煜周坤胜张蓉
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1