基于人工智能的文本信息提取方法、装置、设备及介质制造方法及图纸

技术编号：35488075 阅读：17 留言：0更新日期：2022-11-05 16:42

本发明专利技术涉及人工智能技术领域，尤其涉及一种基于人工智能的文本信息提取方法、装置、设备及介质。该方法将待处理图像输入字符识别模型，得到识别字符和对应的中心点，根据识别字符的中心点，确定关联字符，根据关联字符的中心点，确定识别字符的边界信息，根据边界信息，确定识别字符的边界特征值，将边界特征值组成的边界特征向量作为嵌入向量，将嵌入向量和识别字符输入语言模型，得到文本信息提取结果，为识别字符进行中心点预测，使字符识别模型能够更准确地对字符分割，提高了字符识别的准确率，同时，根据识别字符的边界信息构建边界特征向量，为语言模型提供有效的位置信息，提高语义分析的准确率，从而提高了文本信息提取的准确率。准确率。准确率。

全部详细技术资料下载

【技术实现步骤摘要】
基于人工智能的文本信息提取方法、装置、设备及介质

[0001]本专利技术涉及人工智能
，尤其涉及一种基于人工智能的文本信息提取方法、装置、设备及介质。

技术介绍

[0002]目前，随着人工智能技术的发展，文本信息数字化由人工录入计算机的方式逐渐转变为由机器识别并进行提取的方式，通常采用基于包围框的光学字符识别技术来进行机器识别，光学字符识别(Optical Character Recognition，OCR)是指将印刷字符的形状翻译成计算机文字的过程，在OCR过程中将较为靠近的印刷字符划分为同一包围框，将同一包围框内的印刷字符视作一个词或一个句子进行处理，能够提高文本识别的准确率。
[0003]但是，印刷文本中印刷字符的间距通常是不确定的，所划分的包围框内可能存在多个词或句子的情况，由于字符识别过程时会考虑上下文信息，在出现此类情况时会导致上下文信息错乱，从而在字符识别时引入无关信息，导致文本信息提取的准确率较低，因此，如何提高文本信息提取的准确率成为了亟需解决的问题。

技术实现思路

[0004]有鉴于此，本专利技术实施例提供了一种基于人工智能的文本信息提取方法、装置、设备及介质，以解决文本信息提取的准确率较低的问题。
[0005]第一方面，本专利技术实施例提供一种基于人工智能的文本信息提取方法，所述文本信息提取方法包括：
[0006]将获取的待处理图像输入训练好的字符识别模型，得到识别结果，所述识别结果包括至少一个识别字符和对应识别字符的中心点；
[0007]针...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的文本信息提取方法，其特征在于，所述方法包括：将获取的待处理图像输入训练好的字符识别模型，得到识别结果，所述识别结果包括至少一个识别字符和对应识别字符的中心点；针对任一识别字符，根据所述识别字符的中心点，确定与所述识别字符相邻的识别字符为关联字符；根据所述关联字符的中心点，确定所述识别字符的边界信息；在检测到所述边界信息满足预设条件时，确定所述识别字符的边界特征值为第一特征值，否则，确定所述识别字符的边界特征值为第二特征值，得到每个识别字符的边界特征值；将所有识别字符的边界特征值组成的边界特征向量作为嵌入向量，将所述嵌入向量和所述识别字符组成的字符序列输入训练好的语言模型，得到文本信息提取结果。2.根据权利要求1所述的文本信息提取方法，其特征在于，所述训练好的字符识别模型包括训练好的文本检测模型和训练好的文本识别模型；所述将获取的待处理图像输入训练好的字符识别模型，得到识别结果包括：将所述待处理图像输入训练好的文本检测模型，得到包围框定位点；根据所述包围框定位点确定包围框，并根据所述包围框从所述待处理图像中裁剪得到待处理区域图像；将所述待处理区域图像输入训练好的文本识别模型，得到至少一个识别字符和对应识别字符的中心点。3.根据权利要求2所述的文本信息提取方法，其特征在于，以待处理区域样本图像作为所述文本识别模型训练时的训练样本，以实际字符作为所述文本识别模型训练时的训练标签，以交叉熵损失作为所述文本识别模型训练时的损失函数；所述文本识别模型的训练过程包括：根据预设步长将所述待处理区域样本图像划分为M个子样本图像；针对任一子样本图像，将所述子样本图像输入所述文本识别模型，得到初始样本字符；根据所述初始样本字符和所述实际字符，计算所述交叉熵损失，以所述交叉熵损失为依据，采用梯度下降法更新所述文本识别模型的参数，直至所述交叉熵损失收敛，得到初步训练好的文本识别模型。4.根据权利要求3所述的文本信息提取方法，其特征在于，在所述得到初步训练好的文本识别模型之后，还包括：针对任一子样本图像，将所述子样本图像输入所述初步训练好的文本识别模型，得到更新样本字符和对应更新样本字符的中心点；将属于同一更新样本字符的子样本图像合并，得到N个更新子样本图像，提取每个更新子样本图像的中心点作为识别字符中心点标签；根据所述对应更新样本字符的中心点和所述识别字符中心点标签，计算所述交叉熵损失，以所述交叉熵损失为依据，采用梯度下降法更新所述文本识别模型的参数，直至所述交叉熵损失收敛，得到训练好的文本识别模型。5.根据权利要求1至4任一项所述的文本信息提取方法，其特征在于，所述根据所述关联字符的中心点，确定所述识别字符的边界信息包括：
比较所述关联字符的中心点横坐标和所述识别字符的中心点横坐标，若所述关联字符的中心点横坐标小于所述识别字符的中心点横坐标，则确...

【专利技术属性】
技术研发人员：刘东煜，周坤胜，张蓉，
申请(专利权)人：中国平安人寿保险股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人