基于人工智能的文档图像特征提取方法及相关设备技术

技术编号:38220798 阅读:9 留言:0更新日期:2023-07-25 17:52
本申请提出一种基于人工智能的文档图像特征提取方法、装置、电子设备及存储介质,基于人工智能的文档图像特征提取方法包括:获取目标文档图像中的目标文本及其位置信息,目标文本至少包括预设字符,预设字符的位置信息为包含目标文档图像的矩形框;对目标文本和位置信息进行编码以获取得到各目标文本的文本特征;拼接所有目标文本的文本特征后输入文本编码模型以获取各目标文本的第一特征向量;获取目标文本的裁剪图并输入图像编码模型以获取各目标文本的第二特征向量;融合相同目标文本的第一特征向量和第二特征向量得到各目标文本的第三特征向量,将所有目标文本的第三特征向量作为特征提取结果。本申请能准确提取文档图像的特征。像的特征。像的特征。

【技术实现步骤摘要】
基于人工智能的文档图像特征提取方法及相关设备


[0001]本申请涉及人工智能和数字医疗
,尤其涉及一种基于人工智能的文档图像特征提取方法及相关设备。

技术介绍

[0002]文档图像是一种包含丰富文本信息的文档的图像形式,主要源于拍照或扫描收据、发票、简历或病例信息等文件。随着人工智能和数字医疗技术的发展,在医疗领域通常倾向于利用人工智能算法对诸如体检报告、病例、化验单等医疗领域常见的文档的扫描图像进行分析,以实现业务的自动化流程,提升医疗服务效率。
[0003]目前,通常采用光学字符识别模型(OCR模型)对医疗文档的扫描图像中的文本进行识别,然后利用提取出的文本信息加上原始图像的特征信息得到最终的特征表示,然而,由于文本信息在空间中的相对位置会影响文本信息的语义表达,例如,针对医师手写的处方,处方中文字的相对位置信息可能表征了不同的含义,目前这种方法忽略了文档图像中的不同文本的空间布局信息,以及文本特征和图像特征之间的关联关系,不能准确提取文档图像的特征。

技术实现思路

[0004]鉴于以上内容,有必要提出一种基于人工智能的文档图像特征提取方法及相关设备,以解决在向用户提供数字医疗服务的过程中,如何准确提取诸如体检报告、病例、化验单等医疗文档的扫描图像中的特征这一技术问题,其中,相关设备包括基于人工智能的文档图像特征提取装置、电子设备及存储介质。
[0005]本申请提供基于人工智能的文档图像特征提取方法,所述方法包括:
[0006]获取目标文档图像中的多个目标文本以及每个目标文本的位置信息,所述多个目标文本至少包括预设字符;
[0007]对每个所述目标文本和所述位置信息执行编码操作得到文本编码和位置编码,并基于相同目标文本的文本编码和位置编码得到各目标文本的文本特征;
[0008]拼接所有目标文本的文本特征以获取输入序列;
[0009]将所述输入序列输入训练完毕的文本编码模型以获取第一特征矩阵,所述第一特征矩阵包括每一个目标文本的第一特征向量;
[0010]基于所述目标文本的位置信息裁剪所述目标文档图像得到每一个目标文本的裁剪图,并将所述裁剪图输入训练完毕的图像编码模型以获取每一个目标文本的第二特征向量;
[0011]对相同目标文本的所述第一特征向量和所述第二特征向量进行融合操作得到每一个目标文本的第三特征向量,并将所有目标文本的第三特征向量作为所述目标文档图像的特征提取结果。
[0012]在一些实施例中,所述获取目标文档图像中的多个目标文本以及每个目标文本的
位置信息包括:
[0013]利用光学字符识别技术对目标文档图像进行文本识别以获取所述目标文档图像中的多个识别文本以及每一个识别文本的初始位置信息,所述初始位置信息为包含识别文本的矩形框;
[0014]获取预设字符,并将所述预设字符的初始位置信息记为包含所述目标文档图像的矩形框;
[0015]将所述识别文本和所述预设字符作为目标文本;
[0016]对各目标文本的初始位置信息进行归一化以获取每个目标文本的位置信息,包括:
[0017]获取所述目标文档图像的宽高尺寸;
[0018]基于所述宽高尺寸对各目标文本的初始位置信息进行归一化以获取每个目标文本的位置信息,所述位置信息满足关系式:
[0019][0020][0021]其中,为目标文本i的初始位置信息,W和H为目标文档图像的宽高尺寸,α为归一化系数,int()为取整函数,为目标文本i的位置信息。
[0022]在一些实施例中,所述对每个所述目标文本和所述位置信息执行编码操作得到文本编码和位置编码,并基于相同目标文本的文本编码和位置编码得到各目标文本的文本特征,包括:
[0023]设置尺寸为V行N列的文本编码矩阵,V表示所有文本的数量,且每一种文本对应一个1行N列的文本编码;
[0024]设置尺寸为α+1行N列的宽度编码矩阵,α+1表示所有宽度值的数量,且每一种宽度值对应一个1行N列的宽度编码,α为所述归一化系数;
[0025]设置尺寸为α+1行N列的高度编码矩阵,α+1表示所有高度值的数量,且每一种高度值对应一个1行N列的高度编码,α为所述归一化系数;
[0026]基于所述文本编码矩阵、所述宽度编码矩阵和所述高度编码矩阵对每个目标文本和目标文本的位置信息执行编码操作得到文本编码和位置编码;
[0027]对相同目标文本的所述文本编码和所述位置编码进行所述融合操作得到各目标文本的文本特征。
[0028]在一些实施例中,所述融合操作为拼接、相加、取均值中的任意一种。
[0029]在一些实施例中,所述方法还包括训练所述文本编码模型和所述图像编码模型,具体包括:
[0030]采集多个文档图像,并获取每个文档图像的输入序列和裁剪图集合,所述裁剪图集合包括文档图像中每一个目标文本的裁剪图;
[0031]将所述输入序列中预设比例的文本特征替换为预设掩码以获取掩码输入序列,将
相同文档图像的掩码输入序列和裁剪图集合作为一组训练样本;
[0032]将所述训练样本中掩码输入序列的每个预设掩码对应的目标文本作为所述训练样本的标签数据;
[0033]储存多个训练样本以及对应的标签数据,得到训练数据集;
[0034]基于所述训练数据集训练所述文本编码模型和所述图像编码模型,得到训练完毕的文本编码模型和图像编码模型。
[0035]在一些实施例中,所述基于所述训练数据集训练所述文本编码模型和所述图像编码模型,得到训练完毕的文本编码模型和图像编码模型,包括:
[0036]搭建解码模型,所述解码模型的输入为任意目标文本的第三特征向量,输出文本预测结果,所述文本预测结果包括所述目标文本属于每一个文本的概率;
[0037]将所述训练数据集中的任意一个训练样本中的掩码输入序列输入至文本编码模型,将所述训练样本中的裁剪图集合输入至图像编码模型,得到所述训练样本中每一个目标文本的第三特征向量;
[0038]获取所述掩码输入序列中每一个预设掩码对应的第三特征向量输入所述解码模型得到该预设掩码的文本预测结果;
[0039]基于所有预设掩码的文本预测结果和所述训练数据的标签数据计算代价函数;
[0040]利用随机梯度下降法同时对所述文本编码模型和所述图像编码模型进行参数调整,当所述代价函数的数值小于预设代价时,得到训练完毕的文本编码模型和图像编码模型。
[0041]在一些实施例中,所述代价函数满足关系式:
[0042][0043]其中,Num为所述掩码输入序列中预设掩码的数量,p
j
为预设掩码j对应的文本预测结果,P
j
为标签数据中预设掩码j对应的目标文本,CE(p
j
,P
j
)表示计算p
j
,P
j
之间的交叉熵损失函数,Loss为所述代价函数的取值。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的文档图像特征提取方法,其特征在于,所述方法包括:获取目标文档图像中的多个目标文本以及每个目标文本的位置信息,所述多个目标文本至少包括预设字符;对每个所述目标文本和所述位置信息执行编码操作得到文本编码和位置编码,并基于相同目标文本的文本编码和位置编码得到各目标文本的文本特征;拼接所有目标文本的文本特征以获取输入序列;将所述输入序列输入训练完毕的文本编码模型以获取第一特征矩阵,所述第一特征矩阵包括每一个目标文本的第一特征向量;基于所述目标文本的位置信息裁剪所述目标文档图像得到每一个目标文本的裁剪图,并将所述裁剪图输入训练完毕的图像编码模型以获取每一个目标文本的第二特征向量;对相同目标文本的所述第一特征向量和所述第二特征向量进行融合操作得到每一个目标文本的第三特征向量,并将所有目标文本的第三特征向量作为所述目标文档图像的特征提取结果。2.如权利要求1所述的基于人工智能的文档图像特征提取方法,其特征在于,所述获取目标文档图像中的多个目标文本以及每个目标文本的位置信息包括:利用光学字符识别技术对目标文档图像进行文本识别以获取所述目标文档图像中的多个识别文本以及每一个识别文本的初始位置信息,所述初始位置信息为包含识别文本的矩形框;获取预设字符,并将所述预设字符的初始位置信息记为包含所述目标文档图像的矩形框;将所述识别文本和所述预设字符作为目标文本;对各目标文本的初始位置信息进行归一化以获取每个目标文本的位置信息,包括:获取所述目标文档图像的宽高尺寸;基于所述宽高尺寸对各目标文本的初始位置信息进行归一化以获取每个目标文本的位置信息,所述位置信息满足关系式:位置信息,所述位置信息满足关系式:其中,为目标文本i的初始位置信息,W和H为目标文档图像的宽高尺寸,α为归一化系数,int()为取整函数,为目标文本i的位置信息。3.如权利要求2所述的基于人工智能的文档图像特征提取方法,其特征在于,所述对每个所述目标文本和所述位置信息执行编码操作得到文本编码和位置编码,并基于相同目标文本的文本编码和位置编码得到各目标文本的文本特征,包括:设置尺寸为V行N列的文本编码矩阵,V表示所有文本的数量,且每一种文本对应一个1行N列的文本编码;设置尺寸为α+1行N列的宽度编码矩阵,α+1表示所有宽度值的数量,且每一种宽度值对
应一个1行N列的宽度编码,α为所述归一化系数;设置尺寸为α+1行N列的高度编码矩阵,α+1表示所有高度值的数量,且每一种高度值对应一个1行N列的高度编码,α为所述归一化系数;基于所述文本编码矩阵、所述宽度编码矩阵和所述高度编码矩阵对每个目标文本和目标文本的位置信息执行编码操作得到文本编码和位置编码;对相同目标文本的所述文本编码和所述位置编码进行所述融合操作得到各目标文本的文本特征。4.如权利要求3所述的基于人工智能的文档图像特征提取方法,其特征在于,所述融合操作为拼接、相加、取均值中的任意一种。5.如权利要求1所述的基于人工智能的文档图像特征提取方法,其特征在于,所述方法还包括训练所述文本编码模型和所述图像编码模型,具体包括:采集多个文档图像,并获取每个文档图像的输入序列和裁剪图集合,所述裁剪图集合包括文档图像中每一个目标文本的裁剪图;将所述输入序列中预设比例的文本特征替换为预设掩码以获取掩码输入序列,将相同文档图像的掩码输入序列和裁剪...

【专利技术属性】
技术研发人员:谯轶轩姜鹏
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1