【技术实现步骤摘要】
一种多模态多粒度实体识别系统及实体识别方法
[0001]本专利技术属于新闻、医疗、军事、农业实体识别领域,具体涉及多模态多粒度实体识别系统及实体识别方法。
技术介绍
[0002]现实世界中的信息一般以多模态的形式出现,而由于技术问题,多模态研究进展缓慢。近年来由于单模态研究的进步,多模态的研究有了更扎实的基础。
[0003]多模态信息抽取是多模态学习与信息抽取技术结合的研究方向。很多研究者采用了深度学习方法从多模态数据中抽取信息,在实体挖掘、关系挖掘、实体消歧等任务上对比传统的仅仅基于文本的方法取得了效果的提升,也从侧面证明了多模态信息抽取研究的必要性。
[0004]如何对多模态的数据进行信息抽取,是多模态信息抽取技术的研究目标。当前多模态实体抽取模型中缺少对细粒度图文匹配的建模,当句子中具有多个实体时,一些实体会被图片中无关区域干扰,从而导致部分实体识别错误,因此需要在粗粒度的基础上在当前模型中引入细粒度图文匹配,从而进行多模态多粒度实体识别。
技术实现思路
[0005]本专利技术的目的是为了解决当前多模态实体抽取模型中缺少对细粒度图文匹配的建模,导致部分实体识别错误,实体识别准确率低的问题,而提出一种多模态多粒度实体识别系统及实体识别方法。
[0006]一种多模态多粒度实体识别系统包括:
[0007]训练集获取模块、实体识别模型构建模块、实体识别模型训练模块和预测模块;
[0008]训练集获取模块用于获取匹配的图片和文本训练集;
[0009]实体识别 ...
【技术保护点】
【技术特征摘要】
1.一种多模态多粒度实体识别系统,其特征在于:所述系统包括:训练集获取模块、实体识别模型构建模块、实体识别模型训练模块和预测模块;训练集获取模块用于获取匹配的图片和文本训练集;实体识别模型构建模块用于构建实体识别模型;所述实体识别模型包括多模态多粒度实体识别模型、VGTR模型和CLIP模型;所述VGTR模型为Visual Grounding with Transformer模型;所述CLIP模型为多模态预训练模型;多粒度包括粗粒度和细粒度;多模态多粒度实体识别模型框架为:图片编码器VIT和文本编码器BERT并行作为多模态多粒度实体识别模型框架底层编码器,Transformer作为上层编码器,上层编码器称为多模态交互层,多模态交互层外再接一个条件随机场CRF层;实体识别模型训练模块用于将训练集获取模块获取的匹配的图片和文本训练集输入实体识别模型构建模块进行训练,直至收敛,得到训练好的实体识别模型;预测模块用于将待测的匹配图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中,多模态多粒度实体识别模型输出标注序列,获得待测的匹配图片和文本中的实体。2.根据权利要求1所述的一种多模态多粒度实体识别系统,其特征在于:所述实体识别模型训练模块用于将训练集获取模块获取的匹配的图片和文本训练集输入实体识别模型构建模块进行训练,直至收敛,得到训练好的实体识别模型;具体过程为:步骤三一、获得多模态多粒度实体识别模型损失函数L
CRF
;步骤三二、获得VGTR模型的损失函数L
task1
;步骤三三、获得CLIP模型损失函数L
task2
;步骤三四、重复执行步骤三一、步骤三二、步骤三三,直至收敛,得到训练好的实体识别模型。3.根据权利要求2所述的一种多模态多粒度实体识别系统,其特征在于:所述步骤三一中获得多模态多粒度实体识别模型损失函数L
CRF
;具体过程为:将训练集中匹配的图片和文本输入多模态多粒度实体识别模型中,图片经过图片编码器VIT,文本经过文本编码器BERT,将图片编码器VIT输出结果和文本编码器BERT输出结果输入多模态交互层,多模态交互层输出结果输入条件随机场CRF层用以计算损失函数L
CRF
;所述损失函数L
CRF
的获取方式为:其中,Z(x)为:式中,y为实体识别模型输出的标注序列,y
i
为实体识别模型输出的标注序列的第i个字母,y
i
‑1为实体识别模型输出的标注序列的第i
‑
1个字母,x为给定输入序列;i为序列中字母
的序数,k为特征函数t的个数,l为特征函数s的个数;t
k
和s
l
是特征函数,μ
l
和λ
k
是对应的权值;Z(x)是规范化因子。4.根据权利要求3所述的一种多模态多粒度实体识别系统,其特征在于:所述步骤三二中获得VGTR模型的损失函数L
task1
;具体过程为:将训练集中匹配的图片和文本输入VGTR模型中,找到文本句子中每个实体对应的图片区域;将训练集中匹配的图片和文本输入VGTR模型中,获得VGTR模型中Ground Encoder部分中的Visual branch的注意力矩阵;根据Visual branch的注意力矩阵与找到文本句子中每个实体对应的图片区域,截取出与实体对应的实体
‑
图片区域注意力分布矩阵;所述VGTR模型为Visual Grounding withTransformer模型;计算实体
‑
图片区域注意力分布矩阵与多模态交互层输出的文本与图片注意力矩阵的差异,作为VGTR模型的损失函数L
task1
;所述损失函数L
task1
的获取方式为:其中,width为VGTR模型输出的实体对应的图片区域宽度,height为VGTR模型输出的实体对应的图片区域高度;x为图片的左下角横坐标,y为图片的左下角纵坐标;X
i
′
j
为实体
‑
图片区域注意力分布矩阵第i
′
行第j列的数值;Y
i
′
j
为多模态多粒度实体识别模型中多模态交互层输出的注意力矩阵第i
′
行第j列的数值。5.根据权利要求4所述的一种多模态多粒度实体识别系统,其特征在于:所述步骤三三中获得CLIP模型损失函数L
task2
;具体过程为:将训练集中匹配的图片和文本中的文本输入CLIP中的文本编码器,输出文本的向量;计算CLIP模型中的文本编码器输出的文本向量和多模态交互层输出的文本向量的差异,作为CLIP模型损失函数L
task2
;所述损失函数L
task2
的获取方式为:其中,seq_len表示文本的长度,D
i
″
表示CLIP模型中的文本编码器输出的第i
″
个文本的向量表示;C
i
″
表示多模态交互层输出的第i
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。