一种多模态多粒度实体识别系统及实体识别方法技术方案

技术编号:36192795 阅读:16 留言:0更新日期:2022-12-31 21:12
一种多模态多粒度实体识别系统及实体识别方法,本发明专利技术涉及实体识别系统及实体识别方法。本发明专利技术的目的是为了解决当前多模态实体抽取模型中缺少对细粒度图文匹配的建模,导致部分实体识别错误,实体识别准确率低的问题。系统包括:训练集获取模块用于获取训练集;实体识别模型构建模块用于构建实体识别模型;实体识别模型包括多模态多粒度实体识别模型、VGTR模型和CLIP模型;实体识别模型训练模块用于得到训练好的实体识别模型;预测模块用于将待测的匹配图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中,输出标注序列,获得待测的匹配图片和文本中的实体。本发明专利技术用于新闻、医疗、军事、农业实体识别领域。农业实体识别领域。农业实体识别领域。

【技术实现步骤摘要】
一种多模态多粒度实体识别系统及实体识别方法


[0001]本专利技术属于新闻、医疗、军事、农业实体识别领域,具体涉及多模态多粒度实体识别系统及实体识别方法。

技术介绍

[0002]现实世界中的信息一般以多模态的形式出现,而由于技术问题,多模态研究进展缓慢。近年来由于单模态研究的进步,多模态的研究有了更扎实的基础。
[0003]多模态信息抽取是多模态学习与信息抽取技术结合的研究方向。很多研究者采用了深度学习方法从多模态数据中抽取信息,在实体挖掘、关系挖掘、实体消歧等任务上对比传统的仅仅基于文本的方法取得了效果的提升,也从侧面证明了多模态信息抽取研究的必要性。
[0004]如何对多模态的数据进行信息抽取,是多模态信息抽取技术的研究目标。当前多模态实体抽取模型中缺少对细粒度图文匹配的建模,当句子中具有多个实体时,一些实体会被图片中无关区域干扰,从而导致部分实体识别错误,因此需要在粗粒度的基础上在当前模型中引入细粒度图文匹配,从而进行多模态多粒度实体识别。

技术实现思路

[0005]本专利技术的目的是为了解决当前多模态实体抽取模型中缺少对细粒度图文匹配的建模,导致部分实体识别错误,实体识别准确率低的问题,而提出一种多模态多粒度实体识别系统及实体识别方法。
[0006]一种多模态多粒度实体识别系统包括:
[0007]训练集获取模块、实体识别模型构建模块、实体识别模型训练模块和预测模块;
[0008]训练集获取模块用于获取匹配的图片和文本训练集;
[0009]实体识别模型构建模块用于构建实体识别模型;
[0010]所述实体识别模型包括多模态多粒度实体识别模型、VGTR模型和CLIP模型;
[0011]所述VGTR模型为Visual Grounding with Transformer模型;
[0012]所述CLIP模型为多模态预训练模型;
[0013]多粒度包括粗粒度和细粒度;
[0014]多模态多粒度实体识别模型框架为:
[0015]图片编码器VIT和文本编码器BERT并行作为多模态多粒度实体识别模型框架底层编码器,Transformer作为上层编码器,上层编码器称为多模态交互层,多模态交互层外再接一个条件随机场CRF层;
[0016]实体识别模型训练模块用于将训练集获取模块获取的匹配的图片和文本训练集输入实体识别模型构建模块进行训练,直至收敛,得到训练好的实体识别模型;
[0017]预测模块用于将待测的匹配图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中,多模态多粒度实体识别模型输出标注序列,获得待测的匹配图片
和文本中的实体。
[0018]一种多模态多粒度实体识别方法具体过程为:
[0019]步骤一、获取匹配的图片和文本训练集;
[0020]步骤二、构建实体识别模型;
[0021]所述实体识别模型包括多模态多粒度实体识别模型、VGTR模型和CLIP模型;
[0022]所述VGTR模型为Visual Grounding with Transformer模型;
[0023]所述CLIP模型为多模态预训练模型;
[0024]多粒度包括粗粒度和细粒度;
[0025]多模态多粒度实体识别模型框架为:
[0026]图片编码器VIT和文本编码器BERT并行作为多模态多粒度实体识别模型框架底层编码器,Transformer作为上层编码器,上层编码器称为多模态交互层,多模态交互层外再接一个条件随机场CRF层;
[0027]步骤三、将步骤一获取的匹配的图片和文本训练集输入步骤二构建的实体识别模型进行训练,直至收敛,得到训练好的实体识别模型;
[0028]步骤四、将待测的匹配图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中,多模态多粒度实体识别模型输出标注序列,获得待测的匹配图片和文本中的实体。
[0029]本专利技术的有益效果为:
[0030]对于多模态实体识别,当前研究中缺少对细粒度图文匹配的建模,当句子中具有多个实体时,一些实体会被图片中无关区域干扰,从而导致部分实体识别错误。针对该问题,本专利技术的方法在粗粒度图文匹配的基础上引入了细粒度图文匹配,提出了一种多模态多粒度实体识别方法。
[0031]为了防止模型仅关注图片和文本的细粒度匹配,从而忽略了图文的整体相关性,本专利技术提出的模型依然保留了图片和文本的粗粒度匹配。这样模型不仅可以学习到多模态的匹配信息,也将细粒度图文匹配和粗粒度图文匹配相结合,从而达到实体识别效果的提升。
附图说明
[0032]图1为本专利技术多模态多粒度实体识别模型训练框架图;
[0033]图2为本专利技术多模态多粒度实体识别模型识别框架图。
具体实施方式
[0034]具体实施方式一:本实施方式一种多模态多粒度实体识别系统包括:
[0035]训练集获取模块、实体识别模型构建模块、实体识别模型训练模块和预测模块;
[0036]训练集获取模块用于获取匹配的图片和文本训练集;
[0037]可使用现有的带有实体标注信息的多模态图文数据集,如twitter15和twitter17。
[0038]实体识别模型构建模块用于构建实体识别模型;
[0039]所述实体识别模型包括多模态多粒度实体识别模型、VGTR模型和CLIP模型;
[0040]所述VGTR模型为Visual Grounding with Transformer模型;
[0041]所述CLIP模型为多模态预训练模型;
[0042]多粒度包括粗粒度(全局图片对应文本)和细粒度(局部图片对应文本);
[0043]多模态多粒度实体识别模型框架为:
[0044]图片编码器VIT和文本编码器BERT并行作为多模态多粒度实体识别模型框架底层编码器,Transformer作为上层编码器,上层编码器称为多模态交互层,多模态交互层外再接一个条件随机场CRF层;
[0045]实体识别模型训练模块用于将训练集获取模块获取的匹配的图片和文本训练集输入实体识别模型构建模块进行训练,直至收敛,得到训练好的实体识别模型;
[0046]预测模块用于将待测的匹配图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中,多模态多粒度实体识别模型输出标注序列,获得待测的匹配图片和文本中的实体。
[0047]具体实施方式二:本实施方式与具体实施方式一不同的是,所述实体识别模型训练模块用于将训练集获取模块获取的匹配的图片和文本训练集输入实体识别模型构建模块进行训练,直至收敛,得到训练好的实体识别模型;具体过程为:
[0048]步骤三一、获得多模态多粒度实体识别模型损失函数L
CRF

[0049]步骤三二、获得VGTR模型的损失函数L
task1

[0050]步骤三三、获得CLIP模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态多粒度实体识别系统,其特征在于:所述系统包括:训练集获取模块、实体识别模型构建模块、实体识别模型训练模块和预测模块;训练集获取模块用于获取匹配的图片和文本训练集;实体识别模型构建模块用于构建实体识别模型;所述实体识别模型包括多模态多粒度实体识别模型、VGTR模型和CLIP模型;所述VGTR模型为Visual Grounding with Transformer模型;所述CLIP模型为多模态预训练模型;多粒度包括粗粒度和细粒度;多模态多粒度实体识别模型框架为:图片编码器VIT和文本编码器BERT并行作为多模态多粒度实体识别模型框架底层编码器,Transformer作为上层编码器,上层编码器称为多模态交互层,多模态交互层外再接一个条件随机场CRF层;实体识别模型训练模块用于将训练集获取模块获取的匹配的图片和文本训练集输入实体识别模型构建模块进行训练,直至收敛,得到训练好的实体识别模型;预测模块用于将待测的匹配图片和文本输入训练好的实体识别模型中的多模态多粒度实体识别模型中,多模态多粒度实体识别模型输出标注序列,获得待测的匹配图片和文本中的实体。2.根据权利要求1所述的一种多模态多粒度实体识别系统,其特征在于:所述实体识别模型训练模块用于将训练集获取模块获取的匹配的图片和文本训练集输入实体识别模型构建模块进行训练,直至收敛,得到训练好的实体识别模型;具体过程为:步骤三一、获得多模态多粒度实体识别模型损失函数L
CRF
;步骤三二、获得VGTR模型的损失函数L
task1
;步骤三三、获得CLIP模型损失函数L
task2
;步骤三四、重复执行步骤三一、步骤三二、步骤三三,直至收敛,得到训练好的实体识别模型。3.根据权利要求2所述的一种多模态多粒度实体识别系统,其特征在于:所述步骤三一中获得多模态多粒度实体识别模型损失函数L
CRF
;具体过程为:将训练集中匹配的图片和文本输入多模态多粒度实体识别模型中,图片经过图片编码器VIT,文本经过文本编码器BERT,将图片编码器VIT输出结果和文本编码器BERT输出结果输入多模态交互层,多模态交互层输出结果输入条件随机场CRF层用以计算损失函数L
CRF
;所述损失函数L
CRF
的获取方式为:其中,Z(x)为:式中,y为实体识别模型输出的标注序列,y
i
为实体识别模型输出的标注序列的第i个字母,y
i
‑1为实体识别模型输出的标注序列的第i

1个字母,x为给定输入序列;i为序列中字母
的序数,k为特征函数t的个数,l为特征函数s的个数;t
k
和s
l
是特征函数,μ
l
和λ
k
是对应的权值;Z(x)是规范化因子。4.根据权利要求3所述的一种多模态多粒度实体识别系统,其特征在于:所述步骤三二中获得VGTR模型的损失函数L
task1
;具体过程为:将训练集中匹配的图片和文本输入VGTR模型中,找到文本句子中每个实体对应的图片区域;将训练集中匹配的图片和文本输入VGTR模型中,获得VGTR模型中Ground Encoder部分中的Visual branch的注意力矩阵;根据Visual branch的注意力矩阵与找到文本句子中每个实体对应的图片区域,截取出与实体对应的实体

图片区域注意力分布矩阵;所述VGTR模型为Visual Grounding withTransformer模型;计算实体

图片区域注意力分布矩阵与多模态交互层输出的文本与图片注意力矩阵的差异,作为VGTR模型的损失函数L
task1
;所述损失函数L
task1
的获取方式为:其中,width为VGTR模型输出的实体对应的图片区域宽度,height为VGTR模型输出的实体对应的图片区域高度;x为图片的左下角横坐标,y为图片的左下角纵坐标;X
i

j
为实体

图片区域注意力分布矩阵第i

行第j列的数值;Y
i

j
为多模态多粒度实体识别模型中多模态交互层输出的注意力矩阵第i

行第j列的数值。5.根据权利要求4所述的一种多模态多粒度实体识别系统,其特征在于:所述步骤三三中获得CLIP模型损失函数L
task2
;具体过程为:将训练集中匹配的图片和文本中的文本输入CLIP中的文本编码器,输出文本的向量;计算CLIP模型中的文本编码器输出的文本向量和多模态交互层输出的文本向量的差异,作为CLIP模型损失函数L
task2
;所述损失函数L
task2
的获取方式为:其中,seq_len表示文本的长度,D
i

表示CLIP模型中的文本编码器输出的第i

个文本的向量表示;C
i

表示多模态交互层输出的第i
...

【专利技术属性】
技术研发人员:赵森栋蔡沐祯秦兵
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1