一种结合知识图谱和口语化文本的细粒度蝴蝶识别方法技术

技术编号:37234663 阅读:11 留言:0更新日期:2023-04-20 23:16
本发明专利技术提供一种结合知识图谱和口语化文本的细粒度蝴蝶识别方法,属于图像识别领域,该方法包括:获取多种蝴蝶图像和描述蝴蝶的文本,并将蝴蝶图像和描述蝴蝶的文本一一对应;提取蝴蝶图像的模态特征和描述蝴蝶的文本的模态特征;将描述蝴蝶的文本模态信息链接到构建好的蝴蝶形态的知识图谱;结合蝴蝶形态的知识图谱并根据蝴蝶图像模态和描述蝴蝶的文本模态,输出蝴蝶图像的蝴蝶种类的识别结果。本发明专利技术能够结合知识图谱和口语化文本辅助细粒度蝴蝶识别,有效的提升细粒度蝴蝶识别的精确性和鲁棒性。性和鲁棒性。性和鲁棒性。

【技术实现步骤摘要】
一种结合知识图谱和口语化文本的细粒度蝴蝶识别方法


[0001]本专利技术涉及图像识别领域,具体涉及一种结合知识图谱和口语化文本的细粒度蝴蝶识别方法。

技术介绍

[0002]随着人工智能技术的发展,细粒度图像识别在有限条件下取得了比较好的效果。作为一种数据驱动技术,它的性能依赖于大量的图像数据标注。但现有的许多方法忽略了除图像以外其他模态数据的作用和价值,而人类识别图像中的物体时,不仅仅关注视觉信息,还会考虑通过经验或者物体的文字描述获取先验信息。这样的外部先验信息有两种,一种是文本信息,另一种是知识库信息。目前,越来越多的多模态数据出现在用户与现实场景的交互上。比如,当用户在野外观赏到形色各异的蝴蝶时,他们乐于将自己看到的蝴蝶形态以图像和文本描述分享给身边的人,这样产生的用户输入复杂多样,且十分口语化。
[0003]少数现有方法考虑了文本信息的价值,但是没有考虑到口语化描述的文本才是最真实的用户输入。尽管口语化文本作为多模态数据的一种形式,可以为图像识别提供大量的补充信息,但是也给数据处理和信息挖掘方面带来了更多的挑战。因此,如何将复杂多样的口语化文本有效的辅助细粒度图像识别是我们需要关注和解决的一个重要的研究课题。
[0004]蝴蝶在种类间差异小,属于细粒度的识别任务,除了经验丰富的专家外,他人难以识别,这严重阻碍了蝴蝶识别这一任务的推近。因此本专利技术提出一种结合知识图谱和口语化文本辅助的蝴蝶识别方法,将蝴蝶领域知识与深度学习结合,通过基于“图像

文本”多模态协同表征和知识辅助,提高对细粒度蝴蝶识别的准确性。

技术实现思路

[0005]本专利技术的目的是提供一种结合知识图谱和口语化文本的细粒度蝴蝶识别方法,该方法能够结合知识图谱和口语化文本辅助细粒度蝴蝶识别,通过用户真实输入的口语化文本与图像进行模态信息的互补,并在此基础上利用知识图谱链接在口语化文本中,可以有效的提升细粒度蝴蝶识别的精确性和鲁棒性。
[0006]本专利技术提供一种结合知识图谱和口语化文本的细粒度蝴蝶识别方法,包括:
[0007]获取多种蝴蝶图像和描述蝴蝶的文本,并将蝴蝶图像和描述蝴蝶的文本一一对应;
[0008]提取蝴蝶图像的模态特征和描述蝴蝶的文本的模态特征;
[0009]将描述蝴蝶的文本模态信息链接到构建好的蝴蝶形态的知识图谱;
[0010]结合蝴蝶形态的知识图谱并根据蝴蝶图像模态和描述蝴蝶的文本模态,输出蝴蝶图像的蝴蝶种类的识别结果。
[0011]获取多种蝴蝶图像和描述蝴蝶的文本,并将蝴蝶图像和描述蝴蝶的文本一一对应之前,还包括对采集的多种蝴蝶图像和描述蝴蝶的文本进行预处理,具体为:
[0012]对原始图像进行统一裁剪,将图像大小统一调整像素至224
×
224;
[0013]将图像变化为模型能够接受的数据类型及格式,实现归一化,并且归一化至[0.0,1.0]之间的值,只对训练集进行归一化处理;
[0014]图像标准化处理,对训练集的图像数据使用MEAN=[0.485,0.456,0.406]、标准差STD=[0.229,0.224,0.225],先减去均值再除以标准差进行标准化运算;
[0015]对于文本数据,所述预处理包括:使用jieba分词工具对文本进行分词、去除停用词、去除标点符号;文本调整为相同长度,超过20个字符则切除,不足此长度则补充为0;
[0016]提取蝴蝶图像的模态特征包括:
[0017]将图像数据预处理后得到的图像I
i
和标签经过ResNet18预训练模型,映射为特征图其中h是图的高度,w是图的宽度,c是图的通道数,特征提取后得到图像模态分支的输出,其公式为:
[0018][0019]式中ResNet(
·
)为Resnet18网络的提取结果,F[
·
]为Softmax函数,代表蝴蝶图像在图像模态分支中的预测概率。
[0020]提取描述蝴蝶的文本的模态特征包括:
[0021]将文本预处理后的词向量和T
i
标签经过BERT预训练模型特征提取后得到文本模态分支的输出,其公式为:
[0022][0023]式中BERT(
·
)为BERT预训练模型的提取结果,F[
·
]为softmax函数,代表蝴蝶文本描述在文本模态分支中的预测概率。
[0024]提取蝴蝶图像的模态特征和描述蝴蝶的文本的模态特征之后,还包括采用双模态门控选择机制对图像和文本模态进行特征融合和信息的选择,得到图像模态的权重参数和文本模态的权重参数,具体为:
[0025]ResNet18和BERT模型分别从不同角度提取图像

文本对中不同的特征,进行特征融合后可以结合两种模态的特征;
[0026]双模态门控选择机制在图像和文本特征选择性的分配重要性,创建一个丰富的多模态联合表示,公式如下:
[0027][0028][0029][0030]H=z*H
v
+(1

z)*H
t
[0031]式中,tanh是激活函数,σ是sigmoid函数,H
v
和H
t
分别是维度处理后的图像模态和文本模态,z是两个模态的同一空间表示,H是双模态门控选择单元所输出的双模态联合表示,W
v
、W
t
、W
z
是全连接层需要训练的参数。
[0032]将描述蝴蝶的文本模态信息链接到构建好的蝴蝶形态的知识图谱包括:
[0033]将口语化文本词向量与知识表示向量做关联对齐,公式如下所示:
[0034][0035]式中,T
i
表示概念词向量组,T
j
表示知识向量组,S表示口语化文本词向量与知识向量之间的距离,S∈[0,1],距离测量方法J[
·
]采用Jaccard相似系数;
[0036]其中Jaccard相似系数计算两种不同实体中字的交集和并集,使用交集内的字的个数除以并集内的字的个数即为文本相似度值;
[0037]当S≥0.8表示概念词与知识图谱成功连接。
[0038]构建蝴蝶形态知识图谱包括:
[0039]通过爬虫工具在互联网上获得采集的多种蝴蝶图像对应的蝴蝶种类形态特征的知识描述,得到初始描述蝴蝶的文本;
[0040]对初始描述蝴蝶的文本进行预处理,使用Pandas、Numpy工具包对初始描述蝴蝶的文本去噪声、去冗、清洗、分词,得到描述蝴蝶的文本;
[0041]使用预定义的实体类别和属性关系,对描述蝴蝶的文本与蝴蝶图像进行实体识别、属性关系建立、属性值提取,把蝴蝶图像和描述蝴蝶的文本一一对应起来。
[0042]使用预定义的实体类别和属性关系,对初始描述蝴蝶的文本与蝴蝶图像进行实体识别、属性关系建立、属性值提取,把蝴蝶图像和描述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结合知识图谱和口语化文本的细粒度蝴蝶识别方法,其特征在于,包括:获取多种蝴蝶图像和描述蝴蝶的文本,并将蝴蝶图像和描述蝴蝶的文本一一对应;提取蝴蝶图像的模态特征和描述蝴蝶的文本的模态特征;将描述蝴蝶的文本模态信息链接到构建好的蝴蝶形态的知识图谱;结合蝴蝶形态的知识图谱并根据蝴蝶图像模态和描述蝴蝶的文本模态,输出蝴蝶图像的蝴蝶种类的识别结果。2.根据权利要求1所述的一种结合知识图谱和口语化文本的细粒度蝴蝶识别方法,其特征在于,所述获取多种蝴蝶图像和描述蝴蝶的文本,并将蝴蝶图像和描述蝴蝶的文本一一对应之前,还包括对采集的多种蝴蝶图像和描述蝴蝶的文本进行预处理,具体为:对原始图像进行统一裁剪,将图像大小统一调整像素至224
×
224;将图像变化为模型能够接受的数据类型及格式,实现归一化,并且归一化至[0.0,1.0]之间的值,只对训练集进行归一化处理;图像标准化处理,对训练集的图像数据使用MEAN=[0.485,0.456,0.406]、标准差STD=[0.229,0.224,0.225],先减去均值再除以标准差进行标准化运算;对于文本数据,所述预处理包括:使用jieba分词工具对文本进行分词、去除停用词、去除标点符号;文本调整为相同长度,超过20个字符则切除,不足此长度则补充为0。3.根据权利要求1所述的一种结合知识图谱和口语化文本的细粒度蝴蝶识别方法,其特征在于,所述提取蝴蝶图像的模态特征包括:将图像数据预处理后得到的图像I
i
和标签经过ResNet18预训练模型,映射为特征图其中h是图的高度,w是图的宽度,c是图的通道数,特征提取后得到图像模态分支的输出,其公式为:式中ResNet(
·
)为Resnet18网络的提取结果,F[
·
]为Softmax函数,代表蝴蝶图像在图像模态分支中的预测概率。4.根据权利要求1所述的一种结合知识图谱和口语化文本的细粒度蝴蝶识别方法,其特征在于,所述提取描述蝴蝶的文本的模态特征包括:将文本预处理后的词向量和T
i
标签经过BERT预训练模型特征提取后得到文本模态分支的输出,其公式为:式中BERT(
·
)为BERT预训练模型的提取结果,F[
·
]为softmax函数,代表蝴蝶文本描述在文本模态分支中的预测概率。5.根据权利要求1所述的一种结合知识图谱和口语化文本的细粒度蝴蝶识别方法,其特征在于,所述提取蝴蝶图像的模态特征和描述蝴蝶的文本的模态特征之后,还包括采用双模态门控选择机制对图像和文本模态进行特征融合和信息的选择,得到图像模态的权重参数和文本模态的权重参数,具体为:ResNet18和BERT模型分别从不同角度提取图像

文本对中不同的特征,进行特征融合后可以结合两种模态的特征;
双模态门控选择机制在图像和文本特征选择性的分配重要性,创建一个丰富的多模态联合表示,公式如下:联合表示,公式如下:联合表示,公式如下:H=z*H
v
+(1

z)*H
t
式中,tanh是激活函数,σ是sigmoid函数,H
v
和H
t
分别是维度处理后的图像模态和文本模态,z是两个模态的...

【专利技术属性】
技术研发人员:黄沛杰谭珊王仡肖喜盛高月芳王敏林丕源徐禹洪
申请(专利权)人:华南农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1