一种结合知识图谱和口语化文本的细粒度蝴蝶识别方法技术

技术编号：37234663 阅读：11 留言：0更新日期：2023-04-20 23:16

本发明专利技术提供一种结合知识图谱和口语化文本的细粒度蝴蝶识别方法，属于图像识别领域，该方法包括：获取多种蝴蝶图像和描述蝴蝶的文本，并将蝴蝶图像和描述蝴蝶的文本一一对应；提取蝴蝶图像的模态特征和描述蝴蝶的文本的模态特征；将描述蝴蝶的文本模态信息链接到构建好的蝴蝶形态的知识图谱；结合蝴蝶形态的知识图谱并根据蝴蝶图像模态和描述蝴蝶的文本模态，输出蝴蝶图像的蝴蝶种类的识别结果。本发明专利技术能够结合知识图谱和口语化文本辅助细粒度蝴蝶识别，有效的提升细粒度蝴蝶识别的精确性和鲁棒性。性和鲁棒性。性和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
一种结合知识图谱和口语化文本的细粒度蝴蝶识别方法

[0001]本专利技术涉及图像识别领域，具体涉及一种结合知识图谱和口语化文本的细粒度蝴蝶识别方法。

技术介绍

[0002]随着人工智能技术的发展，细粒度图像识别在有限条件下取得了比较好的效果。作为一种数据驱动技术，它的性能依赖于大量的图像数据标注。但现有的许多方法忽略了除图像以外其他模态数据的作用和价值，而人类识别图像中的物体时，不仅仅关注视觉信息，还会考虑通过经验或者物体的文字描述获取先验信息。这样的外部先验信息有两种，一种是文本信息，另一种是知识库信息。目前，越来越多的多模态数据出现在用户与现实场景的交互上。比如，当用户在野外观赏到形色各异的蝴蝶时，他们乐于将自己看到的蝴蝶形态以图像和文本描述分享给身边的人，这样产生的用户输入复杂多样，且十分口语化。
[0003]少数现有方法考虑了文本信息的价值，但是没有考虑到口语化描述的文本才是最真实的用户输入。尽管口语化文本作为多模态数据的一种形式，可以为图像识别提供大量的补充信息，但是也给数据处理和信息挖掘方面带来了更多的挑战。因此，如何将复杂多样的口语化文本有效的辅助细粒度图像识别是我们需要关注和解决的一个重要的研究课题。
[0004]蝴蝶在种类间差异小，属于细粒度的识别任务，除了经验丰富的专家外，他人难以识别，这严重阻碍了蝴蝶识别这一任务的推近。因此本专利技术提出一种结合知识图谱和口语化文本辅助的蝴蝶识别方法，将蝴蝶领域知识与深度学习结合，通过基于“图像
‑
文本”多模态协同表征和知识辅助...

【技术保护点】

【技术特征摘要】
1.一种结合知识图谱和口语化文本的细粒度蝴蝶识别方法，其特征在于，包括：获取多种蝴蝶图像和描述蝴蝶的文本，并将蝴蝶图像和描述蝴蝶的文本一一对应；提取蝴蝶图像的模态特征和描述蝴蝶的文本的模态特征；将描述蝴蝶的文本模态信息链接到构建好的蝴蝶形态的知识图谱；结合蝴蝶形态的知识图谱并根据蝴蝶图像模态和描述蝴蝶的文本模态，输出蝴蝶图像的蝴蝶种类的识别结果。2.根据权利要求1所述的一种结合知识图谱和口语化文本的细粒度蝴蝶识别方法，其特征在于，所述获取多种蝴蝶图像和描述蝴蝶的文本，并将蝴蝶图像和描述蝴蝶的文本一一对应之前，还包括对采集的多种蝴蝶图像和描述蝴蝶的文本进行预处理，具体为：对原始图像进行统一裁剪，将图像大小统一调整像素至224
×
224；将图像变化为模型能够接受的数据类型及格式，实现归一化，并且归一化至[0.0,1.0]之间的值，只对训练集进行归一化处理；图像标准化处理，对训练集的图像数据使用MEAN＝[0.485,0.456,0.406]、标准差STD＝[0.229,0.224,0.225]，先减去均值再除以标准差进行标准化运算；对于文本数据，所述预处理包括：使用jieba分词工具对文本进行分词、去除停用词、去除标点符号；文本调整为相同长度，超过20个字符则切除，不足此长度则补充为0。3.根据权利要求1所述的一种结合知识图谱和口语化文本的细粒度蝴蝶识别方法，其特征在于，所述提取蝴蝶图像的模态特征包括：将图像数据预处理后得到的图像I
i
和标签经过ResNet18预训练模型，映射为特征图其中h是图的高度，w是图的宽度，c是图的通道数，特征提取后得到图像模态分支的输出，其公式为：式中ResNet(
·
)为Resnet18网络的提取结果，F[
·
]为Softmax函数，代表蝴蝶图像在图像模态分支中的预测概率。4.根据权利要求1所述的一种结合知识图谱和口语化文本的细粒度蝴蝶识别方法，其特征在于，所述提取描述蝴蝶的文本的模态特征包括：将文本预处理后的词向量和T
i
标签经过BERT预训练模型特征提取后得到文本模态分支的输出，其公式为：式中BERT(
·
)为BERT预训练模型的提取结果，F[
·
]为softmax函数，代表蝴蝶文本描述在文本模态分支中的预测概率。5.根据权利要求1所述的一种结合知识图谱和口语化文本的细粒度蝴蝶识别方法，其特征在于，所述提取蝴蝶图像的模态特征和描述蝴蝶的文本的模态特征之后，还包括采用双模态门控选择机制对图像和文本模态进行特征融合和信息的选择，得到图像模态的权重参数和文本模态的权重参数，具体为：ResNet18和BERT模型分别从不同角度提取图像
‑
文本对中不同的特征，进行特征融合后可以结合两种模态的特征；
双模态门控选择机制在图像和文本特征选择性的分配重要性，创建一个丰富的多模态联合表示，公式如下：联合表示，公式如下：联合表示，公式如下：H＝z*H
v
+(1
‑
z)*H
t
式中，tanh是激活函数，σ是sigmoid函数，H
v
和H
t
分别是维度处理后的图像模态和文本模态，z是两个模态的...

【专利技术属性】
技术研发人员：黄沛杰，谭珊，王仡，肖喜盛，高月芳，王敏，林丕源，徐禹洪，
申请(专利权)人：华南农业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人