【技术实现步骤摘要】
一种基于跨模态翻译的属性级多模态情感分类方法
[0001]本专利技术涉及自然语言处理
,具体为一种基于跨模态翻译的属性级多模态情感分类方法。
技术介绍
[0002]属性级多模态情感分析旨在从多模态数据中识别目标属性的情感,近年来在多媒体和自然语言处理领域引起了广泛关注。尽管最近基于文本的属性级情感分析取得了成功,但现有的多模态属性级情感分析模型主要侧重于利用图像中的对象级语义信息,而忽略了显式的利用来自图像的情感线索,尤其是面部情感。如何提取视觉情感线索并将其与文本内容对齐融合是目前解决属性级多模态情感分析任务的关键挑战。关于属性级多模态情感分析任务的早期工作将图像内容视为与文本具有相同地位的独立输入,并侧重于对齐和融合从单模态预训练模型中提取的视觉和文本特征嵌入。然而,这类隐式捕获图像中的情感信息的方法很难回答视觉情感来自与图像中的那一部分,因而并不具有可解释性。此外我们认为由于数据规模限制,模型在没有额外约束的情况下容易学习到因为额外输入所带来的bias而不是真正的视觉情感线索。最近,有工作在特征级融合的过程中考虑到了图像中的对象级语义信息,也有学者提出一种基于跨模态翻译的方法,通过将图片信息转换为文本描述实现跨模态翻译,跨模态翻译模型承担了图文对齐任务。然而,上述方法都忽视了从图像模态中显式的挖掘情感线索,这导致了模型在属性级多模态情感分析任务上预测准确率低。如何在保留语义信息的情况下补全图片模态的情感信息是提升属性级多模态情感分析效果的关键问题。
技术实现思路
[0003]本专利技术的目 ...
【技术保护点】
【技术特征摘要】
1.一种基于跨模态翻译的属性级多模态情感分类方法,其特征在于包括以下步骤;步骤一:获取多模态社交媒体数据,所述多模态社交媒体数据包括目标评价属性、英文文本以及单张图片;步骤二:基于多模态社交媒体数据中的单张图片,识别并切分出图片中的全部人脸,若图片中含有人脸,则执行步骤三,若图片中不含有人脸,则生成图片人脸描述,并执行步骤十;步骤三:获取图片中人脸的面部属性信息;步骤四:将图片中人脸的面部属性信息转化为面部描述文本;步骤五:判断图片中人脸为单张人脸或多张人脸,若为单张人脸,则根据面部描述文本生成图片人脸描述,并执行步骤十,若为多张人脸,则将目标评价属性与步骤四中的面部描述文本进行拼接后,得到句子,之后将句子进行编码,得到文本向量表示;步骤六:将多模态社交媒体数据中的单张图片进行编码,得到图片向量表示;步骤七:计算图片向量表示与文本向量表示的余弦相似度,并选取余弦相似度最高的文本向量表示对应的面部描述文本;步骤八:针对步骤七中得到的面部描述文本,仅保留表情预测信息以及目标评价属性;步骤九:将面部描述文本中表情预测信息以及目标评价属性进行拼接,得到图片人脸描述;步骤十:基于多模态社交媒体数据中的单张图片,生成关于图片场景信息的中性文本描述;步骤十一:将多模态社交媒体数据中的目标评价属性与英文文本进行拼接,得到新句子,并将新句子分别与图片人脸描述和关于图片场景信息的中性文本描述进行拼接,并将拼接结果分别利用预训练语言模型进行处理,得到包含人脸描述信息的句子表示和包含场景信息的句子表示;步骤十二:将包含人脸描述信息的句子表示和包含场景信息的句子表示进行融合,得到多模态融合表示;步骤十三:将多模态融合表示送入线性分类层得到对于目标评价属性的情感分类预测结果。2.根据权利要求1所述的一种基于跨模态翻译的属性级多模态情感分类方法,其特征在于所述识别并切分出图像中的全部人脸通过面部识别模型DeepFace进行。3.根据权利要求1所述的一种基于跨模态翻译的属性级多模态情感分类方法,其特征在于所述图片中人脸的面部属性信息通过DeepFace工具中人脸属性预测模型得到。4.根据权利要求3所述的一种基于跨模态翻译的属性级多模态情感分类方法,其特征在于所述面部属性信息包括:年龄、人种、性别、表情预测信息及置信度;其中,年龄为0~120的整数预测,人种为亚洲人、白人、中东人、印度人、拉丁裔和黑人六分类预测,性别为男女二分类预测,表情为愤怒、恐惧、中立、悲伤、厌恶、快乐和惊讶七分类预测。5.根据权利要求1所述的一种基于跨模态翻译的属性级多模态情感分类方法,其特征在于所述句子进行编码通过预训练图文模型CLIP的文本编码器进行,图片进行编码通过预训练图文模型CLIP的图像编码器进行,表示为:
H
D&A
=Text_Encoder(concat(D,A))H
V
=Image_Encoder(V)其中concat为文本拼接函数,Text_Encoder为预训练图文模型CLIP的...
【专利技术属性】
技术研发人员:赵妍妍,杨浩,车万翔,秦兵,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。