一种基于跨模态翻译的属性级多模态情感分类方法技术

技术编号:35219113 阅读:27 留言:0更新日期:2022-10-15 10:35
一种基于跨模态翻译的属性级多模态情感分类方法,涉及自然语言处理技术领域,针对现有技术在属性级多模态情感分析任务上预测准确率低的问题,本申请提出了一种简单但有效的人脸敏感的跨模态翻译方法,在不需要额外训练图像情感描述生成模型的情况下,通过引入人脸信息生成人脸表情描述补全图片情感信号,实现了更精准的属性级多模态情感预测。了更精准的属性级多模态情感预测。了更精准的属性级多模态情感预测。

【技术实现步骤摘要】
一种基于跨模态翻译的属性级多模态情感分类方法


[0001]本专利技术涉及自然语言处理
,具体为一种基于跨模态翻译的属性级多模态情感分类方法。

技术介绍

[0002]属性级多模态情感分析旨在从多模态数据中识别目标属性的情感,近年来在多媒体和自然语言处理领域引起了广泛关注。尽管最近基于文本的属性级情感分析取得了成功,但现有的多模态属性级情感分析模型主要侧重于利用图像中的对象级语义信息,而忽略了显式的利用来自图像的情感线索,尤其是面部情感。如何提取视觉情感线索并将其与文本内容对齐融合是目前解决属性级多模态情感分析任务的关键挑战。关于属性级多模态情感分析任务的早期工作将图像内容视为与文本具有相同地位的独立输入,并侧重于对齐和融合从单模态预训练模型中提取的视觉和文本特征嵌入。然而,这类隐式捕获图像中的情感信息的方法很难回答视觉情感来自与图像中的那一部分,因而并不具有可解释性。此外我们认为由于数据规模限制,模型在没有额外约束的情况下容易学习到因为额外输入所带来的bias而不是真正的视觉情感线索。最近,有工作在特征级融合的过程中考虑到了图像中的对象级语义信息,也有学者提出一种基于跨模态翻译的方法,通过将图片信息转换为文本描述实现跨模态翻译,跨模态翻译模型承担了图文对齐任务。然而,上述方法都忽视了从图像模态中显式的挖掘情感线索,这导致了模型在属性级多模态情感分析任务上预测准确率低。如何在保留语义信息的情况下补全图片模态的情感信息是提升属性级多模态情感分析效果的关键问题。

技术实现思路

[0003]本专利技术的目的是:针对现有技术在属性级多模态情感分析任务上预测准确率低的问题,提出一种基于跨模态翻译的属性级多模态情感分类方法。
[0004]本专利技术为了解决上述技术问题采取的技术方案是:
[0005]一种基于跨模态翻译的属性级多模态情感分类方法,包括以下步骤;
[0006]步骤一:获取多模态社交媒体数据,所述多模态社交媒体数据包括目标评价属性、英文文本以及单张图片;
[0007]步骤二:基于多模态社交媒体数据中的单张图片,识别并切分出图片中的全部人脸,若图片中含有人脸,则执行步骤三,若图片中不含有人脸,则生成图片人脸描述,并执行步骤十;
[0008]步骤三:获取图片中人脸的面部属性信息;
[0009]步骤四:将图片中人脸的面部属性信息转化为面部描述文本;
[0010]步骤五:判断图片中人脸为单张人脸或多张人脸,若为单张人脸,则根据面部描述文本生成图片人脸描述,并执行步骤十,若为多张人脸,则将目标评价属性与步骤四中的面部描述文本进行拼接后,得到句子,之后将句子进行编码,得到文本向量表示;
[0011]步骤六:将多模态社交媒体数据中的单张图片进行编码,得到图片向量表示;
[0012]步骤七:计算图片向量表示与文本向量表示的余弦相似度,并选取余弦相似度最高的文本向量表示对应的面部描述文本;
[0013]步骤八:针对步骤七中得到的面部描述文本,仅保留表情预测信息以及目标评价属性;
[0014]步骤九:将面部描述文本中表情预测信息以及目标评价属性进行拼接,得到图片人脸描述;
[0015]步骤十:基于多模态社交媒体数据中的单张图片,生成关于图片场景信息的中性文本描述;
[0016]步骤十一:将多模态社交媒体数据中的目标评价属性与英文文本进行拼接,得到新句子,并将新句子分别与图片人脸描述和关于图片场景信息的中性文本描述进行拼接,并将拼接结果分别利用预训练语言模型进行处理,得到包含人脸描述信息的句子表示和包含场景信息的句子表示;
[0017]步骤十二:将包含人脸描述信息的句子表示和包含场景信息的句子表示进行融合,得到多模态融合表示;
[0018]步骤十三:将多模态融合表示送入线性分类层得到对于目标评价属性的情感分类预测结果。
[0019]进一步的,所述识别并切分出图像中的全部人脸通过面部识别模型DeepFace进行。
[0020]进一步的,所述图片中人脸的面部属性信息通过DeepFace工具中人脸属性预测模型得到。
[0021]进一步的,所述面部属性信息包括:年龄、人种、性别、表情预测信息及置信度;
[0022]其中,年龄为0~120的整数预测,人种为亚洲人、白人、中东人、印度人、拉丁裔和黑人六分类预测,性别为男女二分类预测,表情为愤怒、恐惧、中立、悲伤、厌恶、快乐和惊讶七分类预测。
[0023]进一步的,所述句子进行编码通过预训练图文模型CLIP的文本编码器进行,图片进行编码通过预训练图文模型CLIP的图像编码器进行,表示为:
[0024]H
D&A
=Text_Encoder(concat(D,A))
[0025]H
V
=Image_Encoder(V)
[0026]其中concat为文本拼接函数,Text_Encoder为预训练图文模型CLIP的文本编码器,Image_Encoder为预训练图文模型CLIP的图像编码器,A为目标评价属性,D为面部描述文本,V代表图像,H
D&A
和H
V
分别代表输出的编码表示。
[0027]进一步的,所述步骤七中图片向量表示与文本向量表示的余弦相似度通过L2正则化得到,表示为:
[0028]H'
D&A
=L2_Normalize(H
D&A
·
W
D&A
)
[0029]H'
V
=L2_Normalize(H
V
·
W
V
)
[0030]L=(H'
V
·
(H'
D&A
)
T
)*e
t
[0031]其中,W
D&A
和W
V
是可学习权重,t是CLIP模型中的温度标度,e是自然对数的底,L为图文向量的余弦相似度,H'
D&A
和H'
V
分别为经过L2正则化后的中间向量表示。
[0032]进一步的,所述关于图片场景信息的中性文本描述通过图片描述生成模型得到,表示为:
[0033]C=Caption

Transformer(V)
[0034]其中,C为关于图片场景信息的中性文本描述,Caption_Transformer为预训练的图文生成模型,V代表图片。
[0035]进一步的,所述步骤十二中将包含人脸描述信息的句子表示和包含场景信息的句子表示进行融合通过门控机制进行。
[0036]进一步的,所述门控机制具体表示为:
[0037][0038][0039]p(y|H)=softmax(WH+b)
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于跨模态翻译的属性级多模态情感分类方法,其特征在于包括以下步骤;步骤一:获取多模态社交媒体数据,所述多模态社交媒体数据包括目标评价属性、英文文本以及单张图片;步骤二:基于多模态社交媒体数据中的单张图片,识别并切分出图片中的全部人脸,若图片中含有人脸,则执行步骤三,若图片中不含有人脸,则生成图片人脸描述,并执行步骤十;步骤三:获取图片中人脸的面部属性信息;步骤四:将图片中人脸的面部属性信息转化为面部描述文本;步骤五:判断图片中人脸为单张人脸或多张人脸,若为单张人脸,则根据面部描述文本生成图片人脸描述,并执行步骤十,若为多张人脸,则将目标评价属性与步骤四中的面部描述文本进行拼接后,得到句子,之后将句子进行编码,得到文本向量表示;步骤六:将多模态社交媒体数据中的单张图片进行编码,得到图片向量表示;步骤七:计算图片向量表示与文本向量表示的余弦相似度,并选取余弦相似度最高的文本向量表示对应的面部描述文本;步骤八:针对步骤七中得到的面部描述文本,仅保留表情预测信息以及目标评价属性;步骤九:将面部描述文本中表情预测信息以及目标评价属性进行拼接,得到图片人脸描述;步骤十:基于多模态社交媒体数据中的单张图片,生成关于图片场景信息的中性文本描述;步骤十一:将多模态社交媒体数据中的目标评价属性与英文文本进行拼接,得到新句子,并将新句子分别与图片人脸描述和关于图片场景信息的中性文本描述进行拼接,并将拼接结果分别利用预训练语言模型进行处理,得到包含人脸描述信息的句子表示和包含场景信息的句子表示;步骤十二:将包含人脸描述信息的句子表示和包含场景信息的句子表示进行融合,得到多模态融合表示;步骤十三:将多模态融合表示送入线性分类层得到对于目标评价属性的情感分类预测结果。2.根据权利要求1所述的一种基于跨模态翻译的属性级多模态情感分类方法,其特征在于所述识别并切分出图像中的全部人脸通过面部识别模型DeepFace进行。3.根据权利要求1所述的一种基于跨模态翻译的属性级多模态情感分类方法,其特征在于所述图片中人脸的面部属性信息通过DeepFace工具中人脸属性预测模型得到。4.根据权利要求3所述的一种基于跨模态翻译的属性级多模态情感分类方法,其特征在于所述面部属性信息包括:年龄、人种、性别、表情预测信息及置信度;其中,年龄为0~120的整数预测,人种为亚洲人、白人、中东人、印度人、拉丁裔和黑人六分类预测,性别为男女二分类预测,表情为愤怒、恐惧、中立、悲伤、厌恶、快乐和惊讶七分类预测。5.根据权利要求1所述的一种基于跨模态翻译的属性级多模态情感分类方法,其特征在于所述句子进行编码通过预训练图文模型CLIP的文本编码器进行,图片进行编码通过预训练图文模型CLIP的图像编码器进行,表示为:
H
D&A
=Text_Encoder(concat(D,A))H
V
=Image_Encoder(V)其中concat为文本拼接函数,Text_Encoder为预训练图文模型CLIP的...

【专利技术属性】
技术研发人员:赵妍妍杨浩车万翔秦兵
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1