本发明专利技术涉及社交媒体内容识别技术领域,公开了一种大模型结合双路记忆的多模态有害社交媒体内容识别方法,包括以下步骤:利用图像编码器提取图像的图像特征;利用文本嵌入模块,提取文本的文本特征;应用双通道记忆模块对图像特征以及文本特征建模,得到图像向量以及文本向量;利用大模型进行标签预测:图像向量以及文本向量输入到大模型中,生成标签
【技术实现步骤摘要】
大模型结合双路记忆的多模态有害社交媒体内容识别方法
[0001]本专利技术涉及社交媒体内容识别
,具体涉及一种大模型结合双路记忆的多模态有害社交媒体内容识别方法
。
技术介绍
[0002]在社交媒体中存在大量多模态信息(例如表情包等内容),这些信息中可能包含有害信息(例如表情包及其配套文字中包括有害信息),对这些信息的识别需要对图像及文本进行有效的处理及组合
。
[0003]现有技术没有利用大语言模型的文本建模能力,同时现有的跨模态信息组合方法使用串联多模态特征或者计算多模态特征的外积,实现多模态信息组合,不足以满足任务对多模态信息共同理解的需求
。
技术实现思路
[0004]为解决上述技术问题,本专利技术提供一种大模型结合双路记忆的多模态有害社交媒体内容识别方法
。
本专利技术利用提出的双通道记忆网络,在记忆语义空间内实现多模态信息的有效对齐,并利用大模型的语言建模能力提升多模态有害内容的识别性能
。
[0005]为解决上述技术问题,本专利技术采用如下技术方案:一种大模型结合双路记忆的多模态有害社交媒体内容识别方法,输入给定的图像和文本,输出用于判断多模态输入是否有害的标签,具体包括:步骤一:利用图像编码器提取图像的图像特征;步骤二:利用文本嵌入模块,提取文本的文本特征;步骤三:应用双通道记忆模块对图像特征以及文本特征建模,分别得到图像向量以及文本向量;其中,双通道记忆模块包括
N
个记忆向量,以及视觉通道和文本通道;视觉通道和文本通道分别编码图像特征和文本特征;记忆向量是双通道记忆模块的参数,表示记忆语义空间,记为,为第个记忆向量;视觉通道编码图像特征的过程,包括以下步骤:
S31
:计算基于图像特征的不同记忆向量的权重,得到第个记忆向量的视觉权重分数;
S32
:将应用到相应的记忆向量,计算所有记忆向量的加权和,得到对齐后的图像特征;
S33
:串联对齐后的图像特征和图像特征,得到视觉通道输出的图像向量;文本通道编码文本特征的过程,包括以下步骤:
S34
:计算基于文本特征的不同记忆向量的权重,得到第个记忆向量的文本权重分数;
S35
:将应用到相应的记忆向量,计算所有记忆向量的加权和,得到对齐后的文
本特征;
S36
:串联对齐后的文本特征和文本特征,得到文本通道输出的文本向量;步骤四,利用大模型进行标签预测:将图像向量以及文本向量输入到大模型中,生成标签
。
[0006]进一步地,步骤
S31
中,计算得到第个记忆向量的视觉权重分数时:;是一个可训练的参数矩阵;步骤
S32
中,将应用到相应的记忆向量,计算所有记忆向量的加权和并得到对齐后的图像特征时:;步骤
S33
中,串联对齐后的图像特征和图像特征,得到视觉通道输出的图像向量时:;其中,表示向量串联
。
[0007]进一步地,步骤
S34
中,计算得到第个记忆向量的文本权重分数时:;其中,是一个可训练的参数矩阵;步骤
S35
中,将应用到相应的记忆向量,计算所有记忆向量的加权和并得到对齐后的文本特征时:;步骤
S36
中,串联对齐后的文本特征和文本特征,得到文本通道输出的文本向量时:;其中,表示向量串联
。
[0008]与现有技术相比,本专利技术的有益技术效果是:利用大模型优秀的文本编码及表征能力,提升多模态有害内容识别的性能
。
[0009]通过双通道记忆模块,模型可以根据视觉特征为不同的记忆向量计算权重
。
这种权重分配使得模型能够更加准确地对信息进行对齐和融合
。
此外,视觉通道与文本通道采用相同的程序处理,确保了两种信息来源被平等且有效地考虑
。
附图说明
[0010]图1本专利技术的模型结构图
。
具体实施方式
[0011]下面结合附图对本专利技术的一种优选实施方式作详细的说明
。
[0012]本专利技术的模型结构如图1所示
。
本专利技术的任务是在给定图像和文本的条件下,识别出用于判断多模态输入是否有害的标签,具体包括以下步骤:步骤一:利用图像编码器提取图像的图像特征
。
本专利技术中的图像编码器采用
Vision Transformer
编码器
。
[0013]步骤二:利用文本嵌入模块,提取文本的文本特征
。
文本嵌入模块使用一个矩阵将文本中的每个词映射到向量,词表中第
i
个词对应的向量是矩阵中的第
i
行,然后把所有词的向量平均,得到文本特征
e。
[0014]步骤三:应用双通道记忆模块对图像特征以及文本特征建模,得到图像向量以及文本向量
。
[0015]步骤四,利用大模型进行标签预测:图像向量以及文本向量输入到大模型中,生成标签
。
本专利技术中的大模型采用
Chinese
‑
Aplaca。
[0016]其中,步骤三涉及的双通道记忆模块包括一组记忆向量以及两个独立的通道,即视觉通道和文本通道,分别编码图像特征和文本特征
。
记忆向量是双通道记忆模块的参数,表示记忆语义空间,记为,为第个记忆向量
。
[0017]视觉通道编码图像特征的过程,包括以下步骤:
S31
:计算基于图像特征的不同记忆向量的权重,得到第个记忆向量的视觉权重分数:;其中,是一个可训练的参数矩阵
。
[0018]S32
:将应用到相应的记忆向量,计算所有记忆向量的加权和,得到对齐后的图像特征:
。
[0019]S33
:串联对齐后的图像特征和图像特征,得到视觉通道输出的图像向量:;输出的图像向量将在大模型中使用
。
[0020]文本通道编码文本特征的过程,包括以下步骤:
S34
:计算基于文本特征的不同记忆向量的权重,得到第个记忆向量的文本权重分数:;其中,是一个可训练的参数矩阵
。
[0021]S35
:将应用到相应的记忆向量,计算所有记忆向量的加权和,得到对齐后的文本特征:
。
[0022]S36
:串联对齐后的文本特征和文本特征,得到文本通道输出的文本向量:;
输出的文本向量将在大模型中使用
。
[0023]对于本领域技术人员而言,显然本专利技术不限于上述示范性实施例的细节,而且在不背离本专利技术的精神或基本特征的情况下,能够以其他的具体形式实现本专利技术
。
因此无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本专利技术的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种大模型结合双路记忆的多模态有害社交媒体内容识别方法,输入给定的图像和文本,输出用于判断多模态输入是否有害的标签,具体包括:步骤一:利用图像编码器提取图像的图像特征;步骤二:利用文本嵌入模块,提取文本的文本特征;步骤三:应用双通道记忆模块对图像特征以及文本特征建模,分别得到图像向量以及文本向量;其中,双通道记忆模块包括
N
个记忆向量,以及视觉通道和文本通道;视觉通道和文本通道分别编码图像特征和文本特征;记忆向量是双通道记忆模块的参数,表示记忆语义空间,记为,为第个记忆向量;视觉通道编码图像特征的过程,包括以下步骤:
S31
:计算基于图像特征的不同记忆向量的权重,得到第个记忆向量的视觉权重分数;
S32
:将应用到相应的记忆向量,计算所有记忆向量的加权和,得到对齐后的图像特征;
S33
:串联对齐后的图像特征和图像特征,得到视觉通道输出的图像向量;文本通道编码文本特征的过程,包括以下步骤:
S34
:计算基于文本特征的不同记忆向量的权重,得到第个记忆向量的文本权重分数;
S35
:将应用到相应的记忆向量,计算所有记忆向量的加权和,得到对齐后的文本特征;
...
【专利技术属性】
技术研发人员:宋彦,张勇东,田元贺,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。