大模型结合双路记忆的多模态有害社交媒体内容识别方法技术

技术编号：39492454 阅读：31 留言：0更新日期：2023-11-24 11:14

本发明专利技术涉及社交媒体内容识别技术领域，公开了一种大模型结合双路记忆的多模态有害社交媒体内容识别方法，包括以下步骤：利用图像编码器提取图像的图像特征；利用文本嵌入模块，提取文本的文本特征；应用双通道记忆模块对图像特征以及文本特征建模，得到图像向量以及文本向量；利用大模型进行标签预测：图像向量以及文本向量输入到大模型中，生成标签

全部详细技术资料下载

【技术实现步骤摘要】
大模型结合双路记忆的多模态有害社交媒体内容识别方法

[0001]本专利技术涉及社交媒体内容识别
，具体涉及一种大模型结合双路记忆的多模态有害社交媒体内容识别方法
。

技术介绍

[0002]在社交媒体中存在大量多模态信息（例如表情包等内容），这些信息中可能包含有害信息（例如表情包及其配套文字中包括有害信息），对这些信息的识别需要对图像及文本进行有效的处理及组合
。
[0003]现有技术没有利用大语言模型的文本建模能力，同时现有的跨模态信息组合方法使用串联多模态特征或者计算多模态特征的外积，实现多模态信息组合，不足以满足任务对多模态信息共同理解的需求
。

技术实现思路

[0004]为解决上述技术问题，本专利技术提供一种大模型结合双路记忆的多模态有害社交媒体内容识别方法
。
本专利技术利用提出的双通道记忆网络，在记忆语义空间内实现多模态信息的有效对齐，并利用大模型的语言建模能力提升多模态有害内容的识别性能
。
[0005]为解决上述技术问题，本专利技术采用如下技术方案：一种大模型结合双路记忆的多模态有害社交媒体内容识别方法，输入给定的图像和文本，输出用于判断多模态输入是否有害的标签，具体包括：步骤一：利用图像编码器提取图像的图像特征；步骤二：利用文本嵌入模块，提取文本的文本特征；步骤三：应用双通道记忆模块对图像特征以及文本特征建模，分别得到图像向量以及文本向量；其中，双通道记忆模块包括
N
个记忆向量，以及视觉通道和文本通...

【技术保护点】

【技术特征摘要】
1.
一种大模型结合双路记忆的多模态有害社交媒体内容识别方法，输入给定的图像和文本，输出用于判断多模态输入是否有害的标签，具体包括：步骤一：利用图像编码器提取图像的图像特征；步骤二：利用文本嵌入模块，提取文本的文本特征；步骤三：应用双通道记忆模块对图像特征以及文本特征建模，分别得到图像向量以及文本向量；其中，双通道记忆模块包括
N
个记忆向量，以及视觉通道和文本通道；视觉通道和文本通道分别编码图像特征和文本特征；记忆向量是双通道记忆模块的参数，表示记忆语义空间，记为，为第个记忆向量；视觉通道编码图像特征的过程，包括以下步骤：
S31
：计算基于图像特征的不同记忆向量的权重，得到第个记忆向量的视觉权重分数；
S32
：将应用到相应的记忆向量，计算所有记忆向量的加权和，得到对齐后的图像特征；
S33
：串联对齐后的图像特征和图像特征，得到视觉通道输出的图像向量；文本通道编码文本特征的过程，包括以下步骤：
S34
：计算基于文本特征的不同记忆向量的权重，得到第个记忆向量的文本权重分数；
S35
：将应用到相应的记忆向量，计算所有记忆向量的加权和，得到对齐后的文本特征；
...

【专利技术属性】
技术研发人员：宋彦，张勇东，田元贺，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人