System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于多模态大模型的内容安全审核方法、系统、设备及介质技术方案_技高网

一种基于多模态大模型的内容安全审核方法、系统、设备及介质技术方案

技术编号:44975969 阅读:4 留言:0更新日期:2025-04-15 16:57
本发明专利技术提出一种基于多模态大模型的内容安全审核方法、系统、设备及介质,其方法包括:获取待审核数据,所述待审核数据为图像和/或文本;基于图像编码模块和/或文本编码模块对所述待审核数据进行图像编码和/或文本编码,得到第一目标特征;获取用户自定义的审核标准,基于所述文本编码模块对所述审核标准进行文本编码,得到第二目标特征;基于预构建的大模型模块对所述第一目标特征和所述第二目标特征进行审核推理,再经输出层模块输出预测结果。本发明专利技术用户可自定义审核标准,解决了审核标准多样性和动态内容的挑战,使得审核推理结果具有更高的正确率、速度和灵活性。

【技术实现步骤摘要】

本专利技术涉及人工智能,尤其涉及一种基于多模态大模型的内容安全审核方法、系统、设备及介质


技术介绍

1、安全内容审核通常应用于需要维护网络环境健康、保护用户免受不当信息侵害的各个领域,应用场景包括社交媒体平台、金融、电子商务和公用事业等领域。目前安全内容审核主要采用正则化规则策略、计算机视觉、自然语音处理等方法,这些常规方法解决了一部分内容审核的问题,但是面对多模态内容审核,常规技术很难利用各个模态的信息进行融合并端到端学习,准确性不高;且面对不同场景的内容审核,用户的标准是不一样的,在特定场景中合规,而在其他情况下可能被视为违规,常规技术无法适应不同场景的内容审核,这给现有技术的泛化能力提出了很大的挑战。


技术实现思路

1、本专利技术实施例提供一种基于多模态大模型的内容安全审核方法、系统、设备及介质,以解决相关技术存在的问题,技术方案如下:

2、第一方面,本专利技术实施例提供了一种基于多模态大模型的内容安全审核方法,包括:

3、获取待审核数据,待审核数据为图像和/或文本;基于图像编码模块和/或文本编码模块对待审核数据进行图像编码和/或文本编码,得到第一目标特征;

4、获取用户自定义的审核标准,基于文本编码模块对审核标准进行文本编码,得到第二目标特征;

5、基于预构建的大模型模块对第一目标特征和第二目标特征进行审核推理,再经输出层模块输出用于内容安全审核的预测结果。

6、在一种实施方式中,还包括:

7、获取数据集,数据集包括预训练数据集、微调训练数据集以及测试数据集;其中,预训练数据集包括图像和文本的数据对;微调训练数据集为图像、文本、用户自定义的审核标准标签中多种类型数据的组合;测试数据集为图像、文本、用户自定义的审核标准标签中多种类型数据的组合;

8、基于数据集对多模态大模型进行训练,得到最优多模态大模型,最优多模态大模型用于对待审核数据以及审核标准进行审核推理,输出预测结果;多模态大模型包括图像编码模块、文本编码模块、大模型模块以及输出层模块。

9、在一种实施方式中,基于图像编码模块和/或文本编码模块对待审核数据进行图像编码和/或文本编码,得到第一目标特征包括:

10、在待审核数据为图像的情况下,基于卷积下采样模型对图像进行处理,输出64*64*256的第一特征层;

11、第一特征层经卷积位置感知transformer模块输出64*64*256的第二特征层,卷积位置感知transformer模块是由12个卷积位置感知transformer block串联组成;

12、通过信息压缩卷积模块对第二特征层进行处理,输出16*16*1024的第三特征层;

13、将第三特征层转换为256*1024特征层后输入图像通道对齐模型,输出256*768的特征层,以得到图像对应的第一目标特征。

14、在一种实施方式中,基于图像编码模块和/或文本编码模块对待审核数据进行图像编码和/或文本编码,得到第一目标特征包括:

15、在待审核数据为文本的情况下,对文本进行分词得到多个子词,基于预构建的词汇表将多个子词映射成多个唯一编码;

16、基于文本嵌入模型以及位置嵌入模块将多个唯一编码映射为多个维度为1024的高维空间向量,得到n*1024的高维向量;

17、将n*1024的高维向量输入transformer block模块,输出n*1024特征层;

18、将n*1024特征层经文本通道对齐模块输出n*768的特征层,以得到文本对应的第一目标特征。

19、在一种实施方式中,基于预构建的大模型模块对第一目标特征和第二目标特征进行审核推理,再经输出层模块输出用于内容安全审核的预测结果包括:

20、将第一目标特征以及第二目标特征导入安全专家模块进行特征层合并,输出为(256+n)*768特征层;

21、将(256+n)*768特征层输入至自注意力网络,得到注意力输出矩阵;

22、基于前馈网络模块对注意力输出矩阵进行非线性变换,输出(256+n)*768特征层,得到前馈网络输出矩阵;

23、通过输出层模块对前馈网络输出矩阵进行线性层映射,输出logits矩阵,根据logits矩阵输出用于内容安全审核的预测结果。

24、在一种实施方式中,安全专家模块包括24个安全专家transformer block,每个安全专家transformer block包括自注意力网络、内容安全图像专家和内容安全文本专家;其中,自注意力网络与内容安全图像专家串行,自注意力网络与内容安全文本专家串行,内容安全图像专家和内容安全文本专家并行。

25、在一种实施方式中,内容安全图像专家是由第一全连接层和第二全连接层串联组成,第一全连接层的输入特征数为768,输出特征数为1536,第二全连接层的输入特征数为1536,输出特征数为768;内容安全文本专家和内容安全图像专家结构相同。

26、第二方面,本专利技术实施例提供了一种基于多模态大模型的内容安全审核系统,执行如上述的基于多模态大模型的内容安全审核方法。

27、第三方面,本专利技术实施例提供了一种电子设备,该装置包括:存储器和处理器。其中,该存储器和该处理器通过内部连接通路互相通信,该存储器用于存储指令,该处理器用于执行该存储器存储的指令,并且当该处理器执行该存储器存储的指令时,使得该处理器执行上述各方面任一种实施方式中的方法。

28、第四方面,本专利技术实施例提供了一种计算机可读存储介质,计算机可读存储介质存储计算机程序,当计算机程序在计算机上运行时,上述各方面任一种实施方式中的方法被执行。

29、上述技术方案中的优点或有益效果至少包括:

30、本专利技术将多模态大模型引入内容安全审核中,实现了审核的自动化和智能化;待审核数据经过图像编码和/或文本编码实现对图像和/或文本的细粒度理解,为后续推理阶段用户自定义审核标准做铺垫,大大地提高了算法的准确性和灵活性;同时加入用户自定义的审核标准标签,将待审核数据以及审核标准标签导入内容安全专属的多模态大模型网络进行审核推理,使得用户可以在推理阶段自定义审核标准,解决了审核标准多样性和动态内容的挑战,使得审核推理结果具有更高的正确率、速度和灵活性。

31、上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本专利技术进一步的方面、实施方式和特征将会是容易明白的。

本文档来自技高网...

【技术保护点】

1.一种基于多模态大模型的内容安全审核方法,其特征在于,包括:

2.根据权利要求1所述的基于多模态大模型的内容安全审核方法,其特征在于,还包括:

3.根据权利要求1所述的基于多模态大模型的内容安全审核方法,其特征在于,所述基于图像编码模块和/或文本编码模块对所述待审核数据进行图像编码和/或文本编码,得到第一目标特征包括:

4.根据权利要求1所述的基于多模态大模型的内容安全审核方法,其特征在于,所述基于图像编码模块和/或文本编码模块对所述待审核数据进行图像编码和/或文本编码,得到第一目标特征包括:

5.根据权利要求1所述的基于多模态大模型的内容安全审核方法,其特征在于,所述基于预构建的大模型模块对所述第一目标特征和所述第二目标特征进行审核推理,再经输出层模块输出用于内容安全审核的预测结果包括:

6.根据权利要求5所述的基于多模态大模型的内容安全审核方法,其特征在于,所述安全专家模块包括24个安全专家transformer block,每个安全专家transformer block包括自注意力网络、内容安全图像专家和内容安全文本专家;其中,自注意力网络与内容安全图像专家串行,自注意力网络与内容安全文本专家串行,内容安全图像专家和内容安全文本专家并行。

7.根据权利要求6所述的基于多模态大模型的内容安全审核方法,其特征在于,所述内容安全图像专家是由第一全连接层和第二全连接层串联组成,所述第一全连接层的输入特征数为768,输出特征数为1536,所述第二全连接层的输入特征数为1536,输出特征数为768;所述内容安全文本专家和所述内容安全图像专家结构相同。

8.一种基于多模态大模型的内容安全审核系统,其特征在于,执行如权利要求1~7任一所述的基于多模态大模型的内容安全审核方法。

9.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器中存储指令,所述指令由处理器加载并执行,以实现如权利要求1~7任一所述的基于多模态大模型的内容安全审核方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1~7任一所述的基于多模态大模型的内容安全审核方法。

...

【技术特征摘要】

1.一种基于多模态大模型的内容安全审核方法,其特征在于,包括:

2.根据权利要求1所述的基于多模态大模型的内容安全审核方法,其特征在于,还包括:

3.根据权利要求1所述的基于多模态大模型的内容安全审核方法,其特征在于,所述基于图像编码模块和/或文本编码模块对所述待审核数据进行图像编码和/或文本编码,得到第一目标特征包括:

4.根据权利要求1所述的基于多模态大模型的内容安全审核方法,其特征在于,所述基于图像编码模块和/或文本编码模块对所述待审核数据进行图像编码和/或文本编码,得到第一目标特征包括:

5.根据权利要求1所述的基于多模态大模型的内容安全审核方法,其特征在于,所述基于预构建的大模型模块对所述第一目标特征和所述第二目标特征进行审核推理,再经输出层模块输出用于内容安全审核的预测结果包括:

6.根据权利要求5所述的基于多模态大模型的内容安全审核方法,其特征在于,所述安全专家模块包括24个安全专家transformer block,每个安全专家transformer block包括自注意力网络、内容安全...

【专利技术属性】
技术研发人员:黄坤山蔡伟武饶丹邵艾青李俸虎
申请(专利权)人:广东亿迅科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1