信息识别方法、装置、电子设备、存储介质及程序产品制造方法及图纸

技术编号：39297751 阅读：9 留言：0更新日期：2023-11-07 11:05

本申请实施例提供了一种信息识别方法、装置、电子设备、存储介质及程序产品，涉及人工智能技术领域，可应用于内容审核场景。该方法包括：通过对抗训练得到的对抗特征识别模型，识别出目标文本信息中各元素分别对应的目标对抗类别，并基于该目标对抗类别获取相应的对抗特征；每个对抗类别对应一个特征向量；通过多模态特征融合模型，获取目标文本信息中至少两个不同模态的特征信息，并融合该特征信息，得到多模态特征；通过分类模型，基于融合对抗特征和多模态特征所得的融合特征进行文本分类，以基于文本分类结果确定目标文本信息是否存在敏感信息。本申请的实施可以提升各种下游算法模型在对抗领域的识别能力，有利于提高内容审核的准确度。审核的准确度。审核的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
信息识别方法、装置、电子设备、存储介质及程序产品

[0001]本申请涉及人工智能
，具体而言，本申请涉及一种信息识别方法、装置、电子设备、存储介质及程序产品。

技术介绍

[0002]随着互联网的发展，网络上出现越来越多的内容产品，如用于新闻发布、视频分享、社交等的产品。为保障产品中被操作对象消费的内容的安全和健康，在内容通过网络面向操作对象之前需要进行安全审核，以避免低俗、具有错误引导性等的敏感内容通过网络流传。
[0003]然而，在现有的安全审核机制下，发现存在采取对抗手段规避审核的策略，如在一个带有敏感信息的词语中插入任意符号，以破坏该词语的语义，规避审核，导致内容审核的准确性低，使得内容产品的应用存在极大的安全风险。

技术实现思路

[0004]本申请实施例为解决上述至少一项技术问题，提供了一种信息识别方法、装置、电子设备、存储介质及程序产品。所述技术方案如下：
[0005]第一方面，本申请实施例提供了一种信息识别方法，包括：
[0006]通过对抗训练得到的对抗特征识别模型，对目标文本信息中的各个元素进行分类，确定出各个元素分别对应的目标对抗类别，并基于该目标对抗类别获取相应的对抗特征；其中，每个预设的对抗类别对应一个特征向量；
[0007]通过预训练的多模态特征融合模型，获取所述目标文本信息中至少两个不同模态的特征信息，并对该特征信息进行特征融合处理，得到多模态特征；所述模态指示文本的表达形式；
[0008]通过预训练的分类模型，基于融合所述对抗特征...

【技术保护点】

【技术特征摘要】
1.一种信息识别方法，其特征在于，包括：通过对抗训练得到的对抗特征识别模型，对目标文本信息中的各个元素进行分类，确定出各个元素分别对应的目标对抗类别，并基于该目标对抗类别获取相应的对抗特征；其中，每个预设的对抗类别对应一个特征向量；通过预训练的多模态特征融合模型，获取所述目标文本信息中至少两个不同模态的特征信息，并对该特征信息进行特征融合处理，得到多模态特征；所述模态指示文本的表达形式；通过预训练的分类模型，基于融合所述对抗特征和所述多模态特征所得的融合特征进行文本分类，以基于文本分类结果确定所述目标文本信息是否存在敏感信息。2.根据权利要求1所述的方法，其特征在于，所述通过对抗训练得到的对抗特征识别模型，对目标文本信息中的各个元素进行分类，确定出各个元素分别对应的对抗类别，并基于该对抗类别获取相应的对抗特征，包括：通过所述对抗特征识别模型的元素提取模块，基于所述对抗特征识别模型所处理元素的级别，对所述目标文本信息进行元素提取，得到多个元素，该多个元素对应于至少一个级别；通过所述对抗特征识别模型的分类模块，针对每一级别的每一元素，根据所述目标文本信息中的上下文进行分类，确定出各个元素分别对应的目标对抗类别；通过所述对抗特征识别模型的输出模块，基于与各目标对抗类别对应的特征向量确定所述目标文本信息的对抗特征；其中，所述级别包括字符级、单词级、语句级和隐层向量级中的至少一项。3.根据权利要求1或2所述的方法，其特征在于，所述目标文本信息通过下述操作得到：若待识别的文本信息中存在与预设字典中的信息无法匹配的目标元素，则基于预存储的元素间的映射关系针对所述目标元素进行数据映射处理，以将所述目标元素替换为与其具有映射关系的元素，得到目标文本信息；其中，所述待识别的文本信息包括从获取到的多媒体信息中进行文本提取所得的信息；所述元素间的映射关系包括预设的第一元素与预设的第二元素之间的映射关系以及任一元素与预设标准字符之间的映射关系。4.根据权利要求3所述的方法，其特征在于，所述通过对抗训练得到的对抗特征识别模型，对目标文本信息中的各个元素进行分类，确定出各个元素分别对应的目标对抗类别，包括：通过所述对抗特征识别模型的分类模块，对所述目标文本信息中的各个元素进行分类，确定出各个元素分别对应的第一对抗类别；通过所述对抗特征识别模型的后处理模块，调整所述目标元素所对应的第一对抗类别，得到与各个元素分别对应的目标对抗类别。5.根据权利要求1所述的方法，其特征在于，所述获取所述目标文本信息中至少两个不同模态的特征信息，并对该特征信息进行特征融合处理，得到多模态特征，包括：对所述目标文本信息进行特征提取，得到至少两个不同模态的特征信息；针对各项特征信息进行特征向量转换，得到相应的特征向量，并针对各项特征向量进行拼接得到总特征向量；
基于所述总特征向量、针对各模态预设的权重矩阵与偏置信息确定与各模态对应的模态特征；基于所述特征向量和所述模态特征进行特征拼接，得到多模态特征。6.根据权利要求1所述的方法，其特征在于，适应于汉语的信息识别处理，所述特征信息包括语义特征、拼音特征、字形特征和偏旁特征中的至少两种模态信息；所述多模态特征融合模型中包括用于进行特征融合的至少一个特征层，该特征层与模态的对应关系基于各模态对应的预设权重系数确定，预设权重系数越大，相应特征层的执行顺序越早；通过所述多模态特征融合模型对特征信息进行特征融合处理，得到多模态特征，包括：...

【专利技术属性】
技术研发人员：刘晓龙，李博，郝彦超，陈曦，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人