信息识别方法、装置、电子设备、存储介质及程序产品制造方法及图纸

技术编号:39297751 阅读:9 留言:0更新日期:2023-11-07 11:05
本申请实施例提供了一种信息识别方法、装置、电子设备、存储介质及程序产品,涉及人工智能技术领域,可应用于内容审核场景。该方法包括:通过对抗训练得到的对抗特征识别模型,识别出目标文本信息中各元素分别对应的目标对抗类别,并基于该目标对抗类别获取相应的对抗特征;每个对抗类别对应一个特征向量;通过多模态特征融合模型,获取目标文本信息中至少两个不同模态的特征信息,并融合该特征信息,得到多模态特征;通过分类模型,基于融合对抗特征和多模态特征所得的融合特征进行文本分类,以基于文本分类结果确定目标文本信息是否存在敏感信息。本申请的实施可以提升各种下游算法模型在对抗领域的识别能力,有利于提高内容审核的准确度。审核的准确度。审核的准确度。

【技术实现步骤摘要】
信息识别方法、装置、电子设备、存储介质及程序产品


[0001]本申请涉及人工智能
,具体而言,本申请涉及一种信息识别方法、装置、电子设备、存储介质及程序产品。

技术介绍

[0002]随着互联网的发展,网络上出现越来越多的内容产品,如用于新闻发布、视频分享、社交等的产品。为保障产品中被操作对象消费的内容的安全和健康,在内容通过网络面向操作对象之前需要进行安全审核,以避免低俗、具有错误引导性等的敏感内容通过网络流传。
[0003]然而,在现有的安全审核机制下,发现存在采取对抗手段规避审核的策略,如在一个带有敏感信息的词语中插入任意符号,以破坏该词语的语义,规避审核,导致内容审核的准确性低,使得内容产品的应用存在极大的安全风险。

技术实现思路

[0004]本申请实施例为解决上述至少一项技术问题,提供了一种信息识别方法、装置、电子设备、存储介质及程序产品。所述技术方案如下:
[0005]第一方面,本申请实施例提供了一种信息识别方法,包括:
[0006]通过对抗训练得到的对抗特征识别模型,对目标文本信息中的各个元素进行分类,确定出各个元素分别对应的目标对抗类别,并基于该目标对抗类别获取相应的对抗特征;其中,每个预设的对抗类别对应一个特征向量;
[0007]通过预训练的多模态特征融合模型,获取所述目标文本信息中至少两个不同模态的特征信息,并对该特征信息进行特征融合处理,得到多模态特征;所述模态指示文本的表达形式;
[0008]通过预训练的分类模型,基于融合所述对抗特征和所述多模态特征所得的融合特征进行文本分类,以基于文本分类结果确定所述目标文本信息是否存在敏感信息。
[0009]在一可行的实施例中,所述通过对抗训练得到的对抗特征识别模型,对目标文本信息中的各个元素进行分类,确定出各个元素分别对应的对抗类别,并基于该对抗类别获取相应的对抗特征,包括:
[0010]通过所述对抗特征识别模型的元素提取模块,基于所述对抗特征识别模型所处理元素的级别,对所述目标文本信息进行元素提取,得到多个元素,该多个元素对应于至少一个级别;
[0011]通过所述对抗特征识别模型的分类模块,针对每一级别的每一元素,根据所述目标文本信息中的上下文进行分类,确定出各个元素分别对应的目标对抗类别;
[0012]通过所述对抗特征识别模型的输出模块,基于与各目标对抗类别对应的特征向量确定所述目标文本信息的对抗特征;
[0013]其中,所述级别包括字符级、单词级、语句级和隐层向量级中的至少一项。
[0014]在一可行的实施例中,所述目标文本信息通过下述操作得到:
[0015]若待识别的文本信息中存在与预设字典中的信息无法匹配的目标元素,则基于预存储的元素间的映射关系针对所述目标元素进行数据映射处理,以将所述目标元素替换为与其具有映射关系的元素,得到目标文本信息;
[0016]其中,所述待识别的文本信息包括从获取到的多媒体信息中进行文本提取所得的信息;所述元素间的映射关系包括预设的第一元素与预设的第二元素之间的映射关系以及任一元素与预设标准字符之间的映射关系。
[0017]在一可行的实施例中,所述通过对抗训练得到的对抗特征识别模型,对目标文本信息中的各个元素进行分类,确定出各个元素分别对应的目标对抗类别,包括:
[0018]通过所述对抗特征识别模型的分类模块,对所述目标文本信息中的各个元素进行分类,确定出各个元素分别对应的第一对抗类别;
[0019]通过所述对抗特征识别模型的后处理模块,调整所述目标元素所对应的第一对抗类别,得到与各个元素分别对应的目标对抗类别。
[0020]在一可行的实施例中,所述获取所述目标文本信息中至少两个不同模态的特征信息,并对该特征信息进行特征融合处理,得到多模态特征,包括:
[0021]对所述目标文本信息进行特征提取,得到至少两个不同模态的特征信息;
[0022]针对各项特征信息进行特征向量转换,得到相应的特征向量,并针对各项特征向量进行拼接得到总特征向量;
[0023]基于所述总特征向量、针对各模态预设的权重矩阵与偏置信息确定与各模态对应的模态特征;
[0024]基于所述特征向量和所述模态特征进行特征拼接,得到多模态特征。
[0025]在一可行的实施例中,适应于汉语的信息识别处理,所述特征信息包括语义特征、拼音特征、字形特征和偏旁特征中的至少两项;所述多模态特征融合模型中包括用于进行特征融合的至少一个特征层,该特征层与模态的对应关系基于各模态对应的预设权重系数确定,预设权重系数越大,相应特征层的执行顺序越早;
[0026]通过所述多模态特征融合模型对特征信息进行特征融合处理,得到多模态特征,包括:
[0027]通过第一特征层,将预设权重系数最大的两个模态对应的特征信息进行拼接,得到第一特征层的输出;
[0028]重复执行下述拼接操作直至完成对所有模态的特征信息的融合处理,并将最后一层特征层的输出作为多模态特征:将上一特征层的输出与当前特征层所对应的特征信息进行拼接,得到当前特征层的输出。
[0029]在一可行的实施例中,所述通过预训练的分类模型,基于融合所述对抗特征和所述多模态特征所得的融合特征进行文本分类,包括:
[0030]通过所述分类模型中的第一编码模块,基于稀疏机制对所述对抗特征进行编码,得到第一特征;
[0031]通过所述分类模型中的第二编码模块,基于注意力机制对所述多模态特征进行编码,得到第二特征;
[0032]通过所述分类模型中的全连接模块,拼接所述第一特征和所述第二特征得到目标
特征,并基于所述目标特征进行文本分类;
[0033]其中,所述第一编码模块所处理信息的维度低于所述第二编码模块所处理信息的维度。
[0034]在一可行的实施例中,所述对抗特征识别模型通过下述对抗训练步骤而得:
[0035]获取原始样本,所述原始样本中包括对抗文本和非对抗文本;
[0036]基于所述原始样本和预设的对抗类别生成对抗样本;
[0037]基于所述原始样本和所述对抗样本训练自然语言处理模型,得到对抗特征识别模型;
[0038]其中,所述对抗类别基于对抗方式和元素类别确定而得,对抗方式包括无对抗、插入、合并、删除、替换中的至少一项,所述元素类别包括符号、数字、字母、单字中的至少一项;所述自然语言处理模型包括序列标注模型、生成式模型中的至少一项;所采用的自然语言处理模型与所需处理元素的级别相关,所述级别包括字符级、单词级、语句级和隐层向量级中的至少一项。
[0039]在一可行的实施例中,还包括:
[0040]若确定满足预设更新条件,则调整所述对抗类别,并基于调整后的对抗类别训练所述对抗特征识别模型,得到更新后的对抗特征识别模型,以用于后续的信息识别处理;
[0041]其中,所述预设更新条件包括以下至少一项:
[0042]所述文本分类的准确度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息识别方法,其特征在于,包括:通过对抗训练得到的对抗特征识别模型,对目标文本信息中的各个元素进行分类,确定出各个元素分别对应的目标对抗类别,并基于该目标对抗类别获取相应的对抗特征;其中,每个预设的对抗类别对应一个特征向量;通过预训练的多模态特征融合模型,获取所述目标文本信息中至少两个不同模态的特征信息,并对该特征信息进行特征融合处理,得到多模态特征;所述模态指示文本的表达形式;通过预训练的分类模型,基于融合所述对抗特征和所述多模态特征所得的融合特征进行文本分类,以基于文本分类结果确定所述目标文本信息是否存在敏感信息。2.根据权利要求1所述的方法,其特征在于,所述通过对抗训练得到的对抗特征识别模型,对目标文本信息中的各个元素进行分类,确定出各个元素分别对应的对抗类别,并基于该对抗类别获取相应的对抗特征,包括:通过所述对抗特征识别模型的元素提取模块,基于所述对抗特征识别模型所处理元素的级别,对所述目标文本信息进行元素提取,得到多个元素,该多个元素对应于至少一个级别;通过所述对抗特征识别模型的分类模块,针对每一级别的每一元素,根据所述目标文本信息中的上下文进行分类,确定出各个元素分别对应的目标对抗类别;通过所述对抗特征识别模型的输出模块,基于与各目标对抗类别对应的特征向量确定所述目标文本信息的对抗特征;其中,所述级别包括字符级、单词级、语句级和隐层向量级中的至少一项。3.根据权利要求1或2所述的方法,其特征在于,所述目标文本信息通过下述操作得到:若待识别的文本信息中存在与预设字典中的信息无法匹配的目标元素,则基于预存储的元素间的映射关系针对所述目标元素进行数据映射处理,以将所述目标元素替换为与其具有映射关系的元素,得到目标文本信息;其中,所述待识别的文本信息包括从获取到的多媒体信息中进行文本提取所得的信息;所述元素间的映射关系包括预设的第一元素与预设的第二元素之间的映射关系以及任一元素与预设标准字符之间的映射关系。4.根据权利要求3所述的方法,其特征在于,所述通过对抗训练得到的对抗特征识别模型,对目标文本信息中的各个元素进行分类,确定出各个元素分别对应的目标对抗类别,包括:通过所述对抗特征识别模型的分类模块,对所述目标文本信息中的各个元素进行分类,确定出各个元素分别对应的第一对抗类别;通过所述对抗特征识别模型的后处理模块,调整所述目标元素所对应的第一对抗类别,得到与各个元素分别对应的目标对抗类别。5.根据权利要求1所述的方法,其特征在于,所述获取所述目标文本信息中至少两个不同模态的特征信息,并对该特征信息进行特征融合处理,得到多模态特征,包括:对所述目标文本信息进行特征提取,得到至少两个不同模态的特征信息;针对各项特征信息进行特征向量转换,得到相应的特征向量,并针对各项特征向量进行拼接得到总特征向量;
基于所述总特征向量、针对各模态预设的权重矩阵与偏置信息确定与各模态对应的模态特征;基于所述特征向量和所述模态特征进行特征拼接,得到多模态特征。6.根据权利要求1所述的方法,其特征在于,适应于汉语的信息识别处理,所述特征信息包括语义特征、拼音特征、字形特征和偏旁特征中的至少两种模态信息;所述多模态特征融合模型中包括用于进行特征融合的至少一个特征层,该特征层与模态的对应关系基于各模态对应的预设权重系数确定,预设权重系数越大,相应特征层的执行顺序越早;通过所述多模态特征融合模型对特征信息进行特征融合处理,得到多模态特征,包括:...

【专利技术属性】
技术研发人员:刘晓龙李博郝彦超陈曦
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1