不良信息的识别方法、装置和系统制造方法及图纸

技术编号:33338077 阅读:12 留言:0更新日期:2022-05-08 09:21
本公开涉及不良信息的识别方法、装置和系统。公开了一种不良信息的识别方法,包括:将待识别数据输入机器学习模型以识别不良信息及其一个或多个类别的第一集合;将待识别数据输入敏感词匹配算法以识别不良信息及其一个或多个类别的第二集合;确定第一集合中的每个类别的第一可能性值,第一可能性值表示不良信息为第一集合中的每个类别的可能性;确定第二集合中的每个类别的第二可能性值,第二可能性值表示不良信息为第二集合中的每个类别的可能性;以及将每个类别的第一可能性值和第二可能性值相加得到每个类别的总可能性值,并将具有最大总可能性值的一个或多个类别确定为不良信息的类别。信息的类别。信息的类别。

【技术实现步骤摘要】
不良信息的识别方法、装置和系统


[0001]本公开总体涉及内容安全领域,更具体地涉及不良信息的识别。

技术介绍

[0002]不良信息的智能识别是内容安全的核心技术。文本类不良信息识别的技术主要有两种:敏感词库匹配识别;基于对不良信息样本监督学习的机器分类模型识别。这两种技术不仅能够从文本中识别出不良信息,还能够识别不良信息的类别。目前的不良信息识别方法有以下几种:
[0003]1)选取其中一种技术实现;
[0004]2)通过串行两种技术进行不良信息二次过滤,即先使用一种技术进行不良信息的分类识别,之后使用另一种技术对被识别成不良信息的文本进行二次识别;以及
[0005]3)通过并行两种技术,去重合并识别结果,即分别通过两种技术各自对文本进行识别,然后将结果简单合并。
[0006]以上方法中存在以下缺陷:
[0007]1)若只依赖敏感词库匹配技术,会丢失对文本信息的语义信息,造成误报率高;若只依赖于机器学习的分类模型,对训练样本的要求高,需要大量均衡的不良信息样本,同时实时更新比较困难;
[0008]2)串行两种技术,虽然兼顾了对语义理解的识别,但简单地将识别结果二次过滤仍会造成高误报率;以及
[0009]3)并行两种技术。然后将结果简单合并,可以实现更全面的识别,但无法提高识别的准确率。

技术实现思路

[0010]在下文中给出了关于本公开的简要概述,以便提供关于本公开的一些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。
[0011]为了解决现有技术所存在的问题。提出了一种新型不良信息识别方法、装置和系统,综合考虑敏感词匹配方法和机器学习模型分类方法在不同类别标签中的准确率表现,通过对分类结果的可能性值(V
m
)的计算实现不同方法在最终输出结果中的影响占比,从而得出更为准确的分类结果。
[0012]根据本专利技术一个方面,提供了一种不良信息的识别方法,包括:将待识别数据输入机器学习模型以识别不良信息及其一个或多个类别的第一集合;将待识别数据输入敏感词匹配算法以识别不良信息及其一个或多个类别的第二集合;确定第一集合中的每个类别的第一可能性值,第一可能性值表示不良信息为第一集合中的每个类别的可能性;确定第二集合中的每个类别的第二可能性值,第二可能性值表示不良信息为第二集合中的每个类别
的可能性;以及将每个类别的第一可能性值和第二可能性值相加得到每个类别的总可能性值,并将具有最大总可能性值的一个或多个类别确定为不良信息的类别。
[0013]根据本专利技术的另一个方面,提供了一种不良信息的识别装置,包括:存储器,存储有计算机可执行指令;以及处理器,被配置为当执行存储器中存储的计算机可执行指令时,实现如以上方面所述的方法。
[0014]根据本公开的又一个方面,提供一种计算机可读存储介质,其包括计算机可执行指令,所述计算机可执行指令在由一个或多个处理器执行时,使得所述一个或多个处理器执行根据本公开的上述方面所述的方法
附图说明
[0015]构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
[0016]参照附图,根据下面的详细描述,可以更清楚地理解本公开,其中:
[0017]图1示出了根据本专利技术一个实施例的不良信息识别方法的流程图;
[0018]图2示出了根据本专利技术一个实施例的敏感词匹配算法和机器学习模型的测试方法的流程图;
[0019]图3示出了根据本专利技术一个实例的不良信息识别方法的流程图;
[0020]图4示出了根据本专利技术一个实施例的不良信息识别装置的框图;
具体实施方式
[0021]参考附图进行以下详细描述,并且提供以下详细描述以帮助全面理解本公开的各种示例实施例。以下描述包括各种细节以帮助理解,但是这些细节仅被认为是示例,而不是为了限制本公开,本公开是由随附权利要求及其等同内容限定的。在以下描述中使用的词语和短语仅用于能够清楚一致地理解本公开。另外,为了清楚和简洁起见,可能省略了对公知的结构、功能和配置的描述。本领域普通技术人员将认识到,在不脱离本公开的精神和范围的情况下,可以对本文描述的示例进行各种改变和修改。
[0022]敏感词匹配算法和机器学习模型对于不同类型的不良信息有着不同的识别准确率或误差率。例如,一种敏感词匹配算法可能对于类型A的不良信息有着较高的识别误差率,而对于类型B的不良信息识别误差率较低。相比较而言,一种机器学习模型可能对于类型B的不良信息有着较高的识别误差率,而对于类型A的不良信息识别误差率较低。
[0023]本专利技术考虑了敏感词匹配算法和机器学习模型的这种特点,针对敏感词匹配算法和机器学习模型所输出的每种不良信息类别标签分别计算其可能性,并将计算结果整合,从而判断哪一种或多种类型最有可能。请注意,本专利技术的应用不限于特定的敏感词匹配算法和机器学习算法。
[0024]下面参照附图说明本专利技术的不良信息的识别方法。
[0025]图1示出了根据本专利技术的一个实施例的不良信息的识别方法的流程图。
[0026]首先,在步骤101中,将待识别数据输入机器学习模型以识别不良信息及其一个或多个类别的第一集合,然后在步骤102中,将同样的待识别数据输入敏感词匹配算法以识别不良信息及其一个或多个类别的第二集合。其中待识别数据可以来自文本数据。例如,网站
上抓取一段待识别的文本。优选地,可以将文本数据进行预处理,例如将文本数据转化成向量数据,以便输入敏感词匹配算法和机器学习模型。
[0027]步骤101和步骤102执行的先后次序没有限制。优选地,也可以并行执行步骤101和102。
[0028]在将待识别数据输入机器学习模型后,机器学习模型输出识别出的不良信息及其中标类别标签。识别出的不良信息可以是词语或句子。类别标签是表示相应类别的符号。例如,暴力类别的类别标签可以是“m”,而色情类别的类别标签可以是“n”,等等。关于一条不良信息,中标类别可以为一个或多个。类似地,敏感词匹配算法在识别不良信息的同时也可以输出不良信息的一个或多个中标类别标签。
[0029]在步骤103中,确定第一集合中的每个类别的第一可能性值。第一可能性值表示机器学习模型所识别出的不良信息为对应类别的可能性。在一个实施例中,可能性值越大,可能性越大,这样使得结果非常直观。
[0030]第一可能性值与所使用的机器学习模型识别每个类别的误差率相关。不同的机器学习模型对于同一类别的不良信息可能会有不同的识别误差率。
[0031]此外,第一可能性值还与机器学习算法输出的分类概率相关。分类概率为机器学习模型特有的参数。例如,其通常为神经网络Softmax层的输出。机器学习模型在输出一条不良信息的一个或本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种不良信息的识别方法,包括:将待识别数据输入机器学习模型以识别不良信息及其一个或多个类别的第一集合;将待识别数据输入敏感词匹配算法以识别不良信息及其一个或多个类别的第二集合;确定第一集合中的每个类别的第一可能性值,第一可能性值表示不良信息为第一集合中的相应类别的可能性;确定第二集合中的每个类别的第二可能性值,第二可能性值表示不良信息为第二集合中的相应类别的可能性;以及将每个类别的第一可能性值和第二可能性值相加得到每个类别的总可能性值,并将具有最大总可能性值的一个或多个类别确定为不良信息的类别。2.如权利要求1所述的识别方法,其中,确定第一集合中的每个类别的第一可能性值包括:基于机器学习模型针对每个类别的分类概率和机器学习模型识别每个类别的误差率来计算第一集合中每个类别的第一可能性值。3.如权利要求1所述的识别方法,其中,确定所述不良信息为第二集合中的每个类别的第二可能性值包括:基于敏感词匹配算法的总体准确率和敏感词匹配算法识别每个类别的误差率来计算第二集合中每个类别的第二可能性值。4.如权利要求2所述的识别方法,还包括:将机器学习模型识别每个类别的误差率转换为泛化系数,其中误差率越小,所述泛化系数越大。5.如权利要求3所述的识别方法,还包括:将敏感词匹配算法识别每个类别的误差率转换为泛化系数,其中误差率越小,所述泛化系数越大。6.如权利要求2所述的识别方法,其中,机器学习模型针对每个类别的分类概率和机器学习模型识别每个类别的误差率是通过将测试数据集输入机器学习模型进行测试,并对测试的分类结果进行统计分析得到的。7.如权利要求3所述的识别方法,其中,敏感词匹配算法的总体准确率和敏感词匹配算法识别每个类别的误差率是通过...

【专利技术属性】
技术研发人员:汪少敏王铮杨迪任华马兆铭渠凯田庆华
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1