不良信息的识别方法、装置和系统制造方法及图纸

技术编号：33338077 阅读：12 留言：0更新日期：2022-05-08 09:21

本公开涉及不良信息的识别方法、装置和系统。公开了一种不良信息的识别方法，包括：将待识别数据输入机器学习模型以识别不良信息及其一个或多个类别的第一集合；将待识别数据输入敏感词匹配算法以识别不良信息及其一个或多个类别的第二集合；确定第一集合中的每个类别的第一可能性值，第一可能性值表示不良信息为第一集合中的每个类别的可能性；确定第二集合中的每个类别的第二可能性值，第二可能性值表示不良信息为第二集合中的每个类别的可能性；以及将每个类别的第一可能性值和第二可能性值相加得到每个类别的总可能性值，并将具有最大总可能性值的一个或多个类别确定为不良信息的类别。信息的类别。信息的类别。

全部详细技术资料下载

【技术实现步骤摘要】
不良信息的识别方法、装置和系统

[0001]本公开总体涉及内容安全领域，更具体地涉及不良信息的识别。

技术介绍

[0002]不良信息的智能识别是内容安全的核心技术。文本类不良信息识别的技术主要有两种：敏感词库匹配识别；基于对不良信息样本监督学习的机器分类模型识别。这两种技术不仅能够从文本中识别出不良信息，还能够识别不良信息的类别。目前的不良信息识别方法有以下几种：
[0003]1)选取其中一种技术实现；
[0004]2)通过串行两种技术进行不良信息二次过滤，即先使用一种技术进行不良信息的分类识别，之后使用另一种技术对被识别成不良信息的文本进行二次识别；以及
[0005]3)通过并行两种技术，去重合并识别结果，即分别通过两种技术各自对文本进行识别，然后将结果简单合并。
[0006]以上方法中存在以下缺陷：
[0007]1)若只依赖敏感词库匹配技术，会丢失对文本信息的语义信息，造成误报率高；若只依赖于机器学习的分类模型，对训练样本的要求高，需要大量均衡的不良信息样本，同时实时更新比较困难；
[0008]2)串行两种技术，虽然兼顾了对语义理解的识别，但简单地将识别结果二次过滤仍会造成高误报率；以及
[0009]3)并行两种技术。然后将结果简单合并，可以实现更全面的识别，但无法提高识别的准确率。

技术实现思路

[0010]在下文中给出了关于本公开的简要概述，以便提供关于本公开的一些方面的基本理解。但是，应当理解，这个概述并不是关于本公开的穷举性概述。它并...

【技术保护点】

【技术特征摘要】
1.一种不良信息的识别方法，包括：将待识别数据输入机器学习模型以识别不良信息及其一个或多个类别的第一集合；将待识别数据输入敏感词匹配算法以识别不良信息及其一个或多个类别的第二集合；确定第一集合中的每个类别的第一可能性值，第一可能性值表示不良信息为第一集合中的相应类别的可能性；确定第二集合中的每个类别的第二可能性值，第二可能性值表示不良信息为第二集合中的相应类别的可能性；以及将每个类别的第一可能性值和第二可能性值相加得到每个类别的总可能性值，并将具有最大总可能性值的一个或多个类别确定为不良信息的类别。2.如权利要求1所述的识别方法，其中，确定第一集合中的每个类别的第一可能性值包括：基于机器学习模型针对每个类别的分类概率和机器学习模型识别每个类别的误差率来计算第一集合中每个类别的第一可能性值。3.如权利要求1所述的识别方法，其中，确定所述不良信息为第二集合中的每个类别的第二可能性值包括：基于敏感词匹配算法的总体准确率和敏感词匹配算法识别每个类别的误差率来计算第二集合中每个类别的第二可能性值。4.如权利要求2所述的识别方法，还包括：将机器学习模型识别每个类别的误差率转换为泛化系数，其中误差率越小，所述泛化系数越大。5.如权利要求3所述的识别方法，还包括：将敏感词匹配算法识别每个类别的误差率转换为泛化系数，其中误差率越小，所述泛化系数越大。6.如权利要求2所述的识别方法，其中，机器学习模型针对每个类别的分类概率和机器学习模型识别每个类别的误差率是通过将测试数据集输入机器学习模型进行测试，并对测试的分类结果进行统计分析得到的。7.如权利要求3所述的识别方法，其中，敏感词匹配算法的总体准确率和敏感词匹配算法识别每个类别的误差率是通过...

【专利技术属性】
技术研发人员：汪少敏，王铮，杨迪，任华，马兆铭，渠凯，田庆华，
申请(专利权)人：中国电信股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人