System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及计算机软件相关领域,具体涉及一种不良信息的识别方法,尤其是对于文件文本类不良信息的审核。
技术介绍
1、随着互联网技术的飞速发展,论坛、微博等门户网站种类日益增长,为信息获取及言论发表提供了便捷的渠道。然而,与此同时许多恶意用户通过网络渠道发布不良信息。不良信息的传播会对正常用户的人生观、价值观、道德观造成侵袭,影响网络社区环境,损害他人利益,败坏网络评论风气,并且阻碍了正常用户对有效信息的获取。近年来,国家多次开展专业行动,严厉打击网络不良信息,铲除不良信息的利益链条,与互联网行业管理,互联网新闻管理相互配合,公开维护网上的公共秩序。在海量的网络信息中识别不良信息,人工识别的方法效率低并且成本高,所以需要通过新型的不良信息识别方法帮助物联网环境加强网络信息管理,确保互联网的客观可控。
2、现有的不良信息识别主要针对短语类网络词语,进行识别。对于文本的不良信息的识别同样重要。对于文本语句而言,存在否定描述的方式,传统的比对识别方法,难以区分否定式语句,造成对文本不良的认定错误。
技术实现思路
1、本专利技术的目的在于提供一种不良信息的识别方法,以解决上述
技术介绍
中提出的问题。
2、为实现上述目的,本专利技术提供如下技术方案:
3、一种不良信息的识别方法,包括以下步骤:
4、步骤1,构建恶性不良词库和一般不良词库;恶性不良词库由多个恶性不良词组成;一般不良词库由多个一般不良词组成;对于一般不良词库的不同的一般不良词设置不同
5、步骤2,从被识别的文本信息中提取符合恶性不良词库的恶性不良词,若无恶性不良词则将被识别的文本信息认定为非恶性文本将之移动至一般不良文本审核库,若有恶性不良词则进一步确定恶性不良词所在的语句;
6、步骤3,对恶性不良词所在的语句进行语义分析,确定恶性不良词所在的语句是否为否定态,若是则识别该语句为非恶性语句;若否则识别该语句为恶性语句;
7、步骤4,若存在恶性语句则直接认定为被识别的文本信息为恶性文本将之移动至恶性文本回收库;对于不存在恶性语句则认定被识别的文本信息为非恶性文本将之移动至一般不良文本审核库;
8、步骤5,对一般不良文本审核库的被识别的文本信息提取符合一般不良词库的一般不良词,若不具有一般不良词,则认定被识别的文本信息属于良性文本;若具有一般不良词,则进一步确定一般不良词所在的语句;
9、步骤6,对一般不良词所在的语句进行语义分析,确定一般不良词所在的语句是否为否定态,若是则识别该语句为非不良语句;若否则识别该语句为不良语句;对该语句内的一般不良词确定不良词权重,对被识别的文本信息中的全部不良语句中的不良词权重进行积分求和;
10、步骤7,积分求和后的数据除以被识别的文本信息的大小确定不良比值,若不良比值不低于预设不良比值第一阈值则认定被识别的文本信息为不良文本,若不良比值低于预设不良比值第一阈值且不低于预设不良比值第二阈值则认定被识别的文本信息为轻度不良文本,若不良比值低于预设不良比值第二阈值则认定被识别的文本信息为良性文本,其中预设不良比值第二阈值低于预设不良比值第一阈值。
11、作为本专利技术的进一步的实施方式,步骤3中对恶性不良词所在的语句进行语义分析以及步骤6中对一般不良词所在的语句进行语义分析,通过预先搭建的语义分析模型进行语义的分析。
12、作为本专利技术的进一步的实施方式,一般不良词和恶性不良词作为核心目标词,通过语义分析模型中提取语句的否定词语并通过判断否定词语与核心目标词是否存在关联关系确定一般不良词所在的语句以及恶性不良词所在的语句是否为否定态。
13、作为本专利技术的进一步的实施方式,一般不良词和恶性不良词作为核心目标词;
14、步骤3中对恶性不良词所在的语句进行语义分析以及步骤6中对一般不良词所在的语句进行语义分析,通过语法树结构进行处理,从多种预设树规则的树结构中确定匹配的预设树规则,将核心目标词与语句中提取的否定词语与预设树规则进行比对匹配;对于步骤3中对恶性不良词所在的语句若匹配则确定恶性不良词所在的语句是否为否定态识别该语句为非恶性语句,若不匹配,则识别该语句为恶性语句;对于步骤6中的一般不良词所在的语句若匹配则确定一般不良词所在的语句是否为否定态,确定一般不良词所在的语句是否为否定态,若是则识别该语句为非不良语句,若不匹配,则识别该语句为不良语句。
15、作为本专利技术的进一步的实施方式,对移动至恶性文本回收库的恶性文本标识其恶性不良词所在的语句进行定期人工抽检。
16、作为本专利技术的进一步的实施方式,对移动至恶性文本回收库的恶性文本进行定期人工抽检查找并定义新的恶性不良词,从而对恶性不良词库进行完善。
17、作为本专利技术的进一步的实施方式,对恶性文本回收库内的恶性文本通过关键词提取模型提取负面词语,通过人工筛选的方式从负面词语中确定新的恶性不良词从而对恶性不良词库进行完善。
18、作为本专利技术的进一步的实施方式,对于不良文本进行定期抽检,以通过人工识别的方式从不良文本中查找并定义新的不良词,完善一般不良词库。
19、作为本专利技术的进一步的实施方式,对于轻度不良文本进行定期抽检,以通过人工识别的方式从不良文本中查找并定义新的不良词,完善一般不良词库。
20、作为本专利技术的进一步的实施方式,对于良性文本进行定期抽检,以通过人工识别的方式从不良文本中查找并定义新的不良词,完善一般不良词库。
21、与现有技术相比,本专利技术的有益效果是:能够对文本进行不良信息的识别,能够识别否定描述方式,提升识别的准确性。
22、本专利技术的其他特点和优点将会在下面的具体实施方式、附图中详细的揭露。
本文档来自技高网...【技术保护点】
1.一种不良信息的识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种不良信息的识别方法,其特征在于,
3.根据权利要求2所述的一种不良信息的识别方法,其特征在于,
4.根据权利要求1所述的一种不良信息的识别方法,其特征在于,
5.根据权利要求1所述的一种不良信息的识别方法,其特征在于,
6.根据权利要求1所述的一种不良信息的识别方法,其特征在于,
7.根据权利要求1所述的一种不良信息的识别方法,其特征在于,
8.根据权利要求1所述的一种不良信息的识别方法,其特征在于,
9.根据权利要求1所述的一种不良信息的识别方法,其特征在于,
10.根据权利要求1所述的一种不良信息的识别方法,其特征在于,
【技术特征摘要】
1.一种不良信息的识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种不良信息的识别方法,其特征在于,
3.根据权利要求2所述的一种不良信息的识别方法,其特征在于,
4.根据权利要求1所述的一种不良信息的识别方法,其特征在于,
5.根据权利要求1所述的一种不良信息的识别方法,其特征在于,
【专利技术属性】
技术研发人员:丁永建,魏平花,王举,马鹏山,詹登峰,王辉,滕越,
申请(专利权)人:浙江嗨皮网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。