一种基于聚合词树的敏感词匹配处理系统及方法技术方案

技术编号:7786521 阅读:201 留言:0更新日期:2012-09-21 07:35
本发明专利技术提供了一种基于聚合词树的敏感词匹配处理系统及方法,该系统包括敏感词库单元、聚合词树算法处理器、语义分析单元、行业领域分析单元。通过聚合词树的方式对敏感词库中的敏感词进行聚合,形成词树结构,使敏感词库的数据结构有序,节省了内存空间,提高了匹配效率。本发明专利技术结合了行业规则的运用,并结合语义分析和行业环境进行过滤的方式,排除了那些在相应行业领域不属于敏感词范畴的关键词,减少了敏感词匹配的错误,提高了匹配准确率。

【技术实现步骤摘要】

本专利技术涉及信息系统数据处理领域,特别涉及。
技术介绍
在互联网应用日益发达的今天,互联网信息越来越丰富,与此同时,带有敏感政治倾向、暴力倾向、不健康内容等不良信息也随之泛滥,为了净化网络环境,因此在需要对外发布信息的互联网场合中,其内容是要经过审查,审查通过后才能在互联网上公开。信息内容审查初期,都是通过人工进行审核,这种审核方式虽然准确,但随着信息的快速增长,这种方式凸显审查效率低、人员负荷重的缺点,在这种情况下,自动化的系统处理方式的需求 越来越强烈。随着各种自动化处理系统的产生,其处理方式都是针对敏感词库,基于敏感词库对目标信息进行敏感词提取操作,而对于敏感词匹配来说,有两个关键点匹配效率和匹配准确率。匹配效率体现了在对大量敏感词以及大量目标信息处理时的响应时间;匹配准确率体现了对于一个敏感词要尽量区分语境,不能误将非敏感词判断为敏感词而进行处理。目前较为流行且成熟的处理方法有 I、简单文本搜索与替换。这种方式是以敏感词库为主体,对目标信息进行匹配,就是循环把每个敏感词在目标信息中从头到尾搜索一遍,如果在目标信息中有匹配成功的敏感词,那就找到一个就处理一个。优点算法简单,实现方法简单。缺点(1)匹配效率太低。因为需要遍历敏感词库中的每个敏感词,当敏感词数量很多、目标信息容量很大时,其匹配效率是该算法的致命问题。(2)匹配准确率太低。比如,有一个敏感词为as,那目标信息中包含hash、class等词语中的as都会被匹配、处理,导致错误的处理结果。2、DFA 算法 这个算法是以目标信息为主体,将所有敏感词构建为词图,以任意一个字开始,都可以查出以该字为开头的敏感词。对目标信息进行逐一搜索,并判断每个字是否在词图中存在,如果存在看是否有对应的词存在,如果存在,则匹配成功,记录下来,继续往下搜索直到搜索完整个目标信息。优点比“简单文本搜索与替换”方法效率高。缺点(I)算法复杂,实现成本高。(2)匹配准确率比较低。(3)内存占用高,使系统启动速度慢。现有技术中“一种敏感词匹配方法和系统”(申请号201110181501. 0 ;公布号CN102207979A),根据敏感词库中的所有敏感词汇生成多个确定有限自动机DFA图,对于给定的待判定信息,从首字开始,逐字从DFA图的入口开始匹配,直到到达该DFA的出口,则匹配成功。这种技术方案不需要反复遍历,提高了性能。由于生成DFA图消耗大量资源,因此针对敏感词库中的敏感词是动态变化、持续增长的情况,此专利提出的技术方案还是会由于反复重构DFA图,造成大量资源的反复被消耗,还是会造成内存占用高,使系统启动速度慢。敏感词匹配处理应用的范围很广,包括电子商务平台,企业内部管理系统,企业展示网站等,在这些系统中,敏感词匹配处理都起着重要的作用。因此,如何实现提高敏感词的匹配效率和匹配准确率是一个亟待解决的问题。
技术实现思路
本专利技术提供了一种基于聚合词树的敏感词匹配处理的系统及方法,用以解决现有技术方法中在敏感词匹配方面效率低和准确率低的问题。本专利技术技术方案如下一种基于聚合词树的敏感词匹配处理系统,包括敏感词库单元、聚合词树算法处理器、语义分析单元、行业领域分析单元,匹配结果输出单元。敏感词库单元,用于保存长期积累的各类行业敏感词,以及具有敏感政治倾向、暴力倾向、不健康内容的词语。敏感词库单元由专门的管理系统进行维护。聚合词树算法处理器,用于对敏感词库进行预处理,形成多棵词树的结构,然后通过词树对目标信息进行敏感词匹配。其中包括聚合词树生成单元、目标信息匹配单元。聚合词树生成单元,用于将敏感词库中的每个敏感词按照聚合词方式建立词链,词链上的每个结点就是该词的每个字对应的特征码,每个词链的结尾都有一个结尾标志。然后将多条词链聚合成一棵词树,这样,整个敏感词库中的所有敏感词通过聚合词树的方法会聚合成多棵词树。再根据这些词树的根结点特征码算出它们的地址,存入内存地址表中备用。目标信息匹配单元,用于读入目标信息,进行敏感词查找。扫描目标信息中的每个字,按顺序判断这些字的特征码地址是否在内存地址表中,如果不在,则直接扫描下一个字;如果在,则取出这个字对应的词树,这个字在这棵词树的根结点上。再判断下一个字是否在这棵词树中所有词链的第二个结点上,如果不在,则重新判断这个字的特征码的地址是否在内存地址表中,如果在,则在这棵词树上提取相对应的词链。在提取的这条词链上,判断这个字后是否有结束标志,如果有结束标志,则表示已经在目标信息中成功匹配一个关键词。如果没有结束标志,则按顺序判断目标信息中下一个字是否在这条词链的第三个结点上,如果在,判断这个字后是否有结束标志,如果不在,则表示匹配不成功,重新判断词链上第二个结点的特征码的地址在不在内存地址表中。依此类推,直到目标信息中的字一直能构成这棵词树上的一条完整的词链。语义分析单元,用于对初步匹配成功的关键词,结合关键词在目标信息中上下文的内容进行语义分析,根据业务规则,判断这个关键词在文中是否是敏感词,例如,尽管“黄色”是敏感词库中的敏感词,但结合目标信息上下文进行语义分析,发现在目标信息中是“黄色的玫瑰”、“淡黄色”,那么这种情况下,“黄色”就不属于敏感词。 行业领域分析单元,用于根据目标信息的属性确定其行业领域,通过事先设置的行业规则,判断初步匹配成功的关键词,在对应的行业领域内是否属于敏感词,例如关键词“黄色”在文化娱乐领域属于敏感词,而在服装领域却不属于敏感词。通过业务规则进行过滤后,排除对于所在领域不属于敏感词的关键词,提高敏感词匹配准确率。匹配结果输出单元,用于在匹配工作结束后,根据用户事先自定义的标识处理规贝U,对匹配成功的敏感词确定标识处理方式,并获取敏感词的相关属性,包括敏感词全称、敏感词位置、敏感词长度等,把这些属性以及标识方式作为输出结果传递给信息系统的信息审核子系统,信息审核子系统根据这些输出结果来确定对目标信息中敏感词的处理方式。对于标识处理规则,用户可以进行自定义,包括对目标信息中的敏感词以特定颜色标出,对敏感词用特定字体标出,或对敏感词以高亮的形式标出等多种方式。本单元输出包括 (I)布尔数据,表示目标信息中是否含有敏感词。(2)字符串数据,表示目标信息中所含有的所有敏感词。( 3 )整数型数组,表示敏感词的首字在目标信息中的位置,以及敏感词的长度。 一种基于聚合词树的敏感词匹配处理的方法,包括 将敏感词库中的每个敏感词建立成一条条的词链,词链上的每个点就是该词中每个字对应的特征码,例如hash码或机器码,每个词链的结尾都有一个结束标志。将多条首字相同的词链聚合成一棵“词树”,这样,整个敏感词库中的所有敏感词会聚合成几十棵,甚至几百棵词树。根据这些词树根结点的特征码算出它们的地址,存入一个内存地址表中。敏感词库中增加新的敏感词后,这些新的敏感词形成新的词链,添加到所对应的词树中,如果不存在对应的词树,那么具有相同首字的多条新词链就形成新的词树。读入目标信息进行扫描,按顺序扫描其中的每个字时,判断这个字的特征码地址是否在内存地址表中,如果不在,则直接扫描下一个字;如果在,则取出这个字对应的词树,这个字在这棵词树的根结点上。再判断目标信息中下一个字是否在这棵词树中所有词链的第二个结点上,如果不在,则本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于聚合词树的敏感词匹配处理的系统,其特征在于,包括 敏感词库单元,用于保存长期积累的各类行业敏感词,以及具有敏感政治倾向、暴力倾向、不健康内容的词语; 聚合词树算法处理器,用于根据敏感词库中的敏感词,进行生成词树的处理,以及对目标信息进行敏感词匹配的处理; 语义分析单元,用于处理初步匹配成功的关键词,结合这些关键词在目标信息中上下文的内容进行语义分析,根据业务规则,判断这些关键词在文中是否是敏感词; 行业领域分析单元,用于根据目标信息的属性确定其行业领域,通过事先设置的行业规则,判断初步匹配成功的关键词,在对应的行业领域内是否属于敏感词,通过业务规则进行过滤后,排除对于所在领域不属于敏感词的关键词。2.如权利要求I所述系统,其特征在于,所述聚合词树算法处理器包括 聚合词树生成单元,用于将敏感词库中的每个敏感词按照聚合词方式建立词链,然后将多条词链聚合成一棵词树,整个敏感词库中的所有敏感词会聚合成多棵词树; 目标信息匹配单元,用于扫描目标信息中每个字,判断这个字的特征码地址是否在内存地址表中,如果在,则取出这个字对应的词树,这个字在这棵词树的根结点上;再判断下一个字在不在这棵词树中所有词链的第二个结点上,如果在,则在这棵词树上提取相对应的词链,在提取的这条词链上,判断这个字后是否有结束标志,如果有结束标志,则表示已经成功匹配敏感词;如依此类推,直到目标信息中的字构成词树上的一条完整的词链。3.如权利要求I所述系统,其特征在于,还包括 匹配结果输出单元,用于在匹配工作结束后,根据用户事先自定义的标识规则,确定对匹配成功的敏感词进行标识处理方式,并获取这些敏感词的相关属性,输出给信息系统中的信息审核子系统。4.如权利要求3所述系统,其特征在于,所述匹配结果输出单元的输出包括 布尔数据,表示目标信息中是否含有敏感词,用于在信息审核系统的列表中,区分显示含有敏感词的目标信息和不含敏感词的目标信息; 字符串数据,表示目标信息中所含有的所有敏感词,用于在信息审核系统中,显示每条目录信息中包含的敏感词; 整数型数组,表示敏感词的首字在目标信息中的位置,以及敏感词的长度,用于在信息审核系统的目标信息详细页中,以选择好的标识处理方式对目标信息中的敏感词进行标识...

【专利技术属性】
技术研发人员:陶富成邹铁鹏
申请(专利权)人:焦点科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1