当前位置: 首页 > 专利查询>北京大学专利>正文

关键词扩展方法和关键词扩展系统技术方案

技术编号:14348184 阅读:118 留言:0更新日期:2017-01-04 18:51
本发明专利技术提出了一种关键词扩展方法和一种关键词扩展系统,其中,方法包括:通过关键词获取模块在当前数据中获取关键词;通过初始扩展模块对关键词进行初始扩展,以确定关键词的初始扩展词;通过候选词提取模块使用词权重计算公式计算样本数据库中的多个目标样本词的词权重,并根据词权重在多个目标样本词中提取候选词;通过匹配模块将每个候选词与关键词及初始扩展词进行匹配,以获取关键词的目标扩展词。通过本发明专利技术的技术方案,通过对关键词进行扩展,可以全面地检测出具有敏感信息但经过变异的词,并对具有敏感信息的词进行过滤,从而提高了对具有敏感信息的数据的监测效果。

【技术实现步骤摘要】

本专利技术涉及计算机
,具体而言,涉及一种关键词扩展方法和一种关键词扩展系统。
技术介绍
目前,随着互联网的普及和网民数量的逐年增多,特别是随着Web2.0等交互式技术发展应用,使得互联网中的信息日益提高,互联网舆情事件呈现逐年增多的趋势,且互联网中的信息可能包含有敏感信息,因此,对互联网中的信息进行检测是十分必要的。相关技术中对敏感信息的检测的方案是以关键词为基础,通过建立规则和匹配算法,实现敏感信息的检测和过滤,这对于新闻等具有严格语用语法规范的文本具有较好的效果。但是,互联网中的信息具有不完整、不规范、复杂多变的特点,仅通过基于关键词规则的过滤方法,不能实现有效监测。为了解决用户生成信息杂乱无章给信息过滤带来的新问题,相关技术中的解决方案是通过语义词典的来扩充关键词的同义词和近义词,进而达到识别互联网中的敏感信息的目的,相关技术的方案能够在一定程度上提高信息监测的效果。但是,在新形式下,互联网信息相互融合,网络新词频繁出现,特别是在特殊话题中大量通过各种变异来逃避审查,使得相关技术中的基于近义词和同义词的敏感信息的过滤方法不能满足实际应用需求。因此,如何全面地检测出具有敏感信息但经过变异的词,成为亟待解决的问题。
技术实现思路
本专利技术正是基于上述问题,提出了一种新的技术方案,可以全面地检测出具有敏感信息但经过变异的词,并对具有敏感信息的词进行过滤,从而提高了对具有敏感信息的数据的监测效果。有鉴于此,本专利技术的一方面提出了一种关键词扩展方法,包括:通过关键词获取模块在当前数据中获取关键词;通过初始扩展模块对所述关键词进行初始扩展,以确定所述关键词的初始扩展词;通过候选词提取模块使用词权重计算公式计算样本数据库中的多个目标样本词的词权重,并根据所述词权重在所述多个目标样本词中提取所述候选词;通过匹配模块将每个所述候选词与所述关键词及所述初始扩展词进行匹配,以获取所述关键词的目标扩展词。在该技术方案中,对关键词进行初始扩展得到初始扩展词,然后将候选词与关键词及初始扩展词进行匹配,当候选词与关键词或初始扩展词匹配时,则确定关键词的目标扩展词,因此,即使包含有敏感信息的候选词经过多种变异等处理,也能通过关键词及初始扩展词确定具有敏感信息的候选词,从而可以更加全面地检测出具有敏感信息但经过变异的词,并对具有敏感信息的词进行过滤,从而提高了对具有敏感信息的数据的监测效果。在上述技术方案中,优选地,所述对所述关键词进行初始扩展的方式包括以下至少之一或其组合:变形词扩展方式、同音词扩展方式、拼音词扩展方式。在该技术方案中,对关键词进行初始扩展的方式包括但不限于以下至少之一或其组合:变形词扩展方式、同音词扩展方式、拼音词扩展方式,从而使关键词的初始扩展词更加多样化,这样,即使具有敏感信息的候选词经过多次或多种变异,也能够识别出具有敏感信息的候选词,从而可以更加全面地检测出具有敏感信息候选词,通过对关键词进行扩展也能识别出具有敏感信息的候选词,其中,变形词扩展方式通过对关键词进行字形拆分处理,实现对关键词的字形的扩展,同音词扩展方式和拼音词扩展方式是根据关键词的拼音,对关键词进行拼音的扩展,当然,也可以通过多种初始扩展的方式相结合对关键词进行初始扩展,例如,在对关键词通过变形词扩展方式进行扩展之后,然后在变形词扩展方式的基础上再次通过同音词扩展方式进行初始扩展。在上述技术方案中,优选地,在所述提取所述候选词之前,还包括:通过噪音信息删除模块删除所述样本数据库中的多个样本数据中的噪音信息,其中,所述噪音信息为包含特殊符号、特定字符串和/或特定表达式的信息,和/或通过重复样本删除模块删除所述多个样本数据中的重复样本数据;以及通过分词处理模块对完成删除处理后的所述多个样本数据进行分词处理,得到所述多个目标样本词。在该技术方案中,在提取候选词之前,删除多个样本数据中的噪音信息,即删除了多个样本数据中的无用信息,不仅可以提高提取候选词的准确性,还提高了提取候选词的处理效率,和/或删除多个样本数据中的重复样本数据,从而降低了重复样本数据给词权重计算带来的不公平性,从而提高了提取候选词的准确性,另外,在完成删除处理后的多个样本数据进行分词处理,得到目标样本数据,从而可以在目标样本数据中获取候选词。在上述技术方案中,优选地,所述词权重计算公式为:w(z)=b×a×tf×log(d1+df)]]>z表示任一所述目标样本词,w(z)表示任一所述目标样本词的词权重,b表示任一所述目标样本词的经验系数,a表示任一所述目标样本词的类别系数,tf表示任一所述目标样本词在所述多个样本数据中出现的次数,d表示所述多个样本数据的数量,df表示具有任一所述目标样本词的所述样本数据的数量。在该技术方案中,通过词权重计算公式,可以准确计算出每个目标样本词的词权重,并将每个目标样本词的词权重按照由大到小或由小到大的顺序进行排序,将预设数量且词权重较大的目标样本词作为候选词,从而使获取到的候选词更加准确。在上述技术方案中,优选地,所述通过匹配模块将每个所述候选词与所述关键词及所述初始扩展词进行匹配,以获取所述关键词的目标扩展词,具体包括:匹配模块通过直接匹配方式和/或间接匹配方式,将每个所述候选词与所述关键词及所述初始扩展词进行匹配,以获取所述目标扩展词。在该技术方案中,通过直接匹配方式获取目标扩展词,例如,直接匹配方式为音形义匹配方式,当候选词与关键词及初始扩展词在音、形和/或义方面存在相同或相似,则确定候选词、关键词和/或初始扩展词为目标扩展词,从而保证了目标扩展词的准确性,另外,通过间接匹配方式获取目标扩展词,例如,间接匹配方式为上下文匹配方式,如果候选词与关键词及初始扩展词之间具有相似的上下文环境,则确定候选词、关键词和/或初始扩展词为目标扩展词,这样,即使候选词与关键词及初始扩展词之间没有明显相似的特征或候选词为新词,也可以全面地确定具有敏感信息的候选词。本专利技术的另一方面提出了一种关键词扩展系统,包括:关键词获取模块,在当前数据中获取关键词;初始扩展模块,对所述关键词进行初始扩展,以确定所述关键词的初始扩展词;候选词提取模块,使用词权重计算公式计算样本数据库中的多个目标样本词的词权重,并根据所述词权重在所述多个目标样本词中提取所述候选词;匹配模块,将每个所述候选词与所述关键词及所述初始扩展词进行匹配,以获取所述关键词的目标扩展词。在该技术方案中,对关键词进行初始扩展得到初始扩展词,然后将候选词与关键词及初始扩展词进行匹配,当候选词与关键词或初始扩展词匹配时,则确定关键词的目标扩展词,因此,即使包含有敏感信息的候选词经过多种变异等处理,也能通过关键词及初始扩展词确定具有敏感信息的候选词,从而可以更加全面地检测出具有敏感信息但经过变异的词,并对具有敏感信息的词进行过滤,从而提高了对具有敏感信息的数据的监测效果。在上述技术方案中,优选地,所述对所述关键词进行初始扩展的方式包括以下至少之一或其组合:变形词扩展方式、同音词扩展方式、拼音词扩展方式。在该技术方案中,对关键词进行初始扩展的方式包括但不限于以下至少之一或其组合:变形词扩展方式、同音词扩展方式、拼音词扩展方式本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201510260688.html" title="关键词扩展方法和关键词扩展系统原文来自X技术">关键词扩展方法和关键词扩展系统</a>

【技术保护点】
一种关键词扩展方法,其特征在于,包括:通过关键词获取模块在当前数据中获取关键词;通过初始扩展模块对所述关键词进行初始扩展,以确定所述关键词的初始扩展词;通过候选词提取模块使用词权重计算公式计算样本数据库中的多个目标样本词的词权重,并根据所述词权重在所述多个目标样本词中提取所述候选词;通过匹配模块将每个所述候选词与所述关键词及所述初始扩展词进行匹配,以获取所述关键词的目标扩展词。

【技术特征摘要】
1.一种关键词扩展方法,其特征在于,包括:通过关键词获取模块在当前数据中获取关键词;通过初始扩展模块对所述关键词进行初始扩展,以确定所述关键词的初始扩展词;通过候选词提取模块使用词权重计算公式计算样本数据库中的多个目标样本词的词权重,并根据所述词权重在所述多个目标样本词中提取所述候选词;通过匹配模块将每个所述候选词与所述关键词及所述初始扩展词进行匹配,以获取所述关键词的目标扩展词。2.根据权利要求1所述的关键词扩展方法,其特征在于,所述对所述关键词进行初始扩展的方式包括以下至少之一或其组合:变形词扩展方式、同音词扩展方式、拼音词扩展方式。3.根据权利要求2所述的关键词扩展方法,其特征在于,在所述提取所述候选词之前,还包括:通过噪音信息删除模块删除所述样本数据库中的多个样本数据中的噪音信息,其中,所述噪音信息为包含特殊符号、特定字符串和/或特定表达式的信息,和/或通过重复样本删除模块删除所述多个样本数据中的重复样本数据;以及通过分词处理模块对完成删除处理后的所述多个样本数据进行分词处理,得到所述多个目标样本词。4.根据权利要求3所述的关键词扩展方法,其特征在于,所述词权重计算公式为:w(z)=b×a×tf×log(d1+df)]]>z表示任一所述目标样本词,w(z)表示任一所述目标样本词的词权重,b表示任一所述目标样本词的经验系数,a表示任一所述目标样本词的类别系数,tf表示任一所述目标样本词在所述多个样本数据中出现的次数,
\td表示所述多个样本数据的数量,df表示具有任一所述目标样本词的所述样本数据的数量。5.根据权利要求1至4中任一项所述的关键词扩展方法,其特征在于,所述通过匹配模块将每个所述候选词与所述关键词及所述初始扩展词进行匹配,以获取所述关键词的目标扩展词,具体包括:匹配模块通过直接匹配方式和/或间接匹配方式,将...

【专利技术属性】
技术研发人员:赵立永杨建武张丹
申请(专利权)人:北京大学北大方正集团有限公司北京北大方正电子有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1