关键词扩展方法和关键词扩展系统技术方案

技术编号：14348184 阅读：132 留言：0更新日期：2017-01-04 18:51

本发明专利技术提出了一种关键词扩展方法和一种关键词扩展系统，其中，方法包括：通过关键词获取模块在当前数据中获取关键词；通过初始扩展模块对关键词进行初始扩展，以确定关键词的初始扩展词；通过候选词提取模块使用词权重计算公式计算样本数据库中的多个目标样本词的词权重，并根据词权重在多个目标样本词中提取候选词；通过匹配模块将每个候选词与关键词及初始扩展词进行匹配，以获取关键词的目标扩展词。通过本发明专利技术的技术方案，通过对关键词进行扩展，可以全面地检测出具有敏感信息但经过变异的词，并对具有敏感信息的词进行过滤，从而提高了对具有敏感信息的数据的监测效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机
，具体而言，涉及一种关键词扩展方法和一种关键词扩展系统。
技术介绍
目前，随着互联网的普及和网民数量的逐年增多，特别是随着Web2.0等交互式技术发展应用，使得互联网中的信息日益提高，互联网舆情事件呈现逐年增多的趋势，且互联网中的信息可能包含有敏感信息，因此，对互联网中的信息进行检测是十分必要的。相关技术中对敏感信息的检测的方案是以关键词为基础，通过建立规则和匹配算法，实现敏感信息的检测和过滤，这对于新闻等具有严格语用语法规范的文本具有较好的效果。但是，互联网中的信息具有不完整、不规范、复杂多变的特点，仅通过基于关键词规则的过滤方法，不能实现有效监测。为了解决用户生成信息杂乱无章给信息过滤带来的新问题，相关技术中的解决方案是通过语义词典的来扩充关键词的同义词和近义词，进而达到识别互联网中的敏感信息的目的，相关技术的方案能够在一定程度上提高信息监测的效果。但是，在新形式下，互联网信息相互融合，网络新词频繁出现，特别是在特殊话题中大量通过各种变异来逃避审查，使得相关技术中的基于近义词和同义词的敏感信息的过滤方法不能满足实际应用需求。因此，如何全面地检测出具有敏感信息但经过变异的词，成为亟待解决的问题。
技术实现思路
本专利技术正是基于上述问题，提出了一种新的技术方案，可以全面地检测出具有敏感信息但经过变异的词，并对具有敏感信息的词进行过滤，从而提高了对具有敏感信息的数据的监测效果。有鉴于此，本专利技术的一方面提出了一种关键词扩展方法，包括：通过关键词获取模块在当前数据中获取关键词；通过初始扩展模块对所述关键词进行初始扩展，以确定所述关...
<a href="http://www.xjishu.com/zhuanli/55/201510260688.html" title="关键词扩展方法和关键词扩展系统原文来自X技术">关键词扩展方法和关键词扩展系统</a>

【技术保护点】
一种关键词扩展方法，其特征在于，包括：通过关键词获取模块在当前数据中获取关键词；通过初始扩展模块对所述关键词进行初始扩展，以确定所述关键词的初始扩展词；通过候选词提取模块使用词权重计算公式计算样本数据库中的多个目标样本词的词权重，并根据所述词权重在所述多个目标样本词中提取所述候选词；通过匹配模块将每个所述候选词与所述关键词及所述初始扩展词进行匹配，以获取所述关键词的目标扩展词。

【技术特征摘要】
1.一种关键词扩展方法，其特征在于，包括：通过关键词获取模块在当前数据中获取关键词；通过初始扩展模块对所述关键词进行初始扩展，以确定所述关键词的初始扩展词；通过候选词提取模块使用词权重计算公式计算样本数据库中的多个目标样本词的词权重，并根据所述词权重在所述多个目标样本词中提取所述候选词；通过匹配模块将每个所述候选词与所述关键词及所述初始扩展词进行匹配，以获取所述关键词的目标扩展词。2.根据权利要求1所述的关键词扩展方法，其特征在于，所述对所述关键词进行初始扩展的方式包括以下至少之一或其组合：变形词扩展方式、同音词扩展方式、拼音词扩展方式。3.根据权利要求2所述的关键词扩展方法，其特征在于，在所述提取所述候选词之前，还包括：通过噪音信息删除模块删除所述样本数据库中的多个样本数据中的噪音信息，其中，所述噪音信息为包含特殊符号、特定字符串和/或特定表达式的信息，和/或通过重复样本删除模块删除所述多个样本数据中的重复样本数据；以及通过分词处理模块对完成删除处理后的所述多个样本数据进行分词处理，得到所述多个目标样本词。4.根据权利要求3所述的关键词扩展方法，其特征在于，所述词权重计算公式为：w(z)=b×a×tf×log(d1+df)]]>z表示任一所述目标样本词，w(z)表示任一所述目标样本词的词权重，b表示任一所述目标样本词的经验系数，a表示任一所述目标样本词的类别系数，tf表示任一所述目标样本词在所述多个样本数据中出现的次数，
\td表示所述多个样本数据的数量，df表示具有任一所述目标样本词的所述样本数据的数量。5.根据权利要求1至4中任一项所述的关键词扩展方法，其特征在于，所述通过匹配模块将每个所述候选词与所述关键词及所述初始扩展词进行匹配，以获取所述关键词的目标扩展词，具体包括：匹配模块通过直接匹配方式和/或间接匹配方式，将...

【专利技术属性】
技术研发人员：赵立永，杨建武，张丹，
申请(专利权)人：北京大学，北大方正集团有限公司，北京北大方正电子有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人