【技术实现步骤摘要】
本专利技术涉及数据挖掘
,具体涉及一种热点信息发现方法及系统。
技术介绍
随着互联网的迅猛发展及存储技术的不断进步,越来越多的文本信息充斥着我们的周围。但是,这些信息中存在着大量的冗余,按部就班的阅读显然会浪费用户大量的时间和精力。热点分析方法可以迅速地从大量的文本信息中提取出关键的词汇或句子信息,即热点信息,让用户可以方便快捷地了解到文本中所包含的重要信息,从而成为了研究人员的研究热点,因此,如何可以高效准确地对文本进行热点分析,找到待处理文本中相应的热点信息成为了热点分析的首要任务。现有的热点分析方法一般是基于词汇共现方法构建小世界网络,根据所述网络计算网络中每个节点的重要度,根据所述重要度信息确定待处理文本的热点信息。所述重要度的计算是根据所述网络的平均最短路径变化量来确定的。现有方法进行所述网络构建时,一般不考虑词汇之间的语义信息,构建的网络只根据相邻词汇的距离进行度量。然而,如果两个词汇在文本中相隔较远,但是在语义上联系很紧密,现有的方法则无法发现这种联系。此外,现有方法在计算每个节点的重要度时,仅仅使用最短路径来度量每个节点的重要度,特征较单一。使用现有方法得到的重要度较高的词汇,不一定能够代表原文本语义信息。同时计算每个节点的重要度时,每次都需要对网络中所有的最短路径进行计算,效率较低。
技术实现思路
本专利技术实施例提供一种热点信息发现方法及系统,以便高效、准确地发现待处理文本中的热点信息。为此,本专利技术实施例提供如下技术方案:一种热点信息发现方法,包括:获取待处理文本;对所述待处理文本进行分词及词性标注;对分词后的文本进行句法分析, ...
【技术保护点】
一种热点信息发现方法,其特征在于,包括:获取待处理文本;对所述待处理文本进行分词及词性标注;对分词后的文本进行句法分析,得到所述待处理文本中每句话的依存句法树;去除待处理文本中每句话的依存句法树中的停用词,得到待分析依存句法树;利用所述待分析依存句法树构建小世界网络;根据所述待分析依存句法树及所述小世界网络进行热点分析;根据热点分析结果获取所述待处理文本中的热点信息。
【技术特征摘要】
1.一种热点信息发现方法,其特征在于,包括:获取待处理文本;对所述待处理文本进行分词及词性标注;对分词后的文本进行句法分析,得到所述待处理文本中每句话的依存句法树;去除待处理文本中每句话的依存句法树中的停用词,得到待分析依存句法树;利用所述待分析依存句法树构建小世界网络;根据所述待分析依存句法树及所述小世界网络进行热点分析;根据热点分析结果获取所述待处理文本中的热点信息。2.根据权利要求1所述的方法,其特征在于,所述对所述待处理文本进行分词及词性标注包括:采用基于条件随机场的方法对所述待处理文本进行分词及词性标注。3.根据权利要求1所述的方法,其特征在于,所述对分词后的文本进行句法分析,得到所述待处理文本中每句话的依存句法树包括:采用最大生成树算法或者基于神经网络的方法对分词后的文本进行依存句法分析,得到所述待处理文本中每句话的依存句法树。4.根据权利要求1所述的方法,其特征在于,所述去除待处理文本中每句话的依存句法树中的停用词,得到待分析依存句法树包括:对于待处理文本中每句话的依存句法树,根据相同的原则去除其中的停用词,并将去除停用词后的节点进行连接;将去除停用词之前的每条边所表示的依存关系,全部转移到新生成的边上,并将对应的依存关系重要度设置为新生成边上所有依存关系重要度的平均值。5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述待分析依存句法树及所述小世界网络进行热点分析包括:根据所述待分析依存句法树计算所述待分析依存句法树中每个节点和每条边的依存频度,所述节点的依存频度指所述待处理文本的所有待分析依存句法树中与所述节点相同的节点的重要度之和,所述边的依存频度指待处理文本
\t的所有待分析依存句法树中出现的与当前边相同的所有边的依存关系重要度之和,所述相同边指所述边连接的节点相同;根据所述小世界网络计算所述小世界网络中每个节点和每条边的网络相关特征,所述网络相关特征包括:依存度和/或介数中心性,所述节点的依存度指所述小世界网络中与该节点相连的边的依存关系重要度之和,所述边的依存度指所述边连接的两个节点依存度的和,所述介数中心性指所述节点或边出现在所述小世界网络中其他任意两个节点的最短路径上的次数;根据所述依存频度及所述网络相关特征计算所述小世界网络中每个节点和/或边的重要度得分。6.根据权利要求5所述的方法,其特征在于,所述根据热点分析结果获取所述待处理文本中的热点信息包括:选择重要度得分大于设定阈值的节点或边所表示的词组的连接作为所述待处理文本中的热点信息;或者根据重要度得分由高到低选择设定个数的节点或边所表示的词组的连接作为所述待处理文本中的热点信息。7.一种热点信息发现系统,其特征在于,包括:文本获取模块,用于获取待处理文本;预处理模块,用于对所述待处理...
【专利技术属性】
技术研发人员:吴及,侯晋峰,胡国平,吕萍,王影,胡郁,刘庆峰,
申请(专利权)人:科大讯飞股份有限公司,清华大学,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。