当前位置: 首页 > 专利查询>清华大学专利>正文

一种从文档集中挖掘特征词的系统和方法技术方案

技术编号:11406340 阅读:88 留言:0更新日期:2015-05-03 23:38
本发明专利技术公开了一种从文档集中挖掘特征词的系统和方法,其中所述方法包括:对所述文档集中的每个分句进行分词处理,得到分词结果表;计算分词结果表中每两个分词结果之间的正相关似然比统计量;对于给定的来自分词结果表的种子词,对它与分词结果表中的各分词结果之间的正相关似然比统计量进行排序,基于排序从分词结果表中提取一定数量的分词结果作为特征词输出。本发明专利技术所提供的系统和方法,可以更有效地挖掘出能够更强地表现文档集旨意的特征词。

【技术实现步骤摘要】
一种从文档集中挖掘特征词的系统和方法
本专利技术主要涉及数据挖掘领域,尤其涉及一种从文档集中挖掘特征词的系统和方法。
技术介绍
当今社会,信息呈爆炸式增长。对于大量涌现的信息,如何准确而迅速地抽取信息中具有话题代表性的词(即特征词),以帮助人们快速了解新闻时事、社会动态,更能够帮助政府把握当前社会舆论倾向,并作出正确的价值观导向。以我们经常使用的信息媒介——微博,话题“雾霾”为例,如何从大量微博评论中准确而迅速地抽取中具有话题代表性的词,诸如“PM2.5”、“致癌”、“口罩”等特征词,以帮助人们快速了解与雾霾有关的社会动态;仍以微博为例,对于话题“吸毒”,如何从大量微博评论中准确而迅速地抽取中具有话题代表性的词,诸如“吸毒正常”、“不碍事”、“支持”等特征词,以帮助政府迅速把握当前社会舆论倾向,以采取有效措施作出正确的价值观导向。现有技术中,为了解决上述问题,有学者提出了自举学习的方法,其中有LikelihoodRatioTestforBootstrapping方法(简称“LRTBOOT”),即基于似然比检验的自举学习方法。但是该方法通常在数据量巨大的时候,挖掘出的特征词与话题相关度不高,也即文档旨意代表性不强。
技术实现思路
本专利技术提出了一种从文档集中挖掘特征词的系统和方法,可以更有效地挖掘出能够更强地表现文档集旨意的特征词。根据本专利技术的一个方面,提供了一种从文档集中挖掘特征词的方法,该方法包括步骤:对所述文档集中的每个分句进行分词处理,得到分词结果表;计算分词结果表中每两个分词结果之间的正相关似然比统计量;对于给定的来自分词结果表的种子词,对它与分词结果表中的各分词结果之间的正相关似然比统计量进行排序,基于排序从分词结果表中提取一定数量的分词结果作为特征词输出。优选地,所述对所述文档集中的每个分句进行分词处理,得到分词结果表的步骤具体包括:对所述文档集中的每个分句进行分词处理,得到初步分词结果表;统计长度为1~N的、由所述初步分词结果表中的词连续组成的组合词语分别出现在所述文档集中的分句频次,其中N是正整数,表示词的个数;基于对所述组合词语的点互信息统计量的计算对所述组合词语进行排序,基于排序至少抽取一部分的组合词语,形成分词结果表。优选地,所述基于排序至少抽取一部分的组合词语,形成分词结果表的步骤具体包括:基于排序至少抽取一部分的组合词语,形成候选分词结果表;基于对所述候选分词结果表中各组合词语的左信息熵和右信息熵的计算并与相应阈值比较,保留左信息熵和右信息熵均大于相应阈值的组合词语,形成分词结果表。优选地,所述计算分词结果表中每两个分词结果之间的正相关似然比统计量的步骤还包括:基于每两个分词结果之间的正相关似然比统计量,得到与所述分词结果表对应的正相关矩阵;其中,正相关矩阵的每一行或每一列的各个值表示分词结果表中的每个分词结果对应的该分词结果与分词结果表中的各分词结果之间的正相关似然比统计量。优选地,所述对于给定的来自分词结果表的种子词,对它与分词结果表中的各分词结果之间的正相关似然比统计量进行排序,基于排序从分词结果表中提取一定数量的分词结果作为特征词输出的步骤包括:对于给定的来自分词结果表的种子词,对它与分词结果表中的各分词结果之间的正相关似然比统计量所对应的所述正相关矩阵的一行或一列进行排序,基于排序从分词结果表中提取一定数量的与该一行或该一列对应的分词结果作为特征词输出。优选地,所述计算分词结果表中每两个分词结果之间的正相关似然比统计量的步骤还包括:对分词结果表中每两个分词结果之间的正相关似然比统计量进行邻近参考调整。优选地,所述计算分词结果表中每两个分词结果之间的正相关似然比统计量的步骤还包括:对所述正相关矩阵中的每个正相关似然比统计量进行邻近参考调整,其中所述邻近参考调整具体包括:取所述正相关矩阵中所述种子词与分词结果表中的其他分词结果之间的正相关似然比统计量所在的正相关矩阵的一行或一列;-a对于所述该一行或该一列的各正相关似然比统计量所在所述正相关矩阵的一列或一行按值排序,计算所述各正相关似然比统计量所在所述正相关矩阵的一列或一行中排名在一定阈值前的所有正相关似然比统计量的平均值,并以所述各正相关似然比统计量所在所述正相关矩阵的一列或一行中排名在一定阈值前的正相关似然比统计量和所述平均值进行求和后的均值来替换对应的一列或一行的原正相关似然比统计量;循环执行上述步骤-a,直到替换后的正相关矩阵与上一次替换后的正相关矩阵的余弦距离小于一定阈值。优选地,所述方法还包括:统计分词结果表中由名词或/和形容词组成的组合词语分别出现在所述文档集中的分句频次,从所述分词结果表中过滤频次低于一定阈值的由名词或/和形容词组成的组合词语。优选地,所述从分词结果表中提取一定数量的分词结果作为特征词输出的步骤包括:按照词性从分词结果表中提取一定数量的分词结果作为情感词输出。优选地,其中计算分词结果表中每两个分词结果之间的正相关似然比统计量的公式为:其中,wi、wj表示分词结果表中的任意一个不同的分词结果,Positive_Assosiation(wi,wj)表示任意两个不同的分词结果的正相关似然比统计量,nii表示分词结果wi、wj同时出现在所述文档集中的分句频次,njj表示分词结果wi、wj同时不出现在所述文档集中的分句频次,nij表示分词结果wi出现而分词结果wj不出现在所述文档集中的分句频次,nji表示分词结果wi不出现而分词结果wj出现在所述文档集中的分句频次,表示备择假设下nii发生的概率估计、表示备择假设下njj发生的概率估计、表示零假设下nii发生的概率估计、表示零假设下njj发生的概率估计、表示备择假设下nji发生的概率估计、表示零假设下nji发生的概率估计。根据本专利技术的另一个方面,还提供了一种从文档集中挖掘特征词的系统,该系统包括:分词装置,用于对所述文档集中的每个分句进行分词处理,得到分词结果表;计算装置,用于计算分词结果表中每两个分词结果之间的正相关似然比统计量;输出装置,用于对于给定的来自分词结果表的种子词,对它与分词结果表中的各分词结果之间的正相关似然比统计量进行排序,基于排序从分词结果表中提取一定数量的分词结果作为特征词输出。本专利技术所述技术方案,基于正相关似然比的统计方法对大量文档集中词语与词语之间的关系进行度量,提高了挖掘出的特征词与话题的相关度。并在此基础上,利用关系强度矩阵进行的迭代排序操作,进一步提高了挖掘出的特征词与话题的相关度。另外,本专利技术还可以基于特定词性输出不同类型的特征词,诸如代表情感的情感词。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1示出根据本专利技术一个实施例的从文档集中挖掘特征词的方法流程图;图2示出根据本专利技术另一个实施例的从文档集中挖掘特征词的系统的示意性框图。附图中相同或相似的附图标记代表相同或相似的部件。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术作进一步详细描述。应当理解,此处所描述的实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动的情况下所获得的其他实施例,都属于本专利技术保护的范围。在描述前,需要说明的是本文档来自技高网...

【技术保护点】
一种从文档集中挖掘特征词的方法,包括:对所述文档集中的每个分句进行分词处理,得到分词结果表;计算分词结果表中每两个分词结果之间的正相关似然比统计量;对于给定的来自分词结果表的种子词,对它与分词结果表中的各分词结果之间的正相关似然比统计量进行排序,基于排序从分词结果表中提取一定数量的分词结果作为特征词输出。

【技术特征摘要】
1.一种从文档集中挖掘特征词的方法,包括:对所述文档集中的每个分句进行分词处理,得到分词结果表;计算分词结果表中每两个分词结果之间的正相关似然比统计量;对于给定的来自分词结果表的种子词,对它与分词结果表中的各分词结果之间的正相关似然比统计量进行排序,基于排序从分词结果表中提取一定数量的分词结果作为特征词输出;其中计算分词结果表中每两个分词结果之间的正相关似然比统计量的步骤还包括:基于每两个分词结果之间的正相关似然比统计量,得到与所述分词结果表对应的正相关矩阵;其中,正相关矩阵的每一行或每一列的各个值表示分词结果表中的每个分词结果对应的该分词结果与分词结果表中的各分词结果之间的正相关似然比统计量。2.根据权利要求1所述的方法,其中所述对所述文档集中的每个分句进行分词处理,得到分词结果表的步骤具体包括:对所述文档集中的每个分句进行分词处理,得到初步分词结果表;统计长度为1~N的、由所述初步分词结果表中的词连续组成的组合词语分别出现在所述文档集中的分句频次,其中N是正整数,表示词的个数;基于对所述组合词语的点互信息统计量的计算对所述组合词语进行排序,基于排序至少抽取一部分的组合词语,形成分词结果表。3.根据权利要求2所述的方法,其中所述基于排序至少抽取一部分的组合词语,形成分词结果表的步骤具体包括:基于排序至少抽取一部分的组合词语,形成候选分词结果表;基于对所述候选分词结果表中各组合词语的左信息熵和右信息熵的计算并与相应阈值比较,保留左信息熵和右信息熵均大于相应阈值的组合词语,形成分词结果表。4.根据权利要求1所述的方法,其中所述对于给定的来自分词结果表的种子词,对它与分词结果表中的各分词结果之间的正相关似然比统计量进行排序,基于排序从分词结果表中提取一定数量的分词结果作为特征词输出的步骤包括:对于给定的来自分词结果表的种子词,对它与分词结果表中的各分词结果之间的正相关似然比统计量所对应的所述正相关矩阵的一行或一列进行排序,基于排序从分词结果表中提取一定数量的与该一行或该一列对应的分词结果作为特征词输出。5.根据权利要求1所述的方法,其中所述计算分词结果表中每两个分词结果之间的正相关似然比统计量的步骤还包括:对分词结果表中每两个分词结果之间的正相关似然比统计量进行邻近参考调整。6.根据权利要求1所述的方法,其中所述计算分词结果表中每两个分词结果之间的正相关似然比统计量的步骤还包括:对所述正相关矩阵中的每个正相关似然比统计量进行邻近参考调整;其中所述邻近参考调整具体包括:取所述正相关矩阵中所述种子词与分词结果表中的其他分词结果之间的正相关似然比统计量所在的正相关矩阵的一行或一列;-a对于所述该一行或该一列的各正相关似然比统计量所在所述正相关矩阵的一列或一行按值排序,计算所述各正相关似然比统计量所在所述正相关矩阵的一列或一行中排名在一定阈值前的所有正相关似然比统计量的平均值,并以所述各正相关似然比统计量所在所述正相关矩阵的一列或一行中排名在一定阈值前的正相关似然比统计量和所述平均值进行求和后的均值来替换对应的一列或一行的原正相关似然比统计量;循环执行上述步骤-a,直到替换后的正相关矩阵与上一次替换后的正相关矩阵的余弦距离小于一定阈值。7.根据权利要求1-3任一项所述的方法,所述对所述文档集中的每个分句进行分词处理,得到分词结果表还包括:统计分词结果表中由名词或/和形容词组成的组合词语分别出现在所述文档集中的分句频次,从所述分词结果表中过滤频次低于一定阈值的由名词或/和形容词组成的组合词语。8.根据权利要求1所述的方法,其中从分词结果表中提取一定数量的分词结果作为特征词输出的步骤包括:按照特定词性从分词结果表中提取一定数量的分词结果输出。9.根据权利要求1所述的方法,其中计算分词结果表中每两个分词结果之间的正相关似然比统计量的公式为:其中,其中,wi、wj表示分词结果表中的任意一个不同的分词结果,Positive_Assosiation(wi,wj)表示任意两个不同的分词结果的正相关似然比统计量,nii表示分词结果wi、wj同时出现在所述文档集中的分句频次,njj表示分词结果wi、wj同时...

【专利技术属性】
技术研发人员:屠守中黄民烈朱小燕
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1