一种从文档集中挖掘特征词的系统和方法技术方案

技术编号：11406340 阅读：104 留言：0更新日期：2015-05-03 23:38

本发明专利技术公开了一种从文档集中挖掘特征词的系统和方法，其中所述方法包括：对所述文档集中的每个分句进行分词处理，得到分词结果表；计算分词结果表中每两个分词结果之间的正相关似然比统计量；对于给定的来自分词结果表的种子词，对它与分词结果表中的各分词结果之间的正相关似然比统计量进行排序，基于排序从分词结果表中提取一定数量的分词结果作为特征词输出。本发明专利技术所提供的系统和方法，可以更有效地挖掘出能够更强地表现文档集旨意的特征词。

全部详细技术资料下载

【技术实现步骤摘要】
一种从文档集中挖掘特征词的系统和方法
本专利技术主要涉及数据挖掘领域，尤其涉及一种从文档集中挖掘特征词的系统和方法。
技术介绍
当今社会，信息呈爆炸式增长。对于大量涌现的信息，如何准确而迅速地抽取信息中具有话题代表性的词(即特征词)，以帮助人们快速了解新闻时事、社会动态，更能够帮助政府把握当前社会舆论倾向，并作出正确的价值观导向。以我们经常使用的信息媒介——微博，话题“雾霾”为例，如何从大量微博评论中准确而迅速地抽取中具有话题代表性的词，诸如“PM2.5”、“致癌”、“口罩”等特征词，以帮助人们快速了解与雾霾有关的社会动态；仍以微博为例，对于话题“吸毒”，如何从大量微博评论中准确而迅速地抽取中具有话题代表性的词，诸如“吸毒正常”、“不碍事”、“支持”等特征词，以帮助政府迅速把握当前社会舆论倾向，以采取有效措施作出正确的价值观导向。现有技术中，为了解决上述问题，有学者提出了自举学习的方法，其中有LikelihoodRatioTestforBootstrapping方法(简称“LRTBOOT”)，即基于似然比检验的自举学习方法。但是该方法通常在数据量巨大的时候，挖掘出的特征词与话题相关度不高，也即文档旨意代表性不强。
技术实现思路
本专利技术提出了一种从文档集中挖掘特征词的系统和方法，可以更有效地挖掘出能够更强地表现文档集旨意的特征词。根据本专利技术的一个方面，提供了一种从文档集中挖掘特征词的方法，该方法包括步骤：对所述文档集中的每个分句进行分词处理，得到分词结果表；计算分词结果表中每两个分词结果之间的正相关似然比统计量；对于给定的来自分词结果表的种子词，对它与分...

【技术保护点】
一种从文档集中挖掘特征词的方法，包括：对所述文档集中的每个分句进行分词处理，得到分词结果表；计算分词结果表中每两个分词结果之间的正相关似然比统计量；对于给定的来自分词结果表的种子词，对它与分词结果表中的各分词结果之间的正相关似然比统计量进行排序，基于排序从分词结果表中提取一定数量的分词结果作为特征词输出。

【技术特征摘要】
1.一种从文档集中挖掘特征词的方法，包括：对所述文档集中的每个分句进行分词处理，得到分词结果表；计算分词结果表中每两个分词结果之间的正相关似然比统计量；对于给定的来自分词结果表的种子词，对它与分词结果表中的各分词结果之间的正相关似然比统计量进行排序，基于排序从分词结果表中提取一定数量的分词结果作为特征词输出；其中计算分词结果表中每两个分词结果之间的正相关似然比统计量的步骤还包括：基于每两个分词结果之间的正相关似然比统计量，得到与所述分词结果表对应的正相关矩阵；其中，正相关矩阵的每一行或每一列的各个值表示分词结果表中的每个分词结果对应的该分词结果与分词结果表中的各分词结果之间的正相关似然比统计量。2.根据权利要求1所述的方法，其中所述对所述文档集中的每个分句进行分词处理，得到分词结果表的步骤具体包括：对所述文档集中的每个分句进行分词处理，得到初步分词结果表；统计长度为1～N的、由所述初步分词结果表中的词连续组成的组合词语分别出现在所述文档集中的分句频次，其中N是正整数，表示词的个数；基于对所述组合词语的点互信息统计量的计算对所述组合词语进行排序，基于排序至少抽取一部分的组合词语，形成分词结果表。3.根据权利要求2所述的方法，其中所述基于排序至少抽取一部分的组合词语，形成分词结果表的步骤具体包括：基于排序至少抽取一部分的组合词语，形成候选分词结果表；基于对所述候选分词结果表中各组合词语的左信息熵和右信息熵的计算并与相应阈值比较，保留左信息熵和右信息熵均大于相应阈值的组合词语，形成分词结果表。4.根据权利要求1所述的方法，其中所述对于给定的来自分词结果表的种子词，对它与分词结果表中的各分词结果之间的正相关似然比统计量进行排序，基于排序从分词结果表中提取一定数量的分词结果作为特征词输出的步骤包括：对于给定的来自分词结果表的种子词，对它与分词结果表中的各分词结果之间的正相关似然比统计量所对应的所述正相关矩阵的一行或一列进行排序，基于排序从分词结果表中提取一定数量的与该一行或该一列对应的分词结果作为特征词输出。5.根据权利要求1所述的方法，其中所述计算分词结果表中每两个分词结果之间的正相关似然比统计量的步骤还包括：对分词结果表中每两个分词结果之间的正相关似然比统计量进行邻近参考调整。6.根据权利要求1所述的方法，其中所述计算分词结果表中每两个分词结果之间的正相关似然比统计量的步骤还包括：对所述正相关矩阵中的每个正相关似然比统计量进行邻近参考调整；其中所述邻近参考调整具体包括：取所述正相关矩阵中所述种子词与分词结果表中的其他分词结果之间的正相关似然比统计量所在的正相关矩阵的一行或一列；-a对于所述该一行或该一列的各正相关似然比统计量所在所述正相关矩阵的一列或一行按值排序，计算所述各正相关似然比统计量所在所述正相关矩阵的一列或一行中排名在一定阈值前的所有正相关似然比统计量的平均值，并以所述各正相关似然比统计量所在所述正相关矩阵的一列或一行中排名在一定阈值前的正相关似然比统计量和所述平均值进行求和后的均值来替换对应的一列或一行的原正相关似然比统计量；循环执行上述步骤-a，直到替换后的正相关矩阵与上一次替换后的正相关矩阵的余弦距离小于一定阈值。7.根据权利要求1-3任一项所述的方法，所述对所述文档集中的每个分句进行分词处理，得到分词结果表还包括：统计分词结果表中由名词或/和形容词组成的组合词语分别出现在所述文档集中的分句频次，从所述分词结果表中过滤频次低于一定阈值的由名词或/和形容词组成的组合词语。8.根据权利要求1所述的方法，其中从分词结果表中提取一定数量的分词结果作为特征词输出的步骤包括：按照特定词性从分词结果表中提取一定数量的分词结果输出。9.根据权利要求1所述的方法，其中计算分词结果表中每两个分词结果之间的正相关似然比统计量的公式为：其中，其中，wi、wj表示分词结果表中的任意一个不同的分词结果，Positive_Assosiation(wi，wj)表示任意两个不同的分词结果的正相关似然比统计量，nii表示分词结果wi、wj同时出现在所述文档集中的分句频次，njj表示分词结果wi、wj同时...

【专利技术属性】
技术研发人员：屠守中，黄民烈，朱小燕，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人