一种挖掘热词的方法与装置制造方法及图纸

技术编号:8959420 阅读:137 留言:0更新日期:2013-07-25 18:58
本发明专利技术公开了一种挖掘热词的方法及装置。该方法包括:预先设置热词库并对热词库中的各热词设置相应的热词权重;根据热词在文档中的词频以及热词库中设置的热词权重,将文档用热词库中热词进行表示;将用热词库中热词进行表示的文档聚类为预设数目的文档类;对预设数目的文档类进行重心排序,过滤掉文档类重心值小于预先设置的重心阈值的文档类;对过滤后的文档类按照预先设置的热词选取策略进行热词选取。应用本发明专利技术,可以降低聚类复杂度、提高社交网络热点挖掘的效率。

【技术实现步骤摘要】

本专利技术涉及计算机聚类技术,特别涉及一种挖掘热词的方法与装置
技术介绍
随着计算机通信技术的发展,尤其是3g网络和智能移动终端的发展,用户的网络生活越来越丰富,在社交网络上聊天、浏览新闻、看电影、玩游戏、搜索、购物、发布信息等,越来越成为网络生活的一部分。而如何让用户有效地从网络社区中找到有价值的信息,成为信息领域一个重要的研究课题。目前,在社区中海量的各领域的网络信息中,采用基于文档进行热词挖掘的方法,利用空间向量模型(VSM,Vector Space Model)将网络中的文档表示为由词语组成的特征向量,每一维特征向量值对应词语的相关信息,可以是二值、词语在文档出现次数的词频(TF, Term Frequency)、词频反文档频率(TF-1DF, Term Frequency-1nverse DocumentFrequency)等。例如,在二值中,可以用0表示词语在相关文档出现,用I表示词语未出现在该相关文档,在TF-1DF中,利用词语在该文档中出现的次数以及该词语在历史文档中出现的次数作为特征向量值的相关信息。这样,通过将文档表示为由词语组成的特征向量后,对文档进行聚类,过滤特征向量中的一些词语,从而挖掘出文档中有价值的词语的信息,并选取一些过滤的到的词语作为热词推荐给用户,从而增加用户的业务体验。但该方法以文档中包含的词语表示文档,采用TF-1DF等方法进行聚类,对于用户比较关注的突发性热点事件,由于该突发性热点事件只与较短的时间信息相关,其词语在历史文档中几乎没有出现,因而,在聚类过程中,容易被过滤掉,使得推荐给用户的热词不能反映热点事件,价值较低;进一步地,由词语组成的特征向量中,维度为非O值较多,且包含了大量与热点事件无关的词语,增加了聚类处理的复杂度,无法满足社交网络的实时性要求。为了有效降低以静态表示文档导致的缺少与热点事件紧密相关的时间信息,现有技术提出了一种改进的基于文档挖掘热词的方法,即考虑热点事件中词语的动态文档表示方法:技术人员浏览文档,当文档中的某个词语在文档所处时间段为与事件紧密相关的时间段时,基于该文档在原有TF-1DF基础上,增加该词语在文档特征向量中的权重,这样,可以提高该词语在聚类结果中的优先性,从而增大作为热词输出并推荐给用户的概率,以克服文档静态表示的缺陷。由上述可见,现有改进的基于文档挖掘热词的方法,虽然能够有效降低以静态表示文档导致的缺少与事件紧密相关的时间信息,但在进行聚类的词语中,还是包含了大量与热点事件无关的词语,增加了聚类复杂度;进一步地,需要人工识别文档中热点事件包含的词语,且采用现有TF-1DF等聚类方法,而热点事件一般具有突发性、持续时间短等特点,使得考虑词语历史信息的聚类方法,虽然增加了热点事件包含的词语在文档特征向量中的权重,但其聚类结果还是较容易过滤实时性热点事件中包含的词语,热点挖掘效率较低,还是无法满足社交网络挖掘的实时性要求。
技术实现思路
有鉴于此,本专利技术的主要目的在于提出一种挖掘热词的方法,降低聚类复杂度、提高社交网络热点挖掘的效率。本专利技术的另一目的在于提出一种挖掘热词的装置,降低聚类复杂度、提高社交网络热点挖掘的效率。为达到上述目的,本专利技术提供了一种挖掘热词的方法,该方法包括:预先设置热词库并对热词库中的各热词设置相应的热词权重;根据热词在文档中的词频以及热词库中设置的热词权重,将文档用热词库中热词进行表示;将用热词库中热词进行表示的文档聚类为预设数目的文档类;对预设数目的文档类进行重心排序,过滤掉文档类重心值小于预先设置的重心阈值的文档类;对过滤后的文档类按照预先设置的热词选取策略进行热词选取。所述预设数目为用热词库中热词进行表示的文档总数的平方根与预设的文档类系数的乘积;所述将用热词库中热词进行表示的文档聚类为预设数目的文档类包括:将用热词库中热词进行表示的文档设置为一个文档类;采用贪心算法对设置的文档类进行分裂,使得当前分裂后生成的两个文档类的平均距离最大;计算各文档类的类内距离以及各文档类之间的类间距离,选取类内距离与类间距离比值最大对应的文档类进行再分裂;确认分裂得到的所有文档类数目达到预设数目。在得到预设数目的文档类后,进一步包括: 对预设数目的文档类中的相似文档类进行合并处理;所述对预设数目的文档类中的相似文档类进行合并处理包括:计算每一文档类内所有文档的特征向量值的平均值,得到相应文档类重心;根据两个文档类的重心计算该两文档之间的欧氏距离;将计算得到的欧氏距离的倒数作为文档类间相似度,如果文档类间相似度超过预设的类间相似度阈值,合并该两个文档类。所述过滤掉文档类重心值小于预先设置的重心阈值的文档类之后,进一步包括:获取过滤得到的文档类内的文档数,将超过预先设置的最大文档数阈值的文档类、和/或,低于预先设置的最小文档数阈值的文档类进行过滤。所述过滤掉文档类重心值小于预先设置的重心阈值的文档类之后,进一步包括:计算文档类内各文档间相似度,将文档间相似度超过预先设置的文档相似度阈值的文档进行过滤。所述计算文档间相似度包括:获取文档类内任意两文档中,具有的最长公共字符串的长度;获取文档类内该两文档中,具有较多字符串的文档所包含的字符串长度;计算最长公共字符串的长度与所包含的字符串长度的商,得到文档间相似度。所述计算文档间相似度包括:对文档类内文档按字符串长度进行排序;获取文档类内相邻两文档中,具有的最长公共字符串的长度;获取文档类内该两文档中,具有较多字符串的文档所包含的字符串长度;计算最长公共字符串的长度与所包含的字符串长度的商,得到文档间相似度。进一步包括:统计文档间相似度超过预先设置的文档相似度阈值的文档对,确定相似文档对的数量超过预先设置的相似文档对数量阈值,过滤该文档类。所述按照预先设置的热词选取策略进行热词选取包括:统计每一文档类内各热词的词频以及每一文档类的文档数;如果文档类内热词的词频与该文档类的文档数的比值超过预先设置的该文档类热词阈值,选取该热词。所述按照预先设置的热词选取策略进行热词选取包括:统计每一文档类内各热词的词频以及该热词出现在各文档类内文档的文档数;如果文档类内热词的词频与该热词出现在各文档类内文档的文档数的比值超过预先设置的文档类间热词阈值,选取该热词。在所述选取该热词后,进一步包括:计算最接近文档类重心的文档;匹配选取的热词以及最接近文档类重心的文档中的热词,获取匹配的热词。进一步包括:确定匹配的热词数量小于预先设置的热词数量阈值,根据预先设置的表意词词库匹配该文档类内文档,获取候选表意词;根据统计的候选表意词词频过滤候选表意词;计算最接近文档类重心的文档;匹配候选表意词以及最接近文档类重心的文档中的表意词,将匹配的表意词放入已选取的热词中。进一步包括:按照最接近文档类重心的文档中热词及表意词的顺序调整待输出的热词以及表意词的顺序。进一步包括:将选取的各文档类的热词进行切分,获取各文档类的切分结果,确定两文档类的切分结果满足预先设置的切分条件,过滤文档类重心较低的文档类内的热词。用热词库中热词进行表示的文档的特征向量由文档中与热词库匹配成功的热词的特征向量值组成;所述获取热词的特征向量值包括:统计热词在文档中的词频;获取热词词频的对数值与数值I相加的和;获取预先设置的本文档来自技高网
...

【技术保护点】
一种挖掘热词的方法,其特征在于,该方法包括:预先设置热词库并对热词库中的各热词设置相应的热词权重;根据热词在文档中的词频以及热词库中设置的热词权重,将文档用热词库中热词进行表示;将用热词库中热词进行表示的文档聚类为预设数目的文档类;对预设数目的文档类进行重心排序,过滤掉文档类重心值小于预先设置的重心阈值的文档类;对过滤后的文档类按照预先设置的热词选取策略进行热词选取。

【技术特征摘要】
1.一种挖掘热词的方法,其特征在于,该方法包括: 预先设置热词库并对热词库中的各热词设置相应的热词权重; 根据热词在文档中的词频以及热词库中设置的热词权重,将文档用热词库中热词进行表不; 将用热词库中热词进行表示的文档聚类为预设数目的文档类; 对预设数目的文档类进行重心排序,过滤掉文档类重心值小于预先设置的重心阈值的文档类; 对过滤后的文档类按照预先设置的热词选取策略进行热词选取。2.如权利要求1所述的方法,其特征在于,所述预设数目为用热词库中热词进行表示的文档总数的平方根与预设的文档类系数的乘积; 所述将用热词库中热词进行表示的文档聚类为预设数目的文档类包括: 将用热词库中热词进行表示的文档设置为一个文档类; 采用贪心算法对设置的文档类进行分裂,使得当前分裂后生成的两个文档类的平均距离最大; 计算各文档类的类内距离以及各文档类之间的类间距离,选取类内距离与类间距离比值最大对应的文档类进行再分裂; 确认分裂得到的所有文档类数目达到预设数目。3.如权利要求2所述的方法,其特征在于,在得到预设数目的文档类后,进一步包括: 对预设数目的文档类中的相似文档类进行合并处理; 所述对预设数目的文档类中的相似文档类进行合并处理包括: 计算每一文档类内所有文档的特征向量值的平均值,得到相应文档类重心; 根据两个文档类的重心计算该两文档之间的欧氏距离; 将计算得到的欧氏距离的倒数作为文档类间相似度,如果文档类间相似度超过预设的类间相似度阈值,合并该两个文档类。4.如权利要求1所述的方法,其特征在于,所述过滤掉文档类重心值小于预先设置的重心阈值的文档类之后,进一步包括: 获取过滤得到的文档类内的文档数,将超过预先设置的最大文档数阈值的文档类、和/或,低于预先设置的最小文档数阈值的文档类进行过滤。5.如权利要求1所述的方法,其特征在于,所述过滤掉文档类重心值小于预先设置的重心阈值的文档类之后,进一步包括: 计算文档类内各文档间相似度,将文档间相似度超过预先设置的文档相似度阈值的文档进行过滤。6.如权利要求5所述的方法,其特征在于,所述计算文档间相似度包括: 获取文档类内任意两文档中,具有的最长公共字符串的长度; 获取文档类内该两文档中,具有较多字符串的文档所包含的字符串长度; 计算最长公共字符串的长度与所包含的字符串长度的商,得到文档间相似度。7.如权利要求5所述的方法,其特征在于,所述计算文档间相似度包括: 对文档类内文档按字符串长度进行排序; 获取文档类内相邻两文档中,具有的最长公共字符串的长度;获取文档类内该两文档中,具有较多字符串的文档所包含的字符串长度; 计算最长公共字符串的长度与所包含的字符串长度的商,得到文档间相似度。8.如权利要求7所述的方法,其特征在于,进一步包括: 统计文档间相似度超过预先设置的文档相似度阈值的文档对,确定相似文档对的数量超过预先设置的相似文档对数量阈值,过滤该文档类。9.如权利要求1所述的方法,其特征在于,所述按照预先设置的热词选取策略进行热词选取包括: 统计每一文档类内各热词的词频以及每一文档类的文档数; 如果文档类内热词的词频与该文档类的文档数的比值超过预先设置的该文档类热词阈值,选取该热词。10.如权利要求1所述的方法,其特征在于,所述按照预先设置的热词选取策略进行热词选取包括: 统计每一文档类内各热词的词频以及该热词出现在各文档类内文档的文档数; 如果文档类内热词的词频与该热词出现在各文档类内文档...

【专利技术属性】
技术研发人员:邸楠
申请(专利权)人:深圳市腾讯计算机系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1