【技术实现步骤摘要】
本专利技术涉及计算机聚类技术,特别涉及一种挖掘热词的方法与装置。
技术介绍
随着计算机通信技术的发展,尤其是3g网络和智能移动终端的发展,用户的网络生活越来越丰富,在社交网络上聊天、浏览新闻、看电影、玩游戏、搜索、购物、发布信息等,越来越成为网络生活的一部分。而如何让用户有效地从网络社区中找到有价值的信息,成为信息领域一个重要的研究课题。目前,在社区中海量的各领域的网络信息中,采用基于文档进行热词挖掘的方法,利用空间向量模型(VSM,Vector Space Model)将网络中的文档表示为由词语组成的特征向量,每一维特征向量值对应词语的相关信息,可以是二值、词语在文档出现次数的词频(TF, Term Frequency)、词频反文档频率(TF-1DF, Term Frequency-1nverse DocumentFrequency)等。例如,在二值中,可以用0表示词语在相关文档出现,用I表示词语未出现在该相关文档,在TF-1DF中,利用词语在该文档中出现的次数以及该词语在历史文档中出现的次数作为特征向量值的相关信息。这样,通过将文档表示为由词语组成的特征向量后,对文档进行聚类,过滤特征向量中的一些词语,从而挖掘出文档中有价值的词语的信息,并选取一些过滤的到的词语作为热词推荐给用户,从而增加用户的业务体验。但该方法以文档中包含的词语表示文档,采用TF-1DF等方法进行聚类,对于用户比较关注的突发性热点事件,由于该突发性热点事件只与较短的时间信息相关,其词语在历史文档中几乎没有出现,因而,在聚类过程中,容易被过滤掉,使得推荐给用户的热词不能反映热点事件, ...
【技术保护点】
一种挖掘热词的方法,其特征在于,该方法包括:预先设置热词库并对热词库中的各热词设置相应的热词权重;根据热词在文档中的词频以及热词库中设置的热词权重,将文档用热词库中热词进行表示;将用热词库中热词进行表示的文档聚类为预设数目的文档类;对预设数目的文档类进行重心排序,过滤掉文档类重心值小于预先设置的重心阈值的文档类;对过滤后的文档类按照预先设置的热词选取策略进行热词选取。
【技术特征摘要】
1.一种挖掘热词的方法,其特征在于,该方法包括: 预先设置热词库并对热词库中的各热词设置相应的热词权重; 根据热词在文档中的词频以及热词库中设置的热词权重,将文档用热词库中热词进行表不; 将用热词库中热词进行表示的文档聚类为预设数目的文档类; 对预设数目的文档类进行重心排序,过滤掉文档类重心值小于预先设置的重心阈值的文档类; 对过滤后的文档类按照预先设置的热词选取策略进行热词选取。2.如权利要求1所述的方法,其特征在于,所述预设数目为用热词库中热词进行表示的文档总数的平方根与预设的文档类系数的乘积; 所述将用热词库中热词进行表示的文档聚类为预设数目的文档类包括: 将用热词库中热词进行表示的文档设置为一个文档类; 采用贪心算法对设置的文档类进行分裂,使得当前分裂后生成的两个文档类的平均距离最大; 计算各文档类的类内距离以及各文档类之间的类间距离,选取类内距离与类间距离比值最大对应的文档类进行再分裂; 确认分裂得到的所有文档类数目达到预设数目。3.如权利要求2所述的方法,其特征在于,在得到预设数目的文档类后,进一步包括: 对预设数目的文档类中的相似文档类进行合并处理; 所述对预设数目的文档类中的相似文档类进行合并处理包括: 计算每一文档类内所有文档的特征向量值的平均值,得到相应文档类重心; 根据两个文档类的重心计算该两文档之间的欧氏距离; 将计算得到的欧氏距离的倒数作为文档类间相似度,如果文档类间相似度超过预设的类间相似度阈值,合并该两个文档类。4.如权利要求1所述的方法,其特征在于,所述过滤掉文档类重心值小于预先设置的重心阈值的文档类之后,进一步包括: 获取过滤得到的文档类内的文档数,将超过预先设置的最大文档数阈值的文档类、和/或,低于预先设置的最小文档数阈值的文档类进行过滤。5.如权利要求1所述的方法,其特征在于,所述过滤掉文档类重心值小于预先设置的重心阈值的文档类之后,进一步包括: 计算文档类内各文档间相似度,将文档间相似度超过预先设置的文档相似度阈值的文档进行过滤。6.如权利要求5所述的方法,其特征在于,所述计算文档间相似度包括: 获取文档类内任意两文档中,具有的最长公共字符串的长度; 获取文档类内该两文档中,具有较多字符串的文档所包含的字符串长度; 计算最长公共字符串的长度与所包含的字符串长度的商,得到文档间相似度。7.如权利要求5所述的方法,其特征在于,所述计算文档间相似度包括: 对文档类内文档按字符串长度进行排序; 获取文档类内相邻两文档中,具有的最长公共字符串的长度;获取文档类内该两文档中,具有较多字符串的文档所包含的字符串长度; 计算最长公共字符串的长度与所包含的字符串长度的商,得到文档间相似度。8.如权利要求7所述的方法,其特征在于,进一步包括: 统计文档间相似度超过预先设置的文档相似度阈值的文档对,确定相似文档对的数量超过预先设置的相似文档对数量阈值,过滤该文档类。9.如权利要求1所述的方法,其特征在于,所述按照预先设置的热词选取策略进行热词选取包括: 统计每一文档类内各热词的词频以及每一文档类的文档数; 如果文档类内热词的词频与该文档类的文档数的比值超过预先设置的该文档类热词阈值,选取该热词。10.如权利要求1所述的方法,其特征在于,所述按照预先设置的热词选取策略进行热词选取包括: 统计每一文档类内各热词的词频以及该热词出现在各文档类内文档的文档数; 如果文档类内热词的词频与该热词出现在各文档类内文档...
【专利技术属性】
技术研发人员:邸楠,
申请(专利权)人:深圳市腾讯计算机系统有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。