【技术实现步骤摘要】
一种获取热点话题的方法及装置
本专利技术涉及互联网通信领域,特别涉及一种获取热点话题的方法及装置。
技术介绍
随着社区技术的发展,社区已得到用户广泛地应用,用户可以在社区中发表话题、查看话题或参与话题讨论等方式进行互动。一般情况下,为了方便用户获取信息,社区管理者会将一些突发的热点事件或用户参与度较高的话题作为热点话题放在社区首页的导航栏中,以便用户在进入社区首页时直接通过链接进行查看。现有技术中,收集突发的热点事件或用户参与度较高的话题,是通过人工查询的方式得到的。管理员通过查询各网站中的新闻的访问量,或查询社区中话题的访问量来确定放入社区导航栏中的热点话题。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题:通过人工查询的方式,耗费人力资源较大并且对于热点话题发掘的准确性和时效性较低。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种获取热点话题的方法及装置。所述技术方案如下:—方面,提供了一种获取热点话题的方法,所述方法包括:根据一个周期内的社区数据获取第一词汇集合,所述第一词汇集合包括所述社区数据中包含的词汇,其中所述社区数据包括微博博文、搜索引擎搜索关键词、新闻标题和/或社区话题;根据所述第一词汇集合包括的词汇在离当前最近的预设第一数值天内的社区数据中出现的频次,从所述第一词汇集合中选取词汇,将所述选取的词汇确定为热点词汇并组成第二词汇集合;根据所述第二词汇集合从社区话题集合中选取社区话题,并将所述选取的社区话题确定为热点话题。另一方面,提供了一种获取热点话题的装置,所述装置包括:第一获取模块,用于根据一个周 ...
【技术保护点】
一种获取热点话题的方法,其特征在于,所述方法包括:根据一个周期内的社区数据获取第一词汇集合,所述第一词汇集合包括所述社区数据中包含的词汇,其中所述社区数据包括微博博文、搜索引擎搜索关键词、新闻标题和/或社区话题;根据所述第一词汇集合包括的词汇在离当前最近的预设第一数值天内的社区数据中出现的频次,从所述第一词汇集合中选取词汇,将所述选取的词汇确定为热点词汇并组成第二词汇集合;根据所述第二词汇集合从社区话题集合中选取社区话题,并将所述选取的社区话题确定为热点话题。
【技术特征摘要】
1.一种获取热点话题的方法,其特征在于,所述方法包括: 根据一个周期内的社区数据获取第一词汇集合,所述第一词汇集合包括所述社区数据中包含的词汇,其中所述社区数据包括微博博文、搜索引擎搜索关键词、新闻标题和/或社区话题; 根据所述第一词汇集合包括的词汇在离当前最近的预设第一数值天内的社区数据中出现的频次,从所述第一词汇集合中选取词汇,将所述选取的词汇确定为热点词汇并组成第二词汇集合; 根据所述第二词汇集合从社区话题集合中选取社区话题,并将所述选取的社区话题确定为热点话题。2.根据权利要求1所述的方法,其特征在于,所述根据一个周期内的社区数据获取第一词汇集合,包括: 周期性的获取社区数据,得到一个周期内的社区数据; 对所述一个周期内的社区数据进行分词得到所述一个周期内的社区数据中包括的词汇,并将分词得到的词汇组成第三词汇集合; 从所述第三词汇集合中去除预设过滤词汇集合中包括的词汇得到第一词汇集合。3.根据权利要求1所述的方法,其特征在于,所述根据所述第一词汇集合包括的词汇在离当前最近的预设第一 数值天内的社区数据中出现的频次,从所述第一词汇集合中选取词汇,将所述选取的词汇确定为热点词汇并组成第二词汇集合,包括: 根据所述第一词汇集合包括的词汇在当天的第一时段内社区数据出现的频次和预设第一数值天内除当天以外其他每天的第一时段内社区数据出现的频次,计算所述第一词汇集合包括的词汇对应的第一比值; 获取当天的星期日期,根据所述第一词汇集合包括的词汇在当天的社区数据中出现的频次和所述预设天数包括的所述星期日期除当天以外其他每天的社区数据中出现的频次,计算所述第一词汇集合包括的词汇对应的第二比值; 从预设第一天数中除当天以外的天数中选择预设天数;根据所述第一词汇集合包括的词汇在当天内社区数据出现的频次和所述预设天数的社区数据中出现的频次,计算所述第一词汇集合包括的词汇对应的第三比值; 根据所述第一词汇集合包括的词汇对应的第一比值,第二比值和第三比值,计算所述第一词汇集合中包括的词汇的热度值; 从所述第一词汇集合中选取热度值最大的第一预设个数个的词汇,或者从所述词汇集合中选取热度值超过第一预设热度值的词汇,将所述选取的词汇确定为热点词汇并组成第二词汇集合。4.根据权利要求3所述的方法,其特征在于,所述根据所述第一词汇集合包括的词汇在当天的第一时段内社区数据出现的频次和预设天数内除当天以外其他每天的第一时段内社区数据出现的频次,计算所述第一词汇集合包括的词汇对应的第一比值,包括: 在所述预设第一数值天内选取除当天以外的第二数值天,根据所述第一词汇集合包括的词汇在所述第二数值天中每天的第一时段内社区数据出现的频次和第二数值,计算所述第一词汇集合包括的词汇的第一平均频次; 根据所述第一词汇集合包括的词汇在当天的第一时段内社区数据出现的频次和所述第一词汇集合包括的词汇的第一平均频次,计算所述第一词汇集合包括的词汇对应的第一比值。5.根据权利要求3所述的方法,其特征在于,所述根据所述第一词汇集合包括的词汇在当天的社区数据中出现的频次和所述预设天数包括的所述星期日期除当天以外其他每天的社区数据中出现的频次,计算所述第一词汇集合包括的词汇对应的第二比值,包括: 根据所述第一词汇集合包括的词汇在所述预设第一数值天内包括的所述星期日期除当天以外其他每天的社区数据中出现的频次和第三数值,计算所述第一词汇集合包括的词汇的第二平均频次,所述第三数值为所述预设第一数值天内包括的所述星期日期的天数与I的差值; 根据所述第一词汇集合包括的词汇在当天的社区数据中出现的频次和所述第一词汇集合包括的词汇的第二平均频次,计算所述第一词汇集合包括的词汇对应的第二比值。6.根据权利要求3所述的方法,其特征在于,所述根据所述第一词汇集合包括的词汇在当天内社区数据出现的频次和所述预设天数的社区数据中出现的频次,计算所述第一词汇集合包括的词汇对应的第三比值,包括: 在所述预设第一数值天内选取除当天以外的第四数值天,根据所述第一词汇集合包括的词汇在所述第四数值天内的社区数据中出现的频次和所述第四数值,计算所述第一词汇集合包括的词汇的第三平均频次; 所述根据所述第一词汇集合包括的词汇在当天内社区数据出现的频次和所述第一词汇集合包括的词汇的 第三平均频次,计算所述第一词汇集合包括的词汇对应的第三比值。7.根据权利要求2所述的方法,其特征在于,所述从所述第三词汇集合中去除预设过滤词汇集合中包括的词汇得到第一词汇集合之后,所述方法还包括: 对于所述第二词汇集合中的任意热点词汇,根据预先通过文本聚类算法建立的相关词汇树,获取与所述热点词汇具备相关性的词汇以及所述词汇的相关度; 根据所述热点词汇对应的热度值和所述词汇的相关度,计算所述词汇的热度值; 将所述词汇作为热点词汇,添加入所述第二词汇集合中; 根据文本聚类算法,对所述第二词汇集合中的热点词汇进行分类。8.根据权利要求7所述的方法,其特征在于,所述根据所述第二词汇集合从社区话题集合中选取社区话题,并将所述选取的社区话题确定为热点话题,包括: 对于社区话题集合中任意一个社区话题,获取所述社区话题包括的所述第二词汇集合中的词汇,将获取的词汇对应的热度值进行累加,得到所述社区话题的热度值; 从所述社区话题集合中选取热度值最大的第二预设个数个的社区话题,或者从所述社区话题集合中选取热度值超过第二预设热度值的社区话题,将所述选取的社区话题确定为热点话题。9.根据权利要求7所述的方法,其特征在于,所述根据所述第二词汇集合从社区话题集合中选取社区话题,包括: 根据所述第二词汇集合中包括的热点词汇的热度值,计算社区话题集合中包括的每一个社区话题的热度值; 从所述社区话题集合中选取热度值最大的第三预设个数个的社区话题,或者从所述社区话题集合中选取热度值超过第三预设热度值的社区话题,将所述选取的社区话题确定为热点话题。10.根据权利要求9所述的方法,其特征在于,所述根据所述第二词汇集合中包括的热点词汇的热度值,计算社区话题集合中包括的每一个社区话题的热度值,包括: 对于社区话题集合中任意一个社区话题,获取所述社区话题分别包括所述第二词汇集合中每一个分类中的热点词汇个数,选取热点词汇个数最多的一个分类; 根据所述社区话题包括的所述选择的分类的热点词汇的热度值,计算所述社区话题的第一热度值; 所述选择的分类的热点词汇中去除所述社区话题包括的所述选择的分类的热点词汇,根据所述选择的分类中剩下的热点词汇的热度值,计算所述社区话题的第二热度值; 获取所述社区话题包括的所述第二词汇集合中的热点词汇并组成第四词汇集合,在所述第四词汇集合中去除所述社区话题包括的所述选择的分类的热点词汇并组成第五词汇集合,根据...
【专利技术属性】
技术研发人员:程刚,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。