一种获取热点话题的方法及装置制造方法及图纸

技术编号:10356820 阅读:130 留言:0更新日期:2014-08-27 13:03
本发明专利技术公开了一种获取热点话题的方法及装置,属于互联网通信领域。所述方法包括:根据一个周期内的社区数据获取第一词汇集合,所述第一词汇集合包括所述社区数据中包含的词汇;根据所述第一词汇集合包括的词汇在离当前最近的预设第一数值天内的社区数据中出现的频次,从所述第一词汇集合中选取词汇,将所述选取的词汇确定为热点词汇并组成第二词汇集合;根据所述第二词汇集合从社区话题集合中选取社区话题,并将所述选取的社区话题确定为热点话题。本发明专利技术通过周期性的获取社区数据,在社区数据中获取热点词汇,并根据当前周期内的热点词汇来选取热点话题,避免了人工查询热点话题效率低,准确性差的缺陷,提高了获取热点话题的时效性。

【技术实现步骤摘要】
一种获取热点话题的方法及装置
本专利技术涉及互联网通信领域,特别涉及一种获取热点话题的方法及装置。
技术介绍
随着社区技术的发展,社区已得到用户广泛地应用,用户可以在社区中发表话题、查看话题或参与话题讨论等方式进行互动。一般情况下,为了方便用户获取信息,社区管理者会将一些突发的热点事件或用户参与度较高的话题作为热点话题放在社区首页的导航栏中,以便用户在进入社区首页时直接通过链接进行查看。现有技术中,收集突发的热点事件或用户参与度较高的话题,是通过人工查询的方式得到的。管理员通过查询各网站中的新闻的访问量,或查询社区中话题的访问量来确定放入社区导航栏中的热点话题。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题:通过人工查询的方式,耗费人力资源较大并且对于热点话题发掘的准确性和时效性较低。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种获取热点话题的方法及装置。所述技术方案如下:—方面,提供了一种获取热点话题的方法,所述方法包括:根据一个周期内的社区数据获取第一词汇集合,所述第一词汇集合包括所述社区数据中包含的词汇,其中所述社区数据包括微博博文、搜索引擎搜索关键词、新闻标题和/或社区话题;根据所述第一词汇集合包括的词汇在离当前最近的预设第一数值天内的社区数据中出现的频次,从所述第一词汇集合中选取词汇,将所述选取的词汇确定为热点词汇并组成第二词汇集合;根据所述第二词汇集合从社区话题集合中选取社区话题,并将所述选取的社区话题确定为热点话题。另一方面,提供了一种获取热点话题的装置,所述装置包括:第一获取模块,用于根据一个周期内的社区数据获取第一词汇集合,所述第一词汇集合包括所述社区数据中包含的词汇,其中所述社区数据包括微博博文、搜索引擎搜索关键词、新闻标题和/或社区话题;第一选取模块,用于根据所述第一词汇集合包括的词汇在离当前最近的预设第一数值天内的社区数据中出现的频次,从所述第一词汇集合中选取词汇,将所述选取的词汇确定为热点词汇并组成第二词汇集合;第二选取模块,用于根据所述第二词汇集合从社区话题集合中选取社区话题,并将所述选取的社区话题确定为热点话题。本专利技术实施例提供的技术方案带来的有益效果是:通过周期性的获取社区数据,在社区数据中获取热点词汇,并根据当前周期内的热点词汇来选取热点话题,避免了人工查询热点话题效率低,准确性差的缺陷,提高了获取热点话题的时效性。【附图说明】为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例一提供的获取热点话题的方法流程图;图2是本专利技术实施例二提供的获取热点话题的方法流程图;图3是本专利技术实施例三提供的获取热点话题的装置结构示意图。【具体实施方式】为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。实施例一本专利技术实施例提供了一种获取热点话题的方法,参见图1,方法流程包括:101:根据一个周期内的社区数据获取第一词汇集合,所述第一词汇集合包括所述社区数据中包含的词汇,其中所述社区数据包括微博博文、搜索引擎搜索关键词、新闻标题和/或社区话题;102:根据所述第一词汇集合包括的词汇在离当前最近的预设第一数值天内的社区数据中出现的频次,从所述第一词汇集合中选取词汇,将所述选取的词汇确定为热点词汇并组成第二词汇集合;103:根据所述第二词汇集合从社区话题集合中选取社区话题,并将所述选取的社区话题确定为热点话题。本专利技术实施例通过周期性的获取社区数据,在社区数据中获取热点词汇,并根据当前周期内的热点词汇来选取热点话题,避免了人工查询热点话题效率低,准确性差的缺陷,提高了获取热点话题的时效性。实施例二本专利技术实施例提供了一种获取热点话题的方法。需要说明的是,在执行获取热点话题的方法步骤之前,首先需要通过数据挖掘的方式获取语义相同或者相近的词汇,组成一颗相关词汇树。相关词汇树的挖掘工作是通过将大量的文本进行包含但不限于相近词汇、同义词汇、关联词汇的挖掘,并把这些具备相关性的词汇通过聚类算法分类进行聚合,将组织成一个知识库。其中,相近词汇指具有近似意义的词,但又不完全相同。例如“固定”和“静止”,“聪明”和“灵巧”具有近似意义,但又含义不同。同义词汇指名称不同但表达的词条意思相同的词汇,例如“湖南省”和“湖南”是同义词。关联词汇指具有父子关系、兄弟关系或者相关联的词汇。父子关系是指一个词汇对另一个词汇有包含关系,比如,“果树”和“苹果树”,“果树”包含了 “苹果树”所以这两个词汇为具有父子关系的词汇。兄弟关系是指两个词汇同属于同一个具有父子关系的词汇,t匕如“苹果树”的父关系词汇“果树”,“梨树”的父关系词汇也为“果树”,所以“梨树”和“苹果树”为兄弟关系词汇。语义树的挖掘方式可以为以下方式:方式一:高频共现的方式:高频贡献是挖掘知识图谱的一种常用的方法。通过计算在大规模文本库中具有相同概念的文本窗口中A1、A2两个词汇共同出现的次数。词汇Al和A2的高频共现概率为:P (Al, A2)=(同时包含Al、A2的论文数)/ (包含Al的论文数+包含A2的论文数);当Ρ(Α1,Α2)>α时,贝U认为Al和Α2是相关词汇,其中α为阈值,取值范围为(O,I]。方式二:采用相似度计算的方式:先抽取特征向量,然后计算两个词汇的特征向量的夹角余弦值。词汇Al和Α2的夹角余弦值的计算方式为:R (Al, Α2) =Cos (VI,V2),其中 V1、V2 分别为词 Al、Α2 的特征向量。当R(Al,A2)>i3时,则认为Al和A2是相关词汇,β为阈值,取值范围为(0,I]。词汇的特征向量抽取目前已有较多的研究方法,包含但不限于采用词的上下文包含的词汇作为特征向量,采用词汇所在的文档id、采用文档的属性、出处等等。方式三:采用LDA (Linear Discriminant Analysis,线性判别分析)主题模型的方式:目前已有开源的LDA算法代码,可以直接使用。基于LDA的语义树可以在离线计算好模型然后在线上使用,或者直接使用通过LDA计算出来的语义树。通过上述三种方式单独或互相结合,挖掘得到词汇之间的相关性关系,汇集所有词汇之间的相关性关系构建出相关性词汇树。其中,在相关性词汇树中各个相关词汇是通过数值的方式,即相似度建立起的相关性关系,因此相关词汇之间的相似性关系可以通过相似度来表达。构建成相关词汇树后,可以利用本专利技术实施例提供的方法来获取热点话题,参见图2,该方法流程包括:201:根据一个周期内的社区数据获取第一词汇集合,所述第一词汇集合包括所述社区数据中包含的词汇,其中所述社区数据包括微博博文、搜索引擎搜索关键词、新闻标题和/或社区话题。步骤201可以具体为:2011:周期性的获取社区数据,得到一个周期内的社区数据。2012:对所述一个周期内的社区数据进行分词得到所述一个周期内的社区数据中包括的词汇,并将分词得到的词汇组成第三词汇集合。通过预设的分词包,对社区数据中的语句进行分词,得到社区数据中包括的词汇。2013本文档来自技高网...

【技术保护点】
一种获取热点话题的方法,其特征在于,所述方法包括:根据一个周期内的社区数据获取第一词汇集合,所述第一词汇集合包括所述社区数据中包含的词汇,其中所述社区数据包括微博博文、搜索引擎搜索关键词、新闻标题和/或社区话题;根据所述第一词汇集合包括的词汇在离当前最近的预设第一数值天内的社区数据中出现的频次,从所述第一词汇集合中选取词汇,将所述选取的词汇确定为热点词汇并组成第二词汇集合;根据所述第二词汇集合从社区话题集合中选取社区话题,并将所述选取的社区话题确定为热点话题。

【技术特征摘要】
1.一种获取热点话题的方法,其特征在于,所述方法包括: 根据一个周期内的社区数据获取第一词汇集合,所述第一词汇集合包括所述社区数据中包含的词汇,其中所述社区数据包括微博博文、搜索引擎搜索关键词、新闻标题和/或社区话题; 根据所述第一词汇集合包括的词汇在离当前最近的预设第一数值天内的社区数据中出现的频次,从所述第一词汇集合中选取词汇,将所述选取的词汇确定为热点词汇并组成第二词汇集合; 根据所述第二词汇集合从社区话题集合中选取社区话题,并将所述选取的社区话题确定为热点话题。2.根据权利要求1所述的方法,其特征在于,所述根据一个周期内的社区数据获取第一词汇集合,包括: 周期性的获取社区数据,得到一个周期内的社区数据; 对所述一个周期内的社区数据进行分词得到所述一个周期内的社区数据中包括的词汇,并将分词得到的词汇组成第三词汇集合; 从所述第三词汇集合中去除预设过滤词汇集合中包括的词汇得到第一词汇集合。3.根据权利要求1所述的方法,其特征在于,所述根据所述第一词汇集合包括的词汇在离当前最近的预设第一 数值天内的社区数据中出现的频次,从所述第一词汇集合中选取词汇,将所述选取的词汇确定为热点词汇并组成第二词汇集合,包括: 根据所述第一词汇集合包括的词汇在当天的第一时段内社区数据出现的频次和预设第一数值天内除当天以外其他每天的第一时段内社区数据出现的频次,计算所述第一词汇集合包括的词汇对应的第一比值; 获取当天的星期日期,根据所述第一词汇集合包括的词汇在当天的社区数据中出现的频次和所述预设天数包括的所述星期日期除当天以外其他每天的社区数据中出现的频次,计算所述第一词汇集合包括的词汇对应的第二比值; 从预设第一天数中除当天以外的天数中选择预设天数;根据所述第一词汇集合包括的词汇在当天内社区数据出现的频次和所述预设天数的社区数据中出现的频次,计算所述第一词汇集合包括的词汇对应的第三比值; 根据所述第一词汇集合包括的词汇对应的第一比值,第二比值和第三比值,计算所述第一词汇集合中包括的词汇的热度值; 从所述第一词汇集合中选取热度值最大的第一预设个数个的词汇,或者从所述词汇集合中选取热度值超过第一预设热度值的词汇,将所述选取的词汇确定为热点词汇并组成第二词汇集合。4.根据权利要求3所述的方法,其特征在于,所述根据所述第一词汇集合包括的词汇在当天的第一时段内社区数据出现的频次和预设天数内除当天以外其他每天的第一时段内社区数据出现的频次,计算所述第一词汇集合包括的词汇对应的第一比值,包括: 在所述预设第一数值天内选取除当天以外的第二数值天,根据所述第一词汇集合包括的词汇在所述第二数值天中每天的第一时段内社区数据出现的频次和第二数值,计算所述第一词汇集合包括的词汇的第一平均频次; 根据所述第一词汇集合包括的词汇在当天的第一时段内社区数据出现的频次和所述第一词汇集合包括的词汇的第一平均频次,计算所述第一词汇集合包括的词汇对应的第一比值。5.根据权利要求3所述的方法,其特征在于,所述根据所述第一词汇集合包括的词汇在当天的社区数据中出现的频次和所述预设天数包括的所述星期日期除当天以外其他每天的社区数据中出现的频次,计算所述第一词汇集合包括的词汇对应的第二比值,包括: 根据所述第一词汇集合包括的词汇在所述预设第一数值天内包括的所述星期日期除当天以外其他每天的社区数据中出现的频次和第三数值,计算所述第一词汇集合包括的词汇的第二平均频次,所述第三数值为所述预设第一数值天内包括的所述星期日期的天数与I的差值; 根据所述第一词汇集合包括的词汇在当天的社区数据中出现的频次和所述第一词汇集合包括的词汇的第二平均频次,计算所述第一词汇集合包括的词汇对应的第二比值。6.根据权利要求3所述的方法,其特征在于,所述根据所述第一词汇集合包括的词汇在当天内社区数据出现的频次和所述预设天数的社区数据中出现的频次,计算所述第一词汇集合包括的词汇对应的第三比值,包括: 在所述预设第一数值天内选取除当天以外的第四数值天,根据所述第一词汇集合包括的词汇在所述第四数值天内的社区数据中出现的频次和所述第四数值,计算所述第一词汇集合包括的词汇的第三平均频次; 所述根据所述第一词汇集合包括的词汇在当天内社区数据出现的频次和所述第一词汇集合包括的词汇的 第三平均频次,计算所述第一词汇集合包括的词汇对应的第三比值。7.根据权利要求2所述的方法,其特征在于,所述从所述第三词汇集合中去除预设过滤词汇集合中包括的词汇得到第一词汇集合之后,所述方法还包括: 对于所述第二词汇集合中的任意热点词汇,根据预先通过文本聚类算法建立的相关词汇树,获取与所述热点词汇具备相关性的词汇以及所述词汇的相关度; 根据所述热点词汇对应的热度值和所述词汇的相关度,计算所述词汇的热度值; 将所述词汇作为热点词汇,添加入所述第二词汇集合中; 根据文本聚类算法,对所述第二词汇集合中的热点词汇进行分类。8.根据权利要求7所述的方法,其特征在于,所述根据所述第二词汇集合从社区话题集合中选取社区话题,并将所述选取的社区话题确定为热点话题,包括: 对于社区话题集合中任意一个社区话题,获取所述社区话题包括的所述第二词汇集合中的词汇,将获取的词汇对应的热度值进行累加,得到所述社区话题的热度值; 从所述社区话题集合中选取热度值最大的第二预设个数个的社区话题,或者从所述社区话题集合中选取热度值超过第二预设热度值的社区话题,将所述选取的社区话题确定为热点话题。9.根据权利要求7所述的方法,其特征在于,所述根据所述第二词汇集合从社区话题集合中选取社区话题,包括: 根据所述第二词汇集合中包括的热点词汇的热度值,计算社区话题集合中包括的每一个社区话题的热度值; 从所述社区话题集合中选取热度值最大的第三预设个数个的社区话题,或者从所述社区话题集合中选取热度值超过第三预设热度值的社区话题,将所述选取的社区话题确定为热点话题。10.根据权利要求9所述的方法,其特征在于,所述根据所述第二词汇集合中包括的热点词汇的热度值,计算社区话题集合中包括的每一个社区话题的热度值,包括: 对于社区话题集合中任意一个社区话题,获取所述社区话题分别包括所述第二词汇集合中每一个分类中的热点词汇个数,选取热点词汇个数最多的一个分类; 根据所述社区话题包括的所述选择的分类的热点词汇的热度值,计算所述社区话题的第一热度值; 所述选择的分类的热点词汇中去除所述社区话题包括的所述选择的分类的热点词汇,根据所述选择的分类中剩下的热点词汇的热度值,计算所述社区话题的第二热度值; 获取所述社区话题包括的所述第二词汇集合中的热点词汇并组成第四词汇集合,在所述第四词汇集合中去除所述社区话题包括的所述选择的分类的热点词汇并组成第五词汇集合,根据...

【专利技术属性】
技术研发人员:程刚
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1