一种基于微博的热点信息提取的方法和装置制造方法及图纸

技术编号:9198239 阅读:255 留言:0更新日期:2013-09-26 02:26
本发明专利技术提供了一种基于微博的热点信息提取的方法和装置,其中所述方法包括:获取微博数据集合;从所述微博数据集合中提取特征信息,所述特征信息包括文本特征、时序特征、社交关系特征;依据所述文本特征、时序特征、社交关系特征聚类成一个或多个话题;提取每个话题的关键事件因子,将基于所述关键事件因子组成热点信息。本发明专利技术综合考虑了微博数据的特点,可以提高基于微博的热点信息发现的准确度。

【技术实现步骤摘要】
一种基于微博的热点信息提取的方法和装置
本专利技术涉及数据处理领域,特别是涉及一种基于微博的热点信息提取的方法,以及一种基于微博的热点信息提取的装置。
技术介绍
随着互联网的迅猛发展,如何有效利用网络舆情是一种重要的研究课题,网络舆情是由于各种事件的刺激而产生的通过互联网传播的人们对于该事件的所有认知、态度、情感和行为倾向的集合。在网络舆情的研究过程中,话题(事件)发现或检测是一项重要的技术。话题(事件)发现是指将输入的报道归入不同的话题簇,并在需要的时候建立新的话题簇。从本质上讲这等同于“无指导”的聚类研究,这种聚类多以增量的方式进行,聚类过程可以划分为两个阶段:识别出新事件的出现;将描写先前遇到的话题的报道归入相应的话题簇。目前,在话题(事件)发现方面比较有代表性的研究有:采用凝聚式聚类算法与平均聚类算法相结合的策略,将近似于同一话题模型的相关事件综合在一起作为话题检测的结果,使辅助话题检测系统具备了回溯相关事件的能力。TNO在层次话题检测方面,提出了增量式层次聚类算法,改进了凝聚层次聚类算法,其首先随机抽取小规模样本通过层次聚类构造初期的非循环有向图体系,然后将不对称的聚类结构通过二次分支进行优化,最后将其余报道根据相似性大小融合于非循环有向图体系,其中相似性大于特定阀值的报道被嵌入非循环有向图中已有的话题,而相似性小于特定阀值的报道则确定一个新的话题结构。微博作为新兴的一种传播形态,已经成为人们用以获取信息咨询和发布信息的主要平台之一,用户可以在微博上自由公开的对任何网络舆情热点和事件发表意见和与其他人交流。然而,上述话题检测的方法对于微博话题检测并不适用,主要存在以下缺点:1、数据准确率不高。传统的事件发现(检测)方法是通过构造词汇-文本特征矩阵分析事件,而微博数据的短文本性和文本缺失性会导致特征矩阵高度稀疏,从而使发现(检测)结果的准确率难以令人满意;2、数据检测单一性。微博数据中丰富的社交信息、超文本数据和特有的转发、评论数据为事件发现(检测)提供了更丰富的数据基础,而传统的方法并不能很好地将上述数据综合考虑进去。因此,本专利技术提出了一种基于微博的热点信息提取机制,能够综合考虑微博数据的特点,提高基于微博的热点信息发现的准确度。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于微博的热点信息提取的方法,用以综合考虑微博数据的特点,提高基于微博的热点信息发现的准确度。相应的,一种基于微博的热点信息提取的装置,用以保证上述方法在实际中的应用。为了解决上述问题,本专利技术公开了一种基于微博的热点信息提取的方法,包括:获取微博数据集合;从所述微博数据集合中提取特征信息,所述特征信息包括文本特征、时序特征、社交关系特征;依据所述文本特征、时序特征、社交关系特征聚类成一个或多个话题;提取每个话题的关键事件因子,基于所述关键事件因子组成热点信息。优选地,所述文本特征包括微博标签、内嵌外部链接对应的标题、微博的纯文本内容,所述依据文本特征、时序特征、社交关系特征聚类成一个或多个话题的步骤包括:对所述微博标签、内嵌外部链接对应的标题、微博的纯文本内容进行预处理,构建第一空间矩阵;依据所述时序特征、社交关系特征构建第二空间矩阵;按照所述第一空间矩阵与第二空间矩阵进行聚类,得到一个或多个话题。优选地,所述对微博标签、内嵌外部链接对应的标题、微博的纯文本内容进行预处理,构建第一空间矩阵的子步骤包括:对微博标签、内嵌外部链接对应的标题、微博的纯文本内容进行分词;对所述分词结果中出现的用户标签中的词汇、内嵌外部链接对应的标题中的词汇和人名、地名和机构名进行加权处理;依据所述分词并加权的结果,构建第一空间矩阵。优选地,所述依据时序特征、社交关系特征构建第二空间矩阵的子步骤包括:分别对所述时序特征以及社交关系特征添加权重;依据所述时序特征及社交关系特征和时序特征及社交关系特征对应的权重,构建第二空间矩阵。优选地,所述时序特征包括微博发布时间、微博评论时间。优选地,所述社交特征包括发布微博的用户信息,微博评论的次数、微博转发的次数。优选地,所述关键事件因子包括事件最早发布时间、事件发生地名、事件发生人名、事件发生机构名、事件内容关键词、用户情感倾向性。本专利技术还公开了一种基于微博的热点信息提取的装置,包括:微博数据结合获取模块,用于获取微博数据集合;特征信息提取模块,用于从所述微博数据集合中提取特征信息,所述特征信息包括文本特征、时序特征、社交关系特征;话题聚类模块,用于依据所述文本特征、时序特征、社交关系特征聚类成一个或多个话题;热点信息组成模块,用于提取每个话题的关键事件因子,将所述关键事件因子组成热点信息。优选地,所述文本特征包括微博标签、内嵌外部链接对应的标题、微博的纯文本内容,所述话题聚类模块包括:第一空间矩阵构建子模块,用于对所述微博标签、内嵌外部链接对应的标题、微博的纯文本内容进行预处理,构建第一空间矩阵;第二空间矩阵构建子模块,用于依据所述时序特征、社交关系特征构建第二空间矩阵;话题生成子模块,用于按照所述第一空间矩阵与第二空间矩阵进行聚类,得到一个或多个话题。优选地,所述第一空间矩阵构建子模块进一步包括如下单元:分词单元,用于对微博标签、内嵌外部链接对应的标题、微博的纯文本内容进行分词;加权单元,用于对所述分词结果中出现的用户标签中的词汇、内嵌外部链接对应的标题中的词汇和人名、地名和机构名进行加权处理;第一空间矩阵构造单元,用于依据所述分词并加权的结果,构建第一空间矩阵。与现有技术相比,本专利技术具有以下优点:首先,本专利技术综合考虑了微博数据的特点,在进行基于微博的话题聚类时,提取能够更全面、准确反映微博话题的文本特征、时序特征、社交关系特征,使基于微博的话题聚类更加准确、全面;第二,本专利技术能够提取与话题最相关的关键事件因子,给出更直观可读的话题热点信息。附图说明图1示出了一种基于微博的热点信息提取的方法实施例的步骤流程图;图2示出了一种基于微博的热点信息提取的装置实施例的结构框图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。参照图1,其示出了一种基于微博的热点信息提取的方法实施例的步骤流程图,具体可以包括以下步骤:步骤101,获取微博数据集合;具体而言,微博,即微博客(MicroBlog)的简称,是一个基于用户关系信息分享、传播以及获取平台,用户可以通过WEB、WAP等各种客户端组建个人社区,以140字左右的文字更新信息,并实现即时分享。微博具有以下一些特点:(1)微博信息获取具有很强的自主性、社交选择性,用户可以根据自己的兴趣偏好,依据对方发布内容的类别与质量,来选择是否“关注”某用户,并可以对所有“关注”的用户群进行分类;(2)微博宣传的影响力具有很大弹性,与内容质量高度相关,其影响力基于用户现有的被“关注”的数量。用户发布信息的吸引力、新闻性越强,对该用户感兴趣、关注该用户的人数也越多,影响力越大。此外,微博平台本身的认证及推荐亦助于增加被“关注”的数量;(3)微博内容短小精悍。微博的内容限定为140字左右,内容简短,不需长篇大论,门槛较低;(4)信息共享便捷迅速。可以通过各种连接网络的平台,在任何时间、任何地点即时发布信息,其本文档来自技高网
...
一种基于微博的热点信息提取的方法和装置

【技术保护点】
一种基于微博的热点信息提取的方法,其特征在于,包括:获取微博数据集合;从所述微博数据集合中提取特征信息,所述特征信息包括文本特征、时序特征、社交关系特征;依据所述文本特征、时序特征、社交关系特征聚类成一个或多个话题;提取每个话题的关键事件因子,基于所述关键事件因子组成热点信息。

【技术特征摘要】
1.一种基于微博的热点信息提取的方法,其特征在于,包括:获取微博数据集合;从所述微博数据集合中提取特征信息,所述特征信息包括文本特征、时序特征、社交关系特征;其中,所述文本特征包括微博标签、内嵌外部链接对应的标题、微博的纯文本内容;所述社交关系特征包括发布微博的用户信息、微博评论的次数、微博转发的次数;依据所述文本特征、时序特征、社交关系特征聚类成一个或多个话题;提取每个话题的关键事件因子,基于所述关键事件因子组成热点信息,其中,所述关键事件因子为与事件主题最相关又能达到内容覆盖最大的关键词;所述依据文本特征、时序特征、社交关系特征聚类成一个或多个话题的步骤包括:对所述微博标签、内嵌外部链接对应的标题、微博的纯文本内容进行预处理,构建第一空间矩阵;依据所述时序特征、社交关系特征构建第二空间矩阵,并对所述第二空间矩阵进行降维;按照所述第一空间矩阵与第二空间矩阵进行聚类,得到一个或多个话题。2.根据权利要求1所述的方法,其特征在于,所述对微博标签、内嵌外部链接对应的标题、微博的纯文本内容进行预处理,构建第一空间矩阵的子步骤包括:对微博标签、内嵌外部链接对应的标题、微博的纯文本内容进行分词;对所述分词结果中出现的用户标签中的词汇、内嵌外部链接对应的标题中的词汇和人名、地名和机构名进行加权处理;依据所述分词并加权的结果,构建第一空间矩阵。3.根据权利要求1所述的方法,其特征在于,所述依据时序特征、社交关系特征构建第二空间矩阵的子步骤包括:分别对所述时序特征以及社交关系特征添加权重;依据所述时序特征及社交关系特征和时序特征及社交关系特征对应的权重,构建第二空间矩阵。4.根据权利要求1-3任一权利要求所述的方法,其特征在于,所述时序特征包括微博...

【专利技术属性】
技术研发人员:杜毅罗峰黄苏支李娜
申请(专利权)人:亿赞普北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1