本发明专利技术提供一种社交监测子网构建的方法及装置,该方法包括:从社交网络事件中获取样本事件;对参与所述样本事件的用户进行筛选得到一用户组,根据构建所述社交监测子网的事件覆盖度大于等于预设事件覆盖度Ne,且所述社交监测子网的事件监测概率大于等于预设事件监测概率Pe,构建子网选取模型,根据所述子网选取模型确定的所述用户数量,从所述用户组中选取构建所述社交监测子网所需的用户,通过该方法构建了由少量活跃且有影响力的用户组成的社交监测子网,通过对社交监测子网的检测获取社交网络事件,不仅极大地降低了数据量处理,减少系统代价,还实现了单机检测,而且可以去除大量噪声信息,提高事件检测的准确率。
【技术实现步骤摘要】
【专利摘要】本专利技术提供一种社交监测子网构建的方法及装置,该方法包括:从社交网络事件中获取样本事件;对参与所述样本事件的用户进行筛选得到一用户组,根据构建所述社交监测子网的事件覆盖度大于等于预设事件覆盖度Ne,且所述社交监测子网的事件监测概率大于等于预设事件监测概率Pe,构建子网选取模型,根据所述子网选取模型确定的所述用户数量,从所述用户组中选取构建所述社交监测子网所需的用户,通过该方法构建了由少量活跃且有影响力的用户组成的社交监测子网,通过对社交监测子网的检测获取社交网络事件,不仅极大地降低了数据量处理,减少系统代价,还实现了单机检测,而且可以去除大量噪声信息,提高事件检测的准确率。【专利说明】一种社交监测子网构建的方法及装置
本专利技术涉及一种社交网路领域,尤其涉及一种社交监测子网构建的方法及装置。
技术介绍
在Web2.0时代,社交网络已成为人们网络生活的重要组成部分,月度浏览时长已超新闻资讯大类服务,成为主流信息资讯平台之一,由中国人民大学舆论研究所与百度合作完成的《中国社会舆情年度报告(2012)》蓝皮书集中呈现了 2011年中国社会发展现状及热点问题,蓝皮书显示,在网民数量攀升与权利意识提高、热点话题层出不穷、“全民发声”、“围观结构”的互联网背景下,中国社会舆情呈现出复杂的变化趋势,同时社交网络上传播着各种正面、负面甚至是谣言信息,而负面和谣言信息带来的社会影响非常坏,所以对社交网络上传播的事件进行监测显得非常必要。目前,社交网络事件监测技术主要是基于传统话题监测技术对社交网络的所有传播信息进行处理来获取事件,具体的实现方式为:采用分时间段采集所有事件信息,提取事件的关键词构建特征向量,通过相似度比较,将所有话题相关的信息组成一个事件,然后根据参与话题的人数多少进行事件是否是热点事件的判断。然而,现有的社交网络事件监测方法需要对所有的社交网络信息进行处理才能获得事件,而社交网络数据信息量巨大,对处理速度要求极高,无法实现单机实时监测,而且以微博网络为例,通过少量微博关键词搜索话题和合并,会导致大量跟话题无关的噪声微博被合并,即内容较少话题合并准确率低,比如话题一般都由多个关键词组成,很多无关的微博却只是因为包含某个关键词也被加入到话题中,最终会干扰了热点事件的判断。
技术实现思路
本专利技术提供一种社交监测子网构建的方法及装置,实现了单机实时检测社交网络事件,降低了数据量处理,减少系统代价,而且去除大量噪声信息,提高事件检测的准确率。第一方面,提供社交监测子网构建的方法,包括:从社交网络事件中获取样本事件;对参与所述样本事件的用户进行筛选得到一用户组,所述用户组包括N个用户,所述N为正整数;根据构建社交监测子网的事件覆盖度大于等于预设事件覆盖度Ne,且所述社交监测子网的事件监测概率大于等于预设事件监测概率匕,构建子网选取模型,所述子网选取模型用于确定构建所述社交监测子网应从所述用户组中选取的用户数量,其中,所述事件覆盖度为参与同一事件的用户数,所述事件监测概率是根据事件监测概率公式计算得到的;根据所述子网选取模型确定的所述用户数量,从所述用户组中选取用户来构建所述社交监测子网。在第一方面的第一种可能的实现方式中,所述根据构建所述社交监测子网的事件覆盖度大于等于所述N6,且所述社交监测子网的事件监测概率大于等于所述P6,构建子网选取模型,包括:计算所述用户组中每个用户的事件参与概率Pi,根据所述Pi和下述所述事件监测概率公式(I)计算所述事件监测概率Pr (X1, X2,…Xi,…,Xn):【权利要求】1.一种社交监测子网构建的方法,其特征在于,该方法包括: 从社交网络事件中获取样本事件; 对参与所述样本事件的用户进行筛选得到一用户组,所述用户组包括N个用户,所述N为正整数; 根据构建社交监测子网的事件覆盖度大于等于预设事件覆盖度队,且所述社交监测子网的事件监测概率大于等于预设事件监测概率匕,构建子网选取模型,所述子网选取模型用于确定构建所述社交监测子网应从所述用户组中选取的用户数量,其中,所述事件覆盖度为参与同一事件的用户数,所述事件监测概率是根据事件监测概率公式计算得到; 根据所述子网选取模型确定的所述用户数量,从所述用户组中选取用户来构建所述社交监测子网。2.根据权利要求1所述的方法,其特征在于,所述根据构建所述社交监测子网的事件覆盖度大于等于所述N6,且所述社交监测子网的事件监测概率大于等于所述P6,构建子网选取模型,包括: 计算所述用户组中每个用户的事件参与概率Pi,根据所述Pi和下述所述事件监测概率公式(1)计算所述事件监测概率Pr (X1, X2,…Xi,…,Xn): 3.根据权利要求2所述的方法,其特征在于,所述从所述用户组中选取用户来构建所述社交监测子网,包括: 采用动态编程的方法从所述用户组中选取构建所述社交监测子网所需的用户,具体为: 将所述用户组中每个用户的事件参与概率Pi按照从大到小进行排列,排序后的节点顺序为M1,…,Mj,…,Mn ; 从j个节点中取前k个节点参与所述样本事件的概率为Pm(k, j),所述Pm(k, j)由下述公式(4)递推得出: 4.根据权利要求1-3任一所述的方法,其特征在于,所述从社交网络事件中获取样本事件,包括: 选取参与事件转发的用户数超过预设用户数的事件为所述社交网络事件; 根据所述社交网络事件的转发数量和事件类型,从所述社交网络事件中获取所述样本事件。5.根据权利要求1-4任一所述的方法,其特征在于,所述对参与所述样本事件的用户进行筛选得到一用户组之前,还包括: 获取参与所述样本事件的事件信息,所述事件信息包括:参与所述样本事件的用户名,用户参与所述样本事件的时间,用户参与所述样本事件过程中转发和被转发的关系。6.根据权利要求1-5任一所述的方法,其特征在于,所述对参与所述样本事件的用户进行筛选得到一用户组,包括: 将参与事件的次数或粉丝数低于预设值的用户进行筛除;和/或 对重复转发相同信息且转发次数大于预设转发数的用户进行筛除;和/或 对传播恶意链接的用户进行筛除。7.根据权利要求1-6任一所述的方法,其特征在于,所述从所述用户组中选取用户来构建所述社交监测子网之后,还包括: 根据新收集到的事件及参与所述事件的用户信息,更新所述社交监测子网的用户。8.一种社交监测子网装置,其特征在于,所述装置包括: 获取模块,用于从社交网络事件中获取样本事件; 筛选模块,用于对参与所述样本事件的用户进行筛选得到一用户组,所述用户组包括N个用户,所述N为正整数; 子网模型构建模块,用于根据构建社交监测子网的事件覆盖度大于等于预设事件覆盖度队,且所述社交监测子网的事件监测概率大于等于预设事件监测概率匕,构建子网选取模型,所述子网选取模型用于确定构建所述社交监测子网应从所述用户组中选取的用户数量,其中,所述事件覆盖度为参与同一事件的用户数,所述事件监测概率是根据事件监测概率公式计算得到的; 子网选取模块,用于根据所述子网选取模型确定的所述用户数量,所述从所述用户组中选取用户来构建所述社交监测子网。9.根据权利要求8所述的装置,其特征在于,所述子网模型构建模块,包括: 处理单元,用于计算所述用户组本文档来自技高网...
【技术保护点】
一种社交监测子网构建的方法,其特征在于,该方法包括:从社交网络事件中获取样本事件;对参与所述样本事件的用户进行筛选得到一用户组,所述用户组包括N个用户,所述N为正整数;根据构建社交监测子网的事件覆盖度大于等于预设事件覆盖度Ne,且所述社交监测子网的事件监测概率大于等于预设事件监测概率Pe,构建子网选取模型,所述子网选取模型用于确定构建所述社交监测子网应从所述用户组中选取的用户数量,其中,所述事件覆盖度为参与同一事件的用户数,所述事件监测概率是根据事件监测概率公式计算得到;根据所述子网选取模型确定的所述用户数量,从所述用户组中选取用户来构建所述社交监测子网。
【技术特征摘要】
【专利技术属性】
技术研发人员:周异,陈凯,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。