一种基于超网络的网络舆情主题相似度计算方法及装置制造方法及图纸

技术编号:23704858 阅读:36 留言:0更新日期:2020-04-08 11:10
本发明专利技术公开一种基于超网络的网络舆情主题相似度计算方法及装置,其中,方法包括基于构建的超网络模型,结合在该超网络模型中依据不同算法计算出任意两条超边的社交相似度、时序相似度、情感相似度和关键词相似度,然后根据计算出的社交特征数据、时序特征数据、情感特征数据和关键词特征数据分别对应的各特征权重值,最终计算出目标网络舆情的主题相似度,可以显著提高任意两超边基于目标网络微博舆情的主题相似度的准确度,同时,可以将多种关系特征数据进行有机融合计算,也增强了基于网络微博舆情的主题相似度的精确度。

A method and device for calculating the similarity of Internet public opinion subject based on super network

【技术实现步骤摘要】
一种基于超网络的网络舆情主题相似度计算方法及装置
本专利技术涉及数据挖掘
,具体涉及一种基于超网络的网络舆情主题相似度计算方法及装置。
技术介绍
网络舆情是以网络为载体,以事件为核心,广大网民情感、态度、意见、观点的表达、传播与互动,以及后续影响力的集合。例如:微博舆情属于网络舆情中的一种形式,现今,微博在人们的生活中占据了越来越重要的位置,人们可以通过微博平台参与时政、影视、甚至是明星生活的讨论,因此,微博逐渐丰富了人们生活的乐趣。在微博平台上微博用户数量巨大,微博用户的各种行为都对信息的传播起着影响作用,越来越多的微博用户通过微博平台可以作为市场营销、宣传以及发表心情、表达看法的工具,因此,微博舆情的主题分析或计算在这个社交网络迅猛发展的时代显得尤为重要。目前现有技术中的微博舆情主题相似度计算方法,通过提取微博短文本特征,根据短文本特征中的语义信息、语法信息进行计算不同微博之间的微博舆情主题相似度,但是由于微博短文本的数据信息较少、导致最终数据处理结果的准确性较低,即利用该方式计算微博舆情主题相似度的精确度较低。慢慢现有技术中出现了利用非微博短文本特征的相似度算法在双层网络层面计算微博舆情相似度算法,但是,双层网络间的微博社交舆情信息较为单一,无法对微博舆情发生过程中的多种关系数据进行有机融合,最终导致微博舆情的分析结果精确度较低。
技术实现思路
有鉴于此,本专利技术实施例提供了一种基于超网络的网络舆情主题相似度计算方法,以解决现有技术中的微博舆情主题相似度计算方法,其精确度较低的问题。根据第一方面,本专利技术实施例提供了一种基于超网络的网络舆情主题相似度计算方法,包括如下步骤:构建基于网络舆情的超网络模型;获取目标网络舆情的社交特征数据,并根据所述社交特征数据,计算所述超网络模型中任意两条超边的社交相似度;获取所述两条超边基于所述目标网络舆情的时间特征数据,并根据所述时间特征数据,计算所述两条超边的时序相似度;获取所述两条超边基于所述目标网络舆情的情感特征数据,并计算所述两条超边的情感相似度;获取所述两条超边基于所述目标网络舆情的关键词特征数据,并计算所述两条超边的关键词相似度;计算所述社交特征数据的第一特征权重值、所述时序特征数据的第二特征权重值、所述情感特征数据的第三特征权重值和所述关键词特征数据的第四特征权重值;根据所述社交相似度、所述时序相似度、所述情感相似度、所述关键词相似度、所述第一特征权重值、所述第二特征权重值、所述第三特征权重和所述第四特征权重,计算所述两条超边基于所述目标网络舆情的主题相似度。根据第一方面,在第一方面第一实施方式中,所述构建基于网络舆情的超网络模型的步骤包括:确定网络节点和网络链路;根据所述网络节点和所述网络链路,生成多层网络拓扑结构;在所述多层网络拓扑结构中的至少一网络层中设置线性连接单元,所述线性连接单元的输入端连接于所述线性连接单元的归属层的上层,所述线性连接单元的输出端连接于所述线性连接单元的归属层的下层,所述线性连接单元的输出和输入构成线性关系,所述线性关系包括除输出等于输入之外的线性关系。根据第一方面,在第一方面第二实施方式中,所述获取目标网络舆情的社交特征数据,并根据所述社交特征数据,计算所述超网络模型中任意两条超边的社交相似度的步骤包括:在所述超网络模型的社交子网中,获取所述社交子网的任意两社交子网节点之间的社交用户基于所述目标网络舆情的用户转发特征数据;根据所述两社交子网节点之间的社交用户基于所述目标网络舆情的用户转发特征数据,计算所述超网络模型中任意两条超边的社交相似度。根据第一方面,在第一方面第三实施方式中,所述的基于超网络的网络舆情主题相似度计算方法,所述获取所述两条超边基于所述目标网络舆情的时间特征数据,并根据所述时间特征数据,计算所述两条超边的时序相似度的步骤包括:确定多个不同的时间节点;设置每个时间节点对应的不同参数值;根据所述每个时间节点对应的不同参数值,通过时序相似度算法计算所述两条超边的时序相似度。根据第一方面,在第一方面第四实施方式中,所述获取所述两条超边基于所述目标网络舆情的情感特征数据,并计算所述两条超边的情感相似度的步骤包括:构建基于所述目标网络舆情的情感词典;根据所述情感词典,识别所述超网络模型中每条超边的情感强度;根据所述每条超边的情感强度,计算所述两条超边的情感强度差值;根据所述情感强度差值,通过情感相似度算法计算所述两条超边的情感相似度。根据第一方面,在第一方面第五实施方式中,所述获取所述两条超边基于所述目标网络舆情的关键词特征数据,并计算所述两条超边的关键词相似度的步骤包括:在所述超网络模型的关键词子网中,获取基于所述目标网络舆情的主题文本关键词;根据所述主题文本关键词,获取所述两条超边的主题文本关键词权重值;根据所述两条超边的主题文本关键词权重值,通过关键词相似度算法计算所述两条超边的关键词相似度。根据第一方面,在第一方面第六实施方式中,所述计算所述社交特征数据的第一特征权重值、所述时序特征数据的第二特征权重值、所述情感特征数据的第三特征权重值和所述关键词特征数据的第四特征权重值的步骤包括:设置社交特征数据、所述时间特征数据、所述情感特征数据、所述关键词特征数据分别对应的各重要程度等级;根据所述各重要程度等级,通过特征权重算法计算所述第一特征权重值、所述第二特征权重值、所述第三特征权重值和所述第四特征权重值;对所述第一特征权重值、所述第二特征权重值、所述第三特征权重值和所述第四特征权重进行一致性检测;在所述一致性检测后,确定所述第一特征权重值、所述第二特征权重值、所述第三特征权重值和所述第四特征权重值。根据第一方面第六实施方式,在第一方面第七实施方式中,所述根据所述社交相似度、所述时序相似度、所述情感相似度、所述关键词相似度、所述第一特征权重值、所述第二特征权重值、所述第三特征权重和所述第四特征权重,计算所述两条超边基于所述目标网络舆情的主题相似度的步骤包括:根据所述社交相似度、所述时序相似度、所述情感相似度、所述关键词相似度、所述第一特征权重值、所述第二特征权重值、所述第三特征权重和所述第四特征权重值,通过超边相似度算法计算所述目标网络舆情的主题相似度。根据第一方面或第一方面任一实施方式中,所述网络舆情包括:微博舆情或百度贴吧舆情。根据第二方面,本专利技术实施例提供一种基于超网络的网络舆情主题相似度计算装置,包括:构建模块,用于构建基于网络舆情的超网络模型;第一获取模块,用于获取目标网络舆情的社交特征数据,并根据所述社交特征数据,计算所述超网络模型中任意两条超边的社交相似度;第二获取模块,用于获取所述两条超边基于所述目标网络舆情的时间特征数据,并根据所述时间特征数据,计算所述两条超边的时序相似度;第三获取模块,用本文档来自技高网...

【技术保护点】
1.一种基于超网络的网络舆情主题相似度计算方法,其特征在于,包括如下步骤:/n构建基于网络舆情的超网络模型;/n获取目标网络舆情的社交特征数据,并根据所述社交特征数据,计算所述超网络模型中任意两条超边的社交相似度;/n获取所述两条超边基于所述目标网络舆情的时间特征数据,并根据所述时间特征数据,计算所述两条超边的时序相似度;/n获取所述两条超边基于所述目标网络舆情的情感特征数据,并计算所述两条超边的情感相似度;/n获取所述两条超边基于所述目标网络舆情的关键词特征数据,并计算所述两条超边的关键词相似度;/n计算所述社交特征数据的第一特征权重值、所述时序特征数据的第二特征权重值、所述情感特征数据的第三特征权重值和所述关键词特征数据的第四特征权重值;/n根据所述社交相似度、所述时序相似度、所述情感相似度、所述关键词相似度、所述第一特征权重值、所述第二特征权重值、所述第三特征权重和所述第四特征权重,计算所述两条超边基于所述目标网络舆情的主题相似度。/n

【技术特征摘要】
1.一种基于超网络的网络舆情主题相似度计算方法,其特征在于,包括如下步骤:
构建基于网络舆情的超网络模型;
获取目标网络舆情的社交特征数据,并根据所述社交特征数据,计算所述超网络模型中任意两条超边的社交相似度;
获取所述两条超边基于所述目标网络舆情的时间特征数据,并根据所述时间特征数据,计算所述两条超边的时序相似度;
获取所述两条超边基于所述目标网络舆情的情感特征数据,并计算所述两条超边的情感相似度;
获取所述两条超边基于所述目标网络舆情的关键词特征数据,并计算所述两条超边的关键词相似度;
计算所述社交特征数据的第一特征权重值、所述时序特征数据的第二特征权重值、所述情感特征数据的第三特征权重值和所述关键词特征数据的第四特征权重值;
根据所述社交相似度、所述时序相似度、所述情感相似度、所述关键词相似度、所述第一特征权重值、所述第二特征权重值、所述第三特征权重和所述第四特征权重,计算所述两条超边基于所述目标网络舆情的主题相似度。


2.根据权利要求1所述的基于超网络的网络舆情主题相似度计算方法,其特征在于,所述构建基于网络舆情的超网络模型的步骤包括:
确定网络节点和网络链路;
根据所述网络节点和所述网络链路,生成多层网络拓扑结构;
在所述多层网络拓扑结构中的至少一网络层中设置线性连接单元,所述线性连接单元的输入端连接于所述线性连接单元的归属层的上层,所述线性连接单元的输出端连接于所述线性连接单元的归属层的下层,所述线性连接单元的输出和输入构成线性关系,所述线性关系包括除输出等于输入之外的线性关系。


3.根据权利要求1所述的基于超网络的网络舆情主题相似度计算方法,其特征在于,所述获取目标网络舆情的社交特征数据,并根据所述社交特征数据,计算所述超网络模型中任意两条超边的社交相似度的步骤包括:
在所述超网络模型的社交子网中,获取所述社交子网的任意两社交子网节点之间的社交用户基于所述目标网络舆情的用户转发特征数据;
根据所述两社交子网节点之间的社交用户基于所述目标网络舆情的用户转发特征数据,计算所述超网络模型中任意两条超边的社交相似度。


4.根据权利要求1所述的基于超网络的网络舆情主题相似度计算方法,其特征在于,所述获取所述两条超边基于所述目标网络舆情的时间特征数据,并根据所述时间特征数据,计算所述两条超边的时序相似度的步骤包括:
确定多个不同的时间节点;
设置每个时间节点对应的不同参数值;
根据所述每个时间节点对应的不同参数值,通过时序相似度算法计算所述两条超边的时序相似度。


5.根据权利要求1所述的基于超网络的网络舆情主题相似度计算方法,其特征在于,所述获取所述两条超边基于所述目标网络舆情的情感特征数据,并计算所述两条超边的情感相似度的步骤包括:
构建基于所述目标网络舆情的情感词典;
根据所述情感词典,识别所述超网络模型中每条超边的情感强度;
根据所述每条超边的情感强度,计算所述两条超边的情感强度差值;
根据所述情感强度差值,通过情感相似度算法计算所述两条超边的情感相似度。


6.根据权利要求1所述的基于超网络的网络舆情主题相似度计算方法,其特征在于,所述获取所述两条超边基于所述目标网络舆情的关键词特征数据,并计算所述两条超边的关键词相似度的步骤包括:
在所述超网络模型的关键词子网中,获取基于所述目标网络舆情的...

【专利技术属性】
技术研发人员:梁晓贺田儒雅吴蕾徐倩谢能付
申请(专利权)人:中国农业科学院农业信息研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1