System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据挖掘,尤其涉及基于时序知识图谱的意见领袖挖掘方法及装置。
技术介绍
1、随着计算机技术和互联网的迅速发展,越来越多的人习惯于通过互联网了解社会热点,借助互联网发表个人的意见、看法和主张。互联网已成为人们获取信息、发表意见、维护权益的重要场所。因而,如何监管舆情事件在互联网上的传播已成为一个具有现实意义的重大问题。网络舆情传播分析是对舆情信息在网络中的传播过程进行系统性的分析,主要包括追踪信息的源头、了解信息传播的路径、识别关键的传播节点和影响因素等,其实都与网络舆情当中的意见领袖密切相关。意见领袖挖掘技术正是在这种情况下应运而生的。
2、传统的意见领袖挖掘方法使用用户所发表贴文的属性信息(转发数、评论数、点赞数、浏览数)和社交网络中的静态结构信息(度中心性、邻近中心性、中介中心性)等作为意见领袖的判别标准,或者使用pagerank算法计算用户的重要性,以实现意见领袖挖掘。但判断用户是否是意见领袖,还需要关注其发表的言语是否能够引导舆论的发展、是否能影响多数人。因此,传统的意见领袖挖掘算法存在以下问题:一方面,未考虑用户的语义信息,只使用结构信息挖掘意见领袖;另一方面,未考虑时序因素,导致网络舆情萌芽期和衰退期的小流量的意见领袖淹没在爆发期大流量意见领袖当中;此外,随着舆情事件的发展,在网络舆情生命周期初期的意见领袖不一定是网络舆情末期的意见领袖。
技术实现思路
1、为解决当前意见领袖挖掘方法只考虑用户在社交网络中的静态结构特征的问题,本专利技术提出基于
2、一方面,一种基于时序知识图谱的意见领袖挖掘方法,包括如下步骤:
3、s101,对采集的网络舆情数据进行分析,构建出时序网络舆情知识图谱;
4、s102,基于超关系子图建模的时序知识图谱表示学习与推理方法对时序网络舆情知识图谱进行表示学习,得到节点和关系的嵌入表示;
5、s103,基于节点和关系的嵌入表示,对时序网络舆情知识图谱进行实体关系建模,获得用户结构特征;将用户所发布的贴文作为预训练语言模型的输入文本,经过语义建模获得用户的贴文语义特征;设计一个人工特征作为用户在社交网络中的用户属性特征;
6、s104,结合用户结构特征、贴文语义特征和用户属性特征,使用softmax函数实现意见领袖的挖掘。
7、优选的,所述s101对采集的网络舆情数据进行分析,构建出时序网络舆情知识图谱,具体包括:
8、采用自顶向下的方法构建时序网络舆情知识图谱,包括:模式层构建、语料库获取、实例层构建;
9、1)模式层构建包括:
10、为每个历史子图构建相同的模式层,其中,模式层中的贴文属性包括“是否是意见领袖贴文;
11、2)语料库获取包括:
12、对采集到的数据进行数据预处理操作,步骤如下:
13、将采集到的数据转化为utf-8编码格式;
14、使用正则表达式将数据中的预设信息删除;
15、过滤掉只包含标点符号的贴文和用户评论,以及过滤违规账号发布的贴文;
16、3)实例层构建包括:
17、基于预处理过的语料库和设计好的模式层,按照以下步骤完成时序网络舆情知识图谱的实例层构建:
18、实体抽取:将语料库中的用户抽取为用户实体;将语料库中的贴文抽取为贴文实体;将主题信息抽取的结果作为话题实体;最后,在neo4j数据库中创建对应类型的节点;
19、属性抽取:将采集到的语料库信息对应上各实体的属性,并在neo4j数据库中为对应节点添加相应属性;
20、关系构造:在neo4j数据库中,为用户实体间构造“关注”关系,为用户与贴文实体构造“发布”、“转发”和“评论”关系,为贴文与话题实体构造“属于”关系;
21、数据划分:按照一天为一个快照,对数据进行划分。
22、优选的,所述s102中,对时序网络舆情知识图谱进行表示学习,通过局部循环编码器、全局历史编码器和时间引导解码器实现,具体如下:
23、1)局部循环编码器首先根据时序网络舆情知识图谱实例层所构造的关系的相对位置构建孪生超关系子图,利用关系图卷积网络分别对原图和超关系子图实现实体和关系的聚合,并使用长短时记忆网络完成实体和关系的交互,从而获得包含局部信息的实体和关系嵌入,完成局部循环编码;
24、对于每个查询,局部循环编码器考虑k个相邻时间戳的子图序列g={gt-k+1,…,gt-1,gt};包括3个模块:实体聚合模块、关系聚合模块和实体关系交互模块;
25、实体聚合模块用于聚合历史子图中相邻实体和实体之间的信息;通过实体聚合r-gcn对每个历史子图的实体的邻域信息进行聚合,过程描述为:
26、
27、其中,分别表示实体聚合r-gcn的第l层和第l-1层实体的嵌入,rn×d表示n行d列的矩阵;表示与实体eo相邻并通过关系r连接的实体集合;和rl-1表示相邻实体在l-1层中的嵌入和在实体聚合r-gcn的第l-1层中的对应关系嵌入;co,r表示的大小;表示relu激活函数;表示关系r的可学习参数;表示自环关系的可学习参数;
28、第t个子图的实体聚合r-gcn表示为:
29、
30、其中,为实体聚合r-gcn在t时刻的输出;et-1∈rn×d为实体聚合的gru在t-1时刻的输出;rt∈rn×d是在t时刻的关系聚合模块中得到的关系嵌入;
31、然后,使用gru学习不同历史子图中实体嵌入演化的时序信息;实体聚合模块将gru在上一个历史时间戳的输出和聚合实体的r-gcn在下一个历史时间戳的输出传递给当前r-gcn,如下:
32、
33、其中,et∈rn×d为原始子图在t时刻的最终实体嵌入;grue为学习实体演化的时序信息的gru;
34、关系聚合模块运行方式与实体聚合方式类似,将原始子图转化为超关系子图后,通过关系聚合r-gcn对每个时刻超关系子图中关系的邻域信息进行聚合,具体描述如下:
35、
36、其中,分别表示关系聚合r-gcn的第l层和第l-1层关系的嵌入,rm×d表示m行d列的矩阵;表示与超关系hr相邻并通过关系ro连接的关系集合;和hrl-1表示相邻关系的嵌入和在关系聚合r-gcn的第l-1层中的对应的超关系;表示的大小;表示超关系hr的可学习参数;表示自环关系的可学习参数;
37、最后,第t个子图的关系聚合r-gcn表示为:
38、
39、其中,为关系聚合r-gcn在t时刻的输出;为lstm在t-1时刻的输出;hrt-1∈r2m×d是在t-1时刻的关系聚合r-gcn中学习到的超关系嵌入;
40、然后,通过将关系嵌入输入到gru单元中,规范关系聚合r-gcn的聚合操作,并学习时序信息:
41、
...【技术保护点】
1.一种基于时序知识图谱的意见领袖挖掘方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于时序知识图谱的意见领袖挖掘方法,其特征在于,所述S101具体包括:
3.根据权利要求2所述的基于时序知识图谱的意见领袖挖掘方法,其特征在于,所述S102中,对时序网络舆情知识图谱进行表示学习,通过局部循环编码器、全局历史编码器和时间引导解码器实现,具体如下:
4.根据权利要求1所述的基于时序知识图谱的意见领袖挖掘方法,其特征在于,所述S103具体包括:
5.根据权利要求1所述的基于时序知识图谱的意见领袖挖掘方法,其特征在于,所述S104具体包括:
6.一种基于时序知识图谱的意见领袖挖掘装置,其特征在于,包括:
【技术特征摘要】
1.一种基于时序知识图谱的意见领袖挖掘方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于时序知识图谱的意见领袖挖掘方法,其特征在于,所述s101具体包括:
3.根据权利要求2所述的基于时序知识图谱的意见领袖挖掘方法,其特征在于,所述s102中,对时序网络舆情知识图谱进行表示学习,通过局部循环编码器、全...
【专利技术属性】
技术研发人员:李弼程,魏巍,刘其龙,皮慧娟,王华珍,王成,
申请(专利权)人:华侨大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。