System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及智能家电,尤其是涉及一种社交媒体事件检测模型训练方法及装置、介质、设备。
技术介绍
1、社交媒体平台,例如知乎、微博和微信等,在我们的生活中变得越来越重要。随着智能手机的普及和上网费用的降低,人们越来越喜欢在社交媒体上分享身边的大事。在快速发展的数字时代,及时捕捉这些事件非常关键,不仅能为我们提供对各种情况的预警,还能让我们更好地理解公众对这些事件的看法和反应。与电视、报纸这样的传统媒体不同,社交媒体上的内容是由用户自己生成的,而且内容更新速度快,信息量巨大。这就意味着,重要的信息有时候会被海量的信息淹没。
2、社交媒体事件检测模型是现代网络世界里一个非常关键的工具,它能帮助我们发现和关注网络上的热点事件,无论是突发新闻、自然灾害还是抗议活动。社交媒体事件检测模型是利用像图神经网络和机器学习这样的先进技术,把混乱的信息流整理成清晰的故事。尽管已经有很多研究在社交媒体事件检测方面取得了进展,解决了语言差异、内容简单和非结构化、事件相互关联等问题,但仍有一些挑战需要面对:
3、1、数据量和速度:社交媒体平台产生了大量的数据,这些数据更新速度非常快。这就要求事件检测技术能够快速地检测事件,同时保证效准确性。
4、2、事件的动态变化:社交媒体上的事件会随着时间不断变化,比如关键词、标签和上下文的变化。那些依赖固定模式或静态模型的传统检测方法不适用于不断变化的社交媒体环境。
5、3、噪音和无关信息:社交媒体的动态特性常常导致很多噪音和无关的信息,以及错误的警报。
>技术实现思路
1、针对以上至少一个技术问题,本专利技术实施例提供一种社交媒体事件检测模型训练方法及装置、介质、设备。
2、根据第一方面,本专利技术实施例提供的社交媒体事件检测模型训练方法包括:
3、获取预设历史时间段内产生的社交媒体信息流;其中,所述社交媒体信息流中包括多个消息以及针对每一个消息设置的事件标签;
4、对每一个消息进行预处理,得到该消息的关键词汇;
5、将每一个消息的关键词汇、来源用户和事件标签作为该消息的属性;
6、根据各个消息各自的属性,构建所述社交媒体信息流对应的异构社交网络图;在所述异构社交网络图中,每一个消息的每一个属性作为一个节点,且不同消息中属性值相同的节点之间相连;
7、将所述异构社交网络图转换为能够突出消息间关联的消息传递图;
8、构建每一个消息对应的消息特征向量;
9、将各个消息对应的各个消息特征向量和所述消息传递图组合成所述社交媒体信息流对应的信息同构图;
10、定期获取新增信息流,根据所述新增信息流对所述信息同构图进行更新,并在更新后对所述信息同构图中的邻域重复节点进行聚合处理;
11、利用聚合处理后的信息同构图进行模型训练,得到收敛的社交媒体事件检测模型。
12、在一个实施例中,所述对每一个消息进行预处理,得到该消息的关键词汇,包括:
13、删除每一个消息中的网址链接、停止词和预设字符;
14、在删除操作后进行词汇提取,并采用命名实体识别技术识别出实体;
15、利用应用词干技术将提取出的词汇和识别出的实体还原为基本形式;
16、将还原为基本形式的词汇和实体作为所述关键词汇,并将每一个关键词汇转换为对应的词汇向量,以通过所述词汇向量来表示对应的关键词汇;
17、和/或,所述构建每一个消息对应的消息特征向量,包括:
18、获取每一个消息对应的时间戳,并将所述时间戳转换为时间向量;
19、确定每一个消息中的关键词汇对应的词汇向量;
20、将每一个消息的时间向量和词汇向量形成该消息对应的消息特征向量。
21、在一个实施例中,所述将所述异构社交网络图转换为能够突出消息间关联的消息传递图,包括:
22、采用第一计算式将所述异构社交网络图转换为所述消息传递图;其中,所述第一公式为:
23、
24、其中,k表示节点类型,o为关键词汇,e为事件标签,u为来源用户;i和j为消息的编号;wmk是所述异构社交网络图中节点类型为k的各个节点的表示数据所形成的矩阵,[.]t表示矩阵转置,aij为所述消息传递图中第i个消息的节点和第j个消息的节点所形成的子图。
25、在一个实施例中,所述在更新后对所述信息同构图中的邻域重复节点进行聚合处理,包括:
26、采用第二计算式对所述信息同构图中的邻域重复节点进行第l+1次聚合处理;其中,所述第二计算式为:
27、
28、其中,为第i个消息对应的节点的所有邻域节点所形成的集合,mj为所述集合中第j个消息对应的节点,表示聚合处理,||head表示头部串联操作,为对第j个消息对应的节点的邻域重复节点进行第l次聚合处理后的表征数据,用于从中捕获相关特征数据,aggregator()用于对从所述集合中的各个邻域节点的表征数据中捕获到的相关特征数据取平均值,为对第i个消息的邻域重复节点进行第l+1次聚合处理后的表征数据。
29、在一个实施例中,所述根据所述新增信息流对所述信息同构图进行更新之前,所述方法还包括:
30、利用自然语言处理模型预测每一个消息对应的消息情绪,并输出对应的预测置信度;若一个消息对应的预测置信度低于预设阈值,则将该消息对应的节点从所述信息同构图中删除;
31、和/或,所述利用聚合处理后的信息同构图进行模型训练,包括:
32、在每一次训练过程中利用聚合处理后的信息同构图中的小批量图数据进行模型训练,直到利用所述聚合处理后的信息同构图中的所有小批量图数据训练完成;其中,所述小批量图数据为预测数量的消息在所述聚合处理后的信息同构图中的节点数据,所述预设数量为所述信息同构图中消息数量的一部分数量。
33、在一个实施例中,所述社交媒体事件检测模型用于:在基于输入的社交媒体信息流检测出多个社交媒体事件后,对所述多个社交媒体事件进行聚类处理,得到事件簇,并将所述事件簇输出。
34、在一个实施例中,方法还包括:
35、在训练过程中利用预设损失函数计算每一次训练迭代过程的总损失值,并根据所述总损失值确定是否结束训练迭代过程,
36、其中,所述预设损失函数包括:
37、
38、
39、
40、其中,为总损失值,为三元组损失值,为全局局部对损失值,d()是欧几里得距离的计算公式,a是控制负消息和正消息之间最小距离的超参数,t表示实时选择的三元组序列,mi为第i个消息,mi+1为第i个消息的正消息,mi-1为第i个消息的负消息,为mi的表征数据,为mi-1的表征数据,为mi+1的表征数据;
41、其中,n为消息的数量;s(·)为双线性评分函数,用于联合分布中提取两个操作数的概率;s为所有消息的表征数据的本文档来自技高网...
【技术保护点】
1.一种社交媒体事件检测模型训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述对每一个消息进行预处理,得到该消息的关键词汇,包括:
3.根据权利要求1所述的方法,其特征在于,所述将所述异构社交网络图转换为能够突出消息间关联的消息传递图,包括:
4.根据权利要求1所述的方法,其特征在于,所述在更新后对所述信息同构图中的邻域重复节点进行聚合处理,包括:
5.根据权利要求1所述的方法,其特征在于,所述根据所述新增信息流对所述信息同构图进行更新之前,所述方法还包括:
6.根据权利要求1所述的方法,其特征在于,所述社交媒体事件检测模型用于:在基于输入的社交媒体信息流检测出多个社交媒体事件后,对所述多个社交媒体事件进行聚类处理,得到事件簇,并将所述事件簇输出。
7.根据权利要求1所述的方法,其特征在于,还包括:
8.一种社交媒体事件检测模型训练装置,其特征在于,包括:
9.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机
10.一种计算设备,其特征在于,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1~7中的任一项所述的方法。
...【技术特征摘要】
1.一种社交媒体事件检测模型训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述对每一个消息进行预处理,得到该消息的关键词汇,包括:
3.根据权利要求1所述的方法,其特征在于,所述将所述异构社交网络图转换为能够突出消息间关联的消息传递图,包括:
4.根据权利要求1所述的方法,其特征在于,所述在更新后对所述信息同构图中的邻域重复节点进行聚合处理,包括:
5.根据权利要求1所述的方法,其特征在于,所述根据所述新增信息流对所述信息同构图进行更新之前,所述方法还包括:
6.根据权利要求1所述的方法,其特征在于,所述社交媒体...
【专利技术属性】
技术研发人员:宋世浩,王凯,袁明明,
申请(专利权)人:浪潮通信信息系统有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。