舆情识别模型训练方法、系统以及舆情风险监测方法和系统技术方案

技术编号:29928436 阅读:22 留言:0更新日期:2021-09-04 18:52
本说明书提供的舆情识别模型训练方法、系统以及舆情风险监测方法和系统,能够基于历史时间周期对多个历史内容数据基于时间维度进行划分,将多个历史数据划分为多个样本数据,并基于多个样本数据训练舆情识别模型。每个样本数据中包括多个样本内容数据。因此,训练得到的舆情识别模型能够识别出由多个内容数据相机结合引发的舆情风险。在进行舆情风险监测时,所述舆情风险监测方法和系统能够将目标时间窗口内的多个目标内容数据相结合作为一个目标舆情数据,并通过训练好的舆情识别模型对目标舆情数据进行识别,以识别出多个目标内容数据结合后是否存在舆情风险,提高舆情风险识别的准确率。别的准确率。别的准确率。

【技术实现步骤摘要】
舆情识别模型训练方法、系统以及舆情风险监测方法和系统


[0001]本说明书涉及互联网
,尤其涉及一种舆情识别模型训练方法、系统以及舆情风险监测方法和系统。

技术介绍

[0002]随着信息社会的发展和互联网的普及,社会各类信息呈现出传播渠道多、传播速度快、传播范围广的特点,容易形成网络舆情。而互联网舆论环境复杂,网络谣言、非理性声音极易引发公众对立情绪。特别是在用户生成内容类网络平台中,大量用户生成的内容数据在给信息交流带来快捷方便的同时,也会产生一些风险,如黄堵毒、暴恐症、违禁广告、欺诈等,这些风险将给应用平台以及用户带来信用风险,成为酿成重大恶性事件的导火索。因此,为了尽可能减少矛盾激化、降低重大恶性事件的发生等,就需要及时了解舆论并加强对舆情监控。现有技术中对用户生成的内容数据进行预警的方法主要是通过自然语言识别模型对每一条内容数据进行识别,并将每一条内容数据与关键词库中的关键词进行匹配,以识别存在风险的内容数据。但在实际应用场景中,风险不仅仅存在于单条内容数据之中,伴随着大量的单条内容数据,存在风险的舆情信息也随之产生。现有技术中无法对大量内容数据中隐含的风险进行提前感知,一旦发生风险将引起严重的后果。
[0003]因此,需要提供一种能够提前感知风险的舆情识别模型训练方法、系统以及舆情风险监测方法和系统。

技术实现思路

[0004]本说明书提供一种能够提前感知风险的舆情识别模型训练方法、系统以及舆情风险监测方法和系统,能够提前预测出由多条内容数据相结合构成的风险,提高舆情风险识别的准确性。
[0005]第一方面,本说明书提供一种舆情识别模型训练方法,包括:从目标应用平台中获取多个讨论区对应的多个历史舆情数据,每个所述历史舆情数据至少包括多个历史内容数据以及所述多个历史内容数据对应的时间,每个所述历史舆情数据来自所述多个讨论区中的同一个讨论区;基于历史时间周期以及所述多个历史内容数据对应的时间,将每个所述历史舆情数据划分为多个样本数据,所述多个样本数据对应多个历史时刻,每个所述样本数据包括与其对应的历史时刻之前的历史时间窗口内的多个样本内容数据,所述多个历史内容数据包括所述多个样本内容数据;获取每个所述样本数据的风险等级标签及其风险等级标签;以及基于所述多个样本数据对分类模型进行训练,得到所述舆情识别模型。
[0006]在一些实施例中,所述历史时间窗口大于所述历史时间周期。
[0007]在一些实施例中,每个所述样本数据还包括所述多个样本内容数据对应的历史属性数据,所述历史属性数据包括所述多个样本内容数据的来源。
[0008]在一些实施例中,每个所述样本数据还包括所述多个样本内容数据对应的历史用户数据,所述历史用户数据包括历史用户行为数据以及历史用户属性数据中的至少一个。
[0009]在一些实施例中,每个所述样本数据还包括所述多个样本内容数据对应的评价指标,所述评价指标包括负面内容指标、正面内容指标、内容质量指标、内容重复指标、恶意广告指标、底线风险浓度指标以及风险浓度指标中的至少一个。
[0010]第二方面,本申请还提供一种舆情识别模型训练系统,包括至少一个存储介质以及至少一个处理器,所述至少一个存储介质存储有至少一个指令集用于舆情识别模型的训练;所述至少一个处理器同所述至少一个存储介质通信连接,其中,当所述舆情识别模型的训练系统运行时,所述至少一个处理器读取所述至少一个指令集并实施本说明书第一方面所述的舆情识别模型训练方法。
[0011]第三方面,本申请还提供一种舆情风险监测的方法,包括:基于目标时间周期,从目标应用平台的目标讨论区中获取当前时刻对应的目标舆情数据,所述目标舆情数据至少包括所述当前时刻之前的目标时间窗口内的多个目标内容数据;将所述目标舆情数据输入预设的风险识别模型,确定所述当前时刻的目标风险识别结果,其中,所述风险识别模型至少包括舆情识别模型,被配置为对所述目标舆情数据进行分类获取所述目标舆情数据的目标风险等级,所述目标风险识别结果至少包括所述目标风险等级,所述舆情识别模型是通过权利要求1

5中任一项所述的舆情识别模型训练方法得到的;以及输出所述目标风险识别结果。
[0012]在一些实施例中,所述目标时间窗口大于所述目标时间周期。
[0013]在一些实施例中,所述目标舆情数据还包括所述多个目标内容数据对应的评价指标,所述评价指标包括负面内容指标、正面内容指标、内容质量指标、内容重复指标、恶意广告指标、底线风险浓度指标以及风险浓度指标中的至少一个。
[0014]在一些实施例中,所述目标舆情数据还包括所述多个目标内容数据对应的目标属性数据,所述目标属性数据包括所述多个目标内容数据的来源。
[0015]在一些实施例中,所述目标舆情数据还包括所述多个目标内容数据对应的目标用户数据,所述目标用户数据包括目标用户行为数据以及目标用户属性数据中的至少一个。
[0016]在一些实施例中,所述舆情识别模型还包括意图识别模型,被配置为对所述目标舆情数据进行分类获取所述目标舆情数据的目标意图类别,所述风险识别结果还包括所述目标意图类别。
[0017]在一些实施例中,所述风险识别模型还包括关键词识别模型,被配置为识别所述目标舆情数据中的目标关键词,所述风险识别结果还包括所述目标关键词。
[0018]在一些实施例中,所述风险识别模型还包括话题挖掘模型,被配置为对所述目标舆情数据进行动态话题挖掘,获取所述目标舆情数据对应的目标话题,所述风险识别结果还包括所述目标话题。
[0019]在一些实施例中,所述风险识别模型还包括命名实体识别模型,被配置为识别所述目标舆情数据中的目标实体,所述风险识别结果还包括所述目标实体。
[0020]在一些实施例中,所述输出所述目标风险识别结果,包括:确定所述目标风险等级为有风险,输出所述目标风险识别结果。
[0021]在一些实施例中,所述输出所述目标风险识别结果,还包括:从外部舆情平台获取所述当前时刻的外部舆情信息,将所述风险识别结果与所述外部舆情信息对比,当所述风险识别结果与所述外部舆情信息相匹配时,输出所述目标风险识别结果。
[0022]第四方面,本说明书还一种舆情风险监测的系统,包括至少一个存储介质以及至少一个处理器,所述至少一个存储介质存储有至少一个指令集用于舆情风险监控;所述至少一个处理器同所述至少一个存储介质通信连接,其中,当所述舆情识别模型的训练系统运行时,所述至少一个处理器读取所述至少一个指令集并实施本说明书第三方面所述的舆情风险监测的方法。
[0023]由以上技术方案可知,本说明书提供的舆情识别模型训练方法、系统以及舆情风险监测方法和系统,能够基于历史时间周期对多个历史内容数据基于时间维度进行划分,将多个历史数据划分为多个样本数据。每个样本数据包括其对应的历史时刻之前的历史时间窗口内的多个样本内容数据,因此,每个样本数据中包括多个样本内容数据。并且,历史时间窗口的长度大于历史时间周期。因此,相邻的两个样本数据中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种舆情识别模型训练方法,包括:从目标应用平台中获取多个讨论区对应的多个历史舆情数据,每个所述历史舆情数据至少包括多个历史内容数据以及所述多个历史内容数据对应的时间,每个所述历史舆情数据来自所述多个讨论区中的同一个讨论区;基于历史时间周期以及所述多个历史内容数据对应的时间,将每个所述历史舆情数据划分为多个样本数据,所述多个样本数据对应多个历史时刻,每个所述样本数据包括与其对应的历史时刻之前的历史时间窗口内的多个样本内容数据,所述多个历史内容数据包括所述多个样本内容数据;获取每个所述样本数据的风险等级标签及其风险等级标签;以及基于所述多个样本数据对分类模型进行训练,得到所述舆情识别模型。2.如权利要求1所述的舆情识别模型训练方法,其中,所述历史时间窗口大于所述历史时间周期。3.如权利要求1所述的舆情识别模型训练方法,其中,每个所述样本数据还包括所述多个样本内容数据对应的历史属性数据,所述历史属性数据包括所述多个样本内容数据的来源。4.如权利要求1所述的舆情识别模型训练方法,其中,每个所述样本数据还包括所述多个样本内容数据对应的历史用户数据,所述历史用户数据包括历史用户行为数据以及历史用户属性数据中的至少一个。5.如权利要求1所述的舆情识别模型训练方法,其中,每个所述样本数据还包括所述多个样本内容数据对应的评价指标,所述评价指标包括负面内容指标、正面内容指标、内容质量指标、内容重复指标、恶意广告指标、底线风险浓度指标以及风险浓度指标中的至少一个。6.一种舆情识别模型训练系统,包括:至少一个存储介质,存储有至少一个指令集用于舆情识别模型的训练;以及至少一个处理器,同所述至少一个存储介质通信连接,其中,当所述舆情识别模型的训练系统运行时,所述至少一个处理器读取所述至少一个指令集并实施权利要求1

5中任一项所述的舆情识别模型训练方法。7.一种舆情风险监测的方法,包括:基于目标时间周期,从目标应用平台的目标讨论区中获取当前时刻对应的目标舆情数据,所述目标舆情数据至少包括所述当前时刻之前的目标时间窗口内的多个目标内容数据;将所述目标舆情数据输入预设的风险识别模型,确定所述当前时刻的目标风险识别结果,其中,所述风险识别模型至少包括舆情识别模型,被配置为对所述目标舆情数据进行分类获取所述目标舆情数据的目标风险等级,所述目标风险识别结果至少包括所述目标风险等级,所述舆情识别模型是通过权利要求1

5中任一项所述的舆情识别模型训练方法得到的;以及输出所述目标风险识...

【专利技术属性】
技术研发人员:范芳芳陈娟
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1