一种新闻情感影响预测方法技术

技术编号:37291032 阅读:15 留言:0更新日期:2023-04-21 03:20
本发明专利技术公开了一种面向领域专家的实时新闻情感影响预测的方法;方法包括实时新闻数据形成第一数据流并对该第一数据流进行预处理形成第二数据流;实时金融数据形成第三数据流、第二数据流依据用户预先定义的事件模式进行复杂事件处理,形成第四数据流;第四数据流输入机器学习模型输出预测结果,该预测结果人为标记事件模式并并入第二数据流与第三数据流,循环上述步骤。本发明专利技术将情感分析、复杂事件处理和自动机器学习有机结合,CEP通过事件模式匹配为机器学习的训练、验证、测试等数据集进行了实时准备,形成机器学习数据集,驱动实时新闻情感影响预测;本发明专利技术方法支持面向滑动时间窗口连续学习,AutoML可以随着实时事件数据的持续流入,连续学习,持续改进模型,不断提升预测效果。升预测效果。升预测效果。

【技术实现步骤摘要】
一种新闻情感影响预测方法


[0001]本专利技术属于实时大数据分析领域,特别涉及一种面向领域专家的实时新闻情感影响预测方法。

技术介绍

[0002]同一时间段内连续发生的一系列相关媒体信息,会对产业或经济社会产生“放大”了的影响。例如,接连发布的关于“XX疫苗”的好消息,可能会正面地影响某些医药企业或者整个医药行业。因此,准确而及时地依据新闻情感预估这样的影响,可以帮助相关政府部门、相关产业或企业以及投资人提前决策、及时调整规划和部署。文本情感分析模型(Sentiment Analysis model,SA模型)是指利用自然语言处理和文本挖掘技术,对带有情感色彩的主观性文本进行分析、处理和抽取的过程。
[0003]国内外对于新闻情感对产业的影响的研究主要分为两种:一是研究专注于产业数据的建模和评估,通常使用“基于字典”的情感词标记算法来确定情绪值,然后使用回归测试等传统的统计学分析方法判断新闻情感对产业的影响。如CN104573003B,该专利技术公开了一种基于新闻主题信息检索的金融时间序列预测方法。首先对原始新闻数据提取词汇组合特征(即基于字典提取信息的情感词),并以新闻数据对金融时间序列的实时影响作为标记,训练支持向量机分类器作为预测模型;通过构建词频时间序列,有效度量词汇特征与时间序列的相关度,继而实现新闻主题与时间序列的相关度计算,由此查询与金融时间序列相关的新闻主题;通过对查询出的新闻数据提取词汇组合特征并输入预测模型,得到最终预测结果。这种方式的缺点在于,分析的结果过于依赖单一模型的结果,而现有语境单一的模型不能解决;
[0004]二是研究则专注于设计和验证用于情感分析的新方法(通常涉及到多种机器学习、文本挖掘、自然语言处理算法),而这些研究通常专注于情感分析,没有充分关注情绪对产业的“影响分析”的部分,并且主要集中在处理静态数据集,而非实时动态数据集。如CN201910553755.7,公开了一种结合注意力机制的深度学习多分类情感分析模型。该模型运用注意力机制将CNN网络提取的局部特征和LSTM模型提取的语序特征相融合,并在分类层采用集成模型的思想,分别将CNN网络和LSTM网络提取的情感特征拼接,作为模型最终提取的情感特征。该技术方案只关注情绪分析,同时利用的也仅仅是静态数据集。
[0005]但在基于机器学习的影响预测过程中,如果没有对新闻和微博中的事件模式进行适当的关联和抽象化,不能准确地表达“领域知识”,预测性的机器学习的结果往往很不理想。现有文献也指出(Rabhi F.A.,Mehandj iev N.,Baghdadi A.,2020.State

of

the

Art in Applying Machine Learning to Electronic Trading.In:Clapham B.,Koch JA.(eds)Enterprise Applications,Markets and Services in the Finance Industry.FinanceCom 2020.Lecture Notes in Busines s Information Processing,vol 401.Springer.https://doi.org/10.1007/978
‑3‑
030

6446 6

6_1.),将原始数据中数百个“低级属性”(包括新闻作者、关键词、情感、新闻内容、新闻类型、发布地点、新闻来
源、公司股价、公司规模、公司营业额、员工人数、所属行业部门等)——尤其是含有文本的属性——输入机器学习算法是不切实际的。如果直接使用这样的数据进行机器学习,预测的性能和效果会严重下降。所以需要将新闻媒体数据和上证指数中制造业数据进行时间上的关联,从而提炼、抽象出特定的包含“领域知识”的“事件模式”,用来准备预测任务所需的训练数据、测试数据。这对提高机器学习的效果,进而得出“某类新闻或微博文本的情感如何影响福建省制造业”这样的“新知识”,有着深远的意义。然而,对于实时事件数据流,实时匹配“事件模式”并持续进行预测及更新尤为重要。
[0006]另外,领域专家(如财经专家)如果想要预测新闻情感对金融市场(如股市)的影响,由于缺乏人工智能、机器学习、大数据的技能,往往需要依赖计算机专家介入,帮助其完成预测任务。
[0007]因此申请人提出一种新闻情感影响预测方法,解决现有技术中过于依赖单一模型、只关注静态数据集的情绪分析(忽略实时分析的时效性)、未对低级属性数据进行筛选提炼、领域专家无法独立完成等问题。

技术实现思路

[0008](一)技术方案
[0009]有鉴于此,本专利技术的目的在于提出一种新闻情感影响预测方法和装置以及设备,能够将情感分析、复杂事件处理(CEP)和机器学习的有机结合,实现了复杂事件处理驱动的实时新闻情感影响预测。复杂事件处理(CEP)技术,为含有数以百计参数的实时数据降维,提炼出高质量的数据,提高预测结果。本专利技术支持面向“滑动时间窗口”的连续学习,机器学习可以根据实时事件数据流,连续学习,自动改进模型,进而不断提升预测效果。
[0010]根据本专利技术的一个方面,提供所述方法包括如下步骤:
[0011]实时新闻数据形成第一数据流并对该第一数据流进行预处理形成第二数据流;
[0012]实时金融数据形成第三数据流与第二数据流依据用户预先定义的事件模式进行复杂事件处理形成第四数据流;
[0013]第四数据流输入机器学习模型输出预测结果,该预测结果人为标记事件模式并并入第二数据流与第三数据流,循环上述步骤。
[0014]根据本专利技术的又一个方面,提供一种新闻情感影响预测系统,其特征在于,
[0015]所述系统包括:
[0016]情感分析服务模块:实时新闻数据形成第一数据流并对该第一数据流进行预处理形成第二数据流;
[0017]复杂事件处理服务模块:实时金融数据形成第三数据流、第二数据流进行复杂事件处理形成第四数据流;
[0018]自动机器学习服务模块:第四数据流输入机器学习模型输出预测结果,该预测结果人为标记事件模式并并入第二数据流与第三数据流,循环上述步骤。
[0019]根据本专利技术的再一个方面,本专利技术提供一种新闻情感影响预测设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行一种新闻情感影响预测方法。
[0020]根据本专利技术的另一个方面,本专利技术还提出一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现一种新闻情感影响预测方法。
[0021](三)有益效果
[0022]本专利技术相对于现有技术,具有以下有益效果:
[0023]1.本方法将情感分析、复杂事件处理(CEP)和机器学习本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种新闻情感影响预测方法,其特征在于,所述方法包括如下步骤:实时新闻数据形成第一数据流并对该第一数据流进行预处理形成第二数据流;实时金融数据形成第三数据流与第二数据流依据用户预先定义的事件模式进行复杂事件处理形成第四数据流;第四数据流输入机器学习模型输出预测结果,该预测结果人为标记事件模式并并入第二数据流与第三数据流,循环上述步骤。2.根据权利要求1所述的一种新闻情感影响预测方法,其特征在于:实时新闻数据形成第一数据流并对该第一数据流进行预处理形成第二数据流的步骤具体包括:预先设置至少一个SA模型;该至少一个SA模型预处理第一数据流生成包含关键词及情感分数的第二数据流,并将该第二数据流存入新闻和情感数据库。3.根据权利要求1或2所述的一种新闻情感影响预测方法,其特征在于:所述实时金融数据形成第三数据流与第二数据流依据用户预先定义的事件模式进行复杂事件处理形成第四数据流的步骤具体包括:预先设置至少一个复杂事件处理模块;该至少一个复杂事件处理模块对第三数据流、第二数据流以及已有的事件模式进行预处理形成第四数据流。4.根据权利要求1所述的一种新闻情感影响预测方法,其特征在于:所述第四数据流输入机器学习模型输出预测结果,该预测结果人为标记事件模式并并入第二数据流与第三数据流,循环上述步骤的步骤具体包括:预先设置至少一个机器学习模型;该至少一个机器学习模型对第四数据流进行连续训练并实时预测生成预测结果;该预测结果人为标注后与第三数据流、第二数据流依据用户预先定义的事件模式进行复杂事件处理形成新一轮的第四数据流继续输入至少一个机器学习模型进行训练、学习。5.一种新闻情感影响预测系统,其特征在于,所述系统包括:情感分析服务模块:实时新闻数...

【专利技术属性】
技术研发人员:陈伟思肖伟东刘斌张旭
申请(专利权)人:厦门理工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1