一种确定舆论类别的方法、装置及设备制造方法及图纸

技术编号:30407889 阅读:15 留言:0更新日期:2021-10-20 11:18
本说明书实施例提供了一种确定舆论类别的方法、装置及设备,所述确定舆论类别的方法、装置及设备可用于大数据技术领域。所述方法包括获取指定舆情摘要信息;利用舆情分类模型对所述指定舆情摘要信息进行处理,获得所述指定舆情摘要信息对应的舆论类别;其中,所述舆情分类模型基于舆情摘要信息和对应的舆论类别对预设长短期记忆模型训练获得;所述预设长短期记忆模型的神经元结构包括外连门,所述外连门用于加强输入数据与输出数据的联系。利用本说明书实施例可以高效准确的确定舆论类别。说明书实施例可以高效准确的确定舆论类别。说明书实施例可以高效准确的确定舆论类别。

【技术实现步骤摘要】
一种确定舆论类别的方法、装置及设备


[0001]本申请涉及大数据
,特别涉及一种确定舆论类别的方法、装置及设备。

技术介绍

[0002]随着互联网应用的不断发展,广告、零售、投资等行业都需要对舆情进行监测,以通过舆情分析来应对舆情信息带来的影响。目前,普通舆情分析服务主要是根据用户提供的关键词从一些开放平台抓取相应文章,然而,一般情况下,从开放平台抓取出的目标文章众多,而往往那些评价比较负面的文章才是用户真正想要了解和查看的。因此,如何准确识别出偏负向的文章变得越来越重要。
[0003]现有技术中,主要通过预训练模型与Attention机制结合实现对舆情信息的类型识别。然而,这种方式每次均需要使用官方提供的预训练模型(如BERT、ERNIE)再结合场景数据进行模型训练,从而降低了对舆情信息的识别效率。
[0004]因此,业内亟需一种可以解决上述技术问题的技术方案。

技术实现思路

[0005]本说明书实施例提供了一种确定舆论类别的方法、装置及设备,无需每次都使用官方提供的预训练模型再结合场景数据进行模型训练,从而可以高效准确的确定舆论类别。
[0006]本说明书提供的一种确定舆论类别的方法、装置及设备是包括以下方式实现的。
[0007]一种确定舆论类别的方法,包括:获取指定舆情摘要信息;利用舆情分类模型对所述指定舆情摘要信息进行处理,获得所述指定舆情摘要信息对应的舆论类别;其中,所述舆情分类模型基于舆情摘要信息和对应的舆论类别对预设长短期记忆模型训练获得;所述预设长短期记忆模型的神经元结构包括外连门,所述外连门用于加强输入数据与输出数据的联系。
[0008]一种舆情分类模型的训练方法,包括:获取目标舆情摘要信息;其中,所述目标舆情摘要信息预先分配有曝光权重;确定所述目标舆情摘要信息的特征词向量;其中,所述特征词向量中包含所述目标舆情摘要信息的多个特征词;计算所述特征词向量中各个特征词的TF

IDF值,获得所述目标舆情摘要信息的目标摘要向量;基于所述目标舆情摘要信息的曝光权重和目标摘要向量,确定所述目标舆情摘要信息的文本相似度;其中,所述文本相似度用于表征所述目标舆情摘要信息的舆论类别;利用所述目标舆情摘要信息和对应的文本相似度对预设长短期记忆模型训练,获得舆情分类模型;其中,所述预设长短期记忆模型的神经元结构包括外连门,所述外连门用于加强输入数据与输出数据的联系。
[0009]一种确定舆论类别的装置,包括:获取模块,用于获取指定舆情摘要信息;获得模块,用于利用舆情分类模型对所述指定舆情摘要信息进行处理,获得所述指定舆情摘要信息对应的舆论类别;其中,所述舆情分类模型基于舆情摘要信息和对应的舆论类别对预设长短期记忆模型训练获得;所述预设长短期记忆模型的神经元结构包括外连门,所述外连
门用于加强输入数据与输出数据的联系。
[0010]一种舆情分类模型的训练装置,包括:获取模块,用于获取目标舆情摘要信息;其中,所述目标舆情摘要信息预先分配有曝光权重;第一确定模块,用于确定所述目标舆情摘要信息的特征词向量;其中,所述特征词向量中包含所述目标舆情摘要信息的多个特征词;计算模块,用于计算所述特征词向量中各个特征词的TF

IDF值,获得所述目标舆情摘要信息的目标摘要向量;第二确定模块,用于基于所述目标舆情摘要信息的曝光权重和目标摘要向量,确定所述目标舆情摘要信息的文本相似度;其中,所述文本相似度用于表征所述目标舆情摘要信息的舆论类别;训练模块,用于利用所述目标舆情摘要信息和对应的文本相似度对预设长短期记忆模型训练,获得舆情分类模型;其中,所述预设长短期记忆模型的神经元结构包括外连门,所述外连门用于加强输入数据与输出数据的联系。
[0011]一种确定舆论类别的设备,包括至少一个处理器以及存储计算机可执行指令的存储器,所述处理器执行所述指令时实现本说明书实施例中任意一个方法实施例的步骤。
[0012]一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现本说明书实施例中任意一个方法实施例的步骤。
[0013]本说明书提供的一种确定舆论类别的方法、装置及设备。一些实施例中可以获取指定舆情摘要信息,利用舆情分类模型对指定舆情摘要信息进行处理,获得指定舆情摘要信息对应的舆论类别。由于舆情分类模型是基于舆情摘要信息和对应的舆论类别对预设长短期记忆模型训练获得,而预设长短期记忆模型的神经元结构包括外连门,这样,不仅无需每次都使用官方提供的预训练模型再结合场景数据进行模型训练,而且通过增加外连门进行交互计算,可以使输入信息每次传递到下一个神经元之前,均先针对上一个神经元输出的重要信息再次加强记忆,从而可以高效准确的确定舆论类别。
附图说明
[0014]此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,并不构成对本说明书的限定。在附图中:
[0015]图1是本说明书提供的一种确定舆论类别的方法的一个实施例的流程示意图;
[0016]图2是本说明书提供的一种舆情分类模型的训练方法的一个实施例的流程示意图;
[0017]图3是本说明书提供的一种确定舆论类别的装置的一个实施例的模块结构示意图;
[0018]图4是本说明书提供的一种舆情分类模型的训练装置的一个实施例的模块结构示意图;
[0019]图5是本说明书提供的一种确定舆论类别的服务器的一个实施例的硬件结构框图。
具体实施方式
[0020]为了使本
的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书中的一部分实施例,而不是全部的实施例。基于本说明书中的一
个或多个实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书实施例保护的范围。
[0021]下面以一个具体的应用场景为例对本说明书实施方案进行说明。具体的,图1是本说明书提供的一种确定舆论类别的方法的一个实施例的流程示意图。虽然本说明书提供了如下述实施例或附图所示的方法操作步骤或装置结构,但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者部分合并后更少的操作步骤或模块单元。
[0022]本说明书提供的一种实施方案可以应用到客户端、服务器等中。所述客户端可以包括终端设备,如智能手机、平板电脑等。所述服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式系统的服务器结构等。
[0023]需要说明的是,下述实施例描述并不对基于本说明书的其他可扩展到的应用场景中的技术方案构成限制。具体的一种实施例如图1所示,本说明书提供的一种确定舆论类别的方法的一种实施例中,所述方法可以包括以下步骤。
[0024]S0:获取指定舆情摘要信息。
[0025]其中,指定舆情摘要信息可以为是任意需要确定舆论类别的舆情摘要信息。...

【技术保护点】

【技术特征摘要】
1.一种确定舆论类别的方法,其特征在于,包括:获取指定舆情摘要信息;利用舆情分类模型对所述指定舆情摘要信息进行处理,获得所述指定舆情摘要信息对应的舆论类别;其中,所述舆情分类模型基于舆情摘要信息和对应的舆论类别对预设长短期记忆模型训练获得;所述预设长短期记忆模型的神经元结构包括外连门,所述外连门用于加强输入数据与输出数据的联系。2.一种舆情分类模型的训练方法,其特征在于,包括:获取目标舆情摘要信息;其中,所述目标舆情摘要信息预先分配有曝光权重;确定所述目标舆情摘要信息的特征词向量;其中,所述特征词向量中包含所述目标舆情摘要信息的多个特征词;计算所述特征词向量中各个特征词的TF

IDF值,获得所述目标舆情摘要信息的目标摘要向量;基于所述目标舆情摘要信息的曝光权重和目标摘要向量,确定所述目标舆情摘要信息的文本相似度;其中,所述文本相似度用于表征所述目标舆情摘要信息的舆论类别;利用所述目标舆情摘要信息和对应的文本相似度对预设长短期记忆模型训练,获得舆情分类模型;其中,所述预设长短期记忆模型的神经元结构包括外连门,所述外连门用于加强输入数据与输出数据的联系。3.根据权利要求2所述的方法,其特征在于,所述获取目标舆情摘要信息前,包括:获取多条舆情信息;提取每条舆情信息的摘要,获得多条舆情摘要信息;删除所述多条舆情摘要信息中相似度满足预设条件的舆情摘要信息,获得目标舆情摘要信息。4.根据权利要求2所述的方法,其特征在于,所述计算所述特征词向量中各个特征词的TF

IDF值,获得所述目标舆情摘要信息的目标摘要向量,包括:统计所述特征词向量中目标特征词在所述目标舆情摘要信息中出现的次数;确定在所述目标舆情摘要信息中出现次数最多的特征词的出现次数;根据所述目标特征词在所述目标舆情摘要信息中出现的次数和在所述目标舆情摘要信息中出现次数最多的特征词的出现次数,计算所述目标特征词的词频;获取目标数据库中记录的舆情摘要信息的总数量;确定所述目标数据库中包含所述目标特征词的舆情摘要信息的数量;根据所述目标数据库中记录的舆情摘要信息的总数量和所述目标数据库中包含所述目标特征词的舆情摘要信息的数量,计算所述目标特征词的逆文档频率;将所述目标特征词的词频与逆文档频率的乘积作为所述目标特征词的TF

IDF值;基于所述特征词向量中每个特征词的TF

IDF值,获得所述目标舆情摘要信息的目标摘要向量。5.根据权利要求4所述的方法,其特征在于,所述基于所述目标舆情摘要信息的曝光权重和目标摘要向量,确定所述目标舆情摘要信息的文本相似度,包括:获取目标数据库中剩余舆情摘要信息的摘要向量;基于所述目标舆情摘要信息的曝光权重、目标摘要向量以及目标数据库中剩余舆情摘
要信息的摘要向量,分别计算目标舆情摘要信息与目标数据库中剩余舆情摘要信息的...

【专利技术属性】
技术研发人员:郭宏马格张宏韬陈李龙
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1