舆情数据采集方法及其装置、计算机存储介质、电子设备制造方法及图纸

技术编号:32240901 阅读:19 留言:0更新日期:2022-02-09 17:44
本申请实施例提供了一种舆情数据采集方法及其装置、计算机存储介质、电子设备,舆情数据采集方法包括:确定所述舆情数据采集方法针对的目标对象,并确定其对应的目标对象全称;响应于所述目标对象全称在预先构建的简称字典未匹配到对应的目标对象简称,对所述目标对象全称进行处理,以生成所述目标对象全称对应的目标对象简称;基于所述目标对象简称,采集所述目标对象的舆情数据,从而增加了舆情信息的全面性,提高了舆情信息的准确性。提高了舆情信息的准确性。提高了舆情信息的准确性。

【技术实现步骤摘要】
舆情数据采集方法及其装置、计算机存储介质、电子设备


[0001]本申请涉及数据处理
,具体涉及一种舆情数据采集方法及其装置、计算机存储介质、电子设备。

技术介绍

[0002]基于大数据解决方案,通过对收集的企业数据进行清洗分析、整理等一系列深度挖掘,进而提供数据综合查询或分类查询服务,比如查询企业相关的信息,包括舆情信息等。
[0003]但是,在这些源数据中出现的并非一定是企业全称,还包括企业简称,为此,收集源数据时,增加了使用企业简称去收集的处理,其中,确定企业简称的方法是利用企业全称在预先构建的简称字典中进行企业简称的查询。但是该简称字典中记录的企业简称并不全面,由此会出现在简称字典中查询不到源数据中实际包括的企业简称。为此,在采集舆情未使用该企业简称,由此导致本来包括舆情的源数据被遗漏,从而使得关联于企业的舆情信息全面性和准确性较低。

技术实现思路

[0004]本申请实施例提供一种舆情数据采集方法及其装置、计算机存储介质、电子设备,用以克服或者缓解现有技术中存在的上述技术问题。
[0005]本申请采用的技术方案为:
[0006]一种舆情数据采集方法,其包括:
[0007]确定所述舆情数据采集方法针对的目标对象,并确定其对应的目标对象全称;
[0008]响应于所述目标对象全称在预先构建的简称字典未匹配到对应的目标对象简称,对所述目标对象全称进行处理,以生成所述目标对象全称对应的目标对象简称;
[0009]基于所述目标对象简称,采集所述目标对象的舆情数据。
[0010]可选地,一实施例中,所述对所述目标对象全称进行处理,以生成所述目标对象全称对应的目标对象简称,包括:
[0011]基于训练好的简称识别模型,对所述目标对象全称进行处理,以生成所述目标对象全称对应的目标对象简称。
[0012]可选地,一实施例中,所述基于训练好的简称识别模型,对所述目标对象全称进行处理,以生成所述目标对象全称对应的目标对象简称,包括:
[0013]基于训练好的第一简称识别模型,识别出所述目标对象全称中的多个实体特征词;
[0014]基于设置的特征词组合模型,对多个实体特征词中的至少部分进行组合,以生成所述目标对象全称对应的目标对象简称,所述简称识别模型包括所述第一简称识别模型以及所述特征词组合模型。
[0015]可选地,一实施例中,所述基于训练好的简称识别模型,对所述目标对象全称进行
处理,以生成所述目标对象全称对应的目标对象简称,包括:
[0016]基于训练好的第二简称识别模型,识别出所述目标对象全称中的多个实体特征字符;
[0017]基于设置的特征词赋值模型,对多个实体特征字符中的至少部分进行赋值,以直接生成所述目标对象全称对应的目标对象简称。
[0018]可选地,一实施例中,所述目标对象为企业,所述目标对象全称为企业全称;
[0019]所述基于训练好的第一简称识别模型,识别出所述目标对象全称中的多个实体特征词,包括:基于训练好的第一简称识别模型,识别出所述目标对象全称中的地域特征词、字号特征词、行业性质特征词、公司性质特征词,所述实体特征词为地域特征词、字号特征词、行业性质特征词、或者公司性质特征词;
[0020]所述基于设置的特征词组合模型,对多个实体特征词中的至少部分进行组合,以生成所述目标对象全称对应的目标对象简称,包括:
[0021]基于设置的特征词组合模型,按照设定的组合方式,对多个实体特征词中的至少部分进行组合,以生成所述目标对象全称对应的目标对象简称;
[0022]其中,所述设定的组合方式至少为以下其一:
[0023]对所述地域特征词和所述字号特征词进行组合;
[0024]对所述字号特征词和所述行业性质特征词进行组合;
[0025]对所述字号特征词、所述行业性质特征词和“公司”进行组合;
[0026]直接使用字号特征词作为所述目标对象简称。
[0027]可选地,一实施例中,所述基于设置的特征词赋值模型,对多个实体特征字符中的至少部分进行赋值,以直接生成所述目标对象全称对应的目标对象简称,包括:基于设置的特征词赋值模型,按照设定的赋值方式,对部分实体特征字符赋予标记,以根据具有所述标记的实体字符直接生成所述目标对象全称对应的目标对象简称;
[0028]其中,所述设定的赋值方式至少为以下其一:
[0029]给表明所述字号特征词中的实体字符赋予第一标记值;
[0030]给表明所述行业性质特征词、公司性质特征词中的部分实体字符赋予第二标记值。
[0031]可选地,一实施例中,所述基于训练好的简称识别模型,对所述目标对象全称进行处理,以生成所述目标对象全称对应的目标对象简称之前,包括:
[0032]基于语料库对所述简称识别模型进行训练,所述语料库包括带有样本实体特征词标注的文本和样本简称。
[0033]可选地,一实施例中,所述对所述目标对象全称进行处理,以生成所述目标对象全称对应的目标对象简称之后,包括:
[0034]构建所述目标对象全称与所述目标对象简称之间的对应关系;
[0035]根据所述对应关系,对所述简称字典进行更新,以将所述目标对象简称增加到所述简称字典中。
[0036]一种目标对象简称生成方法,其包括:
[0037]获取目标对象对应的目标对象全称;
[0038]响应于所述目标对象全称在预先构建的简称字典未匹配到对应的目标对象简称,
基于训练好的第一简称识别模型,识别出所述目标对象全称中的多个实体特征词,基于设置的特征词组合模型,对多个实体特征词中的至少部分进行组合,以生成所述目标对象全称对应的目标对象简称,或者,基于训练好的第二简称识别模型,识别出所述目标对象全称中的多个实体特征字符,基于设置的特征词赋值模型,对多个实体特征字符中的至少部分进行赋值,以直接生成所述目标对象全称对应的目标对象简称。
[0039]一种舆情数据采集装置,其包括:
[0040]第一数据获取单元,用于确定所述舆情数据采集方法针对的目标对象,并确定其对应的目标对象全称;
[0041]第一数据处理单元,用于响应于所述目标对象全称在预先构建的简称字典未匹配到对应的目标对象简称,对所述目标对象全称进行处理,以生成所述目标对象全称对应的目标对象简称;
[0042]数据采集单元,用于基于所述目标对象简称,采集所述目标对象的舆情数据。
[0043]一种目标对象简称生成装置,其包括:
[0044]第二数据获取单元,用于获取目标对象对应的目标对象全称;
[0045]第二数据处理单元,响应于所述目标对象全称在预先构建的简称字典未匹配到对应的目标对象简称,基于训练好的第一简称识别模型,识别出所述目标对象全称中的多个实体特征词,基于设置的特征词组合模型,对多个实体特征词中的至少部分进行组合,以生成所述目标对象全称对应的目标对象简称本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种舆情数据采集方法,其特征在于,包括:确定所述舆情数据采集方法针对的目标对象,并确定其对应的目标对象全称;响应于所述目标对象全称在预先构建的简称字典未匹配到对应的目标对象简称,对所述目标对象全称进行处理,以生成所述目标对象全称对应的目标对象简称;基于所述目标对象简称,采集所述目标对象的舆情数据。2.根据权利要求1所述的方法,其特征在于,所述对所述目标对象全称进行处理,以生成所述目标对象全称对应的目标对象简称,包括:基于训练好的简称识别模型,对所述目标对象全称进行处理,以生成所述目标对象全称对应的目标对象简称。3.根据权利要求2所述的方法,其特征在于,所述基于训练好的简称识别模型,对所述目标对象全称进行处理,以生成所述目标对象全称对应的目标对象简称,包括:基于训练好的第一简称识别模型,识别出所述目标对象全称中的多个实体特征词;基于设置的特征词组合模型,对多个实体特征词中的至少部分进行组合,以生成所述目标对象全称对应的目标对象简称,所述简称识别模型包括所述第一简称识别模型以及所述特征词组合模型。4.根据权利要求2所述的方法,其特征在于,所述基于训练好的简称识别模型,对所述目标对象全称进行处理,以生成所述目标对象全称对应的目标对象简称,包括:基于训练好的第二简称识别模型,识别出所述目标对象全称中的多个实体特征字符;基于设置的特征词赋值模型,对多个实体特征字符中的至少部分进行赋值,以直接生成所述目标对象全称对应的目标对象简称。5.根据权利要求3所述的方法,其特征在于,所述目标对象为企业,所述目标对象全称为企业全称;所述基于训练好的第一简称识别模型,识别出所述目标对象全称中的多个实体特征词,包括:基于训练好的第一简称识别模型,识别出所述目标对象全称中的地域特征词、字号特征词、行业性质特征词、公司性质特征词,所述实体特征词为地域特征词、字号特征词、行业性质特征词、或者公司性质特征词;所述基于设置的特征词组合模型,对多个实体特征词中的至少部分进行组合,以生成所述目标对象全称对应的目标对象简称,包括:基于设置的特征词组合模型,按照设定的组合方式,对多个实体特征词中的至少部分进行组合,以生成所述目标对象全称对应的目标对象简称;其中,所述设定的组合方式至少为以下其一:对所述地域特征词和所述字号特征词进行组合;对所述字号特征词和所述行业性质特征词进行组合;对所述字号特征词、所述行业性质特征词和“公司”进行组合;直接使用字号特征词作为所述目标对象简称。6.根据权利要求4所述的方法,其特征在于,所述基于设置的特征词赋值模型,对多个实体特征字符中的至少部分进行赋值,以直接生成所述目标对象全称对应的目标对象简称,包括:基于设置的特征词赋值模型,按照设定的赋值方式,对部分实体特征字符赋予标记,以根据具有所述标记的实体字符直接生成所述目标对象全称对应的目标对象简称;
其中,所述设定的赋值方式至少为以下其一:给表明所述字号特征词中的实体字符赋予第一标记值;给表明所述行业性质特征词、公司性质特征词中的部分实体字符赋予第二标记值。7.根据权利要求3

6任一项所述的方法,其特征在于,所述基于训练好的简称识别模型,对所述目标对象全称进行处理,以生成所述目标对象全称对应的目标对象简称之前,包括:基于语料库对所述简称识别模型进行训练,所述语料库包括带有样本实体特征词标注的文本和样本简称。8.根据权利要求1

7任一项所述的方法,其特征在于,所述对所述目标对象全称进行处理,以生成所述目标对象全称对应的目标对象简称之后,包括:构建所述目标对象全称与所述目标对象简称之间的对应关系;根据所述对应关系,对所述简称字典进行更新,以将所述目标对象简称增加到所述简称字典中。9.一种目标对象简称生成方法,其特征在于,包括:获取目标对象对应的目标对象全称;响应于所述目标对象全称在预先构建的简称字典未匹配到对应的目标对象简称,基于训练好的第一简称识别模型,识别出所述目标对象全称中的多个实体特征词,基于设置的特征词组合模型,对多个实体特征词中的至少部分进行组合,以生成所述目标对象...

【专利技术属性】
技术研发人员:刘文强
申请(专利权)人:盐城金堤科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1