舆情文本分类方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38019277 阅读:9 留言:0更新日期:2023-06-30 10:46
本发明专利技术涉及人工智能技术领域,提供一种舆情文本分类方法、装置、电子设备及存储介质,包括:根据优先展示内容、正文内容、舆情文本所属领域以及权重集合,确定舆情文本的SimHash编码;对舆情文本的SimHash编码进行子段划分,基于SimHash编码集合以及SimHash编码子段集合,确定舆情文本分类结果。本发明专利技术提供的舆情文本分类方法及装置,通过引入优先展示内容与正文内容结合舆情文本所属领域以及权重集合,确定舆情文本的SimHash编码,提高了SimHash编码的可靠性以及准确性,且根据该SimHash编码的子段确定舆情文本的相似性,减少了舆情文本分类标签的计算时间,有效提高了舆情文本的分类效率。率。率。

【技术实现步骤摘要】
舆情文本分类方法、装置、电子设备及存储介质


[0001]本专利技术涉及人工智能
,具体涉及一种舆情文本分类方法、装置、电子设备及存储介质。

技术介绍

[0002]随着互联网的发展,越来越多的网民开始使用各种应用平台来发表自己的观点和问题。这也使得舆情信息传播范围变得更广,传播速度变得更快,舆情的影响也越来越大。舆情信息的易复制、易转载属性以及互联网水军的存在导致互联网上存在海量的重复相似的信息。这些相似的舆情信息不但增加了舆情信息的获取成本、存储成本、分析成本,同时影响了舆情信息的分析效果、索引效率,严重影响了舆情信息的价值发挥。
[0003]因此,如何对舆情信息进行准确、高效地分类,对舆情信息的获取与应用具有十分重要的意义。

技术实现思路

[0004]本专利技术旨在至少解决相关技术中存在的技术问题之一。为此,本专利技术提出一种舆情文本分类方法,能够提高舆情文本分类的准确性和效率。
[0005]本专利技术还提出一种舆情文本分类装置。
[0006]本专利技术还提出一种电子设备以及非暂态计算机可读存储介质。
[0007]根据本专利技术第一方面实施例的舆情文本分类方法,包括:确定舆情文本集合中各舆情文本的优先展示内容以及正文内容;所述优先展示内容包括标题内容、摘要内容中的至少一项;根据所述优先展示内容、所述正文内容、所述各舆情文本所属领域以及权重集合,确定所述各舆情文本的SimHash编码;所述权重集合包括优先展示内容关键词权重、正文内容关键词权重以及舆情文本所属领域的权重;对所述各舆情文本的SimHash编码进行子段划分,得到所述各舆情文本的SimHash编码子段;基于SimHash编码集合以及SimHash编码子段集合,确定所述舆情文本集合对应的舆情文本分类结果;所述SimHash编码集合包括所述各舆情文本的SimHash编码,所述SimHash编码子段集合包括所述各舆情文本的SimHash编码子段。
[0008]本专利技术实施例提供的舆情文本分类方法,通过引入优先展示内容与正文内容结合舆情文本所属领域以及权重集合,确定舆情文本的SimHash编码,有效提高了舆情文本的SimHash编码确定的可靠性以及准确性,进而根据舆情文本的SimHash编码划分字段,确定舆情文本的相似性,减少舆情文本分类标签的计算时间,有效提高了舆情文本的分类效率。
[0009]根据本专利技术的一个实施例,所述基于SimHash编码集合以及SimHash编码子段集合,确定所述舆情文本集合对应的舆情文本分类结果,包括:确定所述SimHash编码集合中任一目标SimHash编码的可行解集合;所述可行解集
合包括至少一个第一SimHash编码,所述第一SimHash编码与所述目标SimHash编码存在相同的SimHash编码子段;确定所述第一SimHash编码中存在第二SimHash编码,根据Mode函数对各所述第二SimHash编码进行处理,得到第一结果,根据所述第一结果确定所述舆情文本分类结果之一;所述第二SimHash编码与所述目标SimHash编码的SimHash编码子段均相同。
[0010]根据本专利技术的一个实施例,所述的舆情文本分类方法,还包括:确定所述第一SimHash编码中不存在第二SimHash编码,重复执行如下第一步骤:确定t≥1,对所述第一SimHash编码中与所述目标SimHash编码具有t个相同SimHash编码子段的SimHash编码进行随机抽样得到抽样集合;t=J

1,J为所述SimHash编码集合中各SimHash编码的SimHash编码子段的数量,每执行一次所述第一步骤,t的大小减1;根据所述抽样集合中各元素与所述目标SimHash编码的相似度,确定与所述目标SimHash编码相似的第三SimHash编码;根据所述Mode函数对各所述第三SimHash编码进行处理,得到第二结果;确定所述第二结果作为所述舆情文本分类结果之一的概率大于等于第一概率阈值,根据所述第二结果确定所述舆情文本分类结果之一,并结束所述第一步骤;确定所述第二结果作为所述舆情文本分类结果之一的概率小于等于第二概率阈值,则执行下一次的所述第一步骤;所述第二概率阈值小于所述第一概率阈值。
[0011]本专利技术实施例提供的舆情文本分类方法,通过在第一SimHash编码集合中进行抽样得到第三SimHash编码,再通过Mode函数在第三SimHash编码中确定第二结果,以及逐渐减小t值,以相似度由高到低的逐步确定的方式获得与舆情文本相似的文本的分类标签,可以有效的确保第二结果确定的准确性,通过第二结果的作为舆情文本分类结果之一的概率与第一、第二概率阈值进行比较,可以进一步的确保以第二结果作为舆情文本分类的准确性。
[0012]根据本专利技术的一个实施例,所述第一步骤还包括:确定所述第二结果作为所述舆情文本分类结果之一的概率小于所述第一概率阈值,并且大于所述第二概率阈值,确定各所述第一SimHash编码与所述目标SimHash编码的相似度,确定与所述目标SimHash编码相似的第四SimHash编码;根据所述Mode函数对各所述第四SimHash编码进行处理,得到第三结果;确定所述第三结果作为所述舆情文本分类结果之一的概率大于等于所述第二概率阈值,根据所述第三结果确定所述舆情文本分类结果之一,并结束所述第一步骤;确定所述第三结果作为所述舆情文本分类结果之一的概率小于所述第二概率阈值,则执行下一次的所述第一步骤。
[0013]本专利技术实施例提供的舆情文本分类方法,通过在概率处于第一、第二概率阈值中间时,将对全部SimHash编码求取相似度,增加确定相似性的数量,有利于确保文本标签获取的准确性,同时再根据与第二概率阈值进行比较,进一步确保了舆情文本分类的准确性。
[0014]根据本专利技术的一个实施例,所述的舆情文本分类方法,还包括:确定t=1,并且确定所述第三结果作为所述舆情文本分类结果之一的概率小于所述第二概率阈值,基于所述目标SimHash编码确定所述舆情文本分类结果之一。
[0015]根据本专利技术的一个实施例,所述根据所述优先展示内容、所述正文内容、所述各舆
情文本所属领域以及权重集合,确定所述各舆情文本的SimHash编码,包括:分别对所述优先展示内容、所述正文内容进行关键词提取,得到各优先展示内容关键词以及各正文内容关键词;根据各所述优先展示内容关键词及其对应的优先展示内容关键词权重、所述各正文内容关键词及其对应的正文内容关键词权重、所述各舆情文本所属领域的权重,确定所述各舆情文本的SimHash编码。
[0016]本专利技术实施例提供的舆情文本分类方法,通过对优先展示内容以及正文内容进行关键词提取,并根据提取的关键词对舆情文本进行SimHash编码,有效降低了SimHash编码的计算量,提高了SimHash编码效率进而提高了文本分类的效率,另一方面通过为优先展示内容以及正文内容以及领域关键词赋予权重,有效降低了低关联度文本数据对文本分类结果的影响,提高了舆情文本分类的准确性。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种舆情文本分类方法,其特征在于,包括:确定舆情文本集合中各舆情文本的优先展示内容以及正文内容;所述优先展示内容包括标题内容、摘要内容中的至少一项;根据所述优先展示内容、所述正文内容、所述各舆情文本所属领域以及权重集合,确定所述各舆情文本的SimHash编码;所述权重集合包括优先展示内容关键词权重、正文内容关键词权重以及舆情文本所属领域的权重;对所述各舆情文本的SimHash编码进行子段划分,得到所述各舆情文本的SimHash编码子段;基于SimHash编码集合以及SimHash编码子段集合,确定所述舆情文本集合对应的舆情文本分类结果;所述SimHash编码集合包括所述各舆情文本的SimHash编码,所述SimHash编码子段集合包括所述各舆情文本的SimHash编码子段。2.根据权利要求1所述的舆情文本分类方法,其特征在于,所述基于SimHash编码集合以及SimHash编码子段集合,确定所述舆情文本集合对应的舆情文本分类结果,包括:确定所述SimHash编码集合中任一目标SimHash编码的可行解集合;所述可行解集合包括至少一个第一SimHash编码,所述第一SimHash编码与所述目标SimHash编码存在相同的SimHash编码子段;确定所述第一SimHash编码中存在第二SimHash编码,根据Mode函数对各所述第二SimHash编码进行处理,得到第一结果,根据所述第一结果确定所述舆情文本分类结果之一;所述第二SimHash编码与所述目标SimHash编码的SimHash编码子段均相同。3.根据权利要求2所述的舆情文本分类方法,其特征在于,还包括:确定所述第一SimHash编码中不存在第二SimHash编码,重复执行如下第一步骤:确定t≥1,对所述第一SimHash编码中与所述目标SimHash编码具有t个相同SimHash编码子段的SimHash编码进行随机抽样得到抽样集合;t=J

1,J为所述SimHash编码集合中各SimHash编码的SimHash编码子段的数量,每执行一次所述第一步骤,t的大小减1;根据所述抽样集合中各元素与所述目标SimHash编码的相似度,确定与所述目标SimHash编码相似的第三SimHash编码;根据所述Mode函数对各所述第三SimHash编码进行处理,得到第二结果;确定所述第二结果作为所述舆情文本分类结果之一的概率大于等于第一概率阈值,根据所述第二结果确定所述舆情文本分类结果之一,并结束所述第一步骤;确定所述第二结果作为所述舆情文本分类结果之一的概率小于等于第二概率阈值,则执行下一次的所述第一步骤;所述第二概率阈值小于所述第一概率阈值。4.根据权利要求3所述的舆情文本分类方法,其特征在于,所述第一步骤还包括:确定所述第二结果作为所述舆情文本分类结果之一的概率小于所述第一概率阈值,...

【专利技术属性】
技术研发人员:何宇凡赵小兰何作祥周锦琦陈紫丹郑家森
申请(专利权)人:美云智数科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1