System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种热点数据的获取方法、装置、设备及存储介质制造方法及图纸_技高网

一种热点数据的获取方法、装置、设备及存储介质制造方法及图纸

技术编号:42751643 阅读:11 留言:0更新日期:2024-09-18 13:41
本申请公开了一种热点数据的获取方法、装置、设备及存储介质。首先可以获取目标时间段内的N个目标数据,并对目标数据进行关键词抽取得到多个目标关键词。获取多个目标关键词与目标数据的标题之间的标题-关键词映射关系,并对该关系中的目标关键词进行关键词对齐得到目标映射关系。再根据目标映射关系中关键词的出现频率,构建该关键词的有序分级集合,有序分级集合包括若干对关键词对。然后获取关键词对对应的目标数据,以根据关键词对和关键词对对应的目标数据生成关键词对的热点数据。本申请能够提高热点数据的获取效率和准确率。同时由于只基于任意目标数据都具备的关键词进行热点数据获取,因此可以适用于各种不同类型的数据和场景。

【技术实现步骤摘要】

本申请涉及数据处理,特别是涉及一种热点数据的获取方法、装置、设备及存储介质


技术介绍

1、传统的舆情热点数据监测方法主要使用点击率、订阅数、阅读数、点赞数、转发数等指标作为参考来衡量某个事件或话题的热度和受关注程度。这些指标通常可以从互联网上的各种信息源(如新闻网站、社交媒体、论坛、博客等)获取到。例如,在社交媒体中,通过统计一个帖子被点赞、评论和分享的次数来衡量其受欢迎程度。

2、但是在某些情况下,这些指标无法直接获取,或者存在不可靠性,难以准确地反映舆情热度和态势。另外,由于新闻数据量庞大,点击率、订阅数、阅读数、点赞数、转发数等指标的归纳总结耗时费力,因此传统方法也存在一定的局限性。

3、因此,如何提高舆情热点数据监测的准确度和效率,同时在无法获取点击率、订阅数、阅读数、点赞数、转发数等指标的场景下依然可以进行舆情监测,是本领域技术人员急需解决的技术问题。


技术实现思路

1、基于上述问题,本申请提供了一种热点数据的获取方法、装置、设备及存储介质,可以提高舆情热点数据监测的准确度和效率,同时在无法获取点击率、订阅数、阅读数、点赞数、转发数等指标的场景下依然可以进行舆情监测。

2、本申请实施例公开了如下技术方案:

3、一种热点数据的获取方法,所述方法包括:

4、获取目标时间段内的n个目标数据,对目标数据进行关键词抽取得到多个目标关键词;n为正整数;目标数据包括标题和正文内容;

5、获取所述多个目标关键词与所述目标数据的标题之间的标题-关键词映射关系,对所述标题-关键词映射关系中的目标关键词进行关键词对齐处理得到目标映射关系;

6、根据所述目标映射关系中关键词的出现频率,构建所述目标映射关系中关键词的有序分级集合;所述有序分级集合中包括若干对关键词对;关键词对中包括一个一级关键词和0,或,一个一级关键词和一个二级关键词;所述一级关键词和所述二级关键词是所述目标映射关系中的关键词根据其出现频率进行分级得到的;

7、获取所述关键词对对应的目标数据;

8、根据所述关键词对和所述关键词对对应的目标数据,生成所述关键词对的热点数据。

9、在一种可能的实现方式中,所述对目标数据进行关键词抽取得到多个目标关键词,包括:

10、删除所述目标数据中的超文本置标语言标签html标签、图片、符号、换行符以及多余空格,得到预处理数据;

11、利用基于图的排序算法textrank算法和/或隐含狄利克雷分布主题模型lda主题模型对所述预处理数据进行关键词抽取得到多个目标关键词;

12、其中,当同时利用所述textrank算法和所述lda主题模型对所述预处理数据进行关键词抽取时,目标关键词既包括利用所述textrank算法对所述预处理数据进行关键词抽取得到的关键词,目标关键词也包括利用所述lda主题模型对所述预处理数据进行关键词抽取得到的关键词。

13、在一种可能的实现方式中,所述获取所述多个目标关键词与所述目标数据的标题之间的标题-关键词映射关系,包括:

14、基于所述多个目标关键词、所述目标数据的标题和所述目标数据的正文内容构建第一输入指令;

15、将所述第一输入指令输入到大型语言模型llm模型中进行关键词剔除和标题-关键词映射,得到所述标题-关键词映射关系。

16、在一种可能的实现方式中,所述对所述标题-关键词映射关系中的目标关键词进行关键词对齐处理得到目标映射关系,包括:

17、统计所述标题-关键词映射关系中所述目标关键词的出现频率,删除所述标题-关键词映射关系中出现频率低于预设频率的所述目标关键词得到初步映射关系;

18、构建初步映射关系中所述目标关键词的嵌入特征;

19、利用聚类算法和相似度计算将所有所述嵌入特征进行分类,得到多个特征分类集合;

20、从特征分类集合中筛选出符合筛选条件的嵌入特征作为目标特征;所述目标特征与特征分类集合中的嵌入特征具有对应关系;

21、根据所述目标特征与所述特征分类集合中的嵌入特征之间的对应关系,将所述初步映射关系中的所述目标关键词依次替换为所述目标特征对应的目标关键词得到所述目标映射关系。

22、在一种可能的实现方式中,所述根据所述目标映射关系中关键词的出现频率,构建所述目标映射关系中关键词的有序分级集合,包括:

23、根据出现频率对所有所述目标映射关系中的关键词进行排序并删除所述目标映射关系中重复的关键词,得到有序序列;n个目标数据对应n个所述目标映射关系;所述有序序列中的第i个关键词的出现频率大于第i+1个关键词的出现频率,i为正整数;

24、依次将所述有序序列中的关键词作为一级关键词,按照所述有序序列中关键词的顺序依次将所述有序序列中所述一级关键词以后的所有关键词作为所述一级关键词的二级关键词;

25、将所述一级关键词和0构成所述关键词对,按照所述二级关键词在所述有序序列中的顺序依次将所述一级关键词和所述一级关键词的二级关键词构建所述关键词对;

26、按照所述关键词对构建的顺序,将所有所述关键词对组合成所述有序分级集合;

27、其中,若所述关键词对不能对应任意一个所述目标数据,则删除所述关键词对。

28、在一种可能的实现方式中,所述根据所述关键词对和所述关键词对对应的目标数据,生成所述关键词对的热点数据,包括:

29、基于所述关键词对、所述关键词对对应的所述目标数据以及热点数据输出要求构建第二输入指令;

30、将所述第二输入指令输入到llm模型中得到所述关键词对的热点数据。

31、一种热点数据的获取装置,所述装置包括:

32、第一获取单元,用于获取目标时间段内的n个目标数据;

33、第一关键词抽取单元,用于对目标数据进行关键词抽取得到多个目标关键词;n为正整数;目标数据包括标题和正文内容;

34、第二获取单元,用于获取所述多个目标关键词与所述目标数据的标题之间的标题-关键词映射关系;

35、关键词对齐单元,用于对所述标题-关键词映射关系中的目标关键词进行关键词对齐处理得到目标映射关系;

36、构建单元,用于根据所述目标映射关系中关键词的出现频率,构建所述目标映射关系中关键词的有序分级集合;所述有序分级集合中包括若干对关键词对;关键词对中包括一个一级关键词和0,或,一个一级关键词和一个二级关键词;所述一级关键词和所述二级关键词是所述目标映射关系中的关键词根据其出现频率进行分级得到的;

37、第三获取单元,用于获取所述关键词对对应的目标数据;

38、热点数据生成单元,用于根据所述关键词对和所述关键词对对应的目标数据,生成所述关键词对的热点数据。

39、在一种可能的实现方式中,所述第一关键词抽取单元具体,包括:

<本文档来自技高网...

【技术保护点】

1.一种热点数据的获取方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对目标数据进行关键词抽取得到多个目标关键词,包括:

3.根据权利要求1所述的方法,其特征在于,所述获取所述多个目标关键词与所述目标数据的标题之间的标题-关键词映射关系,包括:

4.根据权利要求1所述的方法,其特征在于,所述对所述标题-关键词映射关系中的目标关键词进行关键词对齐处理得到目标映射关系,包括:

5.根据权利要求1所述的方法,其特征在于,所述根据所述目标映射关系中关键词的出现频率,构建所述目标映射关系中关键词的有序分级集合,包括:

6.根据权利要求1所述的方法,其特征在于,所述根据所述关键词对和所述关键词对对应的目标数据,生成所述关键词对的热点数据,包括:

7.一种热点数据的获取装置,其特征在于,所述装置包括:

8.根据权利要求7所述的装置,其特征在于,所述第一关键词抽取单元具体,包括:

9.一种热点数据的获取设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-6任一项所述的热点数据的获取方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如权利要求1-6任一项所述的热点数据的获取方法。

...

【技术特征摘要】

1.一种热点数据的获取方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对目标数据进行关键词抽取得到多个目标关键词,包括:

3.根据权利要求1所述的方法,其特征在于,所述获取所述多个目标关键词与所述目标数据的标题之间的标题-关键词映射关系,包括:

4.根据权利要求1所述的方法,其特征在于,所述对所述标题-关键词映射关系中的目标关键词进行关键词对齐处理得到目标映射关系,包括:

5.根据权利要求1所述的方法,其特征在于,所述根据所述目标映射关系中关键词的出现频率,构建所述目标映射关系中关键词的有序分级集合,包括:

6.根据权利要求1所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:郑彤赵亚东武悦娇
申请(专利权)人:太保科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1