一种热门话题的挖掘方法、装置、存储介质及设备制造方法及图纸

技术编号:38818164 阅读:14 留言:0更新日期:2023-09-15 19:57
本发明专利技术公开了一种热门话题的挖掘方法、装置、存储介质及设备,其中热门话题的挖掘方法,包括获取一段时间内的新闻资讯;利用行业标签体系给获取的各新闻资讯打标,并根据行业标签将各新闻资讯分组,获得多组新闻资讯组;对各新闻资讯组中各新闻资讯的标题进行分词,获得多个短词,并确定各短词的节点权重;根据各短词的节点权重确定各新闻资讯组的关键短词;将各新闻资讯组的新闻资讯与所属新闻资讯组的关键短词关联,获得多组话题簇;计算各新闻资讯组各组话题簇的行业热度,并确定行业热度最高的话题簇为所属新闻资讯组的行业的热门话题。本发明专利技术能够挖掘各行业的热门话题。本发明专利技术能够挖掘各行业的热门话题。本发明专利技术能够挖掘各行业的热门话题。

【技术实现步骤摘要】
一种热门话题的挖掘方法、装置、存储介质及设备


[0001]本专利技术涉及一种热门话题的挖掘方法、装置、存储介质及设备,属于话题挖掘


技术介绍

[0002]行业热门话题挖掘,需要增加对行业舆情事件的分析和聚合,从行业的角度发掘热门舆情事件。与热点舆情事件聚合的需求不同,本需求需要从更抽象的角度去聚合新闻,因此聚合出来的话题不一定是与某个主体相关,也可能是一个行业内的整体的舆情事件,或者是某个宏观政策导致的整个行业的变动。
[0003]当前热门话题挖掘通过对当前最新新闻的快速分析,获取当前世界范围内比较热门的、与金融相关的话题,话题内容包括但不限于公司金融事件、国内外政治军事事件等。而行业热门话题则是在此基础之上,引入行业属性,得到的行业话题除了公司相关的新闻话题之外,还需要包括行业层面、宏观层面的话题,如行业整体变动,政策发布等等。
[0004]通过研究,将行业热门话题挖掘拆解成多个子问题:
[0005]1、首先必须从新闻资讯中提取话题。
[0006]由于每天出现的新的话题都是未知的,这种场景下的数据一般也是无标注的,所以无法用有监督的学习方式来解决。相对于目前比较火热的深度神经网络(NLP)方法,通常会使用基于统计学方法的主题模型来做话题抽取,经典的方法如Latent Dirichlet Allocation(LDA)等等。主题模型通常会无监督的对每篇新闻资讯抽取话题,它的产物包括得到文档

话题的概率分布,每篇文本可以使用这个概率分布来当作向量表示。/>[0007]LDA话题模型迭代训练的时间非常长,当新闻资讯的数量量较多时,应用的效率比较低。另外,对于短文本场景,LDA的效果不佳,主要原因为LDA难以处理短文本的稀疏性。对于长文本场景,每篇新闻资讯都能包含足够多的文本篇幅来囊括不同短词的信息,对于一篇新闻资讯来说其本身通过一个Dirichlet分布采样得到一个文档

主题的概率分布θ,生成文章的某个短词时,根据θ生成主题隐变量z,然后根据z从另一个Dirichlet分布采样得到主题

词的分布最后根据采样生成词。对于短文本来说,由于一篇文章包含的短词过少,上述生成过程的统计意义就不明显了,无论增加多少篇文章都不能缓解这个问题。最后,主题模型本身输出的话题分布表示由于信息量比较丰富,如果直接使用,后续话题聚类得到的聚簇的聚合度会不够高,产生很多小聚簇,需要被合并。
[0008]2、需要将包含类似话题的新闻资讯聚合起来,以获得当前阶段的话题簇,这样就可以计算出每个话题簇的热度,将热度较高的话题簇对应的话题推送给用户。
[0009]目前,基于无监督的聚类方法做无监督的聚类,常用的聚类方法有K

means方法。该方法的核心思想为在每一轮聚类迭代计算的时候,寻找每个聚簇的空间中心点,寻找的依据是该点周围的数据点与中心点的距离尽可能小。
[0010]但是,常用的K

means聚类方法无法识别异常数据点。极度依赖预设的超参数话题数量。另外,聚类得到的聚簇粒度不一,需要进行后处理,对重复的话题簇进行合并。
[0011]3、对于每个话题簇,需要为其生成一个话题描述文本或者话题关键短语,用于充分代表该话题簇的话题内容。
[0012]对于话题描述文本生成任务来说,一般会采用基于深度神经网络的端到端文本生成,主要基于seq2seq框架,是一个端到端的文本自动生成技术,即只需要输入源文本数据到框架模型中,最后直接能生成所需的文本。但是在该场景下,很难积累平行的生成语料用于训练。目前常用的方法主要是基于分词工具对文本进行分词,并将名词部分进行拼接得到候选短语。然后根据短语的统计特征例如Tf

idf(term

frequency,inverted

document

frequency)、PMI(Pointwise Mutual Information),从统计意义上筛选出最有意义的短语集合。
[0013]但是,基于深度神经网络的端到端文本生成方法在训练一个可用的神经网络需要一定量的训练语料,然而,在实际业务场景中,很难去构建一个数据量充分的训练集合。此外,当前获得的关键短语只能得到名词级别的短语,无意义的短语较多,且在语义通顺度上存在问题。
[0014]4、需要将行业属性添加到话题中,最后能够在行业内进行话题热度统计,同时也能横向比较不同行业的话题热度。
[0015]一个新闻可能涉及多个标签,因此这是一个多标签分类的任务。常用的方法为对每个行业标签设置关键词规则等模板,然后基于规则模板进行检测。另外,也会引入深度学习方法,引入Transformer等神经网络结构,对该任务进行端到端的模型训练,通过模型来识别文本包含的行业标签。此外,计算各个行业下面热门话题对应的新闻数量,使用该数值作为行业热度的表示。
[0016]基于规则模板或者神经网络的文本分类方法只关注于对公司主体相关的新闻进行行业的关联,缺少对于行业层面,宏观层面新闻的分析。此外,计算行业热度的方法仅以新闻数量作为行业热度计算,会使得不同行业之间的热度对比不在一个统一公平的尺度上。因为有些行业本身的绝对的新闻数量相对其他行业来说不会很多。但其一旦发生了重大的事件,则需要从热度的层面体现出来,能够向业务研究员给出推送或者高亮显示。
[0017]综上,本申请详细介绍了一种热门话题的挖掘方法、装置、存储介质及设备。

技术实现思路

[0018]本专利技术的目的在于克服现有技术中的不足,提供一种热门话题的挖掘方法、装置、存储介质及设备,能够挖掘各行业的热门话题。
[0019]为达到上述目的,本专利技术是采用下述技术方案实现的:
[0020]一方面,本专利技术提供一种热门话题的挖掘方法,包括以下步骤:
[0021]获取一段时间内的新闻资讯;
[0022]利用行业标签体系给各新闻资讯打标,并根据行业标签将各新闻资讯分组,获得多组新闻资讯组;
[0023]对各新闻资讯组的新闻标题进行分词,获得多个短词,并确定各短词的节点权重;
[0024]利用各短词的节点权重确定各新闻资讯组的关键短词;
[0025]将各新闻资讯与所属新闻资讯组的各关键短词关联,获得多个话题簇;
[0026]计算各话题簇的行业热度,并确定各新闻资讯组行业热度最高的话题簇为所属行
业的热门话题。
[0027]近一步地,所述利用行业标签体系给各新闻资讯打标包括:
[0028]响应于新闻资讯的内容包括实体公司名称,将所述新闻资讯打上所述实体公司所属行业的标签;
[0029]响应于新闻资讯的内容包括行业关键词,将所述新闻资讯打上所述行业关键词所属行业的标签;
[0030]其中,所述行业关键词包括行业名称、行业主营产品、行业术语。
[0031]进一步地,所述对各新闻资讯本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种热门话题的挖掘方法,其特征在于,包括以下步骤:获取一段时间内的新闻资讯;利用行业标签体系给各新闻资讯打标,并根据行业标签将各新闻资讯分组,获得多组新闻资讯组;对各新闻资讯组的新闻标题进行分词,获得多个短词,并确定各短词的节点权重;利用各短词的节点权重确定各新闻资讯组的关键短词;将各新闻资讯与所属新闻资讯组的各关键短词关联,获得多个话题簇;计算各话题簇的行业热度,并确定各新闻资讯组行业热度最高的话题簇为所属行业的热门话题。2.根据权利要求1所述的热门话题的挖掘方法,其特征在于,所述利用行业标签体系给各新闻资讯打标包括:响应于新闻资讯的内容包括实体公司名称,将所述新闻资讯打上所述实体公司所属行业的标签;响应于新闻资讯的内容包括行业关键词,将所述新闻资讯打上所述行业关键词所属行业的标签;其中,所述行业关键词包括行业名称、行业主营产品、行业术语。3.根据权利要求1所述的热门话题的挖掘方法,其特征在于,所述对各新闻资讯组的新闻标题进行分词,获得多个短词,并确定各短词的节点权重包括:对各新闻资讯组的新闻标题进行分词,获得多个短词,并提取短词与短词之间的句法结构;根据短词与短词之间的句法结构、短词与其他短词在所属新闻资讯组的新闻资讯中共现次数以及短词在其他新闻资讯组的新闻资讯中出现次数,确定各短词的节点权重。4.根据权利要求3所述的热门话题的挖掘方法,其特征在于,所述确定各短词的节点权重包括下式:Tfidf(i)=第i个短词与其他短词在所属新闻资讯组各新闻资讯中共现次数*log(新闻标题总数包含第i个短词的新闻资讯的数量+1)第i个短词的节点权重=WS(V
i
)*Tfidf权重(i)*hot值(i)式中,WS(V
i
)为第i个短词的TextRank权重,d为平衡系数,避免节点短词路径闭环的问题,V
j
为第j个短词,V
i
为第i个短词,V
k
为第k个短词,w
ji
为第j个短词与第i个短词之间的相似度,w
jk
为第j个短词与第k个短词之间的相似度,为第j个短词与第k个短词之间的句法结构,V
j
∈In(V
i
)为第j个短词与第i个短词之间的句...

【专利技术属性】
技术研发人员:邱震宇王玲曾文秋朱阿柯姜聪聪
申请(专利权)人:华泰证券股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1