热点话题确定方法、装置及终端设备制造方法及图纸

技术编号:27292655 阅读:47 留言:0更新日期:2021-02-06 12:02
本发明专利技术适用于大数据分析技术领域,提供了一种热点话题确定方法、装置及终端设备。其中所述热点话题确定方法,包括:获取短文本集,并根据所述短文本集确定各个短文本分别对应的特征词集;基于改进的BTM模型,根据所述各个短文本分别对应的特征词集确定所述短文本集对应的主题向量;根据所述各个短文本分别对应的特征词集确定各个短文本分别对应的文本向量;根据所述短文本集对应的主题向量和所述各个短文本分别对应的文本向量,确定所述各个短文本分别对应的主题词;计算所述各个短文本分别对应的主题词的话题热度值,根据所述各个短文本分别对应的主题词的话题热度值确定热点话题。本发明专利技术能够提高确定热点话题的可靠性和准确性。确性。确性。

【技术实现步骤摘要】
热点话题确定方法、装置及终端设备


[0001]本专利技术属于大数据分析
,尤其涉及一种热点话题确定方法、装置及终端设备。

技术介绍

[0002]微博作为一个能够共享各种信息、获取热门话题的社交新闻媒体,其在许多热点事件的发布和传播中发挥了重要作用。由于大多微博限定在140字以内,因此会产生大量的短文本信息。如何从这些微博短文本中高效、准确地发现热点话题已经成为了当前研究中的难点与重点问题。
[0003]目前,通常根据一种适用于短文本的词对主题模型(Biterm Topic Model,BTM)确定短文本的热点话题。但是,这种方法确定的热点话题的热度不一定高,即确定热点话题的准确性较低。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供了一种热点话题确定方法、装置及终端设备,以解决现有技术中直接基于BTM主题模型生成的话题其话题热度不一定高,即确定热点话题准确性较低的问题。
[0005]本专利技术实施例的第一方面提供了一种热点话题确定方法,包括:
[0006]获取短文本集,并根据短文本集确定各个短文本分别对应的特征词集;
[0007]基于改进的BTM模型,根据各个短文本分别对应的特征词集确定短文本集对应的主题向量;
[0008]根据各个短文本分别对应的特征词集确定各个短文本分别对应的文本向量;
[0009]根据短文本集对应的主题向量和各个短文本分别对应的文本向量,确定各个短文本分别对应的主题词;
[0010]计算各个短文本分别对应的主题词的话题热度值,根据各个短文本分别对应的主题词的话题热度值确定热点话题。
[0011]本专利技术实施例的第二方面提供了一种热点话题确定装置,包括:
[0012]获取处理模块,用于获取短文本集,并根据短文本集确定各个短文本分别对应的特征词集;
[0013]主题向量模块,用于基于改进的BTM模型,根据特征词集确定主题向量;
[0014]文本向量模块,用于根据特征词集确定各个短文本分别对应的文本向量;
[0015]主题词模块,用于根据主题向量和各个短文本分别对应的文本向量,确定短文本集对应的主题词;
[0016]权重处理模块,用于计算短文本集对应的主题词的话题热度值,根据短文本集对应的主题词的话题热度值确定热点话题。
[0017]本专利技术实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在
存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如任一项热点话题确定方法的步骤。
[0018]本专利技术实施例的第四方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如任一项热点话题确定方法的步骤。
[0019]本专利技术实施例与现有技术相比存在的有益效果是:
[0020]本专利技术实施例通过获取短文本集,并根据短文本集确定各个短文本分别对应的特征词集,基于改进的BTM模型,根据特征词集确定主题向量和各个短文本分别对应的文本向量,根据主题向量和各个短文本分别对应的文本向量,确定短文本集对应的主题词,计算短文本集对应的主题词的话题热度值,根据短文本集对应的主题词的话题热度值确定热点话题。本专利技术实施例通过改进的BTM模型能够提高发现热点话题的可靠性和准确性。
附图说明
[0021]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0022]图1是本专利技术实施例提供的一种热点话题确定方法的实现流程示意图;
[0023]图2是本专利技术实施例提供的一种热点话题确定装置的示意图;
[0024]图3是本专利技术实施例提供的终端设备的示意图。
具体实施方式
[0025]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本专利技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本专利技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本专利技术的描述。
[0026]为了说明本专利技术的技术方案,下面通过具体实施例来进行说明。
[0027]参见图1,其示出了本专利技术实施例提供的一种热点话题确定方法的实现流程示意图,如图1所示,上述热点话题确定方法,可以包括:
[0028]S101,获取短文本集,并根据短文本集确定各个短文本分别对应的特征词集。
[0029]可选的,上述短文本可以是微博短文本。微博作为一个能够共享各种信息、获取热门话题的社交新闻媒体,微博信息发布大多在140字以内,可以选取多篇微博短文本,形成微博短文本集,对微博短文本集进行特征词提取,得到各个微博短文本分别对应的特征词集。其中,可以根据实际需要直接单独对每篇微博短文本进行特征词提取,或直接对多篇微博短文本集进行特征词提取,得到各个微博短文本分别对应的特征词集。
[0030]S102,基于改进的BTM模型,根据各个短文本分别对应的特征词集确定短文本集对应的主题向量。
[0031]可选的,改进的BTM模型加入词与词之间的语义关系,对各个微博短文本分别对应的特征词集进行主题建模,可以得到每个微博短文本分的所有特征词集的主题向量,也即微博短文本集对应的主题向量。
[0032]S103,根据各个短文本分别对应的特征词集确定各个短文本分别对应的文本向量。
[0033]可选的,采用Doc2Vec句向量模型对微博短文本特征词集建模,得到每篇文本中的所有句向量,将每篇文本中的全部句向量加和并进行归一化,得到文本向量,可以包括:
[0034]S1031,传统的获得文本向量的方法是利用文本中所有词的词向量直接相加取平均值来获得整个文本的文本向量,但词向量直接相加的方法通常会造成很大的误差。Doc2Vec模型能够充分利用文本信息,训练结果信息损失较小。因此,可以采用Doc2Vec句向量模型对各个微博短文本分别对应的特征词集D={d1,d2,d3,...,d
n
}进行训练;将文本d
i
中每个词映射到向量空间中形成一个向量,并且每个文本d
i
映射到向量空间中形成一个独立的向量,最后,产生每篇文本中的所有句向量{v(d
i
),v(p1),v(p2),...,v(p
m
)}。
[0035]S1032,将每篇文本中的全部句向量加和并进行归一化,得到文本向量{v(d1),v(d2),v(d3),...,v(d
n
)},计算公式如下:
[0036][0037]其中,v(d
i
)表示第i个文本的文本向量,m表示文本中句子数量,v(p
i,j
)表示本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种热点话题确定方法,其特征在于,包括:获取短文本集,并根据所述短文本集确定各个短文本分别对应的特征词集;基于改进的BTM模型,根据所述各个短文本分别对应的特征词集确定所述短文本集对应的主题向量;根据所述各个短文本分别对应的特征词集确定各个短文本分别对应的文本向量;根据所述短文本集对应的主题向量和所述各个短文本分别对应的文本向量,确定所述各个短文本分别对应的主题词;计算所述各个短文本分别对应的主题词的话题热度值,根据所述各个短文本分别对应的主题词的话题热度值确定热点话题。2.如权利要求1所述的热点话题确定方法,其特征在于,所述基于改进的BTM模型,根据所述各个短文本分别对应的特征词集确定所述短文本集对应的主题向量,包括:基于Glove建模方法,根据所述各个短文本分别对应的特征词集得到所述各个短文本分别对应的词向量;计算所述各个短文本分别对应的词向量中的各个词对的基于语义关系的突发概率;根据所述各个短文本分别对应的词向量中的各个词对的基于语义关系的突发概率和BTM模型,确定所述短文本集对应的主题向量。3.如权利要求2所述的热点话题确定方法,其特征在于,所述计算所述各个短文本分别对应的词向量中的各个词对的基于语义关系的突发概率的计算公式为:其中,b为所述各个短文本分别对应的特征词集中由任意两个特征词组成的词对,t为第t个时间片,η
b,t
为词对b在时间片t上的基于语义关系的突发概率,μ为词对b中两个特征词之间的语义空间距离,c
b,t
为词对b在时间片t上出现的总次数,为词对b在前s个时间片上出现的总次数的均值,δ是一个接近0的正数。4.如权利要求1所述的热点话题确定方法,其特征在于,所述根据所述短文本集确定各个短文本分别对应的特征词集,包括:对所述短文本集进行预处理,得到预处理后的各个短文本分别对应的词汇集;计算所述预处理后的各个短文本分别对应的词汇集中的各个词汇的重要性分值,并根据所述预处理后的各个短文本分别对应的词汇集中的各个词汇的重要性分值确定预处理后的各个短文本分别对应的特征词集。5.如权利要求4所述的热点话题确定方法,其特征在于,所述对所述短文本集进行预处理,得到预处理后的各个短文本分别对应的词汇集,包括:对所述短文本集划分时间片,得到每个时间片对应的短文本的集合;对所述每个时间片对应的短文本的集合分别进行过滤处理,得到每个时间片对应的过滤后的短文本的集合;对所述每个时间片对应的过滤后的短文本的集合分别进行分词和词性标注,得到每个
时间片对应的各个过滤后的短文本的初始词集;对所述每个时间片对应的各个过滤后的短文本的初始词集分别进行去停用词处理,得到预处理后的各个短文本分别对应的词汇集。6.如权利要求4所述的热点话题确定方法,其特征在于,所述计算所述预处理后的各个短文本分别对应的词汇集中的各个词汇的重要性分值的计算公式为:其中,w...

【专利技术属性】
技术研发人员:吴迪赵伟超申超赵玉凤王梓宇马文莉杨丽君段晓旋马超
申请(专利权)人:河北工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1