【技术实现步骤摘要】
热点话题确定方法、装置及终端设备
[0001]本专利技术属于大数据分析
,尤其涉及一种热点话题确定方法、装置及终端设备。
技术介绍
[0002]微博作为一个能够共享各种信息、获取热门话题的社交新闻媒体,其在许多热点事件的发布和传播中发挥了重要作用。由于大多微博限定在140字以内,因此会产生大量的短文本信息。如何从这些微博短文本中高效、准确地发现热点话题已经成为了当前研究中的难点与重点问题。
[0003]目前,通常根据一种适用于短文本的词对主题模型(Biterm Topic Model,BTM)确定短文本的热点话题。但是,这种方法确定的热点话题的热度不一定高,即确定热点话题的准确性较低。
技术实现思路
[0004]有鉴于此,本专利技术实施例提供了一种热点话题确定方法、装置及终端设备,以解决现有技术中直接基于BTM主题模型生成的话题其话题热度不一定高,即确定热点话题准确性较低的问题。
[0005]本专利技术实施例的第一方面提供了一种热点话题确定方法,包括:
[0006]获取短文本集,并根据短文本集确定各个短文本分别对应的特征词集;
[0007]基于改进的BTM模型,根据各个短文本分别对应的特征词集确定短文本集对应的主题向量;
[0008]根据各个短文本分别对应的特征词集确定各个短文本分别对应的文本向量;
[0009]根据短文本集对应的主题向量和各个短文本分别对应的文本向量,确定各个短文本分别对应的主题词;
[0010]计算各个短文本分别对应的主 ...
【技术保护点】
【技术特征摘要】
1.一种热点话题确定方法,其特征在于,包括:获取短文本集,并根据所述短文本集确定各个短文本分别对应的特征词集;基于改进的BTM模型,根据所述各个短文本分别对应的特征词集确定所述短文本集对应的主题向量;根据所述各个短文本分别对应的特征词集确定各个短文本分别对应的文本向量;根据所述短文本集对应的主题向量和所述各个短文本分别对应的文本向量,确定所述各个短文本分别对应的主题词;计算所述各个短文本分别对应的主题词的话题热度值,根据所述各个短文本分别对应的主题词的话题热度值确定热点话题。2.如权利要求1所述的热点话题确定方法,其特征在于,所述基于改进的BTM模型,根据所述各个短文本分别对应的特征词集确定所述短文本集对应的主题向量,包括:基于Glove建模方法,根据所述各个短文本分别对应的特征词集得到所述各个短文本分别对应的词向量;计算所述各个短文本分别对应的词向量中的各个词对的基于语义关系的突发概率;根据所述各个短文本分别对应的词向量中的各个词对的基于语义关系的突发概率和BTM模型,确定所述短文本集对应的主题向量。3.如权利要求2所述的热点话题确定方法,其特征在于,所述计算所述各个短文本分别对应的词向量中的各个词对的基于语义关系的突发概率的计算公式为:其中,b为所述各个短文本分别对应的特征词集中由任意两个特征词组成的词对,t为第t个时间片,η
b,t
为词对b在时间片t上的基于语义关系的突发概率,μ为词对b中两个特征词之间的语义空间距离,c
b,t
为词对b在时间片t上出现的总次数,为词对b在前s个时间片上出现的总次数的均值,δ是一个接近0的正数。4.如权利要求1所述的热点话题确定方法,其特征在于,所述根据所述短文本集确定各个短文本分别对应的特征词集,包括:对所述短文本集进行预处理,得到预处理后的各个短文本分别对应的词汇集;计算所述预处理后的各个短文本分别对应的词汇集中的各个词汇的重要性分值,并根据所述预处理后的各个短文本分别对应的词汇集中的各个词汇的重要性分值确定预处理后的各个短文本分别对应的特征词集。5.如权利要求4所述的热点话题确定方法,其特征在于,所述对所述短文本集进行预处理,得到预处理后的各个短文本分别对应的词汇集,包括:对所述短文本集划分时间片,得到每个时间片对应的短文本的集合;对所述每个时间片对应的短文本的集合分别进行过滤处理,得到每个时间片对应的过滤后的短文本的集合;对所述每个时间片对应的过滤后的短文本的集合分别进行分词和词性标注,得到每个
时间片对应的各个过滤后的短文本的初始词集;对所述每个时间片对应的各个过滤后的短文本的初始词集分别进行去停用词处理,得到预处理后的各个短文本分别对应的词汇集。6.如权利要求4所述的热点话题确定方法,其特征在于,所述计算所述预处理后的各个短文本分别对应的词汇集中的各个词汇的重要性分值的计算公式为:其中,w...
【专利技术属性】
技术研发人员:吴迪,赵伟超,申超,赵玉凤,王梓宇,马文莉,杨丽君,段晓旋,马超,
申请(专利权)人:河北工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。