一种基于频繁词集与BERT语义的微博热点话题发现方法技术

技术编号:29043847 阅读:9 留言:0更新日期:2021-06-26 05:54
本发明专利技术公开了一种基于频繁词集与BERT语义的微博热点话题发现方法,首先对微博文本分别进行频繁词集挖掘和BERT句向量表示,构建基于频繁词集和BERT句向量的文本双表示模型计算文本融合相似度进行话题谱聚类,再引入H指数进行热点话题评估,然后构建基于频繁词集与BERT语义的文本双表示模型,最后进行热点话题评估分析。本发明专利技术通过分析现有的话题热度计算方法,提出用话题词热度、用户参与度并结合H指数来计算微博话题热度值,更符合微博传播特性,从更全面的角度对话题热度进行评估。从更全面的角度对话题热度进行评估。从更全面的角度对话题热度进行评估。

【技术实现步骤摘要】
一种基于频繁词集与BERT语义的微博热点话题发现方法


[0001]本专利技术属于短文本聚类技术研究领域,尤其涉及一种基于频繁词集与 BERT语义的微博热点话题发现方法。

技术介绍

[0002]当今社会是一个网络化的时代,随着信息技术和网络技术的快速发展,通过互联网传播的信息量更是呈爆炸式增长。微博作为当下常用的社交网络新媒体平台,每天都有大量的包含社会各方面的信息流出,已经成为越来越多的用户发布和获取信息的重要渠道。
[0003]微博凭借其平台的开放性、内容简洁性和低门槛等特性,成为越来越多的网民获取新闻时事、自我表达以及社会公共舆论的重要平台。微博作为当代生活中重要的舆论发生地,已经成为热点话题传播的重要媒介。目前情况来看,微博热点话题时常会对社会的影响力很大,其影响范围、扩散速度都是意料之外的。因此,准确挖掘微博中的热点话题对于事件监测、观点挖掘、舆情控制等具有极其重要的作用。如何挖掘和处理微博数据已经成为国内外学者的研究热点,其中对中文微博平台的热点话题发现是微博研究领域的一个重点课题。
[0004]传统的热点话题发现主要是针对长文本信息算法研究的,比如新闻报道,博客信息,网页信息等。针对长文本信息的分类、聚类方法都已经比较成熟,针对不同的应用场景都有比较权威的分析方法。但由于中文短文本具有长度短,上下文信息和统计信息很少等特点,适用于中文长文本信息的数据挖掘方法不太适用于中文短文本信息的数据挖掘。目前针对中文短文本信息的数据挖掘方法还处于探索研究阶段,没有普遍适用的权威方法。
专利技术内容
[0005]针对传统的微博热点话题发现方法仅考虑词的统计信息而忽略语义导致聚类结果不准确、热点话题发现效果差等问题,本专利技术提出一种基于频繁词集与 BERT语义的微博热点话题发现方法。首先对微博文本分别进行频繁词集挖掘和 BERT句向量表示,构建基于频繁词集和BERT句向量的文本双表示模型计算文本融合相似度进行话题谱聚类,再引入H指数进行热点话题评估。
[0006]为实现上述专利技术目的,本专利技术按照图1所示流程,采用以下技术方案:
[0007]步骤1、获取微博数据集。
[0008]步骤1.1、在新浪微博平台上随机爬取海量微博数据作为训练BERT预训练模型的数据集。
[0009]步骤1.2、采用爬虫技术以定主题的方式爬取某段时间内微博热点话题数据集。
[0010]步骤2、数据预处理及特征词汇提取。
[0011]步骤2.1、对获取的微博数据集中的热点话题数据进行预处理,包括数据清洗、中文分词处理、停用词处理。
[0012]步骤2.2、使用TF

IDF和TextRank进行特征词汇提取。
[0013]步骤3、构建基于频繁词集与BERT语义的文本双表示模型。
[0014]步骤3.1、对处理后的微博热点话题数据集进行频繁词集挖掘,并计算频繁词集相似度。
[0015]步骤3.2、对处理后的微博热点话题数据集进行BERT句向量表示,并计算 BERT语义相似度。
[0016]步骤3.3、利用频繁词集相似度和BERT语义相似度构建文本双表示模型计算微博文本融合相似度进行话题谱聚类。
[0017]步骤4、热点话题评估分析。通过引入H指数并结合话题词热度和用户参与度两个维度对话题聚类结果进行热度值计算。
附图说明
[0018]图1.本专利技术的流程图。
[0019]图2.不同数据量下三种聚类方法的轮廓系数。
[0020]图3.不同数据量下三种聚类方法的CH值。
具体实施方式
[0021]结合本专利技术的技术方案,具体实施方式如下:
[0022]步骤1、获取微博数据集
[0023]通过对新浪开放平台API进行分析,利用python爬虫技术在新浪微博上采集了两类数据,第一类是随机爬取的微博文本共3.609GB,作为BERT语言模型的训练数据;第二类是采用定主题的方式爬取了2020年11月5日至12月3日之间的微博数据,包含微博内容数据和微博用户数据两部分。
[0024]通过对微博内容数据集进行筛选,选取了某病毒、5G、直播三个主题,每个主题下5个热点话题,共5359条数据,该数据集没有进行对主题及话题的人工标注;与之对应微博用户数据集共4611条。数据集的详细信息如表1~3所示。
[0025]表1某病毒主题下话题数据详细信息
[0026][0027]表25G主题下话题数据详细信息
[0028][0029]表3直播主题下话题数据详细信息
[0030][0031]步骤2、数据预处理及特征词汇提取
[0032]数据预处理主要是过滤微博中的无用信息,减小噪声数据对实验结果的影响。本专利技术微博数据预处理主要包括数据清洗、中文分词处理和停用词处理。
[0033](1)数据清洗:过滤掉微博数据中对主题提取无意义的英文、数字、标点符号、特殊符号及各种表情符号,并剔除了字数小于6的无意义微博文本。尽可能的排除无关信息带来的干扰,降低数据噪声。
[0034](2)中文分词处理:采用jieba分词工具包实现分词。
[0035](3)停用词处理:通过使用构建的停用词表去除文本中出现较为频繁,但又没有什么实际意义的停用词,主要包括语气助词、副词、介词、连词等。比如“的”、“了”、“这”、“吗”等。去掉停用词不仅可以降低表现力弱的词对处理结果产生较大的干扰,又可以为后续的文本表示降低特征维度。
[0036]本专利技术充分考虑TF

IDF和TextRank的优缺点,分别使用二者提取关键词并进行合并形成关键词集合,使用该集合对微博文本进行初步过滤。
[0037]步骤3、构建基于频繁词集与BERT语义的文本双表示模型
[0038]本专利技术采用频繁词集和BERT语义两个维度进行微博文本表示。
[0039]频繁词集相似度采用Jaccard相似度来进行度量,如公式(1)所示:
[0040][0041]其中M和N表示两个不同的微博热点话题文本,M.txt和N.txt表示由频繁词集表示的微博热点话题文本,count(M.txt∩M.txt)表示两个微博文本共有的频繁词集的个数,
count(M.txt∩M.txt)表示两个微博文本一共含有的频繁词集的个数,Jaccard_Sim(M,N)表示两个微博热点话题文本之间的频繁词集相似度。
[0042]BERT句向量语义相似度采用两个文本之间的余弦距离来表示,如公式(2) 所示:
[0043][0044]其中M.vec和N.vec由BERT模型训练而得到的微博热点话题文本句向量, Vec_Sim(M,N)表示两个微博热点话题文本之间的BERT语义相似度。
[0045]最终文本相似度采用加权集成策略由频繁词集相似度和BERT语义相似度得到,如公式(3)所示:
[0046]Sim(M,N)=αJaccard_Sim(M,N)+(1<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于频繁词集与BERT语义的微博热点话题发现方法,其特征在于:该方法包括如下步骤:步骤1、获取微博数据集;步骤1.1、在微博平台上随机爬取海量微博数据作为训练BERT预训练模型的数据集;步骤1.2、采用爬虫技术以定主题的方式爬取某段时间内微博热点话题数据集;步骤2、数据预处理及特征词汇提取;步骤2.1、对获取的微博数据集中的热点话题数据进行预处理,包括数据清洗、中文分词处理、停用词处理;步骤2.2、使用TF

IDF和TextRank进行特征词汇提取;步骤3、构建基于频繁词集与BERT语义的文本双表示模型;步骤3.1、对处理后的微博热点话题数据集进行频繁词集挖掘,并计算频繁词集相似度;步骤3.2、对处理后的微博热点话题数据集进行BERT句向量表示,并计算BERT语义相似度;步骤3.3、利用频繁词集相似度和BERT语义相似度构建文本双表示模型计算微博文本融合相似度进行话题谱聚类;步骤4、热点话题评估分析;通过引入H指数并结合话题词热度和用户参与度两个维度对话题聚类结果进行热度值计算。2.根据权利要求1所述的一种基于频繁词集与BERT语义的微博热点话题发现方法,其特征在于:微博数据预处理包括数据清洗、中文分词处理和停用词处理;(1)数据清洗:过滤掉微博数据中对主题提取无意义的英文、数字、标点符号、特殊符号及各种表情符号,并剔除了字数小于6的无意义微博文本;(2)中文分词处理:采用jieba分词工具包实现分词;(3)停用词处理:通过使用构建的停用词表去除文本中出现频繁没有实际意义的停用词;使用TF

IDF和TextRank提取关键词并进行合并形成关键词集合,使用该关键词集合对微博文本进行初步过滤。3.根据权利要求1所述的一种基于频繁词集与BERT语义的微博热点话题发现方法,其特征在于:采用频繁词集和BERT语义两个维度进行微博文本表示;频繁词集相似度采用Jaccard相似度来进行度量,如公式(1)所示:其中M和N表示两个不同的微博热点话题文本,M.txt和N.txt表示由频繁词集表示的微博热点话题文本,count(M.txt∩M.txt)表示两个微博文本共有的频繁词集的个数,count(M.txt∩M...

【专利技术属性】
技术研发人员:刘梦颖王勇
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1