基于主题相关性的推特摘要生成方法技术

技术编号:28674790 阅读:19 留言:0更新日期:2021-06-02 02:51
本发明专利技术公开了基于主题相关性的推特摘要生成方法,包括通过名词在每个主题的分布建立每个主题的词库;通过每个主题特有的主题词库和训练得到的词向量模型,计算一条推文和某个主题的相关性;根据网络互动信息计算公众认同度;将公众认同度与主题相关性进行综合,得到最终的推文显著性;采用最大边际相关性算法进行去冗处理,输出摘要。本方法从主题相关性和推文显著度来选择推文作为摘要,并对最终摘要的冗余度进行控制,使得生成的推文摘要综合考虑了摘要主题,多样性,以及社会认同性。从而得到了主题相关性更高,新颖性和总结性更好的摘要。

【技术实现步骤摘要】
基于主题相关性的推特摘要生成方法

涉及自然语言处理中的文本摘要技术,用于自动生成推特言论的主题摘要。具体地,给定特定的主题和若干条推文文本,得到和这个主题相关的摘要。
技术介绍
随着社交网络媒体,自媒体的迅猛发展,催生了对海量数据进行总结提要的摘要研究。由于社交网络数据无大规模的公开数据集,目前对于社交网络数据的摘要研究大多为传统的无监督方法。基于统计特征的方法,主要根据句子的相对位置,词频特征等进行研究,此类方法易于实现,但得到的特征往往相对简单;基于图模型的方法,此类方法将文本中句子看作节点,文本之间的相似度分数看作节点之间的边,基于节点以及节点之间的权值计算每个节点的显著性,选出显著性高的句子作为摘要;基于数据重构的方法,将文本转化为二维矩阵,通过矩阵重构的方法找到可以最大化重构源文本的n条句子作为摘要。近年来推特摘要的研究大多结合了社交网络静态和动态数据,但仍然是以传统的方法作为基础算法进行研究。现有的推特摘要研究其往往针对某个主题或某个事件下的言论进行摘要,鲜有人研究给定主题的摘要。并且现有的自动文摘方法没有利用到大规模社交网络数据的共性特征。
技术实现思路
针对现有摘要生成方法中没有引入特定主题和社交网络数据的问题,本专利技术基于统计学建立了不同主题的大规模主社交网络数据,进而设计了一种基于主题词库的摘要生成方法。为了实现上述目的本专利技术采用的技术方案是,基于主题相关性的推特摘要生成方法,包括以下步骤:1)将原始数据进行预处理和数据清洗,获得推文集,提取推文的网络互动信息。2)统计所述推文集中每个词集中出现的名词、动词、形容词词频,然后取词频排名在前1%的词作为候选主题词,过滤掉词频在其他主题中频率大于k的候选主题词作为最终的主题词集。3)从上述主题中选出一个与源文本较为贴近的主题作为给定主题,根据主题词集计算推文到这个给定主题的相关性。4)根据网络互动信息计算公众认同度。5)将公众认同度与主题相关性进行综合,得到最终的推文显著性,表示为:RankScore=ω·SST+(1-ω)·R,SST为一个句子到主题T的相关性度量,R为公众认同度,ω为超参数。6)采用最大边际相关性算法进行去冗处理,输出摘要。采用上述技术方案,本专利技术包括以下有益技术效果:本专利技术针对推特平台数据具有的主题性以及数据稀疏性特点提出了一种新的主题相关性的度量方法,首先通过名词在每个主题的分布建立每个主题的词库。通过每个主题特有的主题词库和训练得到的词向量模型,可以计算一条推文和某个主题的相关性,从而筛选出更贴近目标主题的摘要。本专利技术通过对每个主题的词库的建立,更好的考虑了不同主题的言论的区分性以及更好的考虑到了整体数据集的分布。本专利技术采用一种新的最大边际相关性算法来减少冗余信息,兼顾了摘要的覆盖性和多样性。从而得到了信息总结性更好,内容更新颖性更好的摘要。本专利技术方法有效结合了社交网络数据,并将其整合为公众认同度作为摘要的一个遴选粒度。对于一条用户发表的推文,公众对其的互动量代表了大家对其的关注度和对此条推文信息的认同度。通常人们对一条信息的关注度和认同度的高低一定程度上表明了此推文的流畅度更高,信息更加丰富,而文本摘要的目的正是要选出信息覆盖性,新颖性和总结性高的句子。所以将互动信息整合到算法中,信息更加丰富,内容更加流畅的摘要。综上所述,本方法从主题相关性和推文显著度来选择推文作为摘要,并对最终摘要的冗余度进行控制,使得生成的推文摘要综合考虑了摘要主题,多样性,以及社会认同性。从而得到了主题相关性更高,新颖性和总结性更好的摘要。附图说明图1为本专利技术的流程图。具体实施方式考虑到社交网络数据的主题性以及数据稀疏性,大多研究都是先根据主题将推文进行去稀疏化筛选,然后针对筛选后的推文进行摘要研究。而针对给定主题的推文进行摘要,得到的摘要应该具有更好的主题相关性,以往研究往往针对摘要的总结性,以及对源文本的覆盖性进行研究,鲜有人考虑到摘要的主题相关性。而社交网络数据中,人们发表某段言论,通常会与某个主题相关,不同用户以及不同时间段的社交网络数据,其所讨论的主题也不同。而针对一段言论进行摘要,如果指定了摘要的主题,我们必然想得到和主题更加相关的摘要。故此,本专利技术设计了一种考虑主题的摘要方法。此方法在大规模社交网络数据训练的基础上,预定义若干先验主题和主题词库。方法的技术效果为:给定某先验主题和若干条推文文本,生成和主题相关的摘要。词频逆文档频率算法(TF-IDF)一定程度上表征了一个词在一段文本中的重要性。其主要思想为,一个词在一段文本中出现的频率越高,同时在整个文档中的频率越低,其重要性就越高。由于整体的社交网络数据通常包含了多个主题,若将每个主题的文本数据看成一个特殊的类的话,则每个类中的词频分布必然存在差异,于是我们认为,若一个词在某个类中出现较多,但很少在其他类中出现,则这个词便为这个主题类的“常用词”。如此每个主题下便可以建立自己特有的词库。同时由于推文富含社交网络互动信息,如每个推文都有其转发量,点赞数,评论数等,而社会认可度一定程度上表征了推文的表达的流畅性,完整性和概括性,于是本文将其作为遴选摘要的一个粒度。基于以上讨论,本专利技术设计了一种基于社交网络互动信息和主题相关度的推特摘要方法,参见图1,具体步骤如下:1.数据准备:由于缺乏公开的推文语料以及摘要语料,我们用公开的TwitterAPI采集了发表时间在2019-2020年间的若干推文。得到原始数据后先进行去稀疏化处理:统计所有推文中的名词词频,筛选出前n个话题型名词,作为热点话题词。然后通过先验主题词进行推文的筛选,若所有语料中的言论涉及上述n个话题或者其自带的话题标签涉及上述话题,则将此条言论归到其涉及的话题的类别之中。最终我们得到了n个推文集,每个推文集涉及一个主题。2.数据清洗。首先是去除Hashtag、@、URL、推文末尾的数字等嘈杂信息,之后将推文中单词数量少于m的推文去除。用户推文的点赞,转发,评论数量,通过正则表达式提取,如果提取不到则置为0。最终得到处理过的n个推文集。为了后面计算词之间相似度的需要,使用该清洗后的数据集通过skip-gram模型训练好词向量模型。3.主题词集的制作:首先通过stanza命名实体识别工具识别出数据集中不同词性的词。统计上述每个词集中出现的名词动词形容词词频,然后取词频排名在前1%的词作为候选主题词。考虑到有些词可能为常用的名词,或者其与多个主题的关联性都比较强,于是过滤掉词频在其他主题中频率大于k的候选主题词作为最终的主题词集。4.主题相关度:得到了主题词集采用以下方法来计算一条推文到某个主题的相关性:sim(a,b)=(a·bT)/(|a|·|b|)s(w,ti)=sim(emb[ti],emb[w])ti∈TwordsF(w,T)=max|s(w,t1),s(w,t2),...,s(w,tn)|...

【技术保护点】
1.基于主题相关性的推特摘要生成方法,其特征在于,包括以下步骤:/n1)将原始数据进行预处理和数据清洗,获得推文集,提取推文的网络互动信息;/n2)统计所述推文集中每个词集中出现的名词、动词、形容词词频,然后取词频排名在前1%的词作为候选主题词,过滤掉词频在其他主题中频率大于k的候选主题词作为最终的主题词集;/n3)从上述主题中选出一个与源文本较为贴近的主题作为给定主题,根据主题词集计算推文到这个给定主题的相关性;/n4)根据网络互动信息计算公众认同度;/n5)将公众认同度与主题相关性进行综合,得到最终的推文显著性,表示为:RankScore=ω·SS

【技术特征摘要】
1.基于主题相关性的推特摘要生成方法,其特征在于,包括以下步骤:
1)将原始数据进行预处理和数据清洗,获得推文集,提取推文的网络互动信息;
2)统计所述推文集中每个词集中出现的名词、动词、形容词词频,然后取词频排名在前1%的词作为候选主题词,过滤掉词频在其他主题中频率大于k的候选主题词作为最终的主题词集;
3)从上述主题中选出一个与源文本较为贴近的主题作为给定主题,根据主题词集计算推文到这个给定主题的相关性;
4)根据网络互动信息计算公众认同度;
5)将公众认同度与主题相关性进行综合,得到最终的推文显著性,表示为:RankScore=ω·SST+(1-ω)·R,SST为一个句子到主题T的相关性度量,R为公众认同度,ω为超参数;
6)采用最大边际相关性算法进行去冗处理,输出摘要。


2.根据权利要求1所述基于主题相关性的推特摘要生成方法,其特征在于:步骤1)所述预处理包括:先对原始数据进行去稀疏化处理,统计所有推文中的名词词频,筛选出前n个话题型名词,作为热点话题词;然后通过先验主题词进行推文的筛选,若所有语料中的言论涉及所述n个话题或者其自带的话题标签涉及所述n个话题,则将此条言论归到其涉及的话题的类别之中,最终得到n个推文集,每个推文集涉及一个话题。


3.根据权利要求2所述基于主题相关性的推特摘要生成方法,其特征在于:步骤1)所述数据清洗包括,去除Hashtag、@、URL和推文末尾的数字,然后将推文中单词数量少于m的推文去除。


4.根据权利要求1或3所述基于主题相关性的推特摘要生成方法,其特征在于:所述提取推文的网络互动信息包括,通过正则表达式提取推文的点赞、转发和评论数量。


5.根据权利要求1所述基于主题相关性的推特摘要生成方法,其特征在于:所述推文到某个主题的相关性通过以下方法计算:
sim(a,b)=(a·bT)/(|a|·|b|)



s(w,ti)=sim(emb[ti],em...

【专利技术属性】
技术研发人员:陈子忠曹洋洋夏书银
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1