基于主题相关性的推特摘要生成方法技术

技术编号：28674790 阅读：19 留言：0更新日期：2021-06-02 02:51

本发明专利技术公开了基于主题相关性的推特摘要生成方法，包括通过名词在每个主题的分布建立每个主题的词库；通过每个主题特有的主题词库和训练得到的词向量模型，计算一条推文和某个主题的相关性；根据网络互动信息计算公众认同度；将公众认同度与主题相关性进行综合，得到最终的推文显著性；采用最大边际相关性算法进行去冗处理，输出摘要。本方法从主题相关性和推文显著度来选择推文作为摘要，并对最终摘要的冗余度进行控制，使得生成的推文摘要综合考虑了摘要主题，多样性，以及社会认同性。从而得到了主题相关性更高，新颖性和总结性更好的摘要。

全部详细技术资料下载

【技术实现步骤摘要】
基于主题相关性的推特摘要生成方法

涉及自然语言处理中的文本摘要技术，用于自动生成推特言论的主题摘要。具体地，给定特定的主题和若干条推文文本，得到和这个主题相关的摘要。
技术介绍
随着社交网络媒体，自媒体的迅猛发展，催生了对海量数据进行总结提要的摘要研究。由于社交网络数据无大规模的公开数据集，目前对于社交网络数据的摘要研究大多为传统的无监督方法。基于统计特征的方法，主要根据句子的相对位置，词频特征等进行研究，此类方法易于实现，但得到的特征往往相对简单；基于图模型的方法，此类方法将文本中句子看作节点，文本之间的相似度分数看作节点之间的边，基于节点以及节点之间的权值计算每个节点的显著性，选出显著性高的句子作为摘要；基于数据重构的方法，将文本转化为二维矩阵，通过矩阵重构的方法找到可以最大化重构源文本的n条句子作为摘要。近年来推特摘要的研究大多结合了社交网络静态和动态数据，但仍然是以传统的方法作为基础算法进行研究。现有的推特摘要研究其往往针对某个主题或某个事件下的言论进行摘要，鲜有人研究给定主题的摘要。并且现有的自动文摘方法没有利用到大规模社交网络数据的共性特征。
技术实现思路
针对现有摘要生成方法中没有引入特定主题和社交网络数据的问题，本专利技术基于统计学建立了不同主题的大规模主社交网络数据，进而设计了一种基于主题词库的摘要生成方法。为了实现上述目的本专利技术采用的技术方案是，基于主题相关性的推特摘要生成方法，包括以下步骤：1)将原始数据进行预处理和数据清洗，获得推文集，提

【技术保护点】
1.基于主题相关性的推特摘要生成方法，其特征在于，包括以下步骤：/n1)将原始数据进行预处理和数据清洗，获得推文集，提取推文的网络互动信息；/n2)统计所述推文集中每个词集中出现的名词、动词、形容词词频，然后取词频排名在前1％的词作为候选主题词，过滤掉词频在其他主题中频率大于k的候选主题词作为最终的主题词集；/n3)从上述主题中选出一个与源文本较为贴近的主题作为给定主题，根据主题词集计算推文到这个给定主题的相关性；/n4)根据网络互动信息计算公众认同度；/n5)将公众认同度与主题相关性进行综合，得到最终的推文显著性，表示为：RankScore＝ω·SS

【技术特征摘要】
1.基于主题相关性的推特摘要生成方法，其特征在于，包括以下步骤：
1)将原始数据进行预处理和数据清洗，获得推文集，提取推文的网络互动信息；
2)统计所述推文集中每个词集中出现的名词、动词、形容词词频，然后取词频排名在前1％的词作为候选主题词，过滤掉词频在其他主题中频率大于k的候选主题词作为最终的主题词集；
3)从上述主题中选出一个与源文本较为贴近的主题作为给定主题，根据主题词集计算推文到这个给定主题的相关性；
4)根据网络互动信息计算公众认同度；
5)将公众认同度与主题相关性进行综合，得到最终的推文显著性，表示为：RankScore＝ω·SST+(1-ω)·R，SST为一个句子到主题T的相关性度量，R为公众认同度，ω为超参数；
6)采用最大边际相关性算法进行去冗处理，输出摘要。

2.根据权利要求1所述基于主题相关性的推特摘要生成方法，其特征在于：步骤1)所述预处理包括：先对原始数据进行去稀疏化处理，统计所有推文中的名词词频，筛选出前n个话题型名词，作为热点话题词；然后通过先验主题词进行推文的筛选，若所有语料中的言论涉及所述n个话题或者其自带的话题标签涉及所述n个话题，则将此条言论归到其涉及的话题的类别之中，最终得到n个推文集，每个推文集涉及一个话题。

3.根据权利要求2所述基于主题相关性的推特摘要生成方法，其特征在于：步骤1)所述数据清洗包括，去除Hashtag、@、URL和推文末尾的数字，然后将推文中单词数量少于m的推文去除。

4.根据权利要求1或3所述基于主题相关性的推特摘要生成方法，其特征在于：所述提取推文的网络互动信息包括，通过正则表达式提取推文的点赞、转发和评论数量。

5.根据权利要求1所述基于主题相关性的推特摘要生成方法，其特征在于：所述推文到某个主题的相关性通过以下方法计算：
sim(a,b)＝(a·bT)/(|a|·|b|)

s(w,ti)＝sim(emb[ti],em...

【专利技术属性】
技术研发人员：陈子忠，曹洋洋，夏书银，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人