本发明专利技术涉及一种基于分布式表达词向量计算的关键词自动提取方法,该方法自动生成特征,更好地解决关键词自动提取,其步骤如下:步骤一,训练原始数据集的获得;步骤二,训练集和测试文本的预处理,包括:去标点、数字、停用词以及词性过滤;步骤三,得到训练集后,通过语言模型的训练将其转化为词向量表;步骤四,通过距离计算的方法,算出关键字词向量到待测试文本的距离;步骤五,由不同距离计算方法,分别得到领域关键词集所有关键词的分布式表达词向量到测试文本所有单词的分布式表达词向量的算术平均语义距离,从而进行选择和排序。该方法为关键词提取提供了新思路,可以充分利用数据集的语义信息,并显著提高了自动提取的准确性。
【技术实现步骤摘要】
本专利技术涉及一种基于分布式表达词向量计算的关键词自动提取的方法,属于文本挖掘(Text Mining)领域。
技术介绍
信息技术的不断发展使得许多领域信息呈现爆炸式增长,大量的文本信息被电子化。诸如数字图书馆,电子论文库,E-book等电子信息资源给人们收集信息、存储信息、利用信息带来了极大的便利,已经成为现代生活必不可少的组成部分。随着电子信息的不断增加,如何从大规模文本信息中快速而准确地获取所需信息成为一个巨大的挑战。关键词提取就是一种解决上述问题的有效手段,是文本挖掘领域研究的核心技术之一,起着十分重要的作用。目前绝大多数文本信息还尚未提供关键词。纵观已经存在的关键词提取算法,对于词组关键字以及文章中尚未出现但是仍可作为文章关键字的词语,还无法很好地找到解决方法。此外,大部分自动抽取关键词算法都需要人工预设特征,这种方法领域相关性强,适用性也较差。大数据时代的研究背景抛给研究者们开拓了一个新方向,即使用Deep Learning思想,自动的生成特征,解决关键词自动提取问题。从对国内外研究现状的分析,目前关键词自动抽取研究技术仍然具有局限性:(1)现有的关键词自动提取算法对一词多义、同义词冗余表达、词库更新的动态性、跨领域的内容复杂性等问题面临较多的。(2)大部分关键词自动提取算法都是基于小规模实验样本或者单篇文档,大规模数据样本应用的关键词提取目前没有很好的解决方案,而且面临关键词信息标注不平衡问题。(3)词组比单个词更具有概括能力,包含的信息更加丰富,对实际应用而言,关键词词组比单个词的抽取更有价值,但目前的研究关键词组的抽取效果并不好。专利技术内容本专利技术的目的在于针对以上问题,尝试使用训练词向量的方式将关键词自动提取工作放在词向量空间中进行,提出了一种基于分布式表达词向量计算的关键词自动提取方法。为达到上述目的,本专利技术的构思是:利用深度学习工具,把每个单词表示为一个分布式表达的词向量。文本内容的处理被转化为空间向量运算,使用向量空间的相似度用来表示文本语义上的相似度。两词向量的距离越小就说明两词的语义更相近,通过文本单词和关键词集的向量计算,选取出最接近文本全部语义信息的词作为关键词。根据上述专利技术构思,本专利技术采用下述技术方案:一种基于分布式表达词向量计算的关键词自动提取方法,其特征在于,该方法的具体操作步骤如下:步骤一,训练原始数据集的获得;领域关键词集的建立,初始训练集的建立,测试样本集的建立;步骤二,训练集和测试文本的预处理,包括:去标点、数字、停用词以及词性过滤;步骤三,得到训练集后,通过语言模型的训练将其转化为词向量表;步骤四,通过距离计算的方法,算出关键字词向量到待测试文本的距离;步骤五,由不同距离计算方法,分别得到领域关键词集所有关键词的分布式表达词向量到测试文本所有单词的分布式表达词向量的算术平均语义距离,从而进行选择和排序。优选地,所述的步骤一的训练原始数据集的获得的具体操作为:步骤十一,建立领域关键词集,对于相同领域的数据,检查每条数据中的关键词字段,提取出所有出现过的关键词;并对关键词集做一定的处理:对于词组关键词,由于语言模型训练过程中每个词向量是以空格自动分割,因此将词组中每个单词间的空格用‘-’表示;将一个词组看作一个整体,而关键单词则不做处理,得到关键词集对关键词集进行统计,将关键词组占全部关键词的比例记作实验统计分析,本专利技术取值为0.7;将作为指导因子,用于测试文本提取关键词的过程中,提取的关键词组占整个提取关键词集的比例为步骤十二,建立初始训练集,对于相同领域每条数据,提取此数据的摘要和关键词字段;使用三层循环:循环一扫描摘要中每个单词;循环二扫描论文关键词出现的词组;最内层循环中,有两种情况:一、若某个关键词组出现在摘要中,将中间空格用”-”代替,二、关键词组当中每个单词单独出现在摘要中时,此单词自动扩展为对应的关键词组,同样去掉中间的空格,用”-”代替;最后将本条数据处理后的摘要加上本纪录所有的关键词,加入初始训练集,一直到所有论文纪录处理结束;步骤十三,建立测试样本集,在每个领域数据集中抽取一定数量的数据作为测试样本集;对于每条数据,提取此数据的摘要和关键词字段;论文摘要字段作为测试文本,而关键词字段作为手工标注的关键词,用于对比和检测本专利技术的关键字自动提取方法提取的关键词的性能。优选地,所述的步骤二的训练集和测试文本的预处理的具体操作是首先进行词法分析,识别出文本中的数字、标点符号、特殊符号以及词语,只识别空格作为词的分隔符,将其余符号全部过滤是不可取的,单独存在的数字也需要过滤。优选地,所述的步骤三的词向量训练的具体操作是得到训练集后,通过语言模型的训练将其转化为词向量表;分布式表达的词向量的获得通常情况下伴随着语言模型的训练,借助于语言模型的概率参数,可以估算出训练样本中任意句子是否为有序的自然语言;训练语言模型的过程就是从大量未标注的普通文本数据中无监督地调整和优化模型参数,同时学习出词向量;通过语言模型的训练,文本内容被转化为维数向量空间的词向量集,其中包含了单词本身及其对应的一定维数的浮点数向量;每个词向量用换行符表示结束,此词向量集将作为输入用于接下来的对于测试文本的关键词提取。优选地,所述的步骤四的距离计算的具体操作为根据分布式表达词向量的空间特性、线性平移性以及文本自身的统计信息,使用了四种距离计算方法,分别为欧式距离、余弦距离、线性平移距离以及TF-IDF线性平移距离。优选地,所述的步骤五的选择和排序的具体操作为由不同距离计算方法,分别得到领域关键词集所有关键词的分布式表达词向量到测试文本所有单词的分布式表达词向量的算术平均语义距离;选取语义距离最近的T个关键词作为本文关键词,T为测试文本预处理后文本中不重复词语个数的1/4;其中,根据数据集获取过程得到的关键词组比例值T个关键词的分配比例为:个词组关键词以及个关键单词,作为最终提取的关键词。本专利技术的DRKE关键词自动提取方法,与现有技术相比,具有以下突出的实质性特点和显著优点:一、本专利技术的DRKE关键词自动提取方法提取词组关键词的准确率,召回率和F-measure都明显优于基于TF-IDF的关键词自动提取,TextRank和RAKE算法。虽对于关键单词,算法的提取性能较低,但在实际应用中词组关键词出现的频次较高,因此整体的关键词提取性能还是比其余三种方法有较为明显的提升。二、本专利技术的DRKE关键词自动提取方法可以充分利用数据集的语义信息,解决关键词组提取困难的问题,对关键词组的提取准确率与实用性和其他方法对比较优。三、本专利技术的DRKE关键词自动提取方法不需要人工抽取词的特征,通过语言模型对词语特征进行表达学习,并可以利用不断增长的数据提升模型的准确性。附图说明图1是本专利技术的DRKE关键词自动提取的整体流程图;具体实施方式以下结合附图对本专利技术的优选实施例进一步详细说明。本实施例的数据集是四个从IEEE数字图书馆获取的计算机专业不同领域的英语论文。下表列出了每个数据集的论文篇数,关键词个数以及训练后词向量单词表的单词个数。在每个数据集中抽取出50个数据作为测试样本集,其余为初始训练集,如表1所示。表1其中,Data Mining,Information Extractio本文档来自技高网...
【技术保护点】
一种基于分布式表达词向量计算的关键词自动提取方法,其特征在于,该方法的具体操作步骤如下:步骤一,训练原始数据集的获得;领域关键词集的建立,初始训练集的建立,测试样本集的建立;步骤二,训练集和测试文本的预处理,包括:去标点、数字、停用词以及词性过滤;步骤三,得到训练集后,通过语言模型的训练将其转化为词向量表;步骤四,通过距离计算的方法,算出关键字词向量到待测试文本的距离;步骤五,由不同距离计算方法,分别得到领域关键词集所有关键词的分布式表达词向量到测试文本所有单词的分布式表达词向量的算术平均语义距离,从而进行选择和排序。
【技术特征摘要】
1.一种基于分布式表达词向量计算的关键词自动提取方法,其特征在于,该方法的具体操作步骤如下:步骤一,训练原始数据集的获得;领域关键词集的建立,初始训练集的建立,测试样本集的建立;步骤二,训练集和测试文本的预处理,包括:去标点、数字、停用词以及词性过滤;步骤三,得到训练集后,通过语言模型的训练将其转化为词向量表;步骤四,通过距离计算的方法,算出关键字词向量到待测试文本的距离;步骤五,由不同距离计算方法,分别得到领域关键词集所有关键词的分布式表达词向量到测试文本所有单词的分布式表达词向量的算术平均语义距离,从而进行选择和排序。2.根据权利要求1所述的基于分布式表达词向量计算的关键词自动提取方法,其特征在于,所述的步骤一的训练原始数据集的获得的具体操作为:步骤十一,建立领域关键词集,对于相同领域的数据,检查每条数据中的关键词字段,提取出所有出现过的关键词;并对关键词集做一定的处理:对于词组关键词,由于语言模型训练过程中每个词向量是以空格自动分割,因此将词组中每个单词间的空格用‘-’表示;将一个词组看作一个整体,而关键单词则不做处理,得到关键词集 ;对关键词集进行统计,将关键词组占全部关键词的比例记作,实验统计分析,本发明取值为0.7;将作为指导因子,用于测试文本提取关键词的过程中,提取的关键词组占整个提取关键词集的比例为;步骤十二,建立初始训练集,对于相同领域每条数据,提取此数据的摘要和关键词字段;使用三层循环:循环一扫描摘要中每个单词;循环二扫描论文关键词出现的词组;最内层循环中,有两种情况:一、若某个关键词组出现在摘要中,将中间空格用”-”代替,二、关键词组当中每个单词单独出现在摘要中时,此单词自动扩展为对应的关键词组,同样去掉中间的空格,用”-”代替;最后将本条数据处理后的摘要加上本纪录所有的关键词,加入初始训练集,一直到所有论文纪录处理结束;步骤十三,建立测试样本集,在每个领域数据集中抽取一定数量的数据作为测试样本集;对于每条数据,提取此数据的摘要和关键词字段;论文摘要字段作为测试文...
【专利技术属性】
技术研发人员:朱文浩,刘懿霆,陈洁,郭心怡,丁庆功,缪慧,
申请(专利权)人:上海大学,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。