当前位置: 首页 > 专利查询>浙江大学专利>正文

基于图的主题描述词预测及排序方法技术

技术编号:15391628 阅读:73 留言:0更新日期:2017-05-19 04:51
本发明专利技术公开了一种基于图的主题描述词预测及排序方法。首先,将主题描述词的预测问题转化为一个二部图的预测问题,主题词与描述词为图的两个互不相交的子集,不同集合的顶点之间边的关系即为主题词和描述词之间的关系。再利用图的张量积方法将二部图的预测问题转化为顶点标签的传播问题。然后利用矩阵的分解、特征值矩阵等方法降低矩阵的秩,解决预测过程中的计算瓶颈,同时需要对主题词及描述词数据进行聚类及过滤,再构造训练集对主题词进行描述词预测,接着,利用SVM‐rank的排序方法对预测结果进行排序,最后对排序结果进行二次层次聚类,类簇中所有描述词的平均得分作为该类簇的排序得分,从而得到最后的关于这个主题的描述词序列。

Method for predicting and sorting topic descriptors based on graph

The invention discloses a method for predicting and sorting a topic description word based on a graph. First, the topic description word prediction problem into a prediction problem of the two plans, subject words and adjectives into two disjoint sets of graphs, the relationship between different sets of vertex edge is the relationship between the keyword and description words. By using the tensor product method of graph, the prediction problem of two graphs is transformed into the propagation of vertex labels. Then by using the decomposition of matrix and eigenvalue matrix method to reduce the rank of matrix, solve the calculation process of the bottleneck, at the same time the need for clustering and filtering of key words and description data, then construct the training set to describe the word prediction, on the theme words then, the forecast results are sorted based ranking method of SVM - rank finally, two hierarchical clustering of the ranking results, clusters all descriptive average score as ranking score for this type of clusters, so as to get the final on the topic description word sequence.

【技术实现步骤摘要】
基于图的主题描述词预测及排序方法
本专利技术涉及一种基于图的主题描述词预测及排序方法。
技术介绍
在知识爆炸的今天,为了更好地结合网上资源和图书资源给用户更好的知识服务体验,提供用户更多关于某个主题的关键信息点以帮助用户更好地理解和挖掘知识内容,提出基于图的主题描述词的预测及排序方法。根据现在已有的主题描述词来预测给定主题词的描述词,通过层次不同的描述词序列来提供系统的知识服务。
技术实现思路
本专利技术的目的在于提供一种基于图的主题描述词预测及排序方法,从而方便用户更系统地了解知识点。本专利技术解决其技术问题采用的技术方案如下:一种基于图的主题描述词预测及排序方法,包括以下步骤:1)主题描述词的预测问题转化:将主题描述词的预测问题转化为一个二部图的预测问题,主题词与描述词可视作该二部图的两个互不相交的子集,属于不同集合的顶点之间边的关系即为主题词和描述词之间的关系,预测主题词和描述词之间的属于关系即预测存在边的可能性得分;2)预测问题映射:对步骤1)中得到的预测问题,利用图的张量积将二部图的预测问题转化为顶点标签的传播问题,通过图的乘积运算,在本专利技术中采用的是张量积的方法,将主题词图和描述词图融合为一个图,图中的每个顶点表示(主题词,描述词),预测问题映射为预测图中不相连顶点之间边的存在问题;3)基于图的转导推理:构造损失函数以及图的正则化方程,得到学习目标,利用给定的主题词和描述词构造的顶点信息进行预测,得到未知的主题词与描述词之间的关系;4)问题优化,解决预测过程中的计算瓶颈:由于预测过程是一个矩阵计算的过程,在主题词和描述词较多的情况下,计算复杂度急剧增加,为了提高预测效率,需要对预测过程中的计算进行优化,通过矩阵的奇异值分解以及矩阵的特征值、特征向量,矩阵的秩,降低矩阵运算维度;5)数据过滤:由于在预测过程中,出现很多冗余的信息,需要对主题词数据和描述词数据进行过滤,通过描述词的词向量对描述词进行层次聚类,将词向量相似度高于或等于0.85的描述词视作一类描述词,在处理过程中不需要重复预测,同时过滤掉聚类后聚簇中只有一个的描述词;6)描述词排序:选取预测结果中可能性最高的20个描述词,对20个描述词进行二次聚类,将词向量相似度高于或等于0.65的描述词视作一类描述词,构造训练集,利用支持向量机的方法对预测得到的每个描述词进行排序,每个类簇中所有描述词排序的平均值作为该类簇的排序,从而得到关于这个主题的描述词序列。进一步地,步骤1)中所述的将主题描述词的预测问题转化为一个二部图预测问题,具体为:主题词与描述词视作该二部图的两个互不相交的子集,两集合中顶点之间边的关系即为所需预测的主题词和描述词之间的关系,对主题词进行分词并训练得到词向量,利用向量空间的余弦相似度计算得到主题词之间边的权重,描述词与描述词在所有主题词中共同出现的次数作为描述词之间边的权重,主题词与描述词是否共同出现过作为主题词与描述词之间的相关度。预测问题转化为预测未知主题词和描述词之间的边权重关系,权重越大,说明该描述词隶属该主题词的可能性越高。进一步地,所述步骤2)中的预测问题映射,具体为:利用图的张量积将二部图的预测问题转化为顶点标签的传播问题,通过图(矩阵)的乘积运算,在本专利技术中采用的是张量积的方法,将主题词图G和描述词图H融合为一个图A,图中的每个顶点表示(主题词,描述词)的二元关系,预测问题映射为预测图中不相连顶点之间边的问题,若图G和图H通过张量积运算得到图A,则:其中,表示向量的乘法,λ表示矩阵的特征值,μ,υ表示矩阵奇异分解后的奇异向量,i表示G的下标,j表示H的下标;即,若顶点(i,j)~(i’,j’),则在图G中,i~i’且在图H中,j~j’,其中符号~表示顶点之间存在边;进一步地,所述步骤3)中的图的转导推理过程包括以下内容:通过步骤2)已经得到了由主题词图G和描述词图H通过张量积得到的图A,通过基于图的转导推理即构造损失函数以及图的正则化方程,得到学习目标,利用给定的主题词和描述词构造的顶点信息进行预测,得到未知的主题词与描述词之间的关系矩阵f,根据问题,我们构造如下所示的学习目标:其中,l(f)是损失函数,表示f与图A中实际存在的边之间的差值,用来衡量预测结果的好坏,λfTA-1f为学习函数的正则化项,用来衡量图的平滑度;假设f遵从近似高斯分布,即f~N(0,A),那么学习目标得到增强,可以转化为:以此可以合并归一化多种图的转导模式,如下所示:k-step随机行走模式:κ(A)=Ak,正则化的拉普拉斯算子:κ(A)=I+A+A2+A3+…,、指数法:进一步地,所述步骤4)中对预测过程计算的优化,具体为:由步骤3)中的学习目标,可得其中G为一个m*m的矩阵,H为一个n*n的矩阵,由此可以得到κ(A)是一个mn*mn的矩阵,需要消耗O(m2n2)的时间和空间,难以在内存加载并且做矩阵的计算,因为需要做计算的简化。为了简化说明,令令Fij=score(i,j),即预测得到的顶点i和顶点j之间的边的概率值,则f=vec(F),则F通过矩阵分解,可以得到秩更小的两个矩阵,与rank(F)·rank(Σ)成正比,其中Σ表示F的特征值矩阵,矩阵的每一个元素而在tensor张量积的转导模型中,可得到以下推导过程:rank(Σ)=1,而通过以上步骤,预测过程计算得到优化。进一步地,所述步骤5)中对预测过程中的主题词和描述词的数据过滤,具体为:由于在预测过程中,出现很多冗余的信息,需要对主题词数据和描述词数据进行过滤,有很多类似的描述词可能对预测过程造成影响,如:主要分类,种类,分类等。首先,需要获取每个描述词的400维的词向量,用词向量作为描述词的特征值进行计算,用向量空间的余弦相似度来代表两个词向量之间的相似度,通过计算向量空间中两个向量之间的余弦值作为衡量两个描述词之间差异的标准。公式如下所示:通过描述词的词向量对描述词进行聚类,将词向量相似度高于或等于0.85的描述词视作一类描述词,过滤后,选择一个描述词作为该类簇的描述词代表,对所有的描述词进行过滤,用该类簇的描述词代表替换所有该类簇中的其他描述词,在处理过程中不需要重复预测,同时过滤掉聚类后聚簇中只有一个的描述词。通过数据的过滤,不仅过滤了冗余的描述词信息,而且简化了运算空间和存储空间。进一步地,所述步骤6)预测得到的描述词进行排序,包括以下子步骤:6.1)构造实验训练集:实验预测主要针对工程科教图书相关,为了使训练集覆盖范围更广,所以选取了工业、航空、化学、环境、机械、疾病、交通、农业、生物、天文共10个类的序列描述词构造训练集train.dat,训练得到描述词的400维词向量,向量中的每一列数组都是特征,用来提取描述词的原始特征,训练多个及分类器6.2)通过训练集得到模型文件。在训练集train.dat上训练一个排序的SVM,用正则化参数c,设置为20.0,训练学习到规则输出到model文件中。6.3)将预测得到的得分最高的20个描述词进行二次聚类,聚类的阈值为0.65,聚类方法同步骤5)。6.4)根据基于图方法得到预测的描述词,根据预测的分数,选择分数最高的20个描述词作为候选序列,对候选序列进行排序。类簇中所有描述词的平均得分作为该类簇的排序得分,从而得到本文档来自技高网...
基于图的主题描述词预测及排序方法

【技术保护点】
一种基于图的主题描述词预测及排序方法,其特征在于,包括以下步骤:1)主题描述词的预测问题转化:将主题描述词的预测问题转化为一个二部图的预测问题,主题词与描述词可视作该二部图的两个互不相交的子集,属于不同集合的顶点之间边的关系即为主题词和描述词之间的关系,预测主题词和描述词之间的属于关系即预测存在边的可能性得分;2)预测问题映射:对步骤1)中得到的预测问题,利用图的张量积将二部图的预测问题转化为顶点标签的传播问题,通过图的乘积运算,将主题词图和描述词图融合为一个图,图中的每个顶点表示(主题词,描述词),预测问题映射为预测图中不相连顶点之间边的存在问题;3)基于图的转导推理:构造损失函数以及图的正则化方程,得到学习目标,利用给定的主题词和描述词构造的顶点信息进行预测,得到未知的主题词与描述词之间的关系;4)问题优化,解决预测过程中的计算瓶颈:通过矩阵的奇异值分解以及矩阵的特征值、特征向量,矩阵的秩,降低矩阵运算维度;5)数据过滤:通过描述词的词向量对描述词进行层次聚类,将词向量相似度高于或等于0.85的描述词视作一类描述词,在处理过程中不需要重复预测,同时过滤掉聚类后聚簇中只有一个的描述词;6)描述词排序:选取预测结果中可能性最高的20个描述词,对20个描述词进行二次聚类,将词向量相似度高于或等于0.65的描述词视作一类描述词,构造训练集,利用支持向量机的方法对预测得到的每个描述词进行排序,每个类簇中所有描述词排序的平均值作为该类簇的排序,从而得到关于这个主题的描述词序列。...

【技术特征摘要】
1.一种基于图的主题描述词预测及排序方法,其特征在于,包括以下步骤:1)主题描述词的预测问题转化:将主题描述词的预测问题转化为一个二部图的预测问题,主题词与描述词可视作该二部图的两个互不相交的子集,属于不同集合的顶点之间边的关系即为主题词和描述词之间的关系,预测主题词和描述词之间的属于关系即预测存在边的可能性得分;2)预测问题映射:对步骤1)中得到的预测问题,利用图的张量积将二部图的预测问题转化为顶点标签的传播问题,通过图的乘积运算,将主题词图和描述词图融合为一个图,图中的每个顶点表示(主题词,描述词),预测问题映射为预测图中不相连顶点之间边的存在问题;3)基于图的转导推理:构造损失函数以及图的正则化方程,得到学习目标,利用给定的主题词和描述词构造的顶点信息进行预测,得到未知的主题词与描述词之间的关系;4)问题优化,解决预测过程中的计算瓶颈:通过矩阵的奇异值分解以及矩阵的特征值、特征向量,矩阵的秩,降低矩阵运算维度;5)数据过滤:通过描述词的词向量对描述词进行层次聚类,将词向量相似度高于或等于0.85的描述词视作一类描述词,在处理过程中不需要重复预测,同时过滤掉聚类后聚簇中只有一个的描述词;6)描述词排序:选取预测结果中可能性最高的20个描述词,对20个描述词进行二次聚类,将词向量相似度高于或等于0.65的描述词视作一类描述词,构造训练集,利用支持向量机的方法对预测得到的每个描述词进行排序,每个类簇中所有描述词排序的平均值作为该类簇的排序,从而得到关于这个主题的描述词序列。2.根据权利要求1所述的一种基于图的主题描述词预测及排序方法,其特征在于,所述步骤1)具体为:将主题描述词的预测问题转化为一个二部图的预测问题,主题词与描述词视作该二部图的两个互不相交的子集,两集合中顶点之间边的关系即为所需预测的主题词和描述词之间的关系,对主题词进行分词并训练得到词向量,利用向量空间的余弦相似度计算得到主题词之间边的权重,描述词与描述词在所有主题词中共同出现的次数作为描述词之间边的权重,主题词与描述词是否共同出现过作为主题词与描述词之间的相关度。预测问题转化为预测未知主题词和描述词之间的边权重关系,权重越大,说明该描述词隶属该主题词的可能性越高。3.根据权利要求1所述的一种基于图的主题描述词预测及排序方法,其特征在于,所述步骤2)预测问题映射,具体为:利用图的张量积将二部图的预测问题转化为顶点标签的传播问题,通过图(矩阵)的乘积运算,将主题词图G和描述词图H融合为一个图A,图中的每个顶点表示(主题词,描述词)的二元关系,预测问题映射为预测图中不相连顶点之间边的问题,若图G和图H通过张量积运算得到图A,则:其中,表示向量的乘法,λ表示矩阵的特征值,μ,υ表示矩阵奇异分解后的奇异向量,i表示G的下标,j表示H的下标。4.根据权利要求1所述一种基于图的主题描述词预测及排序方法,其特征在于,对步骤2)中已经构建好的二部图的转导推理,具体为:通过步骤2)已经得到了由主题词图G和描述词图H通过张量积得到的图A,通过基于图的转导推理即构造损失函数以及图的正则化方程,得到学习目标,利用给定的主题词和描述词构造的顶点信息进行预测,得到未知的主题词与描述词之间的关系矩阵f,构造如下所示的学习目标:其中,l(f)是损失函数,表示f与图A中实际存在的边之间的差值,用来衡量预测结果...

【专利技术属性】
技术研发人员:鲁伟明刘佳卉庄越挺吴飞魏宝刚
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1