The invention discloses a method for predicting and sorting a topic description word based on a graph. First, the topic description word prediction problem into a prediction problem of the two plans, subject words and adjectives into two disjoint sets of graphs, the relationship between different sets of vertex edge is the relationship between the keyword and description words. By using the tensor product method of graph, the prediction problem of two graphs is transformed into the propagation of vertex labels. Then by using the decomposition of matrix and eigenvalue matrix method to reduce the rank of matrix, solve the calculation process of the bottleneck, at the same time the need for clustering and filtering of key words and description data, then construct the training set to describe the word prediction, on the theme words then, the forecast results are sorted based ranking method of SVM - rank finally, two hierarchical clustering of the ranking results, clusters all descriptive average score as ranking score for this type of clusters, so as to get the final on the topic description word sequence.
【技术实现步骤摘要】
基于图的主题描述词预测及排序方法
本专利技术涉及一种基于图的主题描述词预测及排序方法。
技术介绍
在知识爆炸的今天,为了更好地结合网上资源和图书资源给用户更好的知识服务体验,提供用户更多关于某个主题的关键信息点以帮助用户更好地理解和挖掘知识内容,提出基于图的主题描述词的预测及排序方法。根据现在已有的主题描述词来预测给定主题词的描述词,通过层次不同的描述词序列来提供系统的知识服务。
技术实现思路
本专利技术的目的在于提供一种基于图的主题描述词预测及排序方法,从而方便用户更系统地了解知识点。本专利技术解决其技术问题采用的技术方案如下:一种基于图的主题描述词预测及排序方法,包括以下步骤:1)主题描述词的预测问题转化:将主题描述词的预测问题转化为一个二部图的预测问题,主题词与描述词可视作该二部图的两个互不相交的子集,属于不同集合的顶点之间边的关系即为主题词和描述词之间的关系,预测主题词和描述词之间的属于关系即预测存在边的可能性得分;2)预测问题映射:对步骤1)中得到的预测问题,利用图的张量积将二部图的预测问题转化为顶点标签的传播问题,通过图的乘积运算,在本专利技术中采用的是张量积的方法,将主题词图和描述词图融合为一个图,图中的每个顶点表示(主题词,描述词),预测问题映射为预测图中不相连顶点之间边的存在问题;3)基于图的转导推理:构造损失函数以及图的正则化方程,得到学习目标,利用给定的主题词和描述词构造的顶点信息进行预测,得到未知的主题词与描述词之间的关系;4)问题优化,解决预测过程中的计算瓶颈:由于预测过程是一个矩阵计算的过程,在主题词和描述词较多的情况下,计算复杂度 ...
【技术保护点】
一种基于图的主题描述词预测及排序方法,其特征在于,包括以下步骤:1)主题描述词的预测问题转化:将主题描述词的预测问题转化为一个二部图的预测问题,主题词与描述词可视作该二部图的两个互不相交的子集,属于不同集合的顶点之间边的关系即为主题词和描述词之间的关系,预测主题词和描述词之间的属于关系即预测存在边的可能性得分;2)预测问题映射:对步骤1)中得到的预测问题,利用图的张量积将二部图的预测问题转化为顶点标签的传播问题,通过图的乘积运算,将主题词图和描述词图融合为一个图,图中的每个顶点表示(主题词,描述词),预测问题映射为预测图中不相连顶点之间边的存在问题;3)基于图的转导推理:构造损失函数以及图的正则化方程,得到学习目标,利用给定的主题词和描述词构造的顶点信息进行预测,得到未知的主题词与描述词之间的关系;4)问题优化,解决预测过程中的计算瓶颈:通过矩阵的奇异值分解以及矩阵的特征值、特征向量,矩阵的秩,降低矩阵运算维度;5)数据过滤:通过描述词的词向量对描述词进行层次聚类,将词向量相似度高于或等于0.85的描述词视作一类描述词,在处理过程中不需要重复预测,同时过滤掉聚类后聚簇中只有一个的描述词 ...
【技术特征摘要】
1.一种基于图的主题描述词预测及排序方法,其特征在于,包括以下步骤:1)主题描述词的预测问题转化:将主题描述词的预测问题转化为一个二部图的预测问题,主题词与描述词可视作该二部图的两个互不相交的子集,属于不同集合的顶点之间边的关系即为主题词和描述词之间的关系,预测主题词和描述词之间的属于关系即预测存在边的可能性得分;2)预测问题映射:对步骤1)中得到的预测问题,利用图的张量积将二部图的预测问题转化为顶点标签的传播问题,通过图的乘积运算,将主题词图和描述词图融合为一个图,图中的每个顶点表示(主题词,描述词),预测问题映射为预测图中不相连顶点之间边的存在问题;3)基于图的转导推理:构造损失函数以及图的正则化方程,得到学习目标,利用给定的主题词和描述词构造的顶点信息进行预测,得到未知的主题词与描述词之间的关系;4)问题优化,解决预测过程中的计算瓶颈:通过矩阵的奇异值分解以及矩阵的特征值、特征向量,矩阵的秩,降低矩阵运算维度;5)数据过滤:通过描述词的词向量对描述词进行层次聚类,将词向量相似度高于或等于0.85的描述词视作一类描述词,在处理过程中不需要重复预测,同时过滤掉聚类后聚簇中只有一个的描述词;6)描述词排序:选取预测结果中可能性最高的20个描述词,对20个描述词进行二次聚类,将词向量相似度高于或等于0.65的描述词视作一类描述词,构造训练集,利用支持向量机的方法对预测得到的每个描述词进行排序,每个类簇中所有描述词排序的平均值作为该类簇的排序,从而得到关于这个主题的描述词序列。2.根据权利要求1所述的一种基于图的主题描述词预测及排序方法,其特征在于,所述步骤1)具体为:将主题描述词的预测问题转化为一个二部图的预测问题,主题词与描述词视作该二部图的两个互不相交的子集,两集合中顶点之间边的关系即为所需预测的主题词和描述词之间的关系,对主题词进行分词并训练得到词向量,利用向量空间的余弦相似度计算得到主题词之间边的权重,描述词与描述词在所有主题词中共同出现的次数作为描述词之间边的权重,主题词与描述词是否共同出现过作为主题词与描述词之间的相关度。预测问题转化为预测未知主题词和描述词之间的边权重关系,权重越大,说明该描述词隶属该主题词的可能性越高。3.根据权利要求1所述的一种基于图的主题描述词预测及排序方法,其特征在于,所述步骤2)预测问题映射,具体为:利用图的张量积将二部图的预测问题转化为顶点标签的传播问题,通过图(矩阵)的乘积运算,将主题词图G和描述词图H融合为一个图A,图中的每个顶点表示(主题词,描述词)的二元关系,预测问题映射为预测图中不相连顶点之间边的问题,若图G和图H通过张量积运算得到图A,则:其中,表示向量的乘法,λ表示矩阵的特征值,μ,υ表示矩阵奇异分解后的奇异向量,i表示G的下标,j表示H的下标。4.根据权利要求1所述一种基于图的主题描述词预测及排序方法,其特征在于,对步骤2)中已经构建好的二部图的转导推理,具体为:通过步骤2)已经得到了由主题词图G和描述词图H通过张量积得到的图A,通过基于图的转导推理即构造损失函数以及图的正则化方程,得到学习目标,利用给定的主题词和描述词构造的顶点信息进行预测,得到未知的主题词与描述词之间的关系矩阵f,构造如下所示的学习目标:其中,l(f)是损失函数,表示f与图A中实际存在的边之间的差值,用来衡量预测结果...
【专利技术属性】
技术研发人员:鲁伟明,刘佳卉,庄越挺,吴飞,魏宝刚,
申请(专利权)人:浙江大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。