一种基于多级特征的问题和答案句子相似度计算方法技术

技术编号：15910806 阅读：184 留言：0更新日期：2017-08-01 22:30

本发明专利技术公开了一种基于多级特征的问题和答案句子相似度计算方法，主要应用于自动问答系统中。该方法共包括五种特征函数，每种特征函数分别用来衡量两个句子之间不同角度的相似度。其中，单词级别的特征计算两个句子在单词方面的相似度。短语级别的特征能够衡量习语和常用词组方面的相似度。句子语义特征能够衡量两个句子在含义方面的相似度。句子结构特征能够衡量两个句子在语法和句法方面的相似度。答案类型特征能够衡量答案句子中是否包含问题所需答案类型。最后，通过线性函数将这五种特征函数进行加权求和，形成基于多级特征的问题和答案句子相似度算法。该方法能够全方面衡量问题句子和答案句子之间的相似度。

A method for computing similarity of questions and answers based on multi-level features

The invention discloses a method for calculating question and answer sentence similarity based on multi-level features, which is mainly used in automatic question answering system. The method consists of five kinds of feature functions, each of which is used to measure the similarity between two sentences at different angles. Among them, the word level features calculate the similarity of the two sentences in terms of words. Phrase level features measure similarity between idioms and commonly used phrases. Sentence semantic features can measure the similarity of two sentences in meaning. Sentence structure features can measure the grammatical and syntactic similarities between the two sentences. Answer type features measure the answer. Does the sentence contain the type of answer required for the question?. Finally, the five feature functions are weighted and summed by linear function, and then the problem and answer sentence similarity algorithm based on multi-level feature is formed. This method can measure the similarity between questions, sentences, answers and sentences in a whole way.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多级特征的问题和答案句子相似度计算方法
本专利技术涉及自动问答
，具体涉及一种计算问题句子和答案句子相似度的方法。
技术介绍
自动问答系统是一种输入自然语言问句后能够直接返回精确答案的系统。根据自动问答系统背后的数据源的类型可以将其分为两类，分别是基于知识图谱的自动问答系统和基于非结构化文档的自动问答系统。基于非结构化文档的自动问答系统的数据源是大量非结构化的文本文档，其检索答案的过程主要包括以下几个步骤：(1)根据关键词匹配算法，检索出与问题相关的段落。(2)将第一步检索出的段落切分成句子，形成答案句子候选集。(3)计算问题和候选答案句子相似度并排序。(4)选择最相似度最高的答案句子进行答案抽取，返回给用户。其中的第三步，计算问题和答案句子相似度是非常重要的一步。传统的计算句子相似度的算法主要包括三种：(1)基于词的算法。该方法不对语句进行语法结构分析，只利用句子的表层信息，即组成句子的词的词频、词性等信息。该方法不能考虑句子的整体结构和语义相似性。(2)基于句法的算法。该方法对语句进行句法分析，找出依存关系，并在依存关系分析结果的基础上进行相似度计算。该方法能衡量句子的句法结构相似性，但是不能衡量句子的语义相似性。(3)基于深度神经网络的算法。该方法将语句中每个词的词向量输入到卷积神经网络或循环神经网络中，输出为一个句子的向量表达。该方法能够衡量句子的语义相似性，但是词和句法的相似性并不能得到充分表达。传统的计算句子相似度的方法各有优缺点，都不能全面的衡量两个句子之间的相似性。
技术实现思路
为了克服传统的计算句子相似度算法的不足，本专利技术...
一种基于多级特征的问题和答案句子相似度计算方法

【技术保护点】
一种基于多级特征的问题和答案句子相似度计算方法，其特征在于，包括以下步骤：(1)使用五种不同级别的特征来衡量两个句子之间的相似度，每种特征都对应一个相似度得分；所述的五种不同级别特征包括：单词特征、短语特征、句子语义特征、句子结构特征、答案类型特征；(2)将每种特征的相似度得分进行加权求和得到总体的相似度得分；采用如下线性函数公式实现：

【技术特征摘要】
1.一种基于多级特征的问题和答案句子相似度计算方法，其特征在于，包括以下步骤：(1)使用五种不同级别的特征来衡量两个句子之间的相似度，每种特征都对应一个相似度得分；所述的五种不同级别特征包括：单词特征、短语特征、句子语义特征、句子结构特征、答案类型特征；(2)将每种特征的相似度得分进行加权求和得到总体的相似度得分；采用如下线性函数公式实现：其中，Q,S分别是问题和答案句子，R(Q,S)是一个线性函数，是多个相似度得分函数的集成；hk(S,Q)代表第k个特征相似度得分函数，每个相似度得分函数的权重λk是通过在训练集上训练得到的。2.根据权利要求1所述的方法，其特征在于，所述的单词级别特征包括：共同单词数特征、单词翻译特征、词向量平均特征和词向量转移特征。3.根据权利要求2所述的方法，其特征在于，所述的单词翻译特征是使用GIZA++对平行语料库训练后得到的单词翻译成另外一个单词的概率。4.根据权利要求2所述方法，其特征在于，所述的词向量转移特征是使用计算文档相似度的WordMove’sDistance(WMD)算法来计算两个句子之间的相似度。5.根据权利要求1所述的方法，其特征在于，所述的短语级别特征包括以下步骤：(1)假设PP＝{<si,ti,p(ti|si),p(si,ti)>}是一个短语表，其中si是答案句子中的一个短语，ti是问题句子中的一个短语，p(ti|si)和p(si,ti)分别代表从si翻译成ti和从ti翻译成si的概率；(2)定义基于短语的相似性得分函数如下：其中，Q,S分别是问题和答案句子，定义了连续的S中从Sj到的连续的单词或者短语序列，N定义的是最大的N元语法(N-gram)值；(...

【专利技术属性】
技术研发人员：王东辉，徐灿，庄越挺，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人