一种基于文本摘要的非事实类问答答案选择方法及系统技术方案

技术编号:19215727 阅读:35 留言:0更新日期:2018-10-20 06:43
本发明专利技术公开了一种基于文本摘要的非事实类问答答案选择方法及系统,属于智能检索技术领域,包括抽取所述待选择答案文本的首句和尾句;利用文本摘要模型TextRank对待选择答案文本除首句和尾句之外剩余的文本进行摘要抽取,得到初步文本摘要;将首句、初步文本摘要以及尾句依次组合,得到待选择的答案文本摘要;将问句和待选择的答案文本摘要作为神经网络语义表示模型的输入,得到问句和待选择的答案文本摘要的语义相关程度;将与问句语义相关程度最高的答案文本摘要作为答案返回。本发明专利技术在进行答案摘要抽取时,提取答案文本的首句和尾句作为摘要的组成部分,保证了提取到的文本摘要的主题完整性,从而提高了答案选择的准确率。

【技术实现步骤摘要】
一种基于文本摘要的非事实类问答答案选择方法及系统
本专利技术涉及智能检索
,特别涉及一种基于文本摘要的非事实类问答答案选择方法及系统。
技术介绍
目前,问答系统已成为自然语言处理领域一项重要的研究课题,被用于信息获取的多个领域,比如信息检索、专家系统、自动问答以及人机自然语言交互等。问答系统与信息检索相比不同之处在于其不需要用户自己寻找答案,而是直接返回答案。根据问答系统不同的数据来源,分为三类问答系统:基于结构化数据的问答系统、基于自由文本的问答系统和基于问题答案对的问答系统。其中,基于问题答案对的问答系统的工作流程是用户提出问题后通过语意特征分析将与语义最匹配的答案返回,其数据主要来自网络社区问答。早期对答案选择方法的研究一般基于传统语义特征提取,人工选取文本特征,然后利用高性能分类器进行训练,利用人工定义特征来进行语义表示的方法可解释性比较强,其特征的选取覆盖了整个数据集。选取的特征主要是从答案文本内容上体现出来的语句质量和问题答案与答案内容上的相关性。人工选取的特征一般包括单词的N元语言模型、句法结构和语法依存关系等。早期的研究者在进行答案选择方法的研究时,最常用的方法就是借助已有的自然语言处理工具对所要处理的文本进行分词、词性标注或句法分析后,训练基于人工定义特征的答案选择模型。然而,非事实类问答中的答案文本形式具有多边性,且存在噪声信息,利用一般的语言规则难以匹配到正确答案。故,针对非事实类问答系统的答案选择任务,目前的主流方法是基于标准文本利用有监督的机器学习方法对文本的语义信息进行挖掘,比如:利用SVM模型来对单词级别的匹配特征进行训练,如关键词匹配特征、短语级别的非语义类特征,还有一些基于命名实体的特征等。还有的研究者通过自然语言处理工具来对文本的特征进行提取,从而开发了一系列与答案质量有关的词法特征包括是否包含标点、超链接、特殊词的数量、词性和命名实体特征和N元语言模型的频率等。采用句法树可以更好地捕捉到句子的局部结构化信息,基于句法树的答案选方法可以有效减少特征选择的工作量。利用句法和语义特征相结合的办法来进行答案选择,句法方面通过计算问题和答案的依存句法树之间的树编辑距离,而语义方面使用诸如实体类型、同义词等浅层语义特征。其中,树编辑距离是计算从两棵树转换过程中所需要的操作(插入、删除和替换)的总耗散值,其计算过程与字符串的编辑距离类似,使用条件随机场(ConditionalRandomFields,CRF)对问答中的序列进行标注,实用的特征包括树编辑距离和字符串编辑距离等。这是首次将社区问答的答案选择问题转换为了序列标注问题。除了句法树,还有一些研究者从语言模型和词向量的角度比较问题和答案文本的相关性,例如使用基于翻译的模型来比较问题与答案的相关程度,把问题和候选答案看做两种不同的语言。基于传统语义特征提取的答案选择方法往往有很好的可解释性,通过人工选取的特征都可以找到其依据,容易使人理解。但是在利用此方法进行答案选择时,也会存在一些缺陷:一是,其依赖于一些与自然语言领域基础研究相关的工具包,这就使得所选取特征的效果依赖于基础研究的效果。特征提取的思想可能很有依据,但面对结构复杂的文本,无法取得想要的结果。二是,答案选择模型中提取的特征最终取决于人的选择,模型没有自学能力,导致了模型应用的局限性。
技术实现思路
本专利技术的目的在于提供一种基于文本摘要的非事实类问答答案选择方法及系统,以提高问答系统答案选择的准确率。为实现以上目的,本专利技术采用一种基于文本摘要的非事实类问答答案选择方法,包括如下步骤:抽取所述待选择答案文本的首句和尾句;利用文本摘要模型TextRank对所述待选择答案文本除首句和尾句之外剩余的文本进行摘要抽取,得到初步文本摘要;将所述首句、所述初步文本摘要以及所述尾句依次组合,得到待选择的答案文本摘要;将问句和所述待选择的答案文本摘要作为神经网络语义表示模型的输入,得到问句和所述待选择的答案文本摘要的语义相关程度;将与问句语义相关程度最高的答案文本摘要作为答案返回。优选地,所述抽取所述待选择答案文本的首句和尾句,包括:根据所述待选择答案文本中首句和尾句的位置,将所述待选择答案文本的首句和尾句抽取出来。优选地,所述利用文本摘要模型TextRank对所述待选择答案文本除首句和尾句之外剩余的文本进行摘要提取,得到初步文本摘要,包括:将所述待选择答案文本分割成句子,并对每个句子进行分词;对每个词的词性进行标注,并对标注后词的信息进行过滤,得到特定词的词项;将所述特定次的词项或句子作为文本单元,将文本单元构成节点,文本单元间的相似度构成节点之间的边,得到权重图模型;计算任两个节点的相似度,并将相似度值作为节点权重计算公式的计算参数;对所述节点权重计算公式进行迭代直至收敛,得到各节点的得分结果;根据收敛时各节点之间的得分,对各节点进行排序,得到排序后的各节点;按照设定的抽取比率,在排序后的各节点中抽取文本单元组成初步文本摘要。优选地,所述任两个节点的相似度的计算方法包括:词汇重叠法、字符串法、余弦相似度法以及最大共同子序列法。另一方面,采用一种基于文本摘要的非事实类问答答案选择系统,包括依次连接的第一抽取模块、第二抽取模块、组合模块、匹配模块以及确定模块;第一抽取模块,用于抽取所述待选择答案文本的首句和尾句;第二抽取模块,用于利用文本摘要模型TextRank对所述待选择答案文本除首句和尾句之外剩余的文本进行摘要抽取,得到初步文本摘要;组合模块,用于将所述首句、所述初步文本摘要以及所述尾句依次组合,得到待选择的答案文本摘要;匹配模块,用于将问句和所述待选择的答案文本摘要作为神经网络语义表示模型的输入,得到问句和所述待选择的答案文本摘要的语义相关程度;确定模块,用于将与问句语义相关程度最高的答案文本摘要作为答案返回。优选地,所述第一抽取模块具体用于:根据所述待选择答案文本中首句和尾句的位置,将所述待选择答案文本的首句和尾句抽取出来。优选地,所述第二抽取模块包括依次连接的分割单元、过滤单元、权重图模型构建单元、相似度计算单元、迭代单元、排序单元以及组成单元;分割单元,用于将所述待选择答案文本分割成句子,并对每个句子进行分词;过滤单元,用于对每个词的词性进行标注,并对标注后词的信息进行过滤,得到特定词的词项;权重图模型构建单元,用于将所述特定次的词项或句子作为文本单元,将文本单元构成节点,文本单元间的相似度构成节点之间的边,得到权重图模型;相似度计算单元,用于计算任两个节点的相似度,并将相似度值作为节点权重计算公式的计算参数;迭代单元,用于对所述节点权重计算公式进行迭代直至收敛,得到各节点的得分结果;排序单元,用于根据收敛时各节点之间的得分,对各节点进行排序,得到排序后的各节点;组合单元,用于按照设定的抽取比率,在排序后的各节点中抽取文本单元组成初步文本摘要。优选地,所述相似度计算模块采用的相似度计算方法包括:词汇重叠法、字符串法、余弦相似度法以及最大共同子序列法。与现有技术相比,本专利技术存在以下技术效果:在实际应用中,考虑到在非事实类问答系统的问答对中,答案文本的长度比问句要长的多,如果采用单一的文本摘要抽取方法,仅考虑文本的全局信息,缺少文本单元的本身特征信息比如句子的位本文档来自技高网
...

【技术保护点】
1.一种基于文本摘要的非事实类问答答案选择方法,其特征在于,包括:抽取所述待选择答案文本的首句和尾句;利用文本摘要模型TextRank对所述待选择答案文本除首句和尾句之外剩余的文本进行摘要抽取,得到初步文本摘要;将所述首句、所述初步文本摘要以及所述尾句依次组合,得到待选择的答案文本摘要;将问句和所述待选择的答案文本摘要作为神经网络语义表示模型的输入,得到问句和所述待选择的答案文本摘要的语义相关程度;将与问句语义相关程度最高的答案文本摘要作为答案返回。

【技术特征摘要】
1.一种基于文本摘要的非事实类问答答案选择方法,其特征在于,包括:抽取所述待选择答案文本的首句和尾句;利用文本摘要模型TextRank对所述待选择答案文本除首句和尾句之外剩余的文本进行摘要抽取,得到初步文本摘要;将所述首句、所述初步文本摘要以及所述尾句依次组合,得到待选择的答案文本摘要;将问句和所述待选择的答案文本摘要作为神经网络语义表示模型的输入,得到问句和所述待选择的答案文本摘要的语义相关程度;将与问句语义相关程度最高的答案文本摘要作为答案返回。2.如权利要求1所述的基于文本摘要的非事实类问答答案选择方法,其特征在于,所述抽取所述待选择答案文本的首句和尾句,包括:根据所述待选择答案文本中首句和尾句的位置,将所述待选择答案文本的首句和尾句抽取出来。3.如权利要求1所述的基于文本摘要的非事实类问答答案选择方法,其特征在于,所述利用文本摘要模型TextRank对所述待选择答案文本除首句和尾句之外剩余的文本进行摘要提取,得到初步文本摘要,包括:将所述待选择答案文本分割成句子,并对每个句子进行分词;对每个词的词性进行标注,并对标注后词的信息进行过滤,得到特定词的词项;将所述特定次的词项或句子作为文本单元,将文本单元构成节点,文本单元间的相似度构成节点之间的边,得到权重图模型;计算任两个节点的相似度,并将相似度值作为节点权重计算公式的计算参数;对所述节点权重计算公式进行迭代直至收敛,得到各节点的得分结果;根据收敛时各节点之间的得分,对各节点进行排序,得到排序后的各节点;按照设定的抽取比率,在排序后的各节点中抽取文本单元组成初步文本摘要。4.如权利要求3所述的基于文本摘要的非事实类问答答案选择方法,其特征在于,所述任两个节点的相似度的计算方法包括:词汇重叠法、字符串法、余弦相似度法以及最大共同子序列法。5.一种基于文本摘要的非事实类问答答案选择系统,其特征在于,包括依次连接的第一抽取模块、第二抽取模块、组合模块、匹配模块以...

【专利技术属性】
技术研发人员:马荣强张健李淼陈雷高会议
申请(专利权)人:中国科学院合肥物质科学研究院
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1