当前位置: 首页 > 专利查询>南京大学专利>正文

基于检索的机器阅读理解系统的实现方法及装置制造方法及图纸

技术编号:27564397 阅读:15 留言:0更新日期:2021-03-09 22:08
基于检索的机器阅读理解系统的实现方法及装置,包括文本初步检索模块、检索结果重排序模块和机器阅读理解模块,文本初步检索模块被配置为事先构造领域文档集合,提取文档集合特征,将用户提出的问题和领域文档集合中的文档计算相似度,返回相似度最高的前x个文档给检索结果重排序模块,检索结果重排序模块根据所得x个文档与问题重新计算相关性,并将相关性最高的文档传导至机器阅读理解模块,机器阅读理解模块根据问题从最相关的文档中抽取出问题对应的答案。本发明专利技术针对用户的问题找到最相关的文档,将得到的文档和用户的问题交给机器阅读理解模型,最终得到问题对应的答案,构成了一个基于检索的机器阅读理解系统,提高问题类搜索的效率。题类搜索的效率。题类搜索的效率。

【技术实现步骤摘要】
基于检索的机器阅读理解系统的实现方法及装置


[0001]本专利技术属于计算机
,涉及文本检索和自然语言的机器阅读理解,为一种基于检索的机器阅读理解系统。
技术背景
[0002]随着科技的发展,信息的高效和快速的获取对人们来说越来越重要,当用户在网络搜索问题的答案时,现有的搜索引擎不仅仅返回一个检索文档的列表,而是同时会阅读和理解这些互联网文档并且高亮显示最有可能的答案在检索结果的前列。如何利用文本检索和机器阅读理解技术来帮助用户查找到满意的答案,是自然语言处理和信息检索技术研究领域中的一个经典课题。文本检索作为信息检索的一个子领域,让机器具备从海量的互联网文本中检索出用户所需的相关文本;机器阅读理解作为自然语言理解的一个子领域,让机器具备自然语言的阅读理解与问答能力,一直是学术界和工业界关注的热点问题,也是目前智能语音和人机交互的核心难题。机器阅读理解(Machine Reading Comprehension)是让机器像人类一样通过阅读自然语言文本,然后经过推理总结,从而能够精准地回答和阅读内容相关的问题。
[0003]机器阅读理解方法分为两类:分别为生成式和抽取式。生成式是从理论上来说不受知识的局限,对于问题自动生成答案,但是生成式有时生成的答案和用户的问题没关系,语法和句式上存在很大错误,不能很好地体现出人类的思维逻辑以及自然表述的特点。抽取式通过给定问题以及相关的文章进行训练,让机器具备阅读理解的能力,并对测试集中的新问题,在相关文章中抽取出相应的答案。相对于生成式来说,抽取式的技术优势更加明显,应用更为广泛。
[0004]近年来机器阅读理解的进步主要归功于:大规模以篇章、问题、答案三元组形式的监督数据集的构建,以及深度神经阅读理解模型的发展。传统的方法大多是基于规则的词袋方法加上一些语言学上的处理,例如词干、语义类别识别和指代消解,这种方法的代表是DEEP READ系统;或者是手动地基于词汇和语义对应生成一些规则,这种方法的代表是QUARC系统。在2013年到2015年期间,研究者们创建了以篇章、问题、答案三元组形式的人工标注的阅读理解数据集并且将阅读理解问题形式化为一个监督学习的问题,他们希望能够训练一个统计学模型将篇章,问题对映射到对应的答案。自斯坦福机器阅读理解数据集SQuAD问世以来,经过谷歌、斯坦福大学、艾伦研究院、微软、腾讯、百度、科大讯飞等在内的众多研究机构的不懈努力,形成了机器阅读理解的pipleline,即“词嵌入,语义编码,语义交互,答案边界预测”这样一套四层机器阅读理解模型体系,这种体系的代表方法有BIDAF,Match-LSTM,R-net,QANet等。该体系主要思想是:首先将问题和篇章中的每个词映射到高维语义空间,其次将问题和篇章分别进行编码,以获得关于上下文的信息,接着将问题的编码和篇章的编码进行融合使得机器学习到语义交互信息,然后根据语义交互信息生成边界开始位置和边界结束位置的概率分布,分别取最大概率值对应的边界起始位置,由边界起始位置从文章中抽取出答案片段。
[0005]现在,通过搜索引擎来搜索问题,会返回问题相关的网页,用户需要点击网页进行浏览,查找自己需要的答案。然而有时候问题答案对应的网页可能会排得靠后并且用户需要阅读长长的网页内容才能找到答案,这个过程很耗时,如果搜索引擎能够针对用户的问题,准确为用户返回问题对应的答案,这将会极大的节省用户宝贵的时间,提高搜索效率,并且带来良好的用户体验。

技术实现思路

[0006]本专利技术要解决的问题是:现有技术中,搜索引擎的反馈为一系列网页文档,不能直接返回答案,针对问题搜索答案的效率不高。
[0007]本专利技术的技术方案为:基于检索的机器阅读理解系统的实现方法,包括文本初步检索模块、检索结果重排序模块和机器阅读理解模块,文本初步检索模块被配置为事先构造领域文本集合,提取文本集合特征,对用户提出的问题,与领域文本集合中的文档计算相似度,得到相似度最高的前x个文档作为初步排序结果,将初步排序结果返回给检索结果重排序模块,检索结果重排序模块根据所述x个文档与问题重新计算相关性,并将相关性最高的文档传导至机器阅读理解模块,机器阅读理解模块根据问题从最相关的文档中抽取出问题对应的答案。
[0008]作为优选方式,所述文本初步检索模块事先构造领域文本集合,提取文本集合特征,包括:
[0009]根据基于检索的机器阅读理解系统所要对应的领域构建领域文本集合,对搜集的文档进行分词,使用基于bigram的TFIDF方法提取文档的词频特征,提取文档的词频特征具体方法为:
[0010]TFIDF
uni_bi
=log(tf+1)
×
log((N-Nt+0.5)/(Nt+0.5))
[0011]其中tf表示unigram,bigram的token对应的频率,Nt表示unigram,bigram的token所出现的文档数目,N表示总的文档数目;将每个文档表示成unigram,bigram的token的向量形式,即TFIDF
uni_bi
值组成的矩阵,对于用户提出的问题也表示成相应的向量形式,将问题向量与文档集合对应的矩阵进行点积,对文档按照点积值进行降序排列,返回点积值最大的前x篇文档。
[0012]作为优选方式,所述检索结果重排序模块对初步排序结果进行重排序,具体如下:
[0013]将用户提出的问题与初步检索得到的x篇文档分别计算score值,计算方式如下:
[0014][0015][0016]其中query
n-gram
表示用户提出问题的n-gram集合,content
n-gram
表示文档的n-gram集合,com表示两个集合交集的元素数目,count(query
n-gram
)表示query
n-gram
集合元素数目,这里M取4,最后取score最大的文档和用户提出的问题传导至机器阅读理解模块。
[0017]作为优选方式,所述机器阅读理解模块包括四层结构,第一层是词的预训练表示层,根据文本语料通过无监督学习的方法ELMo训练得到关于词的向量表示;第二层是上下
文表示层,用于将上一层得到的词向量的表示经过两层的双向GRU层;第三层是双向注意力层,实现文章到问题的注意力机制和问题到文章的注意力机制,以获得文章关于问题的表示和问题关于文章的表示;第四层是答案指针层,计算注意力分布,将注意力分布作为一个软性的指针来输出答案的开始位置和结束位置,抽取出问题对应的答案。
[0018]本专利技术还提出了基于检索的机器阅读理解系统的实现装置,所述装置具有数据处理器和存储器,在所述装置中配置有计算机程序,所述计算机程序被执行时实现上述的基于检索的机器阅读理解方法。
[0019]本专利技术在现有技术的基础上进一步研究,提出了一种新的基于检索的机器阅读理解解决方案。通过构建领域文档集合,提取文档特征向量,将用户的问题转换成对应的特征向量,利用特征向量的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于检索的机器阅读理解系统的实现方法,其特征是包括文本初步检索模块、检索结果重排序模块和机器阅读理解模块,文本初步检索模块被配置为事先构造领域文本集合,提取文本集合特征,对用户提出的问题,与领域文本集合中的文档计算相似度,得到相似度最高的前x个文档作为初步排序结果,将初步排序结果返回给检索结果重排序模块,检索结果重排序模块根据所述x个文档与问题重新计算相关性,并将相关性最高的文档传导至机器阅读理解模块,机器阅读理解模块根据问题从最相关的文档中抽取出问题对应的答案。2.根据权利要求1所述的基于检索的机器阅读理解系统的实现方法,其特征是所述文本初步检索模块事先构造领域文本集合,提取文本集合特征,包括:根据基于检索的机器阅读理解系统所要对应的领域构建领域文本集合,对搜集的文档进行分词,使用基于bigram的TFIDF方法提取文档的词频特征,提取文档的词频特征具体方法为:TFIDF
uni_bi
=log(tf+1)
×
log((N-Nt+0.5)/(Nt+0.5))其中tf表示unigram,bigram的token对应的频率,Nt表示unigram,bigram的token所出现的文档数目,N表示总的文档数目;将每个文档表示成unigram,bigram的token的向量形式,即TFIDF
uni_bi
值组成的矩阵,对于用户提出的问题也表示成相应的向量形式,将问题向量与文档集合对应的矩阵进行点积,对文档按照点积值进行降序排列,返回点积值最大的前x篇文档。3.根据权利要求1所述的基于检索的机器阅读理解系统的实现方法,其特征是所述检索结果重排序模块对初步排序结果进行重排序,具体如下:将用户提出的问题与初步检索得到的x篇文档分别计算score值,计算方式如下:将用户提出的问题与初步检索得到的x篇文档分别计算score值,计算方式如下:其中query
n-gram
表示用户提出问题的n-gram集合,content
n-gram
表示文档的n-gram集合,com表示两个集合交集的元素数目,count(query
n-gram
)表示query
n-gram
集合元素数目,这里M取4,最后取score最大的文档和用户提出的问题传导至机器阅读理解模块。4.根据权利要求1所述的基于检索的机器阅读理解系统的实现方法,其特征是所述机器阅读理解模块包括四层结构,第一层是词的预训练表示层,根据文本语料通过无监督学习的方法ELMo训练得到关于词的向量表示;第二层是上下文表示层,用于将上一层得到的词向量的表示经过两层的双向GRU层;第三层是双向注意力层,实现文章到问题的注意力机制和问题到文章的注意力机制,以获得文章关于问题的表示和问题关于文章的表示;第四层是答案指针层,计算注意力分布,将注意力分布作为一个软性的指针来输出答案的开始位置和结束位置,抽取出问题对应的答案。5.根据权利要求4所述的基于检索的机器阅读理解系统的实现方法,其特征是所述双向注意力层,被设计成获得文章到问题的注意力和问题到文章的注意力,具体如下:令H∈R
2d
×
T
,U∈R
2d
×
J
分别表示文章和问题的上下文表示向量,T,J分别表示文章中词数
和问题中词数,R表示实数集合,d表示维度,首先计算文章和问题的相似度矩阵S
tj
,计算方式如下:S
tj
=σ(H
:t
,U
:j
)∈Rσ(h...

【专利技术属性】
技术研发人员:严德美周小多程龚瞿裕忠
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1