基于检索的机器阅读理解系统的实现方法及装置制造方法及图纸

技术编号：27564397 阅读：15 留言：0更新日期：2021-03-09 22:08

基于检索的机器阅读理解系统的实现方法及装置，包括文本初步检索模块、检索结果重排序模块和机器阅读理解模块，文本初步检索模块被配置为事先构造领域文档集合，提取文档集合特征，将用户提出的问题和领域文档集合中的文档计算相似度，返回相似度最高的前x个文档给检索结果重排序模块，检索结果重排序模块根据所得x个文档与问题重新计算相关性，并将相关性最高的文档传导至机器阅读理解模块，机器阅读理解模块根据问题从最相关的文档中抽取出问题对应的答案。本发明专利技术针对用户的问题找到最相关的文档，将得到的文档和用户的问题交给机器阅读理解模型，最终得到问题对应的答案，构成了一个基于检索的机器阅读理解系统，提高问题类搜索的效率。题类搜索的效率。题类搜索的效率。

全部详细技术资料下载

【技术实现步骤摘要】
基于检索的机器阅读理解系统的实现方法及装置

[0001]本专利技术属于计算机
，涉及文本检索和自然语言的机器阅读理解，为一种基于检索的机器阅读理解系统。
技术背景
[0002]随着科技的发展，信息的高效和快速的获取对人们来说越来越重要，当用户在网络搜索问题的答案时，现有的搜索引擎不仅仅返回一个检索文档的列表，而是同时会阅读和理解这些互联网文档并且高亮显示最有可能的答案在检索结果的前列。如何利用文本检索和机器阅读理解技术来帮助用户查找到满意的答案，是自然语言处理和信息检索技术研究领域中的一个经典课题。文本检索作为信息检索的一个子领域，让机器具备从海量的互联网文本中检索出用户所需的相关文本；机器阅读理解作为自然语言理解的一个子领域，让机器具备自然语言的阅读理解与问答能力，一直是学术界和工业界关注的热点问题，也是目前智能语音和人机交互的核心难题。机器阅读理解(Machine Reading Comprehension)是让机器像人类一样通过阅读自然语言文本，然后经过推理总结，从而能够精准地回答和阅读内容相关的问题。
[0003]机器阅读理解方法分为两类：分别为生成式和抽取式。生成式是从理论上来说不受知识的局限，对于问题自动生成答案，但是生成式有时生成的答案和用户的问题没关系，语法和句式上存在很大错误，不能很好地体现出人类的思维逻辑以及自然表述的特点。抽取式通过给定问题以及相关的文章进行训练，让机器具备阅读理解的能力，并对测试集中的新问题，在相关文章中抽取出相应的答案。相对于生成式来说，抽取式的技术优势更加明显...

【技术保护点】

【技术特征摘要】
1.基于检索的机器阅读理解系统的实现方法，其特征是包括文本初步检索模块、检索结果重排序模块和机器阅读理解模块，文本初步检索模块被配置为事先构造领域文本集合，提取文本集合特征，对用户提出的问题，与领域文本集合中的文档计算相似度，得到相似度最高的前x个文档作为初步排序结果，将初步排序结果返回给检索结果重排序模块，检索结果重排序模块根据所述x个文档与问题重新计算相关性，并将相关性最高的文档传导至机器阅读理解模块，机器阅读理解模块根据问题从最相关的文档中抽取出问题对应的答案。2.根据权利要求1所述的基于检索的机器阅读理解系统的实现方法，其特征是所述文本初步检索模块事先构造领域文本集合，提取文本集合特征，包括：根据基于检索的机器阅读理解系统所要对应的领域构建领域文本集合，对搜集的文档进行分词，使用基于bigram的TFIDF方法提取文档的词频特征，提取文档的词频特征具体方法为：TFIDF
uni_bi
＝log(tf+1)
×
log((N-Nt+0.5)/(Nt+0.5))其中tf表示unigram,bigram的token对应的频率，Nt表示unigram,bigram的token所出现的文档数目，N表示总的文档数目；将每个文档表示成unigram,bigram的token的向量形式，即TFIDF
uni_bi
值组成的矩阵，对于用户提出的问题也表示成相应的向量形式，将问题向量与文档集合对应的矩阵进行点积，对文档按照点积值进行降序排列，返回点积值最大的前x篇文档。3.根据权利要求1所述的基于检索的机器阅读理解系统的实现方法，其特征是所述检索结果重排序模块对初步排序结果进行重排序，具体如下：将用户提出的问题与初步检索得到的x篇文档分别计算score值，计算方式如下：将用户提出的问题与初步检索得到的x篇文档分别计算score值，计算方式如下：其中query
n-gram
表示用户提出问题的n-gram集合，content
n-gram
表示文档的n-gram集合，com表示两个集合交集的元素数目，count(query
n-gram
)表示query
n-gram
集合元素数目，这里M取4，最后取score最大的文档和用户提出的问题传导至机器阅读理解模块。4.根据权利要求1所述的基于检索的机器阅读理解系统的实现方法，其特征是所述机器阅读理解模块包括四层结构，第一层是词的预训练表示层，根据文本语料通过无监督学习的方法ELMo训练得到关于词的向量表示；第二层是上下文表示层，用于将上一层得到的词向量的表示经过两层的双向GRU层；第三层是双向注意力层，实现文章到问题的注意力机制和问题到文章的注意力机制，以获得文章关于问题的表示和问题关于文章的表示；第四层是答案指针层，计算注意力分布，将注意力分布作为一个软性的指针来输出答案的开始位置和结束位置，抽取出问题对应的答案。5.根据权利要求4所述的基于检索的机器阅读理解系统的实现方法，其特征是所述双向注意力层，被设计成获得文章到问题的注意力和问题到文章的注意力，具体如下：令H∈R
2d
×
T
,U∈R
2d
×
J
分别表示文章和问题的上下文表示向量，T，J分别表示文章中词数
和问题中词数，R表示实数集合，d表示维度，首先计算文章和问题的相似度矩阵S
tj
，计算方式如下：S
tj
＝σ(H
:t
,U
:j
)∈Rσ(h...

【专利技术属性】
技术研发人员：严德美，周小多，程龚，瞿裕忠，
申请(专利权)人：南京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人