文档检索方法、设备及计算机可读存储介质技术

技术编号：27314590 阅读：27 留言：0更新日期：2021-02-10 09:44

本发明专利技术涉及自然语言处理，提供一种文档检索方法、设备及介质。本发明专利技术通过获取被检索文档的多层级跨句语义信息，能够挖掘到被检索文档在单词级、句子级再到文档级层面的内在语义的联系，并提取跨句语义信息，为后续在预训练语言模型中进行匹配提供了更为全面的文档特征；通过对模型采用不同比例掩盖处理方式进行预训练，使得模型能够对文档中的单词采用不同的掩盖处理方式，有利于捕捉更重要的内在联系；通过为模型输入被检索文件的多层级跨句语义信息，并结合模型的不同比例掩盖处理方式进一步挖掘语义内在联系，使得模型所得到的特征相似度更为精确，匹配结果也更加准确。此外，本发明专利技术还涉及区块链技术，上述被检索文档可存储于区块链中。于区块链中。于区块链中。

全部详细技术资料下载

【技术实现步骤摘要】
文档检索方法、设备及计算机可读存储介质

[0001]本专利技术涉及自然语言处理
，尤其涉及一种文档检索方法、设备及计算机可读存储介质。

技术介绍

[0002]信息检索一直是自然语言处理中的重要领域。该领域的基本思路是：分别提取检索内容和被检索内容的文档特征，通过相似性算法来获得最匹配的<检索内容，被检索内容>文档对。而预训练语言模型近年来在文档分类、智能问答、机器阅读、文档摘要等众多自然语言处理领域都取得很好效果，目前主流方法大都以谷歌开源的预训练模型BERT为基础再加以改进，但BERT本身设计存在一些缺陷，例如：训练时对语料中句子随机位置的单词进行掩盖，模型假设各个单词之间互相是独立的，但实际上很多单词之间隐含了丰富的语义特征，BERT的做法丢失了很多内在语义特征，导致后续任务精度的下降；简单地将单词的词嵌入向量，位置向量等向量相加，作为transformer模型的输入向量，对句子乃至整个文档内在的语义关联度考虑不够全面等。现有方法在这两点上基本继承了BERT原来的处理思路，因此依然存在着精确度不高的问题。

技术实现思路

[0003]本专利技术的主要目的在于提供一种文档检索方法、设备及计算机可读存储介质，旨在解决现有的基于预训练语言模型的检索精确度不高的技术问题。
[0004]为实现上述目的，本专利技术提供一种文档检索方法，所述文档检索方法包括以下步骤：
[0005]获取被检索文档经整合后所得的被检索文档矩阵，并基于所述被检索文档矩阵提取所述被检索文...

【技术保护点】

【技术特征摘要】
1.一种文档检索方法，其特征在于，所述文档检索方法包括以下步骤：获取被检索文档经整合后所得的被检索文档矩阵，并基于所述被检索文档矩阵提取所述被检索文档的多层级跨句语义信息，以得到包含所述多层级跨句语义信息的第一输入向量；获取包含有预设检索文档库中若干检索文档的多层级跨句语义信息的第二输入向量集，并将所述第一输入向量与所述第二输入向量集作为采用不同比例掩盖处理方式训练后的预训练语言模型的输入，得到所述第一输入向量与所述第二输入向量集之间的特征相似度，以基于所述特征相似度确定出与所述被检索文档相匹配的目标检索文档。2.如权利要求1所述的文档检索方法，其特征在于，所述基于所述被检索文档矩阵提取所述被检索文档的多层级跨句语义信息，以得到包含所述多层级跨句语义信息的第一输入向量，包括：获取所述被检索文档矩阵的词向量与位置向量；基于词频-逆文档频率算法与命名实体识别技术，得到用于获取所述被检索文档矩阵的邻接语义向量的目标备选词集合；基于长短时记忆网络模型，对所述目标备选词集合中的每一备选词进行编码，以得到所述被检索文档矩阵的邻接语义向量；将所述词向量、所述位置向量与所述邻接语义向量作为所述第一输入向量，其中，所述第一输入向量存储于区块链中。3.如权利要求2所述的文档检索方法，其特征在于，所述基于词频-逆文档频率算法与命名实体识别技术，得到用于获取所述被检索文档矩阵的邻接语义向量的目标备选词集合，包括：使用词频-逆文档频率算法对所述被检索文档矩阵中的词序列进行加权处理，生成所述被检索文档矩阵对应的词频-逆文档频率属性队列；对所述被检索文档矩阵的每一词序列进行词性分析，得到所述被检索文档矩阵对应的词性频率属性队列；使用命名实体识别技术，识别所述被检索文档矩阵中每一语句序列的实体，并结合预设知识图谱三元组，得到所述被检索文档矩阵对应的实体共现频率属性队列；结合所述词频-逆文档频率属性队列、所述词性频率属性队列与所述实体共现频率属性队列，得到所述目标备选词集合。4.如权利要求3所述的文档检索方法，其特征在于，所述结合所述词频-逆文档频率属性队列、所述词性频率属性队列与所述实体共现频率属性队列，得到所述目标备选词集合，包括：结合所述词频-逆文档频率属性队列、所述词性频率属性队列与所述实体共现频率属性队列，确定所述被检索文档矩阵中的备选词序列，并对所述备选词序列进行排序，得到初始备选词集合；判断所述初始备选词集合中的备选词数目是否超出预设词量阈值；若所述备选词数目超出预设词量阈值，则对所述初始备选词集合进行哈希运算，以从所述初始备选词集合中筛选出所述目标备选词集合；若所述备选词数目未超出预设词量阈值，则将所述初始备选词集合作为所述目标备选
词集合。5.如权利要求2所述的文档检索方法，其特征在于，所述基于长短...

【专利技术属性】
技术研发人员：王伟，李响，邓俊毅，谢超，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人