本发明专利技术涉及自然语言处理,提供一种文档检索方法、设备及介质。本发明专利技术通过获取被检索文档的多层级跨句语义信息,能够挖掘到被检索文档在单词级、句子级再到文档级层面的内在语义的联系,并提取跨句语义信息,为后续在预训练语言模型中进行匹配提供了更为全面的文档特征;通过对模型采用不同比例掩盖处理方式进行预训练,使得模型能够对文档中的单词采用不同的掩盖处理方式,有利于捕捉更重要的内在联系;通过为模型输入被检索文件的多层级跨句语义信息,并结合模型的不同比例掩盖处理方式进一步挖掘语义内在联系,使得模型所得到的特征相似度更为精确,匹配结果也更加准确。此外,本发明专利技术还涉及区块链技术,上述被检索文档可存储于区块链中。于区块链中。于区块链中。
【技术实现步骤摘要】
文档检索方法、设备及计算机可读存储介质
[0001]本专利技术涉及自然语言处理
,尤其涉及一种文档检索方法、设备及计算机可读存储介质。
技术介绍
[0002]信息检索一直是自然语言处理中的重要领域。该领域的基本思路是:分别提取检索内容和被检索内容的文档特征,通过相似性算法来获得最匹配的<检索内容,被检索内容>文档对。而预训练语言模型近年来在文档分类、智能问答、机器阅读、文档摘要等众多自然语言处理领域都取得很好效果,目前主流方法大都以谷歌开源的预训练模型BERT为基础再加以改进,但BERT本身设计存在一些缺陷,例如:训练时对语料中句子随机位置的单词进行掩盖,模型假设各个单词之间互相是独立的,但实际上很多单词之间隐含了丰富的语义特征,BERT的做法丢失了很多内在语义特征,导致后续任务精度的下降;简单地将单词的词嵌入向量,位置向量等向量相加,作为transformer模型的输入向量,对句子乃至整个文档内在的语义关联度考虑不够全面等。现有方法在这两点上基本继承了BERT原来的处理思路,因此依然存在着精确度不高的问题。
技术实现思路
[0003]本专利技术的主要目的在于提供一种文档检索方法、设备及计算机可读存储介质,旨在解决现有的基于预训练语言模型的检索精确度不高的技术问题。
[0004]为实现上述目的,本专利技术提供一种文档检索方法,所述文档检索方法包括以下步骤:
[0005]获取被检索文档经整合后所得的被检索文档矩阵,并基于所述被检索文档矩阵提取所述被检索文档的多层级跨句语义信息,以得到包含所述多层级跨句语义信息的第一输入向量;
[0006]获取包含有预设检索文档库中若干检索文档的多层级跨句语义信息的第二输入向量集,并将所述第一输入向量与所述第二输入向量集作为采用不同比例掩盖处理方式训练后的预训练语言模型的输入,得到所述第一输入向量与所述第二输入向量集之间的特征相似度,以基于所述特征相似度确定出与所述被检索文档相匹配的目标检索文档。
[0007]可选地,所述基于所述被检索文档矩阵提取所述被检索文档的多层级跨句语义信息,以得到包含所述多层级跨句语义信息的第一输入向量,包括:
[0008]获取所述被检索文档矩阵的词向量与位置向量;
[0009]基于词频-逆文档频率算法与命名实体识别技术,得到用于获取所述被检索文档矩阵的邻接语义向量的目标备选词集合;
[0010]基于长短时记忆网络模型,对所述目标备选词集合中的每一备选词进行编码,以得到所述被检索文档矩阵的邻接语义向量;
[0011]将所述词向量、所述位置向量与所述邻接语义向量作为所述第一输入向量,其中,
所述第一输入向量存储于区块链中。
[0012]可选地,所述基于词频-逆文档频率算法与命名实体识别技术,得到用于获取所述被检索文档矩阵的邻接语义向量的目标备选词集合,包括:
[0013]使用词频-逆文档频率算法对所述被检索文档矩阵中的词序列进行加权处理,生成所述被检索文档矩阵对应的词频-逆文档频率属性队列;
[0014]对所述被检索文档矩阵的每一词序列进行词性分析,得到所述被检索文档矩阵对应的词性频率属性队列;
[0015]使用命名实体识别技术,识别所述被检索文档矩阵中每一语句序列的实体,并结合预设知识图谱三元组,得到所述被检索文档矩阵对应的实体共现频率属性队列;
[0016]结合所述词频-逆文档频率属性队列、所述词性频率属性队列与所述实体共现频率属性队列,得到所述目标备选词集合。
[0017]可选地,所述结合所述词频-逆文档频率属性队列、所述词性频率属性队列与所述实体共现频率属性队列,得到所述目标备选词集合,包括:
[0018]结合所述词频-逆文档频率属性队列、所述词性频率属性队列与所述实体共现频率属性队列,确定所述被检索文档矩阵中的备选词序列,并对所述备选词序列进行排序,得到初始备选词集合;
[0019]判断所述初始备选词集合中的备选词数目是否超出预设词量阈值;
[0020]若所述备选词数目超出预设词量阈值,则对所述初始备选词集合进行哈希运算,以从所述初始备选词集合中筛选出所述目标备选词集合;
[0021]若所述备选词数目未超出预设词量阈值,则将所述初始备选词集合作为所述目标备选词集合。
[0022]可选地,所述基于长短时记忆网络模型,对所述目标备选词集合中的每一备选词进行编码,以得到所述被检索文档矩阵的邻接语义向量,包括:
[0023]使用长短时记忆网络模型,对所述目标备选词集合中的每一备选词分别按照从前到后与从后往前两个方向进行编码,得到前向邻接语义向量与后向邻接语义向量;
[0024]将所述前向邻接语义向量与后向邻接语义向量进行拼接,生成原始邻接语义向量,并使用有监督机器学习方式对所述原始邻接语义向量赋予相应权重,以得到所述被检索文档矩阵的邻接语义向量。
[0025]可选地,所述获取被检索文档经整合后所得的被检索文档矩阵之前,还包括:
[0026]获取由多个预训练词序列组成的预训练语料,并生成所述预训练语料的语料词频-逆文档频率属性队列与语料词性属性队列;
[0027]根据各个所述预训练词序列分别在所述语料词频-逆文档频率属性队列与语料词性属性队列中位置编号的乘积,对各个所述预训练词序列进行排序,得到预训练掩盖队列;
[0028]按照预设比例标准,对所述预训练掩盖队列中的各个已排序的预训练词序列进行保留和/或替换的掩盖处理。
[0029]可选地,所述获取被检索文档经整合后所得的被检索文档矩阵,包括:
[0030]获取被检索文档,使用预设分词工具对组成所述被检索文档的若干句子进行分词处理,以将每一句子转化为由若干词序列组成的句子序列,得到包含若干所述句子序列的句子序列集合;
[0031]获取所述句子序列集合中长度最大的句子序列所对应的最大序列长度,并使用预设替代符号对所述句子序列集合中的其他句子序列进行补齐,得到由若干个序列长度均为所述最大序列长度的句子序列所组成的文档矩阵,以作为所述被检索文档矩阵。
[0032]可选地,所述将所述第一输入向量与所述第二输入向量集作为采用不同比例掩盖处理方式训练后的预训练语言模型的输入,得到所述第一输入向量与所述第二输入向量集之间的特征相似度,以基于所述特征相似度确定出与所述被检索文档相匹配的目标检索文档包括:
[0033]将所述第一输入向量与所述第二输入向量集输入所述预训练语言模型,获取所述第一输入向量与所述第二输入向量集中各个第二输入向量之间的特征相似度;
[0034]选取最高特征相似度对应的目标第二输入向量,以将所述目标第二输入向量对应在所述检索文档库中的文档作为与所述被检索文档相匹配的目标检索文档。
[0035]此外,为实现上述目的,本专利技术还提供一种文档检索装置,所述文档检索装置包括:
[0036]向量获取模块,用于获取被检索文档经整合后所得的被检索文档矩阵本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种文档检索方法,其特征在于,所述文档检索方法包括以下步骤:获取被检索文档经整合后所得的被检索文档矩阵,并基于所述被检索文档矩阵提取所述被检索文档的多层级跨句语义信息,以得到包含所述多层级跨句语义信息的第一输入向量;获取包含有预设检索文档库中若干检索文档的多层级跨句语义信息的第二输入向量集,并将所述第一输入向量与所述第二输入向量集作为采用不同比例掩盖处理方式训练后的预训练语言模型的输入,得到所述第一输入向量与所述第二输入向量集之间的特征相似度,以基于所述特征相似度确定出与所述被检索文档相匹配的目标检索文档。2.如权利要求1所述的文档检索方法,其特征在于,所述基于所述被检索文档矩阵提取所述被检索文档的多层级跨句语义信息,以得到包含所述多层级跨句语义信息的第一输入向量,包括:获取所述被检索文档矩阵的词向量与位置向量;基于词频-逆文档频率算法与命名实体识别技术,得到用于获取所述被检索文档矩阵的邻接语义向量的目标备选词集合;基于长短时记忆网络模型,对所述目标备选词集合中的每一备选词进行编码,以得到所述被检索文档矩阵的邻接语义向量;将所述词向量、所述位置向量与所述邻接语义向量作为所述第一输入向量,其中,所述第一输入向量存储于区块链中。3.如权利要求2所述的文档检索方法,其特征在于,所述基于词频-逆文档频率算法与命名实体识别技术,得到用于获取所述被检索文档矩阵的邻接语义向量的目标备选词集合,包括:使用词频-逆文档频率算法对所述被检索文档矩阵中的词序列进行加权处理,生成所述被检索文档矩阵对应的词频-逆文档频率属性队列;对所述被检索文档矩阵的每一词序列进行词性分析,得到所述被检索文档矩阵对应的词性频率属性队列;使用命名实体识别技术,识别所述被检索文档矩阵中每一语句序列的实体,并结合预设知识图谱三元组,得到所述被检索文档矩阵对应的实体共现频率属性队列;结合所述词频-逆文档频率属性队列、所述词性频率属性队列与所述实体共现频率属性队列,得到所述目标备选词集合。4.如权利要求3所述的文档检索方法,其特征在于,所述结合所述词频-逆文档频率属性队列、所述词性频率属性队列与所述实体共现频率属性队列,得到所述目标备选词集合,包括:结合所述词频-逆文档频率属性队列、所述词性频率属性队列与所述实体共现频率属性队列,确定所述被检索文档矩阵中的备选词序列,并对所述备选词序列进行排序,得到初始备选词集合;判断所述初始备选词集合中的备选词数目是否超出预设词量阈值;若所述备选词数目超出预设词量阈值,则对所述初始备选词集合进行哈希运算,以从所述初始备选词集合中筛选出所述目标备选词集合;若所述备选词数目未超出预设词量阈值,则将所述初始备选词集合作为所述目标备选
词集合。5.如权利要求2所述的文档检索方法,其特征在于,所述基于长短...
【专利技术属性】
技术研发人员:王伟,李响,邓俊毅,谢超,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。