一种针对电力标准的长文本匹配优化的检索系统技术方案

技术编号:30793218 阅读:15 留言:0更新日期:2021-11-16 07:57
本发明专利技术公开了一种针对电力标准的长文本匹配优化的检索系统,属于文本检索领域,电力标准中每个章节可能会出现超长文本,长度大于512的时候,当建立电力标准文档检索的时候,如何有效的对检索词和长文本有效匹配是一个核心的问题。传统的TF

【技术实现步骤摘要】
一种针对电力标准的长文本匹配优化的检索系统


[0001]本专利技术属于文本检索领域,具体是一种针对电力标准的长文本匹配优化的检索系统。

技术介绍

[0002]电力标准是电力建设和电能生产、变换、传输、销售、使用中必须共同遵守的技术规定和技术管理依据,电力标准大多是强制性标准,电能生产、传输、销售均在瞬间一次完成,对整个社会生活、生产具有重大影响,所以要求电力系统具有高度的可靠性、稳定性和安全性,电力标准除少数指明“可参照执行”外,大多是强制性标准。
[0003]电力标准中每个章节可能会出现超长文本,长度大于512的时候,当建立电力标准文档检索的时候,如何有效的对检索词和长文本有效匹配是一个核心的问题,传统的TF

IDF和BM25算法考虑的是词维度上的匹配,并没有考虑深度语义的匹配度和相关性,会造成匹配相似性具有局限性。

技术实现思路

[0004]为了解决上述方案存在的问题,本专利技术提供了一种针对电力标准的长文本匹配优化的检索系统。
[0005]本专利技术的目的可以通过以下技术方案实现:一种针对电力标准的长文本匹配优化的检索系统,包括词汇提取终端、预训练BERT编码终端、词汇处理终端以及语义长文本排序终端;
[0006]预训练BERT编码终端采用两个不同的预训练BERT编码,对段落d和对应的检索词q进行编码,得到不同的向量,不同的向量表示为d

vecor,q

vecor,再对两者计算余弦相似度,作为两者的关联度得分;<br/>[0007]词汇处理终端内部包括两种模型,分别为领域适应的BERT预训练语言模型和领域适应的无监督语义相似度模型。
[0008]优选的,词汇提取终端将电力标准文本中所有章节的文档和标题作为段落和对应的检索词进行提取,其中段落记为d,对应的检索词记为q。
[0009]优选的,预训练BERT编码终端内部包括扩充单元,每个文档对应的检索词通过扩充单元进行扩充。
[0010]优选的,领域适应的BERT预训练语言模型强制模型学习词汇级别的上下文,同时取消了NSP任务。
[0011]优选的,领域适应的无监督语义相似度模型对于检索词q和段落d,均采取无监督的方法分别训练两个BERT无监督语义相似度表示数据。
[0012]优选的,语义长文本排序终端用于构建深度语义长文本排序模型,使适合q

d匹配的BERT进行表示。
[0013]优选的,针对q

d匹配算法的正负样本的构造方法如下:
[0014]步骤一、针对具有完整语义关系的检索词,使用其他针对某个章节的q

d对,使用其他章节的d部分作为负例,本身作为正例;
[0015]步骤二、针对不具有完整语义关系的检索词,构建部分使用当前q的分词,以后的段落匹配结果中将以外的段落作为负例,原本段落匹配结果作为正例;
[0016]步骤三、训练中,在每个batch中,假设batch的大小为batch_size,将每个检索词对应的正例文档段落作为正样本,其他batch_size

1个样本中的文档段落作为负例,从而构造出batch_size2样本对进行训练;
[0017]优选的,分别针对性的构建查询词,查询段落的BERT语义相似度表示模型,分别称为q

BERT,d

BERT。
[0018]优选的,所述q

BERT和d

BERT分别编码检索词和文档段落作为初始化表示,最终目标是学习编码器d

encoder和q

encoder,分别对检索词q和文档段落d编码成同一个向量空间,在同一向量空间中,相关性强的(q,d)对比相关性弱的(q,d)对的距离更近,对此设计如下损失函数:
[0019][0020]该损失函数是正例的负对数似然函数,其中,q
i
为检索词,为相关性强的正例文档段落,等为负例。
[0021]与现有技术相比,本专利技术的有益效果是:
[0022]1、针对原始BERT中的单字级别的Mask操作无法学习到领域专业词汇上下文的问题,针对领域分词的结果进行连续词汇片段级别的Mask操作,从而强制模型学习词汇级别的上下文,对于中文检索任务的提升有一定的效果;
[0023]2、对于检索词q和段落d,均采取无监督的方法分别训练两个BERT无监督语义相似度表示数据;使用一个句子通过编码器得到句子的BERT表示,而其他句子得到的BERT表示作为负例,而正例是通过同一个句子分别两次输入编码器,不同的drop mask机制得到不同的BERT表示,证明比常用的文本增强方法裁剪、词替换等方法效果更好;
[0024]3、在每个批次中,假设批次的大小为batch_size,将每个检索词对应的正例文档段落作为正样本,其他batch_size

1个样本中的文档段落作为负例,从而构造出batch_size2样本对进行训练,从而有效的训练深度语义长文本排序模型。
附图说明
[0025]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0026]图1为本专利技术原理框图;
[0027]图2为本专利技术相似度模型原理框图。
具体实施方式
[0028]下面将结合实施例对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[0029]如图1所示,一种针对电力标准的长文本匹配优化的检索系统,包括词汇提取终端、预训练BERT编码终端、词汇处理终端以及语义长文本排序终端;
[0030]所述词汇提取终端输出端与预训练BERT编码终端输入端电性连接,所述预训练BERT编码终端输出端与词汇处理终端输入端电性连接,所述词汇处理终端输出端与语义长文本排序终端输入端电性连接;
[0031]词汇提取终端将电力标准文本中所有章节的文档和标题作为段落和对应的检索词进行提取,其中段落记为d,对应的检索词记为q;
[0032]预训练BERT编码终端采用两个不同的预训练BERT编码,对段落d和对应的检索词q进行编码,得到不同的向量,不同的向量表示为d

vecor,q

vecor,然后对两者计算余弦相似度,作为两者的关联度得分,其中,预训练BERT编码终端内部包括扩充单元,每个文档对应的检索词还可以通过扩充单元进行扩充,比如通过里面存在的其他主题关键词(如“稳定绕组本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对电力标准的长文本匹配优化的检索系统,其特征在于,包括词汇提取终端、预训练BERT编码终端、词汇处理终端以及语义长文本排序终端;预训练BERT编码终端采用两个不同的预训练BERT编码,对段落d和对应的检索词q进行编码,得到不同的向量,不同的向量表示为d

vecor,q

vecor,再对两者计算余弦相似度,作为两者的关联度得分;词汇处理终端内部包括两种模型,分别为领域适应的BERT预训练语言模型和领域适应的无监督语义相似度模型。2.根据权利要求1所述的一种针对电力标准的长文本匹配优化的检索系统,其特征在于,词汇提取终端将电力标准文本中所有章节的文档和标题作为段落和对应的检索词进行提取,其中段落记为d,对应的检索词记为q。3.根据权利要求1所述的一种针对电力标准的长文本匹配优化的检索系统,其特征在于,预训练BERT编码终端内部包括扩充单元,每个文档对应的检索词通过扩充单元进行扩充。4.根据权利要求1所述的一种针对电力标准的长文本匹配优化的检索系统,其特征在于,领域适应的BERT预训练语言模型强制模型学习词汇级别的上下文,同时取消NSP任务。5.根据权利要求1所述的一种针对电力标准的长文本匹配优化的检索系统,其特征在于,领域适应的无监督语义相似度模型对于检索词q和段落d,均采取无监督的方法分别训练两个BERT无监督语义相似度表示数据。6.根据权利要求1所述的一种针对电力标准的长文本匹配优化的检索系统,其特征在于,语义长文本排序终端用于构建深度语义长文本排序模型,使适合q

d匹配的BERT进行表示。7.根据权利要求6所述的一种针对电力标准的长文本匹配优化的检索...

【专利技术属性】
技术研发人员:赵常威钱宇骋李坚林潘超甄超朱太云李森林胡啸宇吴正阳吴杰吴海峰黄文礼温招洋
申请(专利权)人:国网安徽省电力有限公司安徽南瑞继远电网技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1