一种针对电力标准的长文本匹配优化的检索系统技术方案

技术编号：30793218 阅读：15 留言：0更新日期：2021-11-16 07:57

本发明专利技术公开了一种针对电力标准的长文本匹配优化的检索系统，属于文本检索领域，电力标准中每个章节可能会出现超长文本，长度大于512的时候，当建立电力标准文档检索的时候，如何有效的对检索词和长文本有效匹配是一个核心的问题。传统的TF

全部详细技术资料下载

【技术实现步骤摘要】
一种针对电力标准的长文本匹配优化的检索系统

[0001]本专利技术属于文本检索领域，具体是一种针对电力标准的长文本匹配优化的检索系统。

技术介绍

[0002]电力标准是电力建设和电能生产、变换、传输、销售、使用中必须共同遵守的技术规定和技术管理依据，电力标准大多是强制性标准，电能生产、传输、销售均在瞬间一次完成，对整个社会生活、生产具有重大影响，所以要求电力系统具有高度的可靠性、稳定性和安全性，电力标准除少数指明“可参照执行”外，大多是强制性标准。
[0003]电力标准中每个章节可能会出现超长文本，长度大于512的时候，当建立电力标准文档检索的时候，如何有效的对检索词和长文本有效匹配是一个核心的问题，传统的TF
‑
IDF和BM25算法考虑的是词维度上的匹配，并没有考虑深度语义的匹配度和相关性，会造成匹配相似性具有局限性。

技术实现思路

[0004]为了解决上述方案存在的问题，本专利技术提供了一种针对电力标准的长文本匹配优化的检索系统。
[0005]本专利技术的目的可以通过以下技术方案实现：一种针对电力标准的长文本匹配优化的检索系统，包括词汇提取终端、预训练BERT编码终端、词汇处理终端以及语义长文本排序终端；
[0006]预训练BERT编码终端采用两个不同的预训练BERT编码，对段落d和对应的检索词q进行编码，得到不同的向量，不同的向量表示为d
‑
vecor，q
‑
vecor，再对两者计算余弦相似度，作为两者的关联度得分；<...

【技术保护点】

【技术特征摘要】
1.一种针对电力标准的长文本匹配优化的检索系统，其特征在于，包括词汇提取终端、预训练BERT编码终端、词汇处理终端以及语义长文本排序终端；预训练BERT编码终端采用两个不同的预训练BERT编码，对段落d和对应的检索词q进行编码，得到不同的向量，不同的向量表示为d
‑
vecor，q
‑
vecor，再对两者计算余弦相似度，作为两者的关联度得分；词汇处理终端内部包括两种模型，分别为领域适应的BERT预训练语言模型和领域适应的无监督语义相似度模型。2.根据权利要求1所述的一种针对电力标准的长文本匹配优化的检索系统，其特征在于，词汇提取终端将电力标准文本中所有章节的文档和标题作为段落和对应的检索词进行提取，其中段落记为d，对应的检索词记为q。3.根据权利要求1所述的一种针对电力标准的长文本匹配优化的检索系统，其特征在于，预训练BERT编码终端内部包括扩充单元，每个文档对应的检索词通过扩充单元进行扩充。4.根据权利要求1所述的一种针对电力标准的长文本匹配优化的检索系统，其特征在于，领域适应的BERT预训练语言模型强制模型学习词汇级别的上下文，同时取消NSP任务。5.根据权利要求1所述的一种针对电力标准的长文本匹配优化的检索系统，其特征在于，领域适应的无监督语义相似度模型对于检索词q和段落d，均采取无监督的方法分别训练两个BERT无监督语义相似度表示数据。6.根据权利要求1所述的一种针对电力标准的长文本匹配优化的检索系统，其特征在于，语义长文本排序终端用于构建深度语义长文本排序模型，使适合q
‑
d匹配的BERT进行表示。7.根据权利要求6所述的一种针对电力标准的长文本匹配优化的检索...

【专利技术属性】
技术研发人员：赵常威，钱宇骋，李坚林，潘超，甄超，朱太云，李森林，胡啸宇，吴正阳，吴杰，吴海峰，黄文礼，温招洋，
申请(专利权)人：国网安徽省电力有限公司安徽南瑞继远电网技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人