System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及语言检索增强,尤其涉及一种骨干光通信设备文档检索优化方法及系统。
技术介绍
1、骨干光通信系统是电网通信网系统的重要组成部分,其运行的可靠性、稳定性是电力通信系统安全与稳定的必要条件。随着电网通信网传输电力与通信能力的不断提高,对通信设备的可靠性、稳定性要求也随之提高。因此对于设备文档的快速检索以及故障定位要求越来越高。
2、然而,由于骨干光通信领域为专业领域,存在数据集规模小、已标注样本稀缺、通用实体库适用性差等问题,各类神经网络算法难以在小样本的情况下得到较好的训练效果。除此之外,基于规则的命名实体识别技术则受限于故障文本规则众多、人工编制成本高昂等问题,难以进行应用。且目前设备实体与关系抽取方法通常依赖于手工定义的规则或特征工程,这种方法不仅效率低下,而且在不同领域或语言环境中需要大量的调整和重新设计。此外,手工定义规则的方式容易受到人为因素的影响,且难以处理复杂的语言现象和多样化的文本格式。同时,骨干光通信系统对于设备的安装、维护、故障处置工作,依赖于人工进行实地的检查、设备手册查询、故障确认、上报与维修,而人工查询设备故障手册,需要的时间成本、人力成本都较高,且由于人工信息更新滞后、内容不够详尽、操作复杂,实际指导案例缺乏,导致存在误判的可能性。
3、因此,亟需一种能快速检索骨干光通信设备文档快速定位处置通信设备工作中产生的故障降低维保难度及人工成本的方法。
技术实现思路
1、鉴于上述现有存在的问题,提出了本专利技术。
2
3、为解决上述技术问题,本专利技术提供如下技术方案:
4、第一方面,本专利技术提供了一种骨干光通信设备文档检索优化方法,包括:基于设备文档获取知识图谱所需的命名实体类型以及关系类型;
5、基于命名实体类型以及关系类型,构建并定义数据结构;
6、基于所述数据结构,设置提示符并通过大语言模型对任意设备文档中的命名实体和关系词进行抽取,以生成至少两个三元组数据;
7、对生成的所有三元组数据进行去重与融合,以得到优化后的多元组数据;
8、将所述多元组数据存储至图数据库,以形成完整的知识图谱;
9、针对设备文档构建文本向量数据库;
10、响应于用户查询命令,抽取查询命令中的命名实体以及关键词,得到命令实体和命令关键词,并将查询命令转化为嵌入向量;
11、通过文本向量数据库和知识图谱对命令实体、命令关键词和嵌入向量进行混合检索与相似度匹配,以分别获取相应的匹配结果;
12、对所述匹配结果进行去重和融合,并与查询命令进行重排,得到优化结果;
13、所述优化结果与提示词结合生成查询答案。
14、作为本专利技术所述的骨干光通信设备文档检索优化方法的一种优选方案,其中:所述三元组数据包括两个命名实体和一个关系词,所述两个命名实体通过一个关系词进行组合连接。
15、作为本专利技术所述的骨干光通信设备文档检索优化方法的一种优选方案,其中:对生成的所有三元组数据进行去重与融合,以得到优化后的多元组数据,包括:
16、设定去重规则,所述去重规则为对于不同的子设备文档中抽取的同一命名实体,若不同子设备文档属于同一份父文档,则进行去重;
17、将去重后的结果进行融合得到多元组数据,所述多元组数据包括至少一个三元组数据。
18、作为本专利技术所述的骨干光通信设备文档检索优化方法的一种优选方案,其中:对生成的所有三元组数据进行去重与融合,以得到优化后的多元组数据,包括:
19、通过哈希函数或基于相似度的去重算法消除重复的命名实体和关系词;
20、通过基于相似度计算的合并算法将不同设备文档来源的三元组数据进行融合,得到多元组数据,所述多元组数据包括至少一个三元组数据。
21、作为本专利技术所述的骨干光通信设备文档检索优化方法的一种优选方案,其中:通过文本向量数据库和知识图谱对命令实体、命令关键词和嵌入向量进行混合检索与相似度匹配,以分别获取相应的匹配结果,包括:通过所述文本向量数据库对所述嵌入向量进行匹配,以获取与查询命令语义相近的至少一个文本块,具体为:
22、通过索引结构将向量数据进行连接;
23、定义一个距离度量计算查询命令向量与文本向量之间的第一相似度;
24、基于所述第一相似度,采用近似算法搜寻与查询命令向量相似的向量,并排序;
25、基于预设排序范围内的第一相似度搜寻结果,得到至少一个文本块。
26、作为本专利技术所述的骨干光通信设备文档检索优化方法的一种优选方案,其中:通过文本向量数据库和知识图谱对命令实体、命令关键词和嵌入向量进行混合检索与相似度匹配,以分别获取相应的匹配结果,还包括:通过所述文本向量数据库并基于文本匹配算法对命令关键词进行关键词匹配,以获取与查询命令语义相近的至少一个文本块,具体为:
27、基于bm25算法对文本进行检索,通过倒排索引统计每个命令关键词在各个文本中的出现频率以及文本长度;
28、基于出现频率以及文本长度计算命令关键词与文本之间的相似度得分;
29、根据相似度得分对文本块进行排序,得分高的文本块优先召回。
30、作为本专利技术所述的骨干光通信设备文档检索优化方法的一种优选方案,其中:通过文本向量数据库和知识图谱对命令实体、命令关键词和嵌入向量进行混合检索与相似度匹配,以分别获取相应的匹配结果,还包括:
31、依据命令实体以及相应的关系词在所述知识图谱中获取相关子图;
32、计算所获取的子图与查询命令的第二相似度,并进行排序;
33、基于预设排序范围内的第二相似度,得到相应的知识子图。
34、第二方面,本专利技术提供了一种骨干光通信设备文档检索优化系统,包括:
35、第一获取模块,用于基于设备文档获取知识图谱所需的命名实体类型以及关系类型;
36、数据结构构建模块,用于基于命名实体类型以及关系类型,构建并定义数据结构;
37、第一抽取模块,用于基于所述数据结构,设置提示符并通过大语言模型对任意设备文档中的命名实体和关系词进行抽取,以生成至少两个三元组数据;
38、第一去重融合模块,用于对生成的所有三元组数据进行去重与融合,以得到优化后的多元组数据;
39、图谱构建模块,用于将所述多元组数据存储至图数据库,以形成完整的知识图谱;
40、文本向量数据库构建模块,用于针对设备文档构建文本向量数据库;
41、第二抽取模块,用于响应于用户查本文档来自技高网...
【技术保护点】
1.一种骨干光通信设备文档检索优化方法,其特征在于,包括:
2.如权利要求1所述的骨干光通信设备文档检索优化方法,其特征在于,所述三元组数据包括两个命名实体和一个关系词,所述两个命名实体通过一个关系词进行组合连接。
3.如权利要求2所述的骨干光通信设备文档检索优化方法,其特征在于,对生成的所有三元组数据进行去重与融合,以得到优化后的多元组数据,包括:
4.如权利要求2所述的骨干光通信设备文档检索优化方法,其特征在于,对生成的所有三元组数据进行去重与融合,以得到优化后的多元组数据,包括:
5.如权利要求3或4所述的骨干光通信设备文档检索优化方法,其特征在于,通过文本向量数据库和知识图谱对命令实体、命令关键词和嵌入向量进行混合检索与相似度匹配,以分别获取相应的匹配结果,包括:通过所述文本向量数据库对所述嵌入向量进行匹配,以获取与查询命令语义相近的至少一个文本块,具体为:
6.如权利要求5所述的骨干光通信设备文档检索优化方法,其特征在于,通过文本向量数据库和知识图谱对命令实体、命令关键词和嵌入向量进行混合检索与相似度匹配,以分
7.如权利要求6所述的骨干光通信设备文档检索优化方法,其特征在于,通过文本向量数据库和知识图谱对命令实体、命令关键词和嵌入向量进行混合检索与相似度匹配,以分别获取相应的匹配结果,还包括:
8.一种应用如权利要求1所述的骨干光通信设备文档检索优化方法的系统,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至7任意一项所述骨干光通信设备文档检索优化方法的步骤。
...【技术特征摘要】
1.一种骨干光通信设备文档检索优化方法,其特征在于,包括:
2.如权利要求1所述的骨干光通信设备文档检索优化方法,其特征在于,所述三元组数据包括两个命名实体和一个关系词,所述两个命名实体通过一个关系词进行组合连接。
3.如权利要求2所述的骨干光通信设备文档检索优化方法,其特征在于,对生成的所有三元组数据进行去重与融合,以得到优化后的多元组数据,包括:
4.如权利要求2所述的骨干光通信设备文档检索优化方法,其特征在于,对生成的所有三元组数据进行去重与融合,以得到优化后的多元组数据,包括:
5.如权利要求3或4所述的骨干光通信设备文档检索优化方法,其特征在于,通过文本向量数据库和知识图谱对命令实体、命令关键词和嵌入向量进行混合检索与相似度匹配,以分别获取相应的匹配结果,包括:通过所述文本向量数据库对所述嵌入向量进行匹配,以获取与查询命令语义相近的至少一个文本块,具体为:
...
【专利技术属性】
技术研发人员:钱玲飞,韦泽楷,董嘉嘉,马子宜,张泽群,
申请(专利权)人:南京航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。