System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于大模型的检验检测领域多元知识库的信息检索方法技术_技高网

基于大模型的检验检测领域多元知识库的信息检索方法技术

技术编号:43206772 阅读:11 留言:0更新日期:2024-11-01 20:24
本发明专利技术公开了一种基于大模型的检验检测领域多元知识库的信息检索方法,包括如下步骤:步骤一,根据业务需求构建系统架构;步骤二,收集知识库数据;步骤三,对步骤二收集的原始数据进行特征化预处理并切分;步骤四,运用文本嵌入模型对切分后的数据进行embeding处理;步骤五,对用户输入的query同样采用文本嵌入模型进行embeding操作;步骤六,对初次召回的数据运用reranker模型进行reranker处理;步骤七,将用户输入的query和reranker后的结果组装成合适的prompt;步骤八,输出大模型反馈的数据,从而实现信息检索。本发明专利技术的基于大模型的检验检测领域多元知识库的信息检索方法,有效地解决了对知识库数据的结构和质量要求过高,查询结果和用户输入内容关联性排序不够准确等问题。

【技术实现步骤摘要】

本专利技术涉及一种信息检索方法,更具体的说是涉及一种基于大模型的检验检测领域多元知识库的信息检索方法


技术介绍

1、目前已有的检验检测领域的信息检索,多采用数据库匹配,或是基于倒排索引的各类搜索引擎框架完成,对于输入内容有较高的要求,分词匹配时,则容易匹配到和原本语义相关度其实不高的内容,例如:用户搜索电动自行车,实际上可能搜到电动机和自行车相关内容,且检索结果表现形式比较单一,只能在结构化数据的基础上生成返回的ui,而且对原始数据的收集要求也比较高,需要数据结构化且规范,数据量过大时,如进行全文检索也会有不同程度的性能问题存在。

2、总的来说目前已有的技术主要存在以下几点问题:1.对知识库原始数据的结构和质量要求过高;2.对数据搜索引擎的性能要求过高;3.查询结果的准确性和匹配率存在问题;4.查询结果的表现形式比较单一。


技术实现思路

1、针对现有技术存在的不足,本专利技术的目的在于提供一种能够有效地解决上述一个或是多个问题的基于大模型的检验检测领域多元知识库的信息检索方法。

2、为实现上述目的,本专利技术提供了如下技术方案:一种基于大模型的检验检测领域多元知识库的信息检索方法,其特征在于:包括如下步骤:

3、步骤一,根据业务需求构建系统架构;

4、步骤二,收集知识库数据;

5、步骤三,对步骤二收集的原始数据进行特征化预处理并切分;

6、步骤四,运用文本嵌入模型对切分后的数据进行embeding处理,将其存入向量数据库;

7、步骤五,对用户输入的query同样采用文本嵌入模型进行embeding操作,使用ann算法召回topk文档集合;

8、步骤六,对初次召回的数据运用 reranker 模型进行 reranker 处理,丢掉评分较低的部分;

9、步骤七,用户输入的query和reranker后的结果组装成合适的prompt,并调用大模型接口;

10、步骤八,输出大模型反馈的数据,从而实现信息检索。

11、作为本专利技术的进一步改进,所述步骤二中收集知识数据库的方式为:通过线下收集或云端同步、网上抓取这些手段,收集原始数据库数据,结构化数据以csv格式存储,非结构化数据以docx格式存储,并将每个文档的主题作为其标题,如存在多个主题的,则先通过wps工具进行文档切分。

12、作为本专利技术的进一步改进,所述步骤三中对原始数据进行特征化预处理并切分包括对结构化数据进行切分、对非结构化数据进行切分。

13、作为本专利技术的进一步改进,所述对结构化数据进行切分的具体步骤如下:对于csv格式的结构化数据,以每列的属性特征,作为该列的header,再遍历表格将header和内容进行结合,再生成为按行分割的文档集合,其格式为:

14、header[0]+’:’+row[i][0]+’,’+ header[1]+’:’+row[i][1]+’,’.... +header[j]+’:’+row[i][j],然后以一行为一个文档对处理后的文档集合进行切分。

15、作为本专利技术的进一步改进,所述对非结构化数据进行切分的具体步骤如下:对于docx格式的非结构化数据,我们以该文档的标题作为该文档的主要特征feature,并对类似于本文档、本文件这些代指词,进行替换操作,然后对文档去除页眉和页角,并按段落进行切分,如果段落过大的,则再次切分,并对每个切分后的碎片文档赋予特征值,其格式为:

16、docflagment:{feature}{content[i]}。

17、本专利技术的有益效果,本专利技术在目前已有技术的基础上进行改进,对于知识库原始数据的结构和质量要求过高问题,本方法使用文本特征化预处理技术预处理后的数据存储到向量数据库中,对原始数据的结构和质量不再有过高的要求;对原始数据进行特征化处理后再切分,并向量数据库milvus作为数据存储介质,使用向量大模型把对于数据库搜索引擎性能要求过高问题,本方法使用向量数据库milvus作为数据存储介质,在非结构化数据检索方面,可完成单台服务器十亿级数据毫秒级检索,速度远超传统搜索引擎;对于查询结果的准确性和匹配率问题,本方法使用ann(近似最近邻)算法,快速召回一批相似度较高的数据,再使用reranker大模型对文档集合再次排序后,丢掉评分较低的部分,以此更快得到更准确的高匹配度数据集合;对于查询结果的表现形式单一问题,本方法引入llm(大语言模型)对检索结果进行再生成,在保证信息准确性不变的前提下,增加输出结果的可读性和友好程度。

本文档来自技高网...

【技术保护点】

1.一种基于大模型的检验检测领域多元知识库的信息检索方法,其特征在于:包括如下步骤:

2.根据权利要求1所述的基于大模型的检验检测领域多元知识库的信息检索方法,其特征在于:所述步骤二中收集知识数据库的方式为:通过线下收集或云端同步、网上抓取这些手段,收集原始数据库数据,结构化数据以csv格式存储,非结构化数据以docx格式存储,并将每个文档的主题作为其标题,如存在多个主题的,则先通过wps工具进行文档切分。

3.根据权利要求2所述的基于大模型的检验检测领域多元知识库的信息检索方法,其特征在于:所述步骤三中对原始数据进行特征化预处理并切分包括对结构化数据进行切分、对非结构化数据进行切分。

4.根据权利要求3所述的基于大模型的检验检测领域多元知识库的信息检索方法,其特征在于:所述对结构化数据进行切分的具体步骤如下:对于csv格式的结构化数据,以每列的属性特征,作为该列的header,再遍历表格将header和内容进行结合,再生成为按行分割的文档集合,其格式为:

5.根据权利要求4所述的基于大模型的检验检测领域多元知识库的信息检索方法,其特征在于:所述对非结构化数据进行切分的具体步骤如下:对于docx格式的非结构化数据,我们以该文档的标题作为该文档的主要特征feature,并对类似于本文档、本文件这些代指词,进行替换操作,然后对文档去除页眉和页角,并按段落进行切分,如果段落过大的,则再次切分,并对每个切分后的碎片文档赋予特征值,其格式为:

...

【技术特征摘要】

1.一种基于大模型的检验检测领域多元知识库的信息检索方法,其特征在于:包括如下步骤:

2.根据权利要求1所述的基于大模型的检验检测领域多元知识库的信息检索方法,其特征在于:所述步骤二中收集知识数据库的方式为:通过线下收集或云端同步、网上抓取这些手段,收集原始数据库数据,结构化数据以csv格式存储,非结构化数据以docx格式存储,并将每个文档的主题作为其标题,如存在多个主题的,则先通过wps工具进行文档切分。

3.根据权利要求2所述的基于大模型的检验检测领域多元知识库的信息检索方法,其特征在于:所述步骤三中对原始数据进行特征化预处理并切分包括对结构化数据进行切分、对非结构化数据进行切分。

4.根据权利要求3所...

【专利技术属性】
技术研发人员:傅潇杭徐高清陈响红黄健民钟镇涛朱明陈群
申请(专利权)人:浙江省标准化研究院金砖国家标准化浙江研究中心浙江省物品编码中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1