System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及采购数据管理,特别指一种基于大语言模型的采购知识检索方法及系统。
技术介绍
1、随着大语言模型(large language models, llms)的迅速发展,检索和召回技术在自然语言处理领域变得至关重要,尤其是在采购智能咨询(采购知识检索)这一垂直领域中,发挥了巨大的支持作用。通过检索增强生成技术(retrieval-augmented generation,rag),通用领域的大语言模型可以高效、精准地为采购咨询提供特定的知识支持,从而满足专业化的应用需求。
2、基于rag的问答系统结合了知识检索和大语言模型的优势,通常包括以下几个步骤:1、用户输入问题:用户通过自然语言提出问题,例如“采购一共有哪几种采购方式?”;2、检索阶段:使用检索模型从知识库中检索相关内容,检索模型通常通过语义检索技术实现;3、信息处理:检索到的内容被格式化为大语言模型的模型输入,例如以问答对或上下文的形式;4、生成阶段:大语言模型根据用户的问题以及模型输入生成答案并返回。
3、在基于rag的问答系统中,检索阶段的主要任务是从庞大的知识库中定位与用户问题高度相关的内容,并为生成阶段提供必要的上下文。如果检索结果能够准确覆盖用户问题所需的信息,生成阶段的大语言模型可以基于这些高质量的模型输入,充分发挥其语言理解和生成能力,从而提供准确、连贯的答案。反之,若检索阶段返回的内容相关性较低或噪声较多,则生成阶段输出的答案可能偏离主题或难以满足用户需求,甚至可能产生误导性回答。
4、因此,检索阶段的效果直接
5、由于现有检索技术存在检索准确性以及检索效率方面的问题,因此产生了优化检索过程的需求。目前,检索阶段的优化通常聚焦于提升检索器的性能,例如改进检索算法、优化向量表征或设计更高效的索引结构;然而,随着大语言模型的广泛应用和训练数据的不断扩展,知识库的规模和复杂性也在快速增长,这种增长带来了新的挑战,尤其在采购领域表现突出,主要体现在以下几个方面:
6、1、检索结果的准确性下降:信息量的指数级增长导致知识库中无关和冗余信息的比例显著提高,重要的采购知识容易被大量相似但不相关的文档淹没,降低了检索的准确性。且在特定应用场景的采购知识库中,存在重复度高、结构化程度不一的文档;例如,不同地区或部门的采购政策可能基于相同的法律框架,仅在少数条款上有所差异;许多解读性文件反复强调原政策的主要内容,这使得检索器难以区分重要信息和冗余内容,用户需要的关键信息往往被淹没。
7、2、计算资源的浪费:随着知识库规模的扩大,检索器需要进行更多的关键词匹配和向量相似性计算,尤其是在稠密向量检索中,高维向量的计算成本成倍增长,如果进行统一检索,检索器需要处理大量无关信息,增加了计算资源消耗,降低了匹配精度。
8、3、信息多样性不足:冗余信息的主导使得检索器返回的结果,多为内容相似的文档,缺乏多维度或多角度的信息,无法满足用户对全面性和多视角回答的需求,进而影响采购的效率和决策质量。
9、综上所述,知识库规模与复杂性的快速增长,给检索器对采购知识的检索带来了准确性下降、计算资源浪费和信息多样性不足等多重挑战;针对这些问题,单一的优化措施难以实现全面突破。因此,如何提供一种基于大语言模型的采购知识检索方法及系统,实现提升采购知识检索的准确性、效率以及多样性,成为一个亟待解决的技术问题。
技术实现思路
1、本专利技术要解决的技术问题,在于提供一种基于大语言模型的采购知识检索方法及系统,实现提升采购知识检索的准确性、效率以及多样性。
2、第一方面,本专利技术提供了一种基于大语言模型的采购知识检索方法,包括如下步骤:
3、步骤s1、获取大量的采购文档,基于内容类别对各所述采购文档进行切分,得到若干个采购知识;
4、步骤s2、通过预训练的大语言模型对各所述采购知识进行分类,得到各所述采购知识对应的分类标签以及采购知识向量,并生成各所述分类标签的路由语料;
5、步骤s3、基于各所述分类标签分别创建一包括若干个知识子库的知识库,创建一路由库,将各所述采购知识以及采购知识向量基于分类标签分别存储至对应的知识子库,将各所述路由语料存储至路由库;
6、步骤s4、获取输入的检索请求,对所述检索请求进行校验后,解析所述检索请求得到检索语句,基于所述检索语句从路由库中匹配路由语料;
7、步骤s5、基于所述路由语料对应的分类标签从知识库中定位对应的知识子库;
8、步骤s6、基于所述检索语句从知识子库中匹配采购知识,基于匹配的各所述采购知识生成检索结果,展示所述检索结果;
9、步骤s7、实时记录检索日志,基于所述检索日志优化大语言模型,将所述检索日志加密为加密日志,对所述加密日志进行存储和备份。
10、进一步的,所述步骤s1具体为:
11、获取大量的采购文档,基于各所述采购文档构建采购文档集,dn表示第n个采购文档;
12、基于内容类别分别对各所述采购文档进行切分,得到包括若干个采购知识的知识子集,si表示第i个采购文档的知识子集,sim表示第i个采购文档的第m个采购知识;
13、基于各所述知识子集构建知识集,其中,n’表示知识子集的总数。
14、进一步的,所述步骤s2中,所述大语言模型具体用于:
15、依据输入的分类提示词生成采购知识的分类标签,表示第i个采购文档的第m个采购知识的分类标签,sim表示第i个采购文档的第m个采购知识,表示分类提示词;
16、对采购知识sim进行向量化,得到采购知识向量,表示sim对应的采购知识向量,encode()表示向量化模型的编码函数;
17、依据输入的问句提示词,生成与分类标签对应的路由问句,基于各所述路由问句构建问句集合:;
18、其中,q表示问句集合;rim 表示分类标签对应的路由问句;lk表示第k个知识类别,各知识类别分别对应一分类标签;m()表示大语言模型;表示问句提示词;
19、对各所述路由问句进行向量化,得到路由向量,进而得到包括所述路由问句以及路由向量的路由语料,表示rim对应的路由向量;
20、所述步骤s3中,所述知识子库表示为:;
21、其中,表示知识子库;sim表示第i个采购文档的第m个采购知识;表示sim对应的采购知识向量;lk表示第k个本文档来自技高网...
【技术保护点】
1.一种基于大语言模型的采购知识检索方法,其特征在于:包括如下步骤:
2.如权利要求1所述的一种基于大语言模型的采购知识检索方法,其特征在于:所述步骤S1具体为:
3.如权利要求1所述的一种基于大语言模型的采购知识检索方法,其特征在于:所述步骤S3中,所述知识子库表示为:;
4.如权利要求1所述的一种基于大语言模型的采购知识检索方法,其特征在于:所述步骤S4具体为:
5.如权利要求1所述的一种基于大语言模型的采购知识检索方法,其特征在于:所述步骤S7具体为:
6.一种基于大语言模型的采购知识检索系统,其特征在于:包括如下模块:
7.如权利要求6所述的一种基于大语言模型的采购知识检索系统,其特征在于:所述采购文档切分模块具体用于:
8.如权利要求6所述的一种基于大语言模型的采购知识检索系统,其特征在于:所述知识组织模块中,所述知识子库表示为:;
9.如权利要求6所述的一种基于大语言模型的采购知识检索系统,其特征在于:所述路由语料匹配模块具体用于:
10.如权利要求6所述的一种
...【技术特征摘要】
1.一种基于大语言模型的采购知识检索方法,其特征在于:包括如下步骤:
2.如权利要求1所述的一种基于大语言模型的采购知识检索方法,其特征在于:所述步骤s1具体为:
3.如权利要求1所述的一种基于大语言模型的采购知识检索方法,其特征在于:所述步骤s3中,所述知识子库表示为:;
4.如权利要求1所述的一种基于大语言模型的采购知识检索方法,其特征在于:所述步骤s4具体为:
5.如权利要求1所述的一种基于大语言模型的采购知识检索方法,其特征在于:所述步骤s7具体为:
6.一种基于...
【专利技术属性】
技术研发人员:游常凯,蔡文滨,喻守益,童晓婷,吴方毅,林镇勋,陈旭,
申请(专利权)人:博思数采科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。