一种大模型检索增强生成中关于文档切分效果评估的方法技术

技术编号：44888590 阅读：6 留言：0更新日期：2025-04-08 00:25

本发明专利技术公开了一种大模型检索增强生成中关于文档切分效果评估的方法，涉及文档切分技术领域，方法包括：获取待评估文档的进行切分处理后得到的切分对，按照顺序将切分对输入至通用语义模型中，得到每个切分对对应的目标评价值，基于评价值与效果等级对应关系，确定所有目标评价值对应的目标效果等级；通用语义模型的训练过程具体为：对训练文档进行切分得到至少两个原始切块；对任一原始切块进行随机切分，得到预设个数的切片；按照语义是否存在相关性进行标注，得到n组训练样本；计算任一组训练样本对应的目标相关性分数以及目标分离性分数，确定该训练样本对应的评价值。本发明专利技术可以反馈每个文档对应的分割效果的评分也可以有助于辅助文档切分。

全部详细技术资料下载

【技术实现步骤摘要】

所属的技术人员知道，本专利技术可以实现为系统、方法或计算机程序产品，因此，本公开可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等)，还可以是硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本专利技术还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是一一但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)，只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。尽管上面已经示出和描述了本专利技术的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本专利技术的限制，本领域的普通技术人员在本专利技术的范围内可以对上述实施例进行变化、修改、替换和变型。

技术介绍

1、检索增强生成(retrievalaugmented generation)是一种应用于知识内容检索领域

技术实现思路

1、本专利技术所要解决的技术问题是针对现有技术的不足，具体提供了一种大模型检索增强生成中关于文档切分效果评估的方法，具体如下：

2、1)第一方面，本专利技术提供一种大模型检索增强生成中关于文档切分效果评估的方法，具体技术方案如下：

3、获取待评估文档的进行切分处理后得到的切分对，按照顺序将所述切分对输入至通用语义模型中，得到每个切分对对应的目标评价值，基于评价值与效果等级对应关系，确定所有目标评价值对应的目标效果等级；

4、所述通用语义模型的训练过程具体为：

5、获取训练文档，对所述训练文档进行切分得到至少两个原始切块；

6、对任一原始切块进行随机切分，得到预设个数的切片；

7、按照语义是否存在相关性，对任一两个原始切块、任一两个切片以及任一原始切块与任一切片的组合进行标注，得到n组训练样本；

8、计算任一组训练样本对应的目标相关性分数以及目标分离性分数，基于相关性分数权重以及分离性分数权重，确定该训练样本对应的评价值。

9、本专利技术提供的一种大模型检索增强生成中关于文档切分效果评估的方法的有益效果如下：

10、通过对通用语义模型的训练过程中的训练集进行扩充调整，以此来提升训练集的数量同时还能够控制标注的类别的均衡性，另外，通过直观的方式反馈每个文档对应的分割效果的评分也可以有助于辅助文档切分。

11、在上述方案的基础上，本专利技术还可以做如下改进。

12、进一步，基于评价值与效果等级对应关系，确定所有目标评价值对应的目标效果等级的过程具体为：

13、根据所有目标评价值以及每个切分对对应的目标相关性分数，确定所有目标评价值的总和，即总评价值，确定所述总评价值在所述评价值与效果等级对应关系中对应的目标效果等级。

14、进一步，确定所有目标评价值的总和的过程具体为：

15、

16、其中，score为总评价值，rel_score(i)为第i组训练样本对应的目标相关性分数，weight_score(i)为第i组训练样本对应的评价值。

17、进一步，确定该训练样本对应的评价值的方法为：

18、weight_score＝0.7*sep_score+0.3*rel_score；

19、其中，weight_score为评价值，sep_score为目标分离性分数，rel_score为目标相关性分数。

20、2)第二方面，本专利技术还提供一种大模型检索增强生成中关于文档切分效果评估的系统，具体技术方案如下：

21、评估模块用于：获取待评估文档的进行切分处理后得到的切分对，按照顺序将所述切分对输入至通用语义模型中，得到每个切分对对应的目标评价值，基于评价值与效果等级对应关系，确定所有目标评价值对应的目标效果等级；

22、所述通用语义模型的训练过程具体为：

23、获取训练文档，对所述训练文档进行切分得到至少两个原始切块；

24、对任一原始切块进行随机切分，得到预设个数的切片；

25、按照语义是否存在相关性，对任一两个原始切块、任一两个切片以及任一原始切块与任一切片的组合进行标注，得到n组训练样本；

26、计算任一组训练样本对应的目标相关性分数以及目标分离性分数，基于相关性分数权重以及分离性分数权重，确定该训练样本对应的评价值。

27、3)第三方面，本专利技术还提供一种电子设备，所述电子设备包括处理器，所述处理器与存储器耦合，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以使所述电子设备实现如上任一项方法。

28、4)第四方面，本专利技术还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以使计算机实现如上任一项方法。

29、需要说明的是，本专利技术的第二方面至第四方面的技术方案及对应的可能的实现方式所取得的有益效果，可以参见上述对第一方面及其对应的可能的实现方式的技术效果，此处不再赘述。

本文档来自技高网...

【技术保护点】

1.一种大模型检索增强生成中关于文档切分效果评估的方法，其特征在于，包括：

2.根据权利要求1所述的一种大模型检索增强生成中关于文档切分效果评估的方法，其特征在于，基于评价值与效果等级对应关系，确定所有目标评价值对应的目标效果等级的过程具体为：

3.根据权利要求2所述的一种大模型检索增强生成中关于文档切分效果评估的方法，其特征在于，确定所有目标评价值的总和的过程具体为：

4.根据权利要求1所述的一种大模型检索增强生成中关于文档切分效果评估的方法，其特征在于，确定该训练样本对应的评价值的方法为：

5.一种大模型检索增强生成中关于文档切分效果评估的系统，其特征在于，包括：

6.根据权利要求5所述的一种大模型检索增强生成中关于文档切分效果评估的系统，其特征在于，基于评价值与效果等级对应关系，确定所有目标评价值对应的目标效果等级的过程具体为：

7.根据权利要求5所述的一种大模型检索增强生成中关于文档切分效果评估的系统，其特征在于，确定所有目标评价值的总和的过程具体为：

8.根据权利要求5所述的一种大模型检

9.一种电子设备，其特征在于，所述电子设备包括处理器，所述处理器与存储器耦合，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以使所述电子设备实现如权利要求1至4任一项权利要求所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以使计算机实现如权利要求1至4任一项权利要求所述的方法。

...

【技术特征摘要】

1.一种大模型检索增强生成中关于文档切分效果评估的方法，其特征在于，包括：

3.根据权利要求2所述的一种大模型检索增强生成中关于文档切分效果评估的方法，其特征在于，确定所有目标评价值的总和的过程具体为：

4.根据权利要求1所述的一种大模型检索增强生成中关于文档切分效果评估的方法，其特征在于，确定该训练样本对应的评价值的方法为：

5.一种大模型检索增强生成中关于文档切分效果评估的系统，其特征在于，包括：

6.根据权利要求5所述的一种大模型检索增强生成中关于文档切分效果评估的系统，其特征在于，基于评价值与效果等级对应关系，确定所有...

【专利技术属性】
技术研发人员：白焜太，王蕾，周文仲，杨雅婷，许娟，史文钊，
申请(专利权)人：神州医疗科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人