System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据处理方法、装置、设备及计算机介质制造方法及图纸_技高网

数据处理方法、装置、设备及计算机介质制造方法及图纸

技术编号:44060358 阅读:4 留言:0更新日期:2025-01-17 16:01
本申请公开了一种数据处理方法、装置、设备及计算机介质,方法包括:响应于获取到输入的问题信息,从文档片段库中确定出与所述问题信息对应的至少一个初始文档片段;对所述至少一个初始文档片段,按照与所述问题信息的相关性排序得到各所述初始文档片段的第一排序结果;针对各所述初始文档片段,确定所述初始文档片段所属的目标文档,得到至少一个目标文档;基于各所述初始文档片段与所述问题信息的相似度、各所述初始文档片段的第一排序结果,对所述至少一个目标文档进行排序,得到目标排序结果;利用预设的大语言模型,对所述目标排序结果进行处理,得到所述问题信息对应的回答结果,可起到提高基于LLM生成的回答结果的准确性与可靠性的作用。

【技术实现步骤摘要】

本申请属于数据召回,尤其涉及一种数据处理方法、装置、设备及计算机介质


技术介绍

1、常规的数据召回方法,通常是使用用户输入的问题作为查询条件,返回一组与问题有高相关性的文档片段。这些文档片段和问题具有一定的相似性、相关性。但是单独的一个片段可能无法完整的回复用户的问题,因此会附带片段所在文档的上下文内容。相关技术中,一般基于文档片段所在的文档的全文确定召回结果,但是这样会产生以下问题:召回的内容量过大、llm的输入数据的数据量有上限,无法将召回的全部内容输入至llm(largelanguage model,简称大语言模型)生成最终召回结果,且最终召回结果中的文档片段中可能存在重复,即最终召回结果中多个文档片段来自于同一篇文档,进而造成召回效率较低的问题。


技术实现思路

1、本申请实施例提供一种与相关技术不同的实现方案,以解决相关技术中,基于llm生成的回答结果不够准确可靠的技术问题。

2、第一方面,本申请提供一种数据处理方法,包括:

3、响应于获取到输入的问题信息,从文档片段库中,确定出与所述问题信息对应的至少一个初始文档片段;

4、对所述至少一个初始文档片段,按照与所述问题信息的相关性排序,得到各所述初始文档片段的第一排序结果;

5、针对各所述初始文档片段,确定所述初始文档片段所属的目标文档,得到至少一个目标文档;

6、基于各所述初始文档片段与所述问题信息的相似度、各所述初始文档片段的第一排序结果,对所述至少一个目标文档进行排序,得到目标排序结果;

7、利用预设的大语言模型,对所述目标排序结果进行处理,得到所述问题信息对应的回答结果。

8、第二方面,本申请提供一种数据处理装置,包括:

9、确定单元,用于响应于获取到输入的问题信息,从文档片段库中,确定出与所述问题信息对应的至少一个初始文档片段;

10、排序单元,用于对所述至少一个初始文档片段,按照与所述问题信息的相关性排序,得到各所述初始文档片段的第一排序结果;

11、所述确定单元,还用于针对各所述初始文档片段,确定所述初始文档片段所属的目标文档,得到至少一个目标文档;

12、所述排序单元,还用于基于各所述初始文档片段与所述问题信息的相似度、各所述初始文档片段的第一排序结果,对所述至少一个目标文档进行排序,得到目标排序结果;

13、处理单元,用于利用预设的大语言模型,对所述目标排序结果进行处理,得到所述问题信息对应的回答结果。

14、第三方面,本申请提供一种电子设备,包括:

15、处理器;以及

16、存储器,用于存储所述处理器的可执行指令;

17、其中,所述处理器配置为经由执行所述可执行指令来执行第一方面、或第一方面各可能的实施方式中的任一方法。

18、第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面、或第一方面各可能的实施方式中的任一方法。

19、本申请提供的响应于获取到输入的问题信息,从文档片段库中,确定出与所述问题信息对应的至少一个初始文档片段;对所述至少一个初始文档片段,按照与所述问题信息的相关性排序,得到各所述初始文档片段的第一排序结果;针对各所述初始文档片段,确定所述初始文档片段所属的目标文档,得到至少一个目标文档;基于各所述初始文档片段与所述问题信息的相似度、各所述初始文档片段的第一排序结果,对所述至少一个目标文档进行排序,得到目标排序结果;利用预设的大语言模型,对所述目标排序结果进行处理,得到所述问题信息对应的回答结果的方案,相对于相关技术,多了对大语言模型的输入信息的分析、整理过程,可以起到提高基于llm生成的回答结果的准确性与可靠性的作用。

本文档来自技高网...

【技术保护点】

1.一种数据处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,基于各所述初始文档片段与所述问题信息的相似度、各所述初始文档片段的第一排序结果,对所述至少一个目标文档进行排序,得到目标排序结果,包括:

4.根据权利要求3所述的方法,其特征在于,其中,所述第二排序结果为排序序号,所述第二排序结果与所述目标文档片段对应的分数信息呈负相关,所述相似度与所述目标文档片段对应的分数信息与呈正相关。

5.根据权利要求1所述的方法,其特征在于,所述目标文档通过如下预处理方式得到:

6.根据权利要求5所述的方法,其特征在于,对所述文档信息进行清洗包括以下至少一种:

7.根据权利要求6所述的方法,其特征在于,所述对第一待删除内容进行删除,包括:

8.根据权利要求6所述的方法,其特征在于,所述对第二待删除内容进行删除,包括:

9.根据权利要求1所述的方法,其特征在于,所述方法还包括:将各所述初始文档片段作为召回结果反馈至所述问题信息对应的客户端,使所述客户端对所述召回结果进行展示。

10.一种数据处理装置,其特征在于,包括:

11.一种电子设备,其特征在于,包括:

12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-9任一项所述的方法。

...

【技术特征摘要】

1.一种数据处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,基于各所述初始文档片段与所述问题信息的相似度、各所述初始文档片段的第一排序结果,对所述至少一个目标文档进行排序,得到目标排序结果,包括:

4.根据权利要求3所述的方法,其特征在于,其中,所述第二排序结果为排序序号,所述第二排序结果与所述目标文档片段对应的分数信息呈负相关,所述相似度与所述目标文档片段对应的分数信息与呈正相关。

5.根据权利要求1所述的方法,其特征在于,所述目标文档通过如下预处理方式得到:

6.根据权利要求5所述的方法,其特征在...

【专利技术属性】
技术研发人员:江以臣毛文博黄珏
申请(专利权)人:北京字跳网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1