System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于人智交互,尤其是涉及一种实现大语言模型无限长上下文连续对话的方法及系统。
技术介绍
1、大语言模型连续上下文对话是有长度限制的,一般为4096个token,少量长的大语言模型可以达到10万个token。如超过token长度限制数据需要输入给大语言模型就必须进行一定的处理。
2、目前,采取的方法有两张,一种是直接截取输入的文本数据后部超限的文本部分,然后将剩余的文本输入到大模型;这也是大多数大语言模型自动处理超长文本的方式。另一种是以每轮对话(提示词,问,答)为一组,对连续上下文对话的总长度超过该大语言模型长度限制90%的那部分的那些对话组及之前超长文本的总结,用大模型进行归纳总结,输出的总结文本长度不超过10%。这样,可以使连续的让想问对话永远不超过大语言模型的长度限制。
3、但是两种方法均存在缺陷,第一种,被自动截取的部分内容因未直接或间接地传入过大语言模型,因此,会有明显的数据遗漏,使得大语言模型对用户连续上下文的理解不完全。第二种,虽然在每次增加连续对话时会将超限的对话进行归纳总结,使超限的文本不会直接被遗失,但是,对一段长文本进行总结本身相关的语义信息就是有损失的,如果叠加总结多次,原有的相关语义基本会被大量流失。
4、同时,两种方法都不适用与结构化数据,对于结构化数据,每一个数字(100、0.78等)或字符串(ch、3u、江浙等)必须是精准的,如经归纳总结,那么原始数据的数字或字符必会被改变。比如:“xxx企业手机销量增长50%,电脑销量增长30%,通信设备增加了60%
5、当前,基于代码生成实现智慧化数据挖掘平台的使用中,各种数据分析挖掘方面的数据处理过程数又是相当多的,各数据处理步骤除了很有可能用到上一步的结果数据,也很有可能用到前面几步的数据,这就需要大语言模型必须能无损记录下之前所有数据处理步骤的结果数据。因此,亟需提供一种可实现无限长记录连续上下文结构化信息的方法。
技术实现思路
1、针对上述问题,本专利技术提出了一种实现大语言模型无限长上下文连续对话的方法及系统,通过数据转换和存储,实现无限制的无损储存每一步数据处理的结果数据,并且在随后的步骤里也能无损得将其提取出,进行进一步的处理。
2、为实现上述目的,本专利技术公开了一种实现大语言模型无限长上下文连续对话的方法,包括:
3、用户上传待分析挖掘的数据,创建结构化检索数据表;
4、对用户首次提出的需求进行子问题拆分,得到一个或多个子问题;
5、基于所述数据,大语言模型对每一个子问题进行文字回答输出给用户,或输出可执行的程序代码,将执行后获得的数据结果输出给用户;
6、将每一个子问题、该子问题的输出、用户id、输出对应的效果标记存入结构化检索数据表,形成一条数据;
7、基于所述数据,对用户之后每次提出的需求进行子问题拆分,对拆分出的每一个子问题利用大语言模型对所述结构化检索数据表中每条数据中的子问题进行文本语义相似度计算;
8、根据计算结果,在多条数据中选取相似度最高且输出对应的效果标记为有帮助的数据,将该数据作为该子问题的输出,并存入所述结构化检索数据表;
9、将每次提出的需求拆分出的多个子问题的答案进行拼接,返回给用户。
10、作为本专利技术的进一步改进,用户上传待分析挖掘的数据后,创建两个数据表链接路径分别存储所述数据,包括待处理的原始数据路径和原始数据副本存入的地址路径,在所述原始数据副本存入的地址路径下创建结构化检索数据表。
11、作为本专利技术的进一步改进,基于待处理的原始数据路径获取所述数据,对每一个子问题进行文字回答输出给用户,或输出可执行的程序代码,将执行后获得的数据结果输出给用户。
12、作为本专利技术的进一步改进,结构化检索数据表中还包括日期时间、输出类型;
13、输出对应的效果标记,包括,回答有帮助、回答无帮助。
14、作为本专利技术的进一步改进,根据计算结果,在多条数据中选取相似度最高且输出对应的效果标记为有帮助的数据,将该数据作为该子问题的输出,并存入所述结构化检索数据表;包括:
15、以输出对应的标记为有帮助,且用户id与当前用户相同为条件,取相似度大于或等于预设阈值,且为最大值的输出作为该子问题的输出;
16、若获取到的输出为空,则将该子问题发送大语言模型,获得文本答案或输出可执行的程序代码并将其执行后,返回相关的数据结果。
17、本专利技术还提供了一种实现大语言模型无限长上下文连续对话的系统,包括:数据表创建模块、问题拆分模块、模型输出模块、数据表信息存储模块、相似度计算模块、结果选择及输出模块;
18、所述数据表创建模块,用于:
19、用户上传待分析挖掘的数据,创建结构化检索数据表;
20、所述问题拆分模块,用于:
21、对用户首次提出的需求进行子问题拆分,得到一个或多个子问题;
22、对用户之后每次提出的需求进行子问题拆分,得到一个或多个子问题;
23、所述模型输出模块,用于:
24、基于所述数据,大语言模型对每一个子问题进行文字回答输出给用户,或输出可执行的程序代码,将执行后获得的数据结果输出给用户;
25、所述数据表信息存储模块,用于:
26、将每一个子问题、该子问题的输出、用户id、输出对应的效果标记存入结构化检索数据表,形成一条数据;
27、所述相似度计算模块,用于:
28、对用户之后提出的需求拆分出的每一个子问题,利用大语言模型对所述结构化检索数据表中每条数据中的子问题进行文本语义相似度计算;
29、所述结果选择及输出模块,用于:
30、根据计算结果,在多条数据中选取相似度最高且输出对应的效果标记为有帮助的数据,将该数据作为该子问题的输出,并存入所述结构化检索数据表;
31、将每次提出的需求拆分出的多个子问题的答案进行拼接,返回给用户。
32、作为本专利技术的进一步改进,用户上传待分析挖掘的数据后,创建两个数据表链接路径分别存储所述数据,包括待处理的原始数据路径和原始数据副本存入的地址路径,在所述原始数据副本存入的地址路径下创建结构化检索数据表。
33、作为本专利技术的进一步改进,基于待处理的原始数据路径获取所述数据,对每一个子问题进行文字回答输出给用户,或输出可执行的程序代码,将执行后获得的数据结果输出给用户。
34、作为本专利技术的进一步改进,结构化检索数据表中还包括日期时间、输出类型;
35、输出对应的效果标记,包括,回答有帮助、回答无帮助。
36、作为本专利技术的进一步改进,根据计算结果,在多条数据中选取相似度最高且输出对本文档来自技高网...
【技术保护点】
1.一种实现大语言模型无限长上下文连续对话的方法,其特征在于,包括:
2.根据权利要求1所述的实现大语言模型无限长上下文连续对话的方法,其特征在于:用户上传待分析挖掘的数据后,创建两个数据表链接路径分别存储所述数据,包括待处理的原始数据路径和原始数据副本存入的地址路径,在所述原始数据副本存入的地址路径下创建结构化检索数据表。
3.根据权利要求2所述的实现大语言模型无限长上下文连续对话的方法,其特征在于:基于待处理的原始数据路径获取所述数据,对每一个子问题进行文字回答输出给用户,或输出可执行的程序代码,将执行后获得的数据结果输出给用户。
4.根据权利要求1所述的实现大语言模型无限长上下文连续对话的方法,其特征在于:结构化检索数据表中还包括日期时间、输出类型;
5.根据权利要求1所述的实现大语言模型无限长上下文连续对话的方法,其特征在于:根据计算结果,在多条数据中选取相似度最高且输出对应的效果标记为有帮助的数据,将该数据作为该子问题的输出,并存入所述结构化检索数据表;包括:
6.一种实现大语言模型无限长上下文连续对话的系统,
7.根据权利要求6所述的实现大语言模型无限长上下文连续对话的系统,其特征在于:用户上传待分析挖掘的数据后,创建两个数据表链接路径分别存储所述数据,包括待处理的原始数据路径和原始数据副本存入的地址路径,在所述原始数据副本存入的地址路径下创建结构化检索数据表。
8.根据权利要求7所述的实现大语言模型无限长上下文连续对话的系统,其特征在于:基于待处理的原始数据路径获取所述数据,对每一个子问题进行文字回答输出给用户,或输出可执行的程序代码,将执行后获得的数据结果输出给用户。
9.根据权利要求6所述的实现大语言模型无限长上下文连续对话的系统,其特征在于:结构化检索数据表中还包括日期时间、输出类型;
10.根据权利要求6所述的实现大语言模型无限长上下文连续对话的系统,其特征在于:根据计算结果,在多条数据中选取相似度最高且输出对应的效果标记为有帮助的数据,将该数据作为该子问题的输出,并存入所述结构化检索数据表;包括:
...【技术特征摘要】
1.一种实现大语言模型无限长上下文连续对话的方法,其特征在于,包括:
2.根据权利要求1所述的实现大语言模型无限长上下文连续对话的方法,其特征在于:用户上传待分析挖掘的数据后,创建两个数据表链接路径分别存储所述数据,包括待处理的原始数据路径和原始数据副本存入的地址路径,在所述原始数据副本存入的地址路径下创建结构化检索数据表。
3.根据权利要求2所述的实现大语言模型无限长上下文连续对话的方法,其特征在于:基于待处理的原始数据路径获取所述数据,对每一个子问题进行文字回答输出给用户,或输出可执行的程序代码,将执行后获得的数据结果输出给用户。
4.根据权利要求1所述的实现大语言模型无限长上下文连续对话的方法,其特征在于:结构化检索数据表中还包括日期时间、输出类型;
5.根据权利要求1所述的实现大语言模型无限长上下文连续对话的方法,其特征在于:根据计算结果,在多条数据中选取相似度最高且输出对应的效果标记为有帮助的数据,将该数据作为该子问题的输出,并存入所述结构化检索数据表;包括:
6.一种实现大语言模型无限长上下文连续对话的系统,实现如权利要求1~5任一项所述的...
【专利技术属性】
技术研发人员:杨建雄,
申请(专利权)人:北京思特奇信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。