System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及大数据,特别是涉及一种结构化查询代码语句的生成方法、装置、计算机设备、存储介质和计算机程序产品。
技术介绍
1、随着大数据的蓬勃发展,利用大语言模型进行数据检索的技术得到了广泛应用。这项技术的核心思想是接收用户提出的问题,经过大语言模型的处理将其转化为结构化查询语句(sql)。
2、传统的方法通常是使用大语言模型和基于lora(low-rank adaptation)的微调手段,使模型具备直接从文本生成sql的能力。然而,采用这种方式,在处理数据库表数量庞大或关联关系复杂的情况下,难以有效实现跨表联合查询,导致sql语句的预测效果不佳,无法满足实际业务需求。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够结构化查询代码语句的生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
2、第一方面,本申请提供了一种结构化查询代码语句的生成方法。所述方法包括:
3、接收数据交互请求;其中,所述数据交互请求包括对目标数据的交互操作对应的文本数据;
4、将所述文本数据输入到预设的大语言模型中,得到所述数据交互请求对应的标准格式文本语句;其中,所述标准格式文本语句的数据格式包括下述中的至少一种:标识键、与标识键相对应的数据、筛选条件标识以及数据统计标识;
5、利用所述标准格式文本语句,生成所述数据交互请求的结构化查询代码语句。
6、在其中一个实施例中,所述将所述文本数据输入到预设的大语言模
7、建立初始文本语句,将所述数据交互请求输入到预设的大语言模型中,得到所述初始文本语句的候选特征信息以及对应的生成系数,并判断所述生成系数是否满足预设的条件;其中,所述特征信息包括标注格式语句的数据格式对应的数据;
8、在生成系数满足预设的条件的情况下,选取目标特征信息,将所述目标特征信息合并到所述初始文本语句中,并利用所述大语言模型和所述初始文本语句,对所述数据交互请求进行预测,生成所述初始文本语句的下一候选特征信息以及对应的生成系数,并判断所述生成系数是否满足预设的条件;
9、在所述生成系数不满足预设的条件的情况下,将所述初始文本语句确定为标准格式文本语句。
10、在其中一个实施例中,所述利用所述大语言模型和所述初始文本语句,对所述数据交互请求进行预测,生成所述初始文本语句的下一候选特征信息以及对应的生成系数,包括:
11、将所述数据交互请求输入到预设的大语言模型中,得到所述数据交互请求的第一候选特征以及对应的第一子生成系数;
12、利用预设的生成策略对所述初始文本语句进行分析,生成数据交互请求对应的第一候选特征的第二子生成系数;其中,所述生成策略包括特征信息之间的关联关系;
13、利用所述第一子生成系数和所述第二子生成系数,得到所述数据交互请求的下一候选特征以及对应的生成系数。
14、在其中一个实施例中,所述利用预设的生成策略对所述初始文本语句进行分析,生成数据交互请求对应的第一候选特征的第二子生成系数,包括:
15、利用预设的生成策略对所述初始文本语句进行分析,生成第二候选特征;
16、将存在于所述第二候选特征的第一候选特征的第二子生成系数确定为第一系数;
17、将不存在于所述第二候选特征的第一候选特征的第二子生成系数确定为第二系数。
18、在其中一个实施例中,所述利用所述标准格式文本语句,生成所述数据交互请求的结构化查询代码语句,包括:
19、利用预设的映射关系集合,对所述标准格式文本语句进行匹配,得到所述结构化查询代码语句的数据库标识;其中,所述映射关系集合包括所述数据格式对应的数据与所述数据库标识的关联关系;
20、利用所述数据库标识和所述标准格式文本语句,生成所述数据交互请求的结构化查询代码语句。
21、在其中一个实施例中,所述大语言模型的训练方式,包括:
22、获取样本数据集;其中,所述样本数据集包括数据交互请求样本和对应的标准格式文本语句样本;
23、将所述数据交互请求样本输入到预设的大语言模型中,预测得到数据交互请求样本对应的预测文本语句;
24、基于所述数据交互请求样本对应的预测文本语句与所述标准格式文本语句样本之间的差异,对所述大语言模型的参数进行调整,得到目标大语言模型。
25、第二方面,本申请还提供了一种结构化查询代码语句的生成装置。所述装置包括:
26、请求接收模块,用于接收数据交互请求;其中,所述数据交互请求包括对目标数据的交互操作对应的文本数据;
27、模型预测模块,用于将所述文本数据输入到预设的大语言模型中,得到所述数据交互请求对应的标准格式文本语句;其中,所述标准格式文本语句的数据格式包括下述中的至少一种:标识键、与标识键相对应的数据、筛选条件标识以及数据统计标识;
28、目标生成模块,用于利用所述标准格式文本语句,生成所述数据交互请求的结构化查询代码语句。
29、在其中一个实施例中,所述模型预测模块,包括:
30、模型预测子模块,用于建立初始文本语句,将所述数据交互请求输入到预设的大语言模型中,得到所述初始文本语句的候选特征信息以及对应的生成系数,并判断所述生成系数是否满足预设的条件;其中,所述特征信息包括标注格式语句的数据格式对应的数据;
31、标准格式文本语句生成子模块,用于在生成系数满足预设的条件的情况下,选取目标特征信息,将所述目标特征信息合并到所述初始文本语句中,并利用所述大语言模型和所述初始文本语句,对所述数据交互请求进行预测,生成所述初始文本语句的下一候选特征信息以及对应的生成系数,并判断所述生成系数是否满足预设的条件;
32、所述标准格式文本语句生成子模块,还用于在所述生成系数不满足预设的条件的情况下,将所述初始文本语句确定为标准格式文本语句。
33、在其中一个实施例中,所述模型预测子模块,包括:
34、模型预测单元,用于将所述数据交互请求输入到预设的大语言模型中,得到所述数据交互请求的第一候选特征以及对应的第一子生成系数;
35、第二系数生成单元,用于利用预设的生成策略对所述初始文本语句进行分析,生成数据交互请求对应的第一候选特征的第二子生成系数;其中,所述生成策略包括特征信息之间的关联关系;
36、生成系数生成单元,用于利用所述第一子生成系数和所述第二子生成系数,得到所述数据交互请求的下一候选特征以及对应的生成系数。
37、在其中一个实施例中,所述第二系数生成单元,包括:
38、第二特征获取子单元,用于利用预设的生成策略对所述初始文本语句进行分析,生成第二候选特征;
39、第二系数确定子单元,用于将存在于所述第二候选特征的第一本文档来自技高网...
【技术保护点】
1.一种结构化查询代码语句的生成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述将所述文本数据输入到预设的大语言模型中,得到所述数据交互请求对应的标准格式文本语句,包括:
3.根据权利要求2所述的方法,其特征在于,所述利用所述大语言模型和所述初始文本语句,对所述数据交互请求进行预测,生成所述初始文本语句的下一候选特征信息以及对应的生成系数,包括:
4.根据权利要求3所述的方法,其特征在于,所述利用预设的生成策略对所述初始文本语句进行分析,生成数据交互请求对应的第一候选特征的第二子生成系数,包括:
5.根据权利要求1所述的方法,其特征在于,所述利用所述标准格式文本语句,生成所述数据交互请求的结构化查询代码语句,包括:
6.根据权利要求1所述的方法,其特征在于,所述大语言模型的训练方式,包括:
7.一种结构化查询代码语句的生成装置,其特征在于,所述装置包括:
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
...【技术特征摘要】
1.一种结构化查询代码语句的生成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述将所述文本数据输入到预设的大语言模型中,得到所述数据交互请求对应的标准格式文本语句,包括:
3.根据权利要求2所述的方法,其特征在于,所述利用所述大语言模型和所述初始文本语句,对所述数据交互请求进行预测,生成所述初始文本语句的下一候选特征信息以及对应的生成系数,包括:
4.根据权利要求3所述的方法,其特征在于,所述利用预设的生成策略对所述初始文本语句进行分析,生成数据交互请求对应的第一候选特征的第二子生成系数,包括:
5.根据权利要求1所述的方法,其特征在于,所述利用所述标准格式文本语句,生成所述...
【专利技术属性】
技术研发人员:熊玉竹,皮乾东,曹梦远,
申请(专利权)人:企查查科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。