问题查询方法、装置、设备、介质和程序产品制造方法及图纸

技术编号:35493113 阅读:17 留言:0更新日期:2022-11-05 16:49
本公开提供了一种问题查询方法,可以应用于人工智能技术领域。该方法包括:获取待查询问题,其中,所述待查询问题为自然语言;将待查询问题输入至预训练得到的问题识别模型,获取与所述待查询问题匹配的SQL语句;以及将所述与所述待查询问题匹配的SQL语句输入数据库系统,获取问题查询结果,其中,所述获取问题查询结果包括从数据库表中获取与所述待查询问题匹配的字段值,其中,所述预训练得到的问题查询模型基于双重训练集,利用Bert模型训练得到,其中,所述双重训练集包括问题样本数据集和CSpider数据集。本公开还提供了一种问题查询装置、设备、存储介质和程序产品。存储介质和程序产品。存储介质和程序产品。

【技术实现步骤摘要】
问题查询方法、装置、设备、介质和程序产品


[0001]本公开的实施例涉及人工智能
或金融领域,具体地,涉及一种问题查询方法、装置、设备、介质和程序产品。

技术介绍

[0002]NL2SQL(NLP Language To SQL)是将自然语言转化为可执行的SQL语句,其目的是让非科技专业人员在无需掌握数据库语言的情况下,可以按需查询所需数据,降低数据库使用的门槛,支持用户使用自然语言进行数据挖掘或数据分析等工作。在NL2SQL技术中,如何准确识别自然语言与数据库中数据库表实体的关联关系,以及自然语言与SQL语法的映射关系是关键内容。

技术实现思路

[0003]有鉴于此,本公开的实施例提供了一种提高自然语言与数据库表实体关联关系,以及自然语言与SQL语法的映射关系的问题查询方法、装置、设备、介质和程序产品。
[0004]根据本公开的第一个方面,提供了一种问题查询方法,包括:获取待查询问题,其中,所述待查询问题为自然语言;将所述待查询问题输入至预训练得到的问题识别模型,获取与所述待查询问题匹配的 SQL语句;以及将所述与所述待查询问题匹配的SQL语句输入数据库系统,获取问题查询结果,其中,所述获取问题查询结果包括从数据库表中获取与所述待查询问题匹配的字段值,其中,所述预训练得到的问题查询模型基于双重训练集,利用Bert模型训练得到,其中,所述双重训练集包括问题样本数据集和CSpider数据集,其中,所述问题样本数据集用于训练模型对于问题文本与数据库表实体的映射关系的识别能力,所述CSpider数据集用于训练模型对于问题语句逻辑以及问题语句和SQL语法的映射关系的识别能力。
[0005]根据本公开的实施例,预训练得到所述问题识别模型的训练方法包括:基于问题样本数据集对Bert模型进行预训练,获取第一识别模型,所述第一识别模型用于获取第一识别结果,其中,所述第一识别结果包括与问题样本匹配的实体,所述实体包括表名,以及字段名和/或字段类型中的至少一种;基于CSpider数据集样本对所述第一识别模型进行训练,获取第二识别模型,所述第二识别模型用于获取第二识别结果,所述第二识别结果包括第一识别结果,问题语句逻辑以及问题语句和SQL语法的映射关系;基于所述第二识别结果和SQL 语句拼接规则获取SQL样本语句;以及基于所述SQL样本语句的逻辑准确率和执行准确率优化所述第一识别模型和/或SQL语句拼接规则,直至所述逻辑准确率和执行准确率达到预设的阈值,获取所述问题识别模型。
[0006]根据本公开的实施例,所述基于问题样本数据集对Bert模型进行预训练,获取第一识别模型还包括:判断所述第一识别结果的准确率是否小于阈值;以及当所述第一识别结果的准确率小于阈值时,对所述第一识别结果进行优化,其中,所述优化包括新增匹配关系和/ 或新增问题样本中的至少一种,其中,所述新增匹配关系包括新增特殊问题样本与
实体的匹配关系。
[0007]根据本公开的实施例,获取所述问题样本数据集的方法包括:对所述待查询问题样本进行预处理,获取所述问题样本数据集,其中,所述预处理包括对所述待查询问题样本进行分词和构建特征向量。
[0008]根据本公开的实施例,基于所述SQL样本语句的逻辑准确率和执行准确率优化所述第一识别模型包括增加问题样本数据进行训练。
[0009]根据本公开的实施例,所述问题语句逻辑以及问题语句和SQL 语法的映射关系包括:基于问题语句触发的表关联关系,聚合关系,关键词操作,逻辑嵌套关系,多子句中的至少一种。
[0010]根据本公开的实施例,所述获取待查询问题还包括:获取用户提问信息,其中,所述用户提问信息包含语音信息;以及对所述用户提问信息进行语音识别,获取所述待查询问题。
[0011]根据本公开的实施例,所述问题查询方法用于进行客户风险识别,其中,所述待查询问题包括风险提问信息,所述问题查询结果包括风险客户信息和/或客户风险信息。
[0012]本公开的第二方面提供了一种问题查询装置,包括:问题获取模块,配置为获取待查询问题,其中,所述待查询问题为自然语言;语言转化模块,配置为将所述待查询问题输入至预训练得到的问题识别模型,获取与所述待查询问题匹配的SQL语句,其中,所述预训练得到的问题查询模型基于双重训练集,利用Bert模型训练得到,其中,所述双重训练集包括问题样本数据集和CSpider数据集,其中,所述问题样本数据集用于训练模型对于问题文本与数据库表实体的映射关系的识别能力,所述CSpider数据集用于训练模型对于问题语句逻辑以及问题语句和SqL语法的映射关系的识别能力;以及问题查询模块,配置为将所述与所述待查询问题匹配的SQL语句输入数据库系统,获取问题查询结果,其中,所述获取问题查询结果包括从数据库表中获取与所述待查询问题匹配的字段值。
[0013]本公开的第二方面提供了一种问题识别模型的训练装置,包括:第一训练模块、第二训练模块、拼接模块和检验模块。其中,第一训练模块被配置为基于问题样本数据集对Bert模型进行预训练,获取第一识别模型,所述第一识别模型用于获取第一识别结果,其中,所述第一识别结果包括与问题样本匹配的实体,所述实体包括表名,以及字段名和/或字段类型中的至少一种。第二训练模块被配置为基于 CSpider数据集样本对所述第一识别模型进行训练,获取第二识别模型,所述第二识别模型用于获取第二识别结果,所述第二识别结果包括第一识别结果,问题语句逻辑以及问题语句和SQL语法的映射关系。拼接模块被配置为基于所述第二识别结果和SQL语句拼接规则获取SQL样本语句。检验模块被配置为基于所述SQL样本语句的逻辑准确率和执行准确率优化所述第一识别模型和/或SQL语句拼接规则,直至所述逻辑准确率和执行准确率达到预设的阈值,获取所述问题识别模型。
[0014]根据本公开的实施例,第一训练模块还包括判断子模块和调整子模块。其中,判断子模块被配置为判断所述第一识别结果的准确率是否小于阈值。调整子模块被配置为当所述第一识别结果的准确率小于阈值时,对所述第一识别结果进行优化,其中,所述优化包括新增匹配关系和/或新增问题样本中的至少一种,其中,所述新增匹配关系包括新增特殊问题样本与实体的匹配关系。
[0015]根据本公开的实施例,第一训练模块还可以包括数据预处理子模块,配置为对所
述待查询问题样本进行预处理,获取所述问题样本数据集,其中,所述预处理包括对所述待查询问题样本进行分词和构建特征向量。
[0016]本公开的第四方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述问题查询方法。
[0017]本公开的第五方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述问题查询方法。
[0018]本公开的第六方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述问本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种问题查询方法,其特征在于,包括:获取待查询问题,其中,所述待查询问题为自然语言;将所述待查询问题输入至预训练得到的问题识别模型,获取与所述待查询问题匹配的SQL语句;以及将所述与所述待查询问题匹配的SQL语句输入数据库系统,获取问题查询结果,其中,所述获取问题查询结果包括从数据库表中获取与所述待查询问题匹配的字段值,其中,所述预训练得到的问题查询模型基于双重训练集,利用Bert模型训练得到,其中,所述双重训练集包括问题样本数据集和CSpider数据集,其中,所述问题样本数据集用于训练模型对于问题文本与数据库表实体的映射关系的识别能力,所述CSpider数据集用于训练模型对于问题语句逻辑以及问题语句和SQL语法的映射关系的识别能力。2.一种根据权利要求1所述的方法,其中,预训练得到所述问题识别模型的训练方法包括:基于问题样本数据集对Bert模型进行预训练,获取第一识别模型,所述第一识别模型用于获取第一识别结果,其中,所述第一识别结果包括与问题样本匹配的实体,所述实体包括表名,以及字段名和/或字段类型中的至少一种;基于CSpider数据集样本对所述第一识别模型进行训练,获取第二识别模型,所述第二识别模型用于获取第二识别结果,所述第二识别结果包括第一识别结果,问题语句逻辑以及问题语句和SQL语法的映射关系;基于所述第二识别结果和SQL语句拼接规则获取SQL样本语句;以及基于所述SQL样本语句的逻辑准确率和执行准确率优化所述第一识别模型和/或SQL语句拼接规则,直至所述逻辑准确率和执行准确率达到预设的阈值,获取所述问题识别模型。3.根据权利要求2所述的方法,其中,所述基于问题样本数据集对Bert模型进行预训练,获取第一识别模型还包括:判断所述第一识别结果的准确率是否小于阈值;以及当所述第一识别结果的准确率小于阈值时,对所述第一识别结果进行优化,其中,所述优化包括新增匹配关系和/或新增问题样本中的至少一种,其中,所述新增匹配关系包括新增特殊问题样本与实体的匹配关系。4.根据权利要求2所述的方法,其中,获取所述问题样本数据集的方法包括:对所述待查询问题样本进行预处理,获取所述问题样本数据集,其中,所述预处理包括对所述待查...

【专利技术属性】
技术研发人员:张斯纯邱琳丁浩许佳玮
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1