一种注入最优模式项和历史交互信息的SQL生成方法技术

技术编号：39416407 阅读：11 留言：0更新日期：2023-11-19 16:07

本发明专利技术公开一种注入最优模式项和历史交互信息的SQL生成方法，应用于自然语言处理的语义解析领域，针对现有技术难以解决跨领域的复杂中文自然语言生成结构化语言SQL的实际商业智能场景应用的问题；本发明专利技术通过预筛选的交叉编码器将与中文自然语言查询相关性较大的最优模式项注入到模型中；然后，使用用户的历史查询简化分步用户的复杂查询；最后，提出了完整的SQL结构预测模型，从根节点root开始以深度优先顺序生成结点序列，融合上一时刻的特征、父结点特征、上下文特征、结点类型特征，最大化自然语言问题所对应正确SQL语句的概率值，生成SQL抽象语法树，再按深度遍历SQL语法树，生成最终的SQL语句。生成最终的SQL语句。生成最终的SQL语句。

全部详细技术资料下载

【技术实现步骤摘要】
一种注入最优模式项和历史交互信息的SQL生成方法

[0001]本专利技术属于自然语言处理的语义解析领域，特别涉及一种将自然语言转换为结构化的SQL语句的技术。

技术介绍

[0002]语义解析是一项将自然语言查询映射为相应的机器可执行逻辑形式的任务，将复杂的自然语言转化为SQL(Structured Query Language，结构化查询语言)语句，是语义解析的一个分支，旨在打破非技术人员和数据库之间的壁垒，缩短用户和数据库之间的距离。随着大型的跨域的数据集Spider以及WikiSQL的提出，大大的推动了自然语言转SQL的研究，以上推出的数据集都是基于英文的，通过竞赛发布中文特色数据集TableQA,DuSQL以及翻译英文数据集CSpider大力推动SQL生成技术在中文场景下的发展以及落地。
[0003]但目前的研究成果和工作并不能使这项技术真正的用于实际的落地场景中，面临的问题有：(1)中文自然语言的口语形式的复杂查询使机器很难理解用户真实的查询意图。(2)实际落地的应用场景中设计的数据库规模可能很大，导致无法将信息完全输入到模型中。(3)数据库结构的变化导致性能下降。
[0004]早期的研究大多为了全面的掌握数据库包含的信息将数据库包含的所有信息都输入到模型中，并且没有考虑到实际应用场景中，用户难以以一句话表达出正确的查询意图，这使得生成复杂的SQL语句生成困难。

技术实现思路

[0005]为解决跨领域的复杂中文自然语言生成结构化语言SQL的实际商业智能场景应用的问题；本专利技术...

【技术保护点】

【技术特征摘要】
1.一种注入最优模式项和历史交互信息的SQL生成方法，其特征在于，包括：S1、预筛选交叉编码器，根据输入的自然语言查询和相应的数据库模式项，计算出与自然语言查询最相关的模式项；S2、融入历史交互信息的SQL编码模块，根据预筛选交叉编码器输出的最优模式项和用户的历史交互信息，构建自然语言与历史查询的交互图，并对得到的交互图进行编码；S3、基于SQL结构预测模型对步骤S2的编码结果进行解码。2.根据权利要求1所述的一种注入最优模式项和历史交互信息的SQL生成方法，其特征在于，步骤S1具体包括：S11、对输入的自然语言查询中的数值项进行规范化处理，对数据库模式项采用语义名称进行替换；S12、将经步骤S11处理后的自然语言查询和数据库模式项进行拼接后输入跨语言预训练模型，得到被分词的模式项的隐藏状态的编码表示；将被分词的模式项的隐藏状态的编码表示采用BiLSTM进行池化，将每个模式项表示为一个整体嵌入，池化处理后的结果输入一层非线性的全连接层，得到表嵌入，列嵌入；S13、通过堆叠多头缩放点积注意层将列嵌入信息注入到表嵌入中，并增加一个特征融合层得到列嵌入信息增强的表嵌入；S14、采用两个不同的多层感知机模块对列嵌入和增强的表嵌入分别进行分类任务，计算出自然语言对不同的列和表的相关概率；根据自然语言对不同的列和表的相关概率筛选概率最高的k1个表以及k2个概率最相关的列，得到最优的模式项。3.根据权利要求2所述的一种注入最优模式项和历史交互信息的SQL生成方法，其特征在于，步骤S11所述对数据库模式项采用语义名称进行替换，具体为：遍历数据库中的数据表以及表中具体的列名，对于数据表使用注释还原数据表的真实语义名称，对于数据列使用数据表的信息和列注释还原真实的语义名称。4.根据权利要求3所述的一种注入最优模式项和历史交互信息的SQL生成方法，其特征在于，步骤S2具体包括：S21、根据优模式项和历史查询得到自然语言和数据库模式项的初始编码向量；S22、将自然语言和数据库模式被处理为节点，自然语言查询和数据库模式项之间的链接或关系处理为边，构建的初步交互图；S23、通过拼接交互图中所有边的特征，设置键关系和值关系S24、将经步骤S23处理的异构图按照关系图注意力变换器进行编码，得到最终的关系编码X
encode
。5.根据权利要求4所述...

【专利技术属性】
技术研发人员：雷思情，桑楠，李贞昊，唐思佳，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人