NL2SQL建模的方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35897751 阅读:15 留言:0更新日期:2022-12-10 10:32
本发明专利技术涉及一种NL2SQL建模的方法、装置、电子设备及存储介质,NL2SQL建模的方法包括步骤:S1、数据处理,对数据处理后生成海量无标注样本,采用UDA技术实现标注训练样本数据集;S2、NL

【技术实现步骤摘要】
NL2SQL建模的方法、装置、电子设备及存储介质


[0001]本专利技术涉及自然语言处理语义解析领域,具体而言,涉及一种基于无监督域适应技术和蝙蝠算法优化的NL2SQL(Natural Language to Structured Query Language,自然语言转化为结构化查询语言)建模的方法、装置、电子设备及存储介质。

技术介绍

[0002]伴随5G和人工智能技术的不断发展,电信/移动通信运营商作为现代综合信息服务提供商,在云改数转的引领下,其各产品线的智能客服也快速的更新。针对智能客服的自然语言(Natural Language,NL)数据来说,运营人员可能不是数据领域的技术人员,通过NL对数据库进行访问查询,能够很好的提高智能客服的运营效率,目前这也成为人工智能和智能客服领域相结合的热点研究之一。目前大数据的建模技术多聚焦于机器学习和深度学习等技术,使用的门槛较高,不适合非专业运营人员的使用。
[0003]面向智能客服的NL生成SQL(Natural Language to Structured Query Language,NL
‑2‑
SQL,自然语言转化为结构化查询语言)数据建模技术能让非专业运营人员通过语音与数据库进行交互,降低数据库查询的门槛,大大提高运营的效率。
[0004]在深度学习技术的深入研究下,基于监督学习模型的NL

to

SQL(NL2SQL)数据建模技术在NLP领域取得很大的成功,但是监督学习需要依赖大量的人工标注数据,同时模型会存在虚假关联,泛化错误,对抗性攻击等问题。此外,一种基于树状模型的复杂自然语言查询转SQL方法(专利号:202110183393.4),基于语言模型编码和多任务解码的SQL转换方法及系统(专利号:202110505064.7)等专利均需要大规模标注样本数据进行模型训练,在真实学习任务中,数据标注通常需要人工参与和相关的专业知识,耗时耗力,代价高昂;此外,学习模型对新环境和新任务的适应能力弱,当面对与训练场景不同的学习环境时,需对新数据进行标注,并重新训练学习模型。
[0005]因此,亟需开发一种适合非专业运营人员使用、无需大规模标注样本数据进行模型训练、对新环境和新任务适应能力强的建模方法。

技术实现思路

[0006]本专利技术要解决的技术问题是如何实现一种适合非专业运营人员使用,且无需大规模标注样本数据进行模型训练、对新环境和新任务适应能力强的建模方法,从而降低运营人员数据库查询的门槛,提高运营的效率。
[0007]为解决上述技术问题,根据本专利技术的一个方面,提供一种NL2SQL建模的方法,包括如下步骤:S1、数据处理,数据为产品运营数据,对数据处理后,生成海量无标注样本,进而通过预设查询SQL范式样板,采用无监督域适应(Unsupervised Domain Adaptation,UDA)技术实现标注训练样本数据集;S2、NL

to

SQL模型训练,对获取的自然语言样本进行样本数据训练,生成结构化查询语言模型,模型包括权重层和激活层,采用TernaryBERT模型(Ternary Bidirectional Encoder Representation from Transformers,三值化BERT,是
一个预训练的语言表征模型)对权重层和激活层进行量化;S3、模型压缩及生成模块,为弥补由于TernaryBERT模型在包括智能客服业务咨询的任务上由于量化过度导致效果不足,采用预训练知识蒸馏方式对模型进一步压缩处理,同时,为防止蒸馏结构网络权重的陷入局部最优值,采用蝙蝠算法进行参数训练和智能搜索,找到最优的蒸馏网络结构;S4、对话管理,经TernaryBERT模型训练和PKD模型压缩后,进行预处理,再将模型融合预设的SQL范式,关联和生成完整的数据库查询SQL,进而和智能客服界面进行交互,实现对话管理应用。
[0008]根据本专利技术的实施例,S1步骤中产品运营数据可包括来电名片和挂机短信,对数据处理方式包括进行分词、去除停用词、替换英文标点、构建问答数据集、构建句向量索引数据库,进而生成的海量无标注样本。
[0009]根据本专利技术的实施例,S2步骤中NL

to

SQL模型训练可用TernaryBERT模型,该模型对权重层量化和激活层量化,其中,权重层可包含线性层与Embedding层,线性层与Embedding层参数占TernaryBERT模型总参数的绝大部分,因而TernaryBERT模型对线性层与Embedding层进行较为彻底的量化;其中,在激活层的量化中,可采用8bit的对称与非对称方法进行量化。
[0010]进一步地,在激活层量化中,实际的推理过程中,矩阵乘法可由32bit的浮点数运算变为int8的整形运算,达到加速的目标;该模型实现仅占BERT模型的6.7%的参数情况下达到和全精度模型相当的性能。
[0011]根据本专利技术的实施例,S3步骤中预训练知识蒸馏可采用PKD

Last和PKD

Skip两种策略从“teacher”模型的隐含层中抽取隐藏知识,彻底消除“student”模型模仿“teacher”模型的输出,其中,PKD

Last策略是使用“teacher”模型的最后k层中蕴含的知识;PKD

Skip策略是将“teacher”模型中每k层中的知识进行抽取和蒸馏。
[0012]根据本专利技术的实施例,S3步骤中可用蝙蝠算法进行参数训练和智能搜索,找到最优的蒸馏网络结构,可包括如下步骤:S31、将网络编码向量输入训练好的结构生成器,生成对应蒸馏网络的权重,在验证集上对蒸馏网络进行评估,获得对应蒸馏网络的精度;S32、为了搜索出满足特定约束条件的最高精度的蒸馏网络,采用蝙蝠算法搜索满足特定约束条件的精度最高的蒸馏结构模型,其中,特定约束条件包括浮点数运算次数。
[0013]根据本专利技术的实施例,S4步骤中预处理可包括实现命名实体识别、错别字纠错、用户情绪分析的处理。
[0014]根据本专利技术的第二个方面,提供一种NL2SQL建模的装置,包括:
[0015]海量数据处理模块,海量数据处理模块训练样本数据,采用UDA技术方案实现自监督样本数据学习,UDA用于在借助带少量标注数据的源域帮助无任何标注信息的目标域学习,从而迁移学习技术,实现低成本的获取标注数据;NL

to

SQL模型训练模块,NL

to

SQL模型训练模块基于TernaryBERT网络模型,实现包括对网络权重层量化和激活层量化的核心技术方案;模型压缩及生成模块,模型压缩及生成模块采用PKD模型压缩算法,使用PKD

Last和PKD

Skip两种策略从“teacher”模型的隐含层中抽取隐本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种NL2SQL建模的方法,所述NL2SQL建模方法基于无监督域适应(UDA)技术和蝙蝠算法优化实现,所述方法包括如下步骤:S1、数据处理,所述数据为产品运营数据,对所述数据处理后,生成海量无标注样本,进而通过预设查询SQL范式样板,采用UDA技术实现标注训练样本数据集;S2、NL

to

SQL模型训练,对获取的自然语言样本进行样本数据训练,生成结构化查询语言模型,所述模型包括权重层和激活层,采用TernaryBERT模型对所述权重层和激活层进行量化;S3、模型压缩及生成模块,为弥补由于TernaryBERT模型在包括智能客服业务咨询的任务上由于量化过度导致效果不足,采用预训练知识蒸馏方式对所述模型进一步压缩处理,同时,为防止蒸馏结构网络权重的陷入局部最优值,采用蝙蝠算法进行参数训练和智能搜索,找到最优的蒸馏网络结构;S4、对话管理,经TernaryBERT模型训练和PKD模型压缩后,进行预处理,再将所述模型融合预设的SQL范式,关联和生成完整的数据库查询SQL,进而和智能客服界面进行交互,实现对话管理应用。2.如权利要求1所述的方法,其中,S1步骤中所述产品运营数据包括来电名片和挂机短信,对所述数据处理方式包括进行分词、去除停用词、替换英文标点、构建问答数据集、构建句向量索引数据库,进而生成的海量无标注样本。3.如权利要求1所述的方法,其中,S2步骤中所述NL

to

SQL模型训练采用TernaryBERT模型,该模型对权重层量化和激活层量化,其中,所述权重层包含线性层与Embedding层,所述线性层与Embedding层参数占所述TernaryBERT模型总参数的绝大部分,因而所述TernaryBERT模型对所述线性层与Embedding层进行较为彻底的量化;其中,在所述激活层的量化中,采用8bit的对称与非对称方法进行量化。4.如权利要求3所述的方法,其中,在所述激活层量化中,实际的推理过程中,矩阵乘法由32bit的浮点数运算变为int8的整形运算,达到加速的目标;该模型实现仅占BERT模型的6.7%的参数情况下达到和全精度模型相当的性能。5.如权利要求1所述的方法,其中,S3步骤中所述预训练知识蒸馏采用PKD

Last和PKD

Skip两种策略从“teacher”模型的隐含层中抽取隐藏知识,彻底消除“student”模型模仿“teacher”模型的输出,其中,所述PKD

Last策略是使用“teacher”模型的最后k层中蕴含的知识;所...

【专利技术属性】
技术研发人员:周晓辉王华超
申请(专利权)人:号百信息服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1