一种将查询数据的人类自然语言自动生成sql语句的方法技术

技术编号：24613388 阅读：43 留言：0更新日期：2020-06-24 01:05

本发明专利技术公开了一种将查询数据的人类自然语言转为sql语句的方法。用户输入自然语句，对语句进行分词及去除停用词，然后进行自动表名解析，如果能获取表名则对分词并去掉停用词后的自然语言与获取到的表名做进一步处理，否则经过模糊匹配后反馈提示信息；获取表名后，根据元数据信息，判断是否多表关联，是则根据关联规则进行查询条件处理，否则直接进行单表查询条件处理；查询条件处理中分别对自然语言进行时间解析处理，并根据元数据信息进行查询字段解析、判断条件解析、级联查询解析、查询聚合解析处理；最后生成查询sql。本发明专利技术不需要人员对数据进行标注，减少人力资源的投入，降低人工成本的开支，解决机器学习导致的系统不可复用问题。

A method of automatically generating SQL statements by human natural language

全部详细技术资料下载

【技术实现步骤摘要】
一种将查询数据的人类自然语言自动生成sql语句的方法
本专利技术涉及自然语言处理领域，尤其涉及一种将查询数据的人类自然语言自动生成sql语句的方法。
技术介绍
随着国家经济的发展，越来越多的系统投入使用，产生了大量数据。当非专业用户想浏览数据时，传统方式通常是将数据提前用图表的形式展现出来，并不能进行自由的查询浏览数据。目前市面上的语义转sql方式，通常是通过机器学习，采集大量的标注信息，通过长时间的学习以进行sql语句生成。这中间过程需要人员对大量数据进行标注，并且当新数据或者新系统接入时，通常也会再次进行标注以及进行长时间的机器学习，存在训练时间不可控、系统不可复用等问题。
技术实现思路
本专利技术的目的在于，针对上述问题，提出一种将查询数据的人类自然语言自动生成sql语句的方法，该方法不需要人员对数据进行标注，解决机器学习导致的系统不可复用问题。一种将查询数据的人类自然语言自动生成sql语句的方法，包括以下步骤：S1：用户输入查询数据的自然语句，对所述自然语句进行分词；S2：将分词后的自然语句去掉停用词，并识别标注名词和否定词；S3：对名词进行规则拼接，并与构建好的表名元数据信息进行匹配，获取对应表名，如果能获取则进入步骤S4，不能获取则进入步骤S5；S4：对分词并去掉停用词后的自然语言与获取到的表名做SQL生成处理；S41：根据表的元数据信息，判断获得的表是否有多表关联，是则对分词并去掉停用词后的自然语言根据关联嵌套规则进行条件解析，否则直接进行单表...

【技术保护点】
1.一种将查询数据的人类自然语言自动生成sql语句的方法，其特征在于，包括以下步骤：/nS1：用户输入查询数据的自然语句，对所述自然语句进行分词；/nS2：将分词后的自然语句去掉停用词，并识别标注名词和否定词；/nS3：对名词进行规则拼接，并与构建好的表名元数据信息进行匹配，获取对应表名，如果能获取则进入步骤S4，不能获取则进入步骤S5；/nS4：对分词并去掉停用词后的自然语言与获取到的表名做SQL生成处理；/nS41：根据表的元数据信息，判断获得的表是否有多表关联，是则对分词并去掉停用词后的自然语言根据关联嵌套规则进行条件解析，否则直接进行单表查询条件解析；/nS42：对自然语言进行时间数据解析；/nS43：对时间处理后的自然语言进行聚合查询条件解析；/nS44：对S2中标注的名词，根据元数据信息，进行查询字段和查询条件字段解析；根据S2中标注获得的否定词，对查询判断条件进行解析；/nS45：对查询聚合信息进行解析；/nS46：根据表名、字段名、查询条件字段和查询判断条件、聚合信息组装生成sql语句；/nS5：对用户输入的自然语言进行模糊查询；/nS51：判断是否存在匹配的表名，若没...

【技术特征摘要】
1.一种将查询数据的人类自然语言自动生成sql语句的方法，其特征在于，包括以下步骤：
S1：用户输入查询数据的自然语句，对所述自然语句进行分词；
S2：将分词后的自然语句去掉停用词，并识别标注名词和否定词；
S3：对名词进行规则拼接，并与构建好的表名元数据信息进行匹配，获取对应表名，如果能获取则进入步骤S4，不能获取则进入步骤S5；
S4：对分词并去掉停用词后的自然语言与获取到的表名做SQL生成处理；
S41：根据表的元数据信息，判断获得的表是否有多表关联，是则对分词并去掉停用词后的自然语言根据关联嵌套规则进行条件解析，否则直接进行单表查询条件解析；
S42：对自然语言进行时间数据解析；
S43：对时间处理后的自然语言进行聚合查询条件解析；
S44：对S2中标注的名词，根据元数据信息，进行查询字段和查询条件字段解析；根据S2中标注获得的否定词，对查询判断条件进行解析；
S45：对查询聚合信息进行解析；
S46：根据表名、字段名、查询条件字段和查询判断条件、聚合信息组装生成sql语句；
S5：对用户输入的自然语言进行模糊查询；
S51：判断是否存在匹配的表名，若没有匹配的表名，则进入反馈提问流程。

2.根据权利要求1所述的一种将查询数据的人类自然语言自动生成sql语句的方法，其特征在于，所述停用词不包含否定词。

3...

【专利技术属性】
技术研发人员：刘科，
申请(专利权)人：成都海天数联科技有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人