System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() HiveQL的优化方法、装置、设备、介质及产品制造方法及图纸_技高网

HiveQL的优化方法、装置、设备、介质及产品制造方法及图纸

技术编号:44814459 阅读:1 留言:0更新日期:2025-03-28 20:01
本申请实施例本申请提供一种HiveQL的优化方法、装置、设备、介质及产品,涉及大数据领域。该方法包括:采用诊断模型以及预设的复杂度指标,对HiveQL语句的复杂度进行分析,得到复杂度分析结果;基于HiveQL语句以及复杂度分析结果,对作业参数进行优化,得到优化后的作业参数;基于复杂度分析结果,历史慢语句优化集合,历史重写优化规则集合,语句开发规范集合,采用诊断模型以及语句优化模型对所述HiveQL语句进行优化处理,得到优化后的HiveQL语句,其中,语句优化模型是预先训练用于根据自然语言描述内容对HiveQL语句进行修改处理的模型。本申请的方法,提高了HiveQL优化效率,降低了用户优化门槛。

【技术实现步骤摘要】

本申请涉及大数据领域,尤其涉及一种hiveql的优化方法、装置、设备、介质及产品。


技术介绍

1、随着大数据技术的快速发展,hive作为一种基于hadoop文件系统的数据仓库工具,在数据查询和分析处理领域得到了广泛应用,用户能够根据其提供的hive查询语言(hive query language,hiveql),对存储在文件系统上的文件进行查询与分析。

2、在现有技术中,一般是由开发人员基于经验规则或采取手动日志分析的方式,对hiveql的性能进行优化,以应对因存在的性能问题hiveql任务,而导致的任务查询效率低下,以及集群资源的浪费的问题。然而,现有技术的方法不仅对hiveql的性能优化效率低,还存在优化门槛高的问题。


技术实现思路

1、本申请提供一种hiveql的优化方法、装置、设备、介质及产品,用以解决hiveql任务的性能优化效率低,优化门槛高的问题。

2、第一方面,本申请提供一种hiveql的优化方法,包括:

3、接收终端设备发送的hiveql任务的作业参数和hiveql语句;

4、采用诊断模型以及预设的复杂度指标,对所述hiveql语句的复杂度进行分析,得到复杂度分析结果,所述诊断模型中包括多个用于对hiveql语句进行不同维度诊断子模型;

5、基于所述hiveql语句以及所述复杂度分析结果,对所述作业参数进行优化,得到优化后的作业参数;

6、基于所述复杂度分析结果,历史慢语句优化集合,历史重写优化规则集合,语句开发规范集合,采用所述诊断模型以及语句优化模型对所述hiveql语句进行优化处理,得到优化后的hiveql语句,所述语句优化模型是预先训练用于根据自然语言描述内容对hiveql语句进行修改处理的模型;

7、将所述优化后的作业参数以及所述优化后的hiveql语句返回所述终端设备。

8、第二方面,本申请提供一种hiveql的优化装置,包括:

9、接收模块,用于接收终端设备发送的hiveql任务的作业参数和hiveql语句;

10、分析模块,用于采用诊断模型以及预设的复杂度指标,对所述hiveql语句的复杂度进行分析,得到复杂度分析结果,所述诊断模型中包括多个用于对hiveql语句进行不同维度诊断子模型;

11、第一优化模块,用于基于所述hiveql语句以及所述复杂度分析结果,对所述作业参数进行优化,得到优化后的作业参数;

12、第二优化模块,用于基于所述复杂度分析结果,历史慢语句优化集合,历史重写优化规则集合,语句开发规范集合,采用所述诊断模型以及语句优化模型对所述hiveql语句进行优化处理,得到优化后的hiveql语句,所述语句优化模型是预先训练用于根据自然语言描述内容对hiveql语句进行修改处理的模型;

13、返回模块,用于将所述优化后的作业参数以及所述优化后的hiveql语句返回所述终端设备。

14、第三方面,本申请提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;

15、所述存储器存储计算机执行指令;

16、所述处理器执行所述存储器存储的计算机执行指令,以实现第一方面的hiveql的优化方法。

17、第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现实现第一方面的hiveql的优化方法。

18、第五方面,本申请提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现权利第一方面的hiveql的优化方法。

19、本申请提供的hiveql的优化方法、装置、设备、介质及产品,通过接收终端设备发送的hiveql任务的作业参数和hiveql语句;采用诊断模型以及预设的复杂度指标,对hiveql语句的复杂度进行分析,得到复杂度分析结果,其中,诊断模型中包括多个用于对hiveql语句进行不同维度诊断子模型;基于hiveql语句以及复杂度分析结果,对所述作业参数进行优化,得到优化后的作业参数;基于复杂度分析结果,历史慢语句优化集合,历史重写优化规则集合,语句开发规范集合,采用诊断模型以及语句优化模型对所述hiveql语句进行优化处理,得到优化后的hiveql语句,其中,语句优化模型是预先训练用于根据自然语言描述内容对hiveql语句进行修改处理的模型;将优化后的作业参数以及优化后的hiveql语句返回所述终端设备手段,实现提高hiveql优化效率,降低用户优化门槛的技术效果。

本文档来自技高网...

【技术保护点】

1.一种HiveQL的优化方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述HiveQL语句以及所述复杂度分析结果,对所述作业参数进行优化,得到优化后的作业参数,包括:

3.根据权利要求1所述的方法,其特征在于,所述历史慢语句优化集合中包括基于历史数据分析获取到的产生慢查询结果的多个慢HiveQL语句,以及每个HiveQL语句对应的自然语言描述的代码优化逻辑以及修改后的代码;

4.根据权利要求3所述的方法,其特征在于,所述历史重写优化规则集合中包括基于历史数据分析获取到的多个语句优化规则以及每个语句优化规则对应的自然语言描述的代码重写逻辑;

5.根据权利要求4所述的方法,其特征在于,所述语句开发规范集合中包括:采用自然语言描述的库名、表名、字段名、表分区设置、视图命名、变量命名中的至少一个的规范要求,和/或,对hiveQL代码开发的强制要求;

6.根据权利要求1至5任一项所述的方法,其特征在于,所述复杂度指标包括:复杂操作关键词数量、嵌套层数、JOIN操作类型。

7.根据权利要求6所述的方法,其特征在于,所述采用诊断模型以及预设的复杂度指标,对所述HiveQL语句的复杂度进行分析,得到复杂度分析结果,包括:

8.一种HiveQL的优化装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至7任一项所述的方法。

11.一种计算机程序产品,其特征在于,包括计算机程序,该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。

...

【技术特征摘要】

1.一种hiveql的优化方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述hiveql语句以及所述复杂度分析结果,对所述作业参数进行优化,得到优化后的作业参数,包括:

3.根据权利要求1所述的方法,其特征在于,所述历史慢语句优化集合中包括基于历史数据分析获取到的产生慢查询结果的多个慢hiveql语句,以及每个hiveql语句对应的自然语言描述的代码优化逻辑以及修改后的代码;

4.根据权利要求3所述的方法,其特征在于,所述历史重写优化规则集合中包括基于历史数据分析获取到的多个语句优化规则以及每个语句优化规则对应的自然语言描述的代码重写逻辑;

5.根据权利要求4所述的方法,其特征在于,所述语句开发规范集合中包括:采用自然语言描述的库名、表名、字段名、表分区设置、视图命名、变量命名中的至少一个的规范要求,和/或...

【专利技术属性】
技术研发人员:周千裕
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1