一种SQL代码相似度分析方法及系统技术方案

技术编号：32165589 阅读：24 留言：0更新日期：2022-02-08 15:19

本发明专利技术公开了一种SQL代码相似度分析方法及系统，该系统包括：提取模块，用于提取SQL代码中的结构性代码、表代码对应的表中文名和字段代码对应的字段中文名；排序模块，用于对表中文名从高到底进行排序，以及对字段中文名进行排序；空间向量计算模块，用于计算每一个重要中文名的向量，然后计算SQL代码的空间向量；分析模块，用于计算两个空间向量的余弦距离。本发明专利技术通过分析SQL代码之间的语义相似度，可以解决开发过程中重复劳动问题，提高开发效率和开发质量。和开发质量。和开发质量。

全部详细技术资料下载

【技术实现步骤摘要】
一种SQL代码相似度分析方法及系统

[0001]本专利技术涉及大数据智能化
，特别是一种SQL代码相似度分析方法及系统。

技术介绍

[0002]SQL是一门ANSI的标准计算机结构化查询语言，用来访问和操作各类数据库系统。SQL代码包含了丰富的业务信息，即数据的加工口径。由于SQL的展现形式通常比较复杂，不具有明显的特征，从事SQL开发的开发人员会有非常多的重复劳动。自己以前写的、同事写的、系统现成的代码中可能有当前开发需要的SQL代码，但是开发人员缺乏将这些代码简单检索出来的途径，只能重新写。

技术实现思路

[0003]本专利技术为解决上述问题，提供了一种SQL代码相似度分析方法及系统，通过分析SQL代码之间的语义相似度，可以解决开发过程中重复劳动问题，提高开发效率和开发质量。
[0004]为实现上述目的，本专利技术采用的技术方案为：
[0005]一种SQL代码相似度分析系统，包括：提取模块，用于提取SQL代码中的结构性代码、表代码对应的表中文名和字段代码对应的字段中文名；排序模块，用于根据所述表代码在所述SQL代码中的重要性对所述表代码对应的表中文名从高到底进行排序，以及根据所述字段代码对所述表代码对应的所述字段中文名从高到底进行排序；空间向量计算模块，用于计算每一个重要中文名的向量，然后根据所述结构性代码的向量和所述重要中文名的向量计算所述SQL代码的空间向量，所述重要中文名包括排名靠前的CM_N个所述表中文名和排名靠前的CM_N个所述字段中文名；分析模块，用于计算两个所述...

【技术保护点】

【技术特征摘要】
1.一种SQL代码相似度分析系统，其特征在于，包括：提取模块，用于提取SQL代码中的结构性代码、表代码对应的表中文名和字段代码对应的字段中文名；排序模块，用于根据所述表代码在所述SQL代码中的重要性对所述表代码对应的表中文名从高到底进行排序，以及根据所述字段代码对所述表代码对应的所述字段中文名从高到底进行排序；空间向量计算模块，用于计算每一个重要中文名的向量，然后根据所述结构性代码的向量和所述重要中文名的向量计算所述SQL代码的空间向量，所述重要中文名包括排名靠前的CM_N个所述表中文名和排名靠前的CM_N个所述字段中文名；分析模块，用于计算两个所述空间向量的余弦距离。2.根据权利要求1所述的SQL代码相似度分析系统，其特征在于，还包括：分词模块，用于对每一个所述重要中文名进行分词，得到词语；所述空间向量计算模块根据所述词语的词向量计算每一个所述重要中文名的向量。3.根据权利要求2所述的SQL代码相似度分析系统，其特征在于，所述词语的词向量为通过word2vec模型预训练得到的V_N维向量，所述word2vec模型通过基于历史SQL脚本建立的语料库训练得到。4.根据权利要求1所述的SQL代码相似度分析系统，其特征在于，还包括优化模块，用于将所述SQL代码补充完整。5.根据权利要求1所述的SQL代码相似度分析系统，其特征在于，所述空间向量为所述结构性代码的向量和所述重要...

【专利技术属性】
技术研发人员：郭晨皓，李龙权，汲浩，蒋天榕，胡涛，唐雁南，
申请(专利权)人：厦门国际银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人