一种相似代码检测方法及装置、电子设备、存储介质制造方法及图纸

技术编号：31021306 阅读：25 留言：0更新日期：2021-11-30 03:10

本发明专利技术公开了一种相似代码检测方法及装置、电子设备、存储介质，所述方法包括：获取待检测的代码片段对；利用词嵌入技术，将所述代码片段对转换成包含语义信息的特征向量对；将所述特征向量对输入到训练好的集成学习分类器中，得到检测结果。所述训练好的集成学习分类器的训练过程包括：获取具有已知类别标签的代码片段对的相似数据集和不相似数据集；利用词嵌入技术，将所述相似数据集和不相似数据集的代码片段转换成包含语义信息的特征向量，得到对应的相似特征集和不相似特征集；利用过采样技术，对所述不相似特征集进行扩增；将所述相似特征集与扩增后的不相似特征集作为训练集，输入集成学习分类器进行训练。输入集成学习分类器进行训练。

全部详细技术资料下载

【技术实现步骤摘要】
一种相似代码检测方法及装置、电子设备、存储介质

[0001]本申请涉及软件工程领域，尤其涉及一种相似代码检测方法及装置、电子设备、存储介质。

技术介绍

[0002]软件开发人员经常参照已有代码来实现类似功能，或者直接通过复制粘贴来“复用”代码，这样会产生很多语义和功能上相似的代码。尽管这种重用代码的方式某种程度上能提高开发效率，但是代码克隆却导致了软件bug的扩散，维护难度加大，甚至有许可违规的风险。随着软件系统规模越来越大也越来越复杂，相似代码检测在软件的维护和发展过程中变得愈加重要。通常，相似代码可以根据相似程度分为四种不同的类型：
[0003]1)Type1型。除了注释和布局之外，两个代码片段完全相同。
[0004]2)Type2型。除了Type
‑
1型差异之外，两个代码片段在标识符名称和字面常量值方面也不同。
[0005]3)Type3型。除了Type
‑
1和Type
‑
2型差异之外，这两个代码片段还添加，修改和删除了相关的语句。换句话说，它们在语法层面上是相似的。
[0006]4)Type4型。两个代码片段实现相同的功能，但在语法上不相似。
[0007]研究已经提出了一些相似代码检测的方法和工具，这些工具主要可分为三大类：基于文本、基于标记以及基于树。NICAD是一种基于文本的相似代码检测方法。CCFinder和SourcererCC是两个著名的基于标记的相似代码检测方法。DECKARD是一个基于树的相似代码检测工...

【技术保护点】

【技术特征摘要】
1.一种相似代码检测方法，其特征在于，包括：获取待检测的代码片段对；利用词嵌入技术，将所述代码片段对转换成包含语义信息的特征向量对；将所述特征向量对输入到训练好的集成学习分类器中，得到检测结果。2.根据权利要求1所述的一种相似代码检测方法，其特征在于，利用词嵌入技术，将所述代码片段对转换成包含语义信息的特征向量对，包括：将所述代码片段对中的每个代码片段输入到所述词嵌入技术的模型中；根据所述模型的最大化目标函数，分别计算得到所述代码片段中的单词的词义向量；分别对代码片段包含的所有单词的词义向量取均值，得到所述代码片段的特征向量，从而得到所述代码片段对相对应的特征向量对。3.根据权利要求1所述的一种相似代码检测方法，其特征在于，训练好的集成学习分类器的训练过程包括：获取具有已知类别标签的代码片段对的相似数据集和不相似数据集；利用词嵌入技术，将所述相似数据集和不相似数据集的代码片段转换成包含语义信息的特征向量，得到对应的相似特征集和不相似特征集；利用过采样技术，对所述不相似特征集进行扩增；将所述相似特征集与扩增后的不相似特征集作为训练集，输入集成学习分类器进行训练。4.根据权利要求3所述的一种相似代码检测方法，其特征在于，利用词嵌入技术，对所述相似数据集和不相似数据集的代码片段转换成包含语义信息的特征向量，得到对应的相似特征集和不相似特征集，包括：将所述相似数据集和不相似数据集的代码片段输入到所述词嵌入技术的模型中；根据所述模型的最大化目标函数，计算得到所述代码片段中的单词的词义向量；对代码片段包含的所有单词的词义向量取均值，得到所述代码片段的特征向量；根据所述相似数据集和不相似数据集的所有代码片段的特征向量，得到对应的相似特征集和不相似特征集。5.根据权利要求3所述的一种相似代码检测方法，其特征在于，利用过采样技术，对所述不相似特征集进行扩增，包括：设置所述不相似特征集数据量占所述相似特征集...

【专利技术属性】
技术研发人员：杨昕立，吕何新，戴过勇，阮越，
申请(专利权)人：浙江树人学院浙江树人大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人