一种基于串匹配和特征匹配的开源代码检测方法技术

技术编号：19857304 阅读：27 留言：0更新日期：2018-12-22 11:39

本发明专利技术提出了一种基于串匹配和特征匹配的开源代码检测方法，用于检测混源软件中的开源代码，从而有助于开发者进一步的重用与再开发。该方法综合了属性计数法和结构度量法各自的优缺点，首先通过特征匹配的方式来缩小数据库的搜索空间，然后依据token串的方式，基于字符串匹配算法的思想，来匹配出最大公共子串，从而在应用于大规模软件开发项目的开源代码检测时，使匹配时间和内存消耗得到进一步优化。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于串匹配和特征匹配的开源代码检测方法
本专利技术涉及一种检测方法，具体涉及一种基于串匹配和特征匹配的开源代码检测方法，属于模式匹配和数据挖掘

技术介绍
随着开源代码的日益增长，对开源代码的检测技术研究越来越多，在现有技术中，相关的方法如下：1.基于文本的比较，其将程序划分成字符串，通过比较字符串来查找重复的字符串序列，这种方法的优点是匹配与具体语言无关，实现简单方便，具有很强的灵活性和适应性，缺点是这种简单的行匹配方法检测空间巨大，对大型系统适应有限。同时，当代码有细微改变时，这种技术就检测不出来了，也就是说它只能检测出完全一致的代码。2.基于参数化匹配的检测技术，其主要思想是抓住程序中固定不变的内容，例如运算符、表达式等。其优点就是解决了变量名不同的代码重复性检测问题，而缺点在于它将代码拆分，从而使得被检测到的重复代码块很小，同时其空间复杂度也过高。3.基于抽象语法树的方法对语言进行语法分析，建立完整的抽象语法树，应用标准算法检测重复子树。考虑到大型软件系统中可能存在着大量的子树，搜索空间会非常大，因此采用了hash容器存放所有的子树，并只对hash容器进行比较。与基于文本的方法类似，基于抽象语法树的检测技术对细微修改过的重复代码的检测效果不够理想。由此产生了。4.基于依赖图(PDG)中同构子图检测重复代码的方法，虽然这种方法能够检测出重新排序后的代码，但是该方法的算法时间复杂度高达O(n4),依旧不适合应用于大型软件的检测。因此，迫切的需要一种新的方案解决该技术问题。
技术实现思路
为了提高代码匹配在大型软件项目中的匹配速度，本专利技术运用...

【技术保护点】
1.一种基于串匹配和特征匹配的开源代码检测方法，其特征在于，所述方法包括以下步骤：步骤一：代码特征提取；步骤二：基于特征匹配的开源代码检测；步骤三：基于串匹配的开源代码检测。

【技术特征摘要】
1.一种基于串匹配和特征匹配的开源代码检测方法，其特征在于，所述方法包括以下步骤：步骤一：代码特征提取；步骤二：基于特征匹配的开源代码检测；步骤三：基于串匹配的开源代码检测。2.根据权利要求1所述的基于串匹配和特征匹配的开源代码检测方法，其特征在于，所述步骤一：代码特征提取，具体操作如下，获取源代码文件、解析源代码文件、将源代码文件依据函数进行切分、提取相应代码文件中的统计特征和函数级别的结构特征、将相应的基本统计特征存入相应代码文件的特征库中。3.根据权利要求2所述的基于串匹配和特征匹配的开源代码检测方法，其特征在于，所述步骤一的获取源代码文件包括从开源代码库中获取源代码文件。4.根据权利要求3所述的基于串匹配和特征匹配的开源代码检测方法，其特征在于，所述步骤二基于特征匹配的开源...

【专利技术属性】
技术研发人员：李必信，杨安奇，周颖，王璐璐，廖力，
申请(专利权)人：东南大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人