一种基于WordNet的程序可读性分析方法技术

技术编号：10217413 阅读：184 留言：0更新日期：2014-07-16 15:10

本发明专利技术公开了软件工程领域内的一种基于WordNet的程序可读性分析方法，包括如下步骤：1)按照包名-类名-方法名的项目结构遍历出每个方法体，并且以包名_类名_方法名的形式标注；2）去除警示注释（通常出现在测试用例中，用于警告程序员会出现某种严重后果），TODO注释（是一种程序员认为应该做，而由于某些原因目前还没有做的工作）；3）将注释分为短注释和长注释；4）对长注释进行预处理，并且用WordNet提取出注释的主题词；5）对注释映射的代码段用WordNet提取代码的主题词；6）对整个项目生成程序可读性分析树，并形成最终的分析数据，本发明专利技术有利于后期维护人员对陌生项目的理解，可用于软件的维护开发中。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于WordNet的程序可读性分析方法
本专利技术涉及一种程序分析方法，特别涉及一种程序可读性分析方法，属于软件工程领域。
技术介绍
程序可读性分析是软件开发和维护中用于评估软件易维护性和易修改性的一个重要指标，方便开发人员修改代码和注释必不可少的环节。现有的程序可读性分析一般利用开发语言所提供的开发文档和API对项目中不理解的代码段进行脱离实际情景的解释，或者是在开发前由开发团队拟定的代码编写规范性进行编码的代码书写规范方面的可读性分析。而在实际编程实践中，注释和开发文档才是程序员理解项目的主要突破口。真正难以理解的是不同人员对同一段代码的注释和分析。整个项目不同模块的转移和改变，小段代码的修改和变更，开发人员变动都会造成开发人员难以理解原有代码。这也就使得程序的可读性分析成为了一个项目是否有利于开发人员开发维护和理解的重要环节。所以本专利技术从注释能否描述代码的真正意图进行程序的可读性分析。随着软件的不断演化，代码的不断修改和迁移，原有的注释是否能帮助开发人员准确理解一个项目是一个项目能否进行顺利修改的关键因素。传统的主题模型方法很难对细小的方法体和类文件进行局部的准确性分析，而WordNet所提供的本体库和优秀的同义词匹配和主题词提取技术则为研究程序的可读性分析带来的巨大的好处。WordNet是一种传统的词典信息与现代计算机技术以及心理语言学研究成果有效结合的一个产物。它是由Princeton大学的Miller等心理学家，语言学家和计算机工程师联合于1985年开始设计的一种基于认知语言学的英语词典。它不同于一般的语言词典，而是由25个独立起始概念...
一种基于WordNet的程序可读性分析方法

【技术保护点】
一种基于WordNet的程序可读性分析方法，其特征在于，包括以下步骤：步骤1) 按项目结构遍历出每个方法体，以包名_类名_方法名的形式标注，标注分为对注释的标注和对代码的标注；步骤2）去除警示注释和TODO注释；步骤3）将注释分为短注释和长注释；步骤4）对长注释进行预处理，并且用WordNet提取出注释的主题词；步骤5）对长注释映射的代码段用WordNet提取代码的主题词；步骤6）对整个项目生成程序可读性分析树，并形成最终的分析数据。

【技术特征摘要】
1.一种基于WordNet的程序可读性分析方法，其特征在于，包括以下步骤：步骤1)按项目结构遍历出每个方法体，以包名_类名_方法名的形式标注，标注分为对注释的标注和对代码的标注；步骤2）去除警示注释和TODO注释；步骤3）将注释分为短注释和长注释，分类方法如下：短注释提取条件为：无“.”结尾的短语或者词数少于8个words的短句，并且代码长度控制在1到6行；除此之外的注释则为长注释；标记符合短注释条件的代码段及其注释，作为找出的不推荐加注释部分，对于不符合短注释条件的，放入步骤4和长注释一起分析；步骤4）对长注释进行预处理，并且用WordNet提取出注释的主题词，具体方法如下：a）分类：按照方法函数是否有返回值对长注释进行分类，有返回值的称为描述代码意图的注释Vn类，无返回值的称为提供描述信息的注释V类；b）预处理：对Vn类和V类注释进行预处理，分为三个步骤：注释语句处理（Tokenization），去除if条件句，过去时态的语句，Vn类注释用WordNet分析时要添加方法体中return的注释段；去除停用词（Stop-wordRemoval），去除注释关键字，注释关键字为常用的定冠词th...

【专利技术属性】
技术研发人员：孙小兵，刘杨超，朱俊武，李云，
申请(专利权)人：扬州大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人