面向开源社区的软件项目个性化推荐方法技术

技术编号：14120105 阅读：170 留言：0更新日期：2016-12-08 12:17

本发明专利技术涉及面向开源社区的软件项目个性化推荐方法。本发明专利技术对项目内容进行TF‑IDF特征抽取，结合用户对已知项目评价，推荐结合用户个性和项目需求的相似项目，并针对用户个性，通过ALS协同过滤计算候选推荐结果，使用词频‑逆文本频率计算每个项目特征，按其相似性计算候选推荐结果，将两者推荐结果线性组合，进行过滤和排名，产生推荐结果。本发明专利技术克服了过去推荐技术不能完全体现项目特征，粒度不细，准确率不高等缺陷。本发明专利技术从用户对已知项目评分和项目内容角度推荐出针对用户个性和项目内容的相似项目，准确地推荐出了与用户所在开发的项目类似的项目内容，实现了个性化推荐功能，为用户参考或重用提供便利，提高了开发人员搜索项目的效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于软件维护推荐领域，特别涉及面向开源社区的软件项目个性化推荐方法。
技术介绍
由于软件项目众多，根据目前最大的开源软件社区--Github统计，截止到2016年，Github已经有超过1400万注册用户和3500万代码仓库。而截至2014年，Github上就有68个仓库stars数超过了10000个，有10个仓库的forks数超过了8000数，forks数大于1的仓库有944872个。可见软件的分布式开发方式已成趋势，开发者个性不同，对项目的需求不一，若没有良好的推荐机制，会出现严重的人力资源浪费等问题。根据用户个性和项目需要推荐相似项目的推荐任务急需要解决。在本专利技术作出之前，目前的投入使用的推荐技术并不成熟，对于一些热门项目，开源社区只将项目按用户关注度进行排名，并没有考虑到开发者的针对性。而对于一些冷门项目，只将项目按语言，开发者进行分类，之后便直接投放在互联网中。这就使一些有价值的项目没有受关注的机会，因为参与人员较少，无法继续开发，这就造成了大量有价值的项目流失。而在研究领域，大多技术只是对项目描述做语义分析，以此作为基于项目内容推荐的依据，但这一做法并不能完全体现项目特征。一些项目的描述文件只有寥寥几句，要想真正了解项目，还需要分析项目代码。也有的技术可以根据开发者所擅长的语言做个性化推荐。但这一做法粒度不细，在同一语言中，也会分很多种开发方向。同时，若开发者擅长一个开发方向，也很可能会这一开发方向的多种语言。而这种粗粒度的推荐不仅准确率不高，而且还会给开发者留下不信任的印象，进一步加重了人力资源的浪费。因此，不仅要结合项目源代...
面向开源社区的软件项目个性化推荐方法

【技术保护点】
面向开源社区的软件项目个性化推荐方法，其特征在于如下步骤：(1).提取用户行为的特征向量，针对软件协作开发领域中用户产生的标记——star，跟踪——watch，复制——fork和用户正在开发项目的行为进行提取，并对用户的上述行为赋予权重，分别为1‑标记、3‑跟踪、5‑复制、7‑正在开发，统一标示并组成用户特征向量；(2).软件项目的内容进行分类过滤处理，由于软件项目中包含许多类型的文件，例如：源代码文件、二进制文件、项目介绍文档，需要分类过滤，针对二进制文件，通过连续的ASCII码提取出文字；针对项目介绍文档，通过分词技术提取出单词；针对源代码文件，通过分词先提炼出单词，再将一些停用词过滤，得到每个项目的所有单词；(3).以步骤2中的过滤结果为输入，进行非结构化的特征处理，即使用词频‑逆文档频率TF‑IDF方法提取每个项目的关键词作为项目的特征向量，TF‑IDF是处理自然语言的一种常用方法，词频TF表现了一个单词在一个项目中出现的频繁程度，每个项目的长短有别，需要对词频标准化，逆文档频率IDF表现了一个单词在一个项目中的重要程度，反应了项目的特性，TF×IDF得出各个单词对每个项目的重...

【技术特征摘要】
1.面向开源社区的软件项目个性化推荐方法，其特征在于如下步骤：(1).提取用户行为的特征向量，针对软件协作开发领域中用户产生的标记——star，跟踪——watch，复制——fork和用户正在开发项目的行为进行提取，并对用户的上述行为赋予权重，分别为1-标记、3-跟踪、5-复制、7-正在开发，统一标示并组成用户特征向量；(2).软件项目的内容进行分类过滤处理，由于软件项目中包含许多类型的文件，例如：源代码文件、二进制文件、项目介绍文档，需要分类过滤，针对二进制文件，通过连续的ASCII码提取出文字；针对项目介绍文档，通过分词技术提取出单词；针对源代码文件，通过分词先提炼出单词，再将一些停用词过滤，得到每个项目的所有单词；(3).以步骤2中的过滤结果为输入，进行非结构化的特征处理，即使用词频-逆文档频率TF-IDF方法提取每个项目的关键词作为项目的特征向量，TF-IDF是处理自然语言的一种常用方法，词频TF表现了一个单词在一个项目中出现的频繁程度，每个项目的长短有别，需要对词频标准化，逆文档频率IDF表现了一个单词在一个项目中的重要程度，反应了项目的特性，TF×IDF得出各个单词对每个项目的重要性；(4).根据已有数据进行ALS协同过滤的推荐，以步骤1中用户对项目的评分矩阵作为ALS协同过滤的输入，根据用户对已经评价过的几个项目预测用户对每个项目的需求程度，即通过矩阵分解的方法，将用户-项目评分矩阵X转化为...

【专利技术属性】
技术研发人员：孙小兵，徐文远，李斌，李云，
申请(专利权)人：扬州大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人