一种基于约束条件的随机森林推荐算法制造技术

技术编号：15502279 阅读：220 留言：0更新日期：2017-06-03 23:15

本发明专利技术公开了一种基于约束条件的随机森林推荐算法，根据给定初始训练集中的数据集产生二叉决策树；随机选取特征构建随机森林；衡量决策树算法时间效能；衡量随机森林算法效能；将随机森林算法进行改进。对比其他推荐算法,本发明专利技术充分认识随机森林分类算法的优越性，并且自主实现随机森林分类算法，由此加深对推荐系统的了解；最后，从算法的构造入手，研究造成算法不足的关键点，改进算法，使算法具有更好的效能。

A stochastic forest recommendation algorithm based on Constraints

The invention discloses a random forest based on constraints of the recommendation algorithm, according to the given initial training data set to generate two binary decision tree; randomly selected characteristics of random forest; measure decision tree algorithm of time efficiency; to measure the random forest algorithm efficiency; random forest algorithm. Compared with other recommendation algorithm, the advantages of the invention realize random forest classification algorithm, and realize the random forest classification algorithm, thus to deepen understanding of recommendation system; finally, starting from the algorithm structure, study the key point algorithm, improved algorithm, so the algorithm has better performance.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于约束条件的随机森林推荐算法
本专利技术涉及数据挖掘和推荐算法
，特别是涉及一种改进的随机森林推荐算法。
技术介绍
伴随着科技的进步，人们已经逐渐地从互联网信息时代进入了物联网时代。社交、服务业网站的崛起使得信息量以指数级的速度快速增长，互联网的数据量早已今非昔比，而且信息来源还在不断地增加。对于互联网所面临的挑战——信息过载，推荐系统在机器学习领域掀起了一片热潮。推荐系统拥有着极高的应用价值，已经被广泛地应用于多个领域。例如：近年来电子商务的发展及其迅猛，在网上购物已成为主流，商家所提供的商品种类和数量增长十分迅速，清楚自己需求的客户可以通过搜索购买自己想要的商品。但是，用户需求通常具有不确定性和模糊性，因此推荐系统便成为客户的依赖。推荐系统的核心是推荐算法，推荐算法的优劣直接影响系统的性能。就目前流行的推荐算法而言，以分类为基础的推荐算法获得了较好的效果，比如SVM算法、协同过滤算法、以及随机森林算法等。协同过滤算法存在一定的可扩展性问题，并且协同过滤推荐的质量取决于历史数据集，这导致系统开始时推荐质量较差，影响推荐结果的准确性。在如今推荐系统应用越来越广泛，推荐算法作为其支撑核心，其重要性不言而喻，而随机森林分类算法又是推荐算法中性能较好，潜力较强的算法之一，它可以处理大量的输入变量，对于很多种资料它可以产生高准确度的分类器，且对于不平衡的分类资料集来说，它可以平衡误差，整个过程不容易产生过拟合问题。随机森林算法主要是由决策树算法改进而来。决策树算法存在一定的缺点，由于进行深度优先搜索，所以算法受内存大小限制，难于处理大训练集。为了处理大...
一种基于约束条件的随机森林推荐算法

【技术保护点】
一种基于约束条件的随机森林推荐算法，其特征在于，该方法包括以下步骤：步骤(101)、根据给定初始训练集中的数据集、在CART算法中利用基尼指数构造二叉决策树，基尼系数定义如公式(1)所示：

【技术特征摘要】
1.一种基于约束条件的随机森林推荐算法，其特征在于，该方法包括以下步骤：步骤(101)、根据给定初始训练集中的数据集、在CART算法中利用基尼指数构造二叉决策树，基尼系数定义如公式(1)所示：其中，GiniR(S)是集合S以特征R分裂产生的基尼系数，S1和S2分别是用样本特征R分裂后得到的子集，定义基尼增益如公式(2)所示：Gini(R)＝Gini(S)-GiniR(S)(2)步骤(201)、从初始训练集抽取训练子样本，每个子样本特征维度为M，每次树进行分裂时指定一个常数m<<M作为子样本特征个数，从m个子样本特征中选择最优的子样本特征去分裂；每棵树都最大程度的生长，组合成随机森林；步骤(301)、分类指的是根据样本记录所具有的特征将样本映射到预先定义好的类标号。通过从精确率、召回率和F值分析训练模型所用的时间，衡量算法时间效能，其中：精确率定义如公式(3)所示：其中，TP表示把正类预测为正类的案例个数，FP表示把负类预测为正类的案例个数；召回率定义如公式(4)所示：其中，FN表示把正类预测为负类的案例个数；F值...

【专利技术属性】
技术研发人员：喻梅，安永利，于健，高洁，徐天一，马雄，
申请(专利权)人：天津大学，
类型：发明
国别省市：天津,12

全部详细技术资料下载我是这个专利的主人