一种基于属性间相关系数的数据分类方法技术

技术编号：11703543 阅读：278 留言：0更新日期：2015-07-09 02:44

本发明专利技术提出了一种基于属性间相关系数的数据分类方法。本发明专利技术步骤：首先，输入样本集和待分类数据集，并计算训练样本集所有属性的信息增益值；其次，依据从大到小排序将最大信息增益值的属性选为决策树中根节点的测试属性；然后，计算根节点属性(上一层节点属性)与剩余属性集之间相关系数的绝对值；再根据值和不同属性的属性值进行每一层节点的建立过程，并更新剩余属性集；最后，直到所有属性遍历为止，生成决策树，依据决策树将待分类数据进行分类。本发明专利技术大大改善了传统决策树的效能，提高了决策树的分类准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据挖掘领域，涉及数据分类，具体地说是一种基于属性间相关系数的数据分类方法。
技术介绍
数据挖掘就是从数据库中挖掘出数据间潜在的模式，再根据这些模式找出相应的规律。数据挖掘技术通过使用计算机来对数据库中大量数据进行快速、有效的分析和处理，从中提取有用信息，并以一种形式化、可以理解的方式表达，以便决策。数据挖掘对商务决策、知识库、科学和医学的研宄等都具有重要的应用价值和十分广阔的应用前景。目前对数据挖掘的研宄主要集中在关联规则挖掘、聚类、分类、序列模式发现、异常和趋势发现等方面，其中由于分类挖掘在商业等领域中的广泛应用，使它成为数据挖掘中最活跃的研宄方向。分类的目的是提出一个分类函数或分类模型（分类器），该模型能把数据库中的数据映射到给定类别中的某一个。由于分类技术能够对各个行业提供良好的决策支持，在不同的行业有着多种不同领域方法的分类算法，例如决策树方法、神经网络方法、贝叶斯方法、粗略集方法等。在这些算法中，决策树方法最容易理解，应用领域也特别广泛。决策树学习是一种逼近离散值目标函数的方法，将从一组训练数据中学习到的函数表示为一棵决策树，它是一种常用于预测模型的算法，通过将大量数据有目的的分类，从中找到一些具有价值的、潜在的信息。决策树虽然生成模式简单，但也存在如下问题：1)个别训练样例的错误，可能导致决策树的精确性较差；2)属性间的相互关系强调不够，容易导致决策树中子树的重复或有些属性在决策树的某一路径上被多次检验。
技术实现思路
本专利技术的目的在于克服上述已有技术的缺点，提出了一种基于属性...

【技术保护点】
一种基于属性间相关系数的数据分类方法，其特征在于，在数据分类过程中，先输入样本集和待分类数据集，计算样本所有属性的信息增益值并排序，然后根据所有属性的信息增益值确定决策树根节点的属性，其次根据属性间相关系数的绝对值和不同属性的属性值，确定余下结点的属性，最后直到所有属性遍历完，生成决策树，再依据决策树将待分类数据集进行分类，所述方法至少包括以下步骤：步骤一、输入样本集和待分类数据集，计算训练样本集所有属性的信息增益值；步骤二、对信息增益值依据从大到小排序，选取最大信息增益值的属性作为决策树中根节点的测试属性；步骤三、计算根节点属性（上一层节点属性）与剩余属性集之间相关系数的绝对值；步骤四、根据值和不同属性的属性值进行每一层节点的建立过程，并更新剩余属性集；步骤五、若剩余属性集不为空集，即所有属性未遍历完，继续步骤三和四，直到所有属性遍历完，生成决策树；步骤六、依据决策树将待分类数据集进行分类。

【技术特征摘要】

【专利技术属性】
技术研发人员：裴廷睿，赵津锋，郭勋，朱更明，李哲涛，田淑娟，
申请(专利权)人：湘潭大学，
类型：发明
国别省市：湖南;43

全部详细技术资料下载我是这个专利的主人