本发明专利技术提出一种基于高维空间分类器的神经网络结构设计方法,步骤包括,先估计出低维本征维数空间D,再根据D值进行神经网络分类器的设计,将其隐节点按照D值大小进行分组设计,所得出的网络结构既满足结构紧致的要求,并且对高维空间数据分类来说也具有较高的分类性能。本方法能够根据要求设计出有效而紧致的网络结构、具有一定的通用性、应用面较广。
【技术实现步骤摘要】
本专利技术涉及一种,该方法可应用于 模式识别、数据挖掘、图像处理等领域。
技术介绍
在实际生活中,常会遇到大量的高维、非线性数据需要进行分类处理,例如人脸识 别、语音识别等,因此分类器结构的设计是分类处理这些数据的关键所在。迄今为止,关于 高维空间分类器结构设计的研究理论及研究成果很多,有的是基于线性可分原则的,如,主 成分分析、PCA等;有的是基于非线性可分原则的,如核理论,流形学习等。但是不管是哪一 种方法,都普遍认为高维空间分类器的结构与分类数据的内在结构有着本质联系,它们总 是以一种共生的方式协同工作。如神经网络作为分类器进行设计时,预先根据样本集的性 质和关系,将样本空间分为几大类(称为样本子空间),再将其直接映射到网络分类器的隐 节点层设计上,可以得到紧致的网络分类器结构,并达到较好的分类效果。由于对高维及非 线性的数据集来说,神经网络分类器可以达到较好的分类效果,因此,目前关于神经网络高 维分类器结构设计的研究较多,如Z. Uykan利用无监督聚类对数据进行聚类分析,来确定 径向基网络的隐含层节点数目;还有W. Pedryez利用模糊均值聚类法对不完备数据进行聚 类分析,并将分析结果映射到径向基网络的隐含层节点数目上;上述研究都不仅得到了较 为紧致的网络分类器结构,并且对高维、非线性数据也获得了较好的分类效果。上述方法都是以数据集的内在结构作为先验知识,来指导高维空间分类器的结构 设计。虽然对高维数据而言取得了一些较好的分类效果,但这种简单的、通过聚类的方法来 获取先验知识的方法,对那些拥有不同对象的数据集来说具有一定的效用。而对于同一对 象来说,所获得的数据集的内在结构是不完备的,以此来指导分类器结构的设计也就缺乏 说服力。传统的分类器设计方法是基于几何学或是统计学的,如今一种新的、基于感知流形 的方法一流形学习法,以一种较新的途径更加充分的挖掘数据集的本质特征,以获得更 加准确的数据集内在结构。从流形学习的角度出发,认为很多数据集是伪高维的,尤其是对同一对象数据集 而言,包含上千个特征的数据集可以描述为几个潜在参数的函数。也就是说,同一对象的数 据集可以组成高维空间的一个流形,其本质特征通常是由几个少数的隐含特征所决定的, 称为“低维本征空间”。一般情况下,这几个少数的隐含特征,即低维本征空间是未知的,但 是在解决分类和识别这类问题时,低维本征空间可以直接对应数据集的内在结构空间,将 其映射到分类器的隐含节点上,可以获得较好的分类效果。流形学习方法就是试图确定这 些参数,并发现数据集的低维空间表示。
技术实现思路
本专利技术的目的在于克服传统分类器设计方法的不足,将流形学习方法引入到高维 空间分类器的设计当中,以一个全新的角度分析数据集的本质特征,充分挖掘其内在结构,并以此作为先验知识,指导分类器的结构设计,从而获得更加良好的分类效果。并且,本发 明以神经网络分类器作为高维空间分类器的代表,说明流行学习方法在设计神经网络分类 器结构过程中的应用原理与方法。具体技术方案如下—种,其特征是步骤包括,先估计 出低维本征维数空间D,再根据D值进行神经网络分类器的设计,将其隐节点按照D值大小 进行分组设计,所得出的网络结构既满足结构紧致的要求,并且对高维空间数据分类来说 也具有较高的分类性能;所述估算地位本征维数空间D的方法,其步骤包括1)为各个系统参数赋初值邻域值k — 1,嵌入维数d — 1,Sammon系数一0 ;2)固定嵌入维数d,改变邻接点k的大小,并执行LLE流形学习算法,根据SammonI N「《-《T系数定义公式:Ε = ^^Σ “ d* 11得到Sammon系数值;并绘制Sammon系数随邻域值i<Jk改变而变化的曲线图;3)判断K-Sammon系数图的曲线改变方式是否已固定,即当d达到某一固定值D 后,其变化趋势已与嵌入维数d的取值大小无关,无论d再如何增加,K-Sammon系数图的曲 线变化趋势保持恒定不变;4)如果是已经固定,则终止并估计出低维本征维数空间D ;否则,d+Ι,并转向步骤 2)。本专利技术优点或积极的效果如下1、研究方法上的更新,将流形学习方法引入高维空间分类器的结构设计问题,发 挥了机器学习的优越性,有效利用了样本集本身的内在的知识,避免了分类器结构设计过 程中过多依赖人为因素的问题。能够根据要求设计出有效而紧致的网络结构。2、具有一定的通用性,采用本方法,面对不同类型的同一对象样本分类问题,都能 迅速设计出高效的网络结构。3、应用面较广,可以应用在图像识别、语音识别、数据挖掘、机器视觉等方面。本方法从一个新的角度上分析了高维、非线性样本集的神经网络分类器结构设计 的问题。提出应用机器学习的新方法——流形学习来解决该问题的新思路。充分挖掘了样 本集本身的内在知识,并将这些知识映射到高维空间分类器的结构设计上,如此设计出的 分类器结构必定优于根据人为主观而设计出的分类器结构。本方法首次通过Sammon协强系数来观察嵌入维数与邻接点大小两者之间的相互 关系与变化,从而进一步估计出同一对象样本集中的低维参数空间维数,并从理论上证明 了低维本征维数空间维数在神经网络结构设计中的具有指导意义。技术本方法使得在神经网络分类器的结构设计在针对高维、非线性的实际数 据分类的应用中,没有神经网络分类器知识和实际工作经验的技术人员也能够在客观的实 验数据指导下,设计出较为紧致而准确的神经网络分类器结构。附图说明图1是本专利技术流程示意图。图2是本图1中步骤1的流程示意图。具体实施例方式为了更了解本专利技术的
技术实现思路
,特举具体实施例并配合所附图式说明如下。下面从原理角度,对本方法的设计思想作进一步阐述(1)高维空间分类器的结构设计与泛化性能提高高维空间分类器自从提出至今已有许多年的历史,其中分类器的泛化性能的研究 一直是智能信息处理领域的重要研究课题。以神经网络分类器为代表的高维空间分类器最 受研究者关注,其(分类器的)泛化能力是指学习后的神经网络对测试样本或工作样本做 出正确反应的能力。没有泛化能力的分类器没有任何使用价值,故此,泛化能力的研究已成 为近年来国际上十分关注的理论问题。许多研究者对神经网络分类器的结构设计与样本集之间的内在结构关系做了大 量有益的探索,比如有理论证明预先根据样本的性质和关系将样本空间分为几大类(样 本子空间),并将这几大类的关系直接映射到网络的隐节点的分组设计上,可以获得合理而 紧致的网络结构。其中最值得一提的是M. Gori和A. Tesi将神经网络模块化编程思想引入 到前向网络的结构设计中,提出预先根据样本(问题)的性质和关系将样本空间分为几大 类,同时将隐节点神经元也进行分组,每一组分别对应样本空间中的某一类。这样从根本上 避免了同一类样本由于差异性不大而导致学习过程权值调整量过小,算法收敛变得异常困 难的问题。同时,又由于通过对隐节点层分组,最终获得了具有紧致结构的神经网络,也使 得网络地学习时间变短,学习速度提高,分类结果较好。M. Gori和A. Tesi提出的确保神经网络分类器分类效果有效提高的网络结构设计 准则是假设所分模式是线性可分的,若网络结构采用单个隐节点层结构,且网络的输入层 与隐节点层为全连接方式;进一步假设学习样本本文档来自技高网...
【技术保护点】
【技术特征摘要】
一种基于高维空间分类器的神经网络结构设计方法,其特征是步骤包括,先估计出低维本征维数空间D,再根据D值进行神经网络分类器的设计,将其隐节点按照D值大小进行分组设计,所得出的网络结构既满足结构紧致的要求,并且对高维空间数据分类来说也具有较高的分类性能;所述估算地位本征维数空间D的方法,其步骤包括1)为各个系统参数赋初值邻域值k←1,嵌入维数d←1,Sammon系数←0;2)固定嵌入维数d,改变邻接点k的大小,并执行LLE流形学习算法,根据Sammon系数定义公式得到Sammon系数值E;并绘制Sammon系数随邻域值k改变而变化的曲线图K Sammon系数图;式中,表示n维空间里i点与j点之间的距离;dij表示m维空间里i点与j点之间的距离;3)判断K Sammon系数图的曲线改变方式是否已固定,即当d达到某一固定值D后,其变化趋势已与嵌入维数d的取值大小无关,无论d再如何增加,K Sammon系数图的曲线变化趋势保持恒定不变;4)如果是已经固定,则终止并估计出低维本征维数空间D;否则,d+1,并转向步骤2)。FDA0000030561230000011.tif,FDA0000030561230000012.tif2.根据权利要求1所述的基于高维空间分类器的神经网络结构设计...
【专利技术属性】
技术研发人员:胡静,
申请(专利权)人:上海电机学院,
类型:发明
国别省市:31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。