一种信息分类的方法技术

技术编号:5516723 阅读:251 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种新的信息分类的方法,在分类技术数据时,是以神经网络为基础,结合相似判断、模糊集筛选和反馈算法分离新目录,再将新目录进行合并后产生衍生节点,将携带该衍生节点信息的数据本体归入新的类别,对与判断节点具有相关性的数据本体产生延伸查询,找出后续判断节点,并归入已有的分类。采用这种分类方法能够结合各种算法的优点,弥补各自的缺点,达到将与判断节点具有相关性的数据本体归入相应的类别,并将携带衍生节点信息的数据本体归入新的分类,该数据分类方法应用方便。

【技术实现步骤摘要】

本专利技术涉及一种实现技术数据分类的方法。
技术介绍
目前,信息科学领域的信息分类方法种类主要有,神经网络算法、遗传算法,决策 树算法、粗集算法、覆盖正例排斥反例算法、模糊集算法等。神经网络算法神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分 布存储和高度容错等特性非常适合解决数据分类的问题,因此近年来越来越受到人们的关 注。典型的神经网络模型主要分3大类以感知机、BP反向传播模型、函数型网络为代表的, 用于分类、预测和模式识别的前馈式神经网络模型;以Hopfield的离散模型和连续模型为 代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以ART模型、Koholon模型 为代表的,用于聚类的自组织映射方法。神经网络方法的缺点是“黑箱“性,人们难以理解 网络的学习和决策过程。遗传算法遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一 种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在 数据分类挖掘中被加以应用。Simil已成功地开发了一个基于遗传算法的数据分类挖掘工 具,利用该工具对两个飞机失事的真实数据库进行了数据分类挖掘实验,结果表明遗传算 法是进行数据分类挖掘的有效方法之一。遗传算法的应用还体现在与神经网络、粗集等技 术的结合上。如利用遗传算法优化神经网络结构,在不增加错误率的前提下,删除多余的连 接和隐层单元;用遗传算法和BP算法结合训练神经网络,然后从网络提取规则等。但遗传 算法的算法较复杂,收敛于局部极小的较早收敛问题尚未解决。决策树算法决策树是一种常用于预测模型的算法,它通过将大量数据有目的分 类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合 大规模的数据处理。最有影响和最早的决策树方法是由Quinlan提出的著名的基于信息熵 的ID3算法。它的主要问题是ID3是非递增学习算法;ID3决策树是单变量决策树,复杂 概念的表达困难;同性间的相互关系强调不够;抗噪性差。针对上述问题,出现了许多较好 的改进算法,如Schlimmer和Fisher设计了 ID4递增式学习算法;钟鸣,陈文伟等提出了 IBLE算法等。粗集算法粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个 优点不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗集处理的 对象是类似二维关系表的信息表。目前成熟的关系数据库管理系统和新发展起来的数据仓 库管理系统,为粗集的数据分类挖掘奠定了坚实的基础。但粗集的数学基础是集合论,难以 直接处理连续的属性。而现实信息表中连续属性是普遍存在的。因此连续属性的离散化是 制约粗集理论实用化的难点。现在国际上已经研制出来了一些基于粗集的工具应用软件, 如加拿大Regina大学开发的KDD-R ;美国Kansas大学开发的LERS等。覆盖正例排斥反例算法它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子 相容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则(选择子的合取 式)。比较典型的算法有Michalski的AQll方法、洪家荣改进的AQ15方法以及他的AE5方法。模糊集算法即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式 识别和模糊聚类分析。系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属度来刻 画模糊事物的亦此亦彼性的。李德毅等人在传统模糊理论和概率统计的基础上,提出了定 性定量不确定性转换模型一云模型,并形成了云理论。以上算法在归属的算法分支中各有所长,实际应用过程中应该是结合的使用才 能使得最终的算法具有最强的适应性,应用广泛的是神经网络算法与模糊集算法相结合, 在神经网络的算法中,每个层面的选择节点应该使用模糊集思想作为判断下一个支路的方 法,但是现有技术中的技术数据分类方法由于结合单一,功能受到限制,难以实现将运算过 程中产生的携带衍生节点信息的数据本体归入新类别。
技术实现思路
本专利技术要解决的技术问题是提供一种新的技术数据分类的方法,该新的分类方法 能够解决已有技术中的算法难以将运算过程中产生的携带衍生节点信息的数据本体归入 新类别的弊端。为解决上述问题,本专利技术在分类技术数据时,是以神经网络为基础,结合相似判 断、模糊集筛选和反馈算法分离新目录,再将新目录进行合并后产生衍生节点,将携带该衍 生节点信息的数据本体归入新的类别,对与判断节点具有相关性的数据本体产生延伸查 询,找出后续判断节点,并归入已有的分类。采用这种分类方法能够结合各种算法的优点,弥补各自的缺点,达到将与判断节 点具有相关性的数据本体归入相应的类别,并将携带衍生节点信息的数据本体归入新的分 类,该数据分类方法应用方便。附图说明图1为本专利技术实施例的神经网络结构示意图。图2为本专利技术实施例的输入数据整理示意图。图3为本专利技术实施例的判断节点示意图。图4为本专利技术实施例的判断节点的流程图。图5为本专利技术实施例的判断节点的相似判定示意图之一。图6为本专利技术实施例的判断节点的相似判定示意图之二。图7为本专利技术实施例的判断节点的相离散相关模糊集示意图。图8为本专利技术实施例的延伸特性和衍生节点的示意图。图9为本专利技术实施例的新分类示意图。具体实施例方式下面结合附图和具体实施方式对本专利技术进一步详细的说明。5图1为本实施例的神经网络结构示意图,本专利技术采用结合型的算法,以应用神经 网络作为算法主体结构,利用神经网络为基础,在利用节点判断信息去向上依相似归类模 式化识别方式为主,结合相似判断、模糊集筛选和反馈算法分离新目录,再将新目录进行合 并后产生新的网络节点,由此分类数据和自我适应。图2为本实施例的输入数据整理示意图,步骤1 输入数据整理,外部数据进行算 法分析前必须经过初步整理,这个整理过程的意义在于依据本体原理同一化输入数据—— 依据特性和相互关系划分出诸多本体或者采用本体集合的方式提取共性从而划分。N个输 入数据会被划分成少于N个本体(注意这不是分类,而是提取独立的特性和相互关系,流程 中后续的分类方式是对提取出来的本体对象分类,显然这同时也意味着对原始的输入对象 作了分类),随之将这些本体带入到判断节点。图3为本实施例的判断节点示意图,步骤2:判断节点,判断节点即分类判断节点, 它的作用是对步骤1得到的数据本体进行判定,决定该数据本体是属于一个明确的分类还 是需要进入下一个分类判断节点,它是整个方法的最小判断元素,其具体步骤如下。子步骤2-1 开始取得由步骤1中得出的待判定的数据本体;判断节点由相似判 定模型、模糊集和反馈算法和衍生节点四部分组成,按照执行的次序依次是开始取得数 据——判定相似度一一离散相关模糊集验证延伸特性指向下一个节点(进入下一个节点或 者本体进入分类)一一衍生算法判断是否产生新节点——反馈算法效果影响——结束,流 程如图4所示。子步骤2-2 判定数据本体与节点的相似度;这种相似性判定是基于模型的,模型 的类型有①内容匹配模型;②习惯模型;③社会性模型等。具体数据会携带本体信息与当 前的节点特征模型进行相似性比对,比对结果在阀值范围之内的本体会携带当前节点的相 似度数值(注意多次比对满足条件的本文档来自技高网
...

【技术保护点】
一种信息分类的方法,其特征在于:以神经网络为基础结构,结合相似判断、模糊集筛选和反馈算法分离新目录,再将新目录进行合并后产生新的网络节点,由此分类数据和自我适应;其具体步骤如下:步骤1:输入数据整理外部数据经过初步整理,依据本体原理同一化输入数据,即依据特性和相互关系划分出诸多本体或者采用本体集合的方式提取共性从而划分;步骤2:判断节点对输入数据进行分类判断节点,决定输入数据是属于一个明确的分类还是需要进入下一个分类判断节点;步骤3:信息归类经过执行步骤2后,若没有下一个模糊相关节点,则数据本体在网络内跳转结束,并进行衍生算法,符合产生衍生节点条件的,产生新节点,并前往该新节点,归入新分类,若不符合产生衍生节点条件的,则将携带历程节点信息的数据本体归入已有的分类,并做出分类结果反馈。

【技术特征摘要】

【专利技术属性】
技术研发人员:熊巍
申请(专利权)人:焦点科技股份有限公司
类型:发明
国别省市:84[中国|南京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1