一种生物启发式自适应聚类方法技术

技术编号:15220040 阅读:78 留言:0更新日期:2017-04-26 19:43
本发明专利技术涉及一种生物启发式自适应聚类方法,属于聚类分析技术领域。本发明专利技术提供的一种生物启发式自适应聚类方法,该方法基于昆虫授粉原理,通过模拟昆虫觅食行为的活动,包括授粉和采粉两个过程,并计算每棵植物的存活概率,判断植物的位置是否需要改变,经过时间演化后,使得同种植物聚集在一起,不同种植物彼此分离,最后得到聚类结果。本发明专利技术提供的一种自适应聚类方法不需要预先给定聚类簇的数目,同时避免了在运行过程中陷入局部最优的问题,伸缩性较强,适用不同规模、多种类型的数据集,且可以发现任意形状的簇,能更好地应用于机器学习、模式识别、数据挖掘、图像处理等领域。

A heuristic adaptive clustering method

The invention relates to a self-adaptive clustering method of biological heuristics, which belongs to the technical field of clustering analysis. A heuristic adaptive clustering method provided by the invention, the method is based on the principle of insect pollination, by simulating insect foraging behavior and pollination activities, including mining powder two, and calculated the survival probability of each plant, to determine whether the location of a plant needs to change, after the time evolution, the same plant together different kinds of plants, separated from each other, and finally get the clustering results. An adaptive clustering method provided by the invention does not need to be given the number of clusters, while avoiding in the running process of the problem of local optimum, strong scalability, suitable for different size, various types of data sets, and can find clusters of arbitrary shape can be better applied in machine learning, pattern recognition, data mining, image processing and other fields.

【技术实现步骤摘要】

本专利技术涉及聚类分析
,特别涉及一种生物启发式自适应聚类方法。
技术介绍
聚类是根据数据对象相似度,把未知分类的数据集分割成不同的类或簇,使同一簇内的数据对象具有最大相似性,不同簇间的数据对象具有最小相似性。聚类作为一种重要的无监督的数据分析方法,既可以作为一个独立工具用于发现数据隐含信息,也可以作为其他数据分析算法的一个预处理步骤,在机器学习、模式识别、数据挖掘、图像处理等领域已经得到了广泛研究和应用。目前,许多基于生物启发式聚类算法已被提出,如模拟蚁群的蚁穴清理行为的蚁群聚类算法,模拟蜜蜂寻找最佳食物源行为的人工蜂群聚类算法,模拟鸟群觅食行为的粒子群聚类算法,模拟自然界植物授粉的花朵授粉聚类算法等。这些基于生物启发式聚类方法大致可以分为基于划分方法和基于密度方法两类。然而这两种方法各自都存在以下缺陷:基于划分方法通常将聚类簇的个数视为给定条件并且作为输入而不是在运行中自动确定,在现实情况下,一个数据集中聚类簇的合适通常数目是未知的或不能近似确定的。另一方面,由于划分方法基于对象间的距离和对某种标准的优化进行聚类,这种方法只能发现球状簇而不能发现任意形状的簇,对于“噪声”和孤立数据点是敏感的,同时算法极易陷入局部最优。基于密度方法对输入参数敏感,若参数选取不当,将造成聚类质量下降,并且该方法对数据维数的伸缩性较差,对处理大规模数据时,时间复杂度大,同时当空间聚类的密度不均匀,聚类间距离差距较大时,也会影响最终的聚类质量。因此要综合解决这些问题,对聚类方法提出了更高的要求。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种生物启发式自适应聚类方法,该方法基于昆虫授粉原理,不需要预先给定聚类簇的数目,同时避免在运行过程中陷入局部最优的问题,伸缩性较强,适用不同规模、多种类型的数据集。为达到上述目的,本专利技术提供如下技术方案:一种生物启发式自适应聚类方法,包括以下步骤:步骤一:选取数据集和一定数量的昆虫,所述数据集中的每个数据点表示一棵植物,所述数据点的特征向量表示植物的特征,将所有昆虫和植物的位置随机分布在空间中;步骤二:昆虫飞往植物进行觅食活动,所述活动包括授粉和采粉两个过程;步骤三:统计植物获得的花粉数量,比较获得的花粉与植物花粉种类之间的相似度;步骤四:用线性队列记录昆虫过去的觅食历史;步骤五:当所有昆虫觅食次数达到上限后,计算每棵植物的存活概率,并与随机数比较,判断植物的位置是否需要改变;步骤六:经过时间演化,使得同种植物聚集在一起,不同种植物彼此分离,从而实现聚类。进一步,所述步骤二中还包括统计飞行后昆虫携带的花粉量,通过以下公式实现:Nectar′=Nectar×exp(-Distance/Strength)其中,Nectar′表示飞行后昆虫携带的花粉量,Nectar表示飞行前昆虫携带的花粉量,Distance表示此次飞行距离,Strength表示昆虫的记忆强度。进一步,所述相似度通过以下公式进行计算:Si,j=exp(-(Nectar_differencei,j2))选取欧式距离作为花粉之间特征差异的度量,其中xi表示植物i的花粉包含所有属性值的特征向量,xi=(xi1,xi2,xi3,...xin),xj表示植物j的花粉包含所有属性值的特征向量,xj=(xj1,xj2,xj3,...xjn)。进一步,所述植物的存活概率通过以下公式计算:其中,Ni表示每棵植物从昆虫身上获得的每种花粉数量,si表示从昆虫身上获得的花粉与植物自身花粉之间的相似度。进一步,所述步骤四中的觅食历史通过一下方法更新:在昆虫觅食历史中标记该植物后,如果线性队列的长度超过昆虫的记忆深度,则删除线性队列中超出的植物标记;在昆虫觅食历史中标记该植物后,如果线性队列的长度没有超过昆虫的记忆深度,则不改变线性队列。进一步,所述步骤五通过以下方法判断植物的位置是否改变;当存活率P大于随机数,表示植物能够存活并且位置保持不变;当存活率P小于随机数,表示植物死亡,重新生成一个新位置,并与能够存活植物的位置不重复,代替死亡植物的位置。本专利技术的有益效果在于:本专利技术提供一种生物启发式自适应聚类方法,该方法基于昆虫授粉原理,不需要预先给定聚类簇的数目,同时避免在运行过程中陷入局部最优的问题,伸缩性较强,适用不同规模、多种类型的数据集,且可以发现任意形状的簇,模拟自然界昆虫授粉行为的自组织、自适应性和健壮性,保证了高质量的聚类结果,并且本聚类方法可以根据数据对象本身的特点,通过对数据对象之前的相互联系的演化和可视化设计,数据集蕴含的簇以及簇的成员自动涌现出来。附图说明为了使本专利技术的目的、技术方案和有益效果更加清楚,本专利技术提供如下附图进行说明:图1为本专利技术所述自适应聚类方法的流程图;图2为实施例中自适应聚类程序的流程图;图3为实施例中聚类方法初始阶段植物分布图;图4为实施例中聚类方法最终聚类效果图。具体实施方式下面将结合附图,对本专利技术的优选实施例进行详细的描述。本专利技术提供一种生物启发式自适应聚类方法,该方法基于昆虫授粉原理,自然界中绝大多数植物通过有性繁殖产生下一代植株,其中异花授粉是植物有性繁殖的主要授粉方式,是指在自然状态条件下,雌蕊通过接受其他花朵的花粉受精繁殖后代的植物。其中花粉的传播主要依靠昆虫,如蝴蝶,蜜蜂,果蝇等在不同植物间进行传递交流。根据昆虫觅食行为学机理,昆虫飞到植物上,对该植物既有授粉过程,也有采粉过程。授粉过程是昆虫将自身花粉篮中携带的花粉散落在当前植物柱头上,采粉过程是昆虫从当前植物获取的花粉装入自身花粉篮。而植物雌蕊只有接受来自同一种类的花粉才能够繁殖后代,否则植物不能繁殖。研究发现,在一定区域内,相同种类的植物数量较多,则植物获得同种植物的花粉数量越多,因而存活并繁殖的概率越大。相反,如果相同种类的植物数量较少,植物没有获得来自同种植物足够的花粉,导致植物不能繁殖而逐渐死亡。因此得出结论:异花传粉中,植物的存活率与从周围植物群落中获得同种植物的花粉数量有关,同种植物数量越多,昆虫在植物间传递同种花粉频率越高,植物获得同种植物的花粉数量越多,因而存活率越高。相反,周围同种植物数量越少,则存活率越低。一种生物启发式自适应聚类方法,如图1所示,具体包括以下步骤:101:数据预处理:选取某个数据集,数据集中的每一个数据点表示一棵植物,数据点的特征向量表示植物特征。同时,选取一定数量的昆虫,将所有昆虫和植物随机分布在一定大小的空间中;102:昆虫选择飞往与自身位置距离最小的植物进行觅食活动,根据此次飞行距离的大小,昆虫会在飞行过程中丢失一定数量的花粉,飞行距离越大,丢失的花粉越多。当昆虫飞到该植物上后,首先根据飞行距离更新昆虫携带的花粉数量。然后进行觅食活动,包括授粉和采粉两个过程,授粉指的是昆虫从自身花粉篮随机散落一定数量的花粉在当前植物柱头上,采粉指的是昆虫从当前植物上获取的花粉装入自身花粉篮。用艾宾浩斯遗忘曲线表示昆虫花粉数量的更新,当昆虫飞到该植物上后,首先根据飞行距离Distance更新自身携带的花粉数量Nectar′=Nectar×exp(-Distance/Strength)。其中,Nectar′表示飞行后昆虫携带的花粉量,Nectar表示飞行前昆虫携带的花粉量,Distance表示此次飞行距本文档来自技高网...

【技术保护点】
一种生物启发式自适应聚类方法,其特征在于:包括以下步骤:步骤一:选取数据集和一定数量的昆虫,所述数据集中的每个数据点表示一棵植物,所述数据点的特征向量表示植物的特征,将所有昆虫和植物的位置随机分布在空间中;步骤二:昆虫飞往植物进行觅食活动,所述活动包括授粉和采粉两个过程;步骤三:统计植物获得的花粉数量,比较获得的花粉与植物花粉种类之间的相似度;步骤四:用线性队列记录昆虫过去的觅食历史;步骤五:当所有昆虫觅食次数达到上限后,计算每棵植物的存活概率,并与随机数比较,判断植物的位置是否需要改变;步骤六:经过时间演化,使得同种植物聚集在一起,不同种植物彼此分离,实现聚类。

【技术特征摘要】
1.一种生物启发式自适应聚类方法,其特征在于:包括以下步骤:步骤一:选取数据集和一定数量的昆虫,所述数据集中的每个数据点表示一棵植物,所述数据点的特征向量表示植物的特征,将所有昆虫和植物的位置随机分布在空间中;步骤二:昆虫飞往植物进行觅食活动,所述活动包括授粉和采粉两个过程;步骤三:统计植物获得的花粉数量,比较获得的花粉与植物花粉种类之间的相似度;步骤四:用线性队列记录昆虫过去的觅食历史;步骤五:当所有昆虫觅食次数达到上限后,计算每棵植物的存活概率,并与随机数比较,判断植物的位置是否需要改变;步骤六:经过时间演化,使得同种植物聚集在一起,不同种植物彼此分离,实现聚类。2.根据权利要求1所述的一种生物启发式自适应聚类方法,其特征在于:所述步骤二中还包括统计飞行后昆虫携带的花粉量,通过以下公式实现:Nectar′=Nectar×exp(-Distance/Strength)其中,Nectar′表示飞行后昆虫携带的花粉量,Nectar表示飞行前昆虫携带的花粉量,Distance表示此次飞行距离,Strength表示昆虫的记忆强度。3.根据权利要求1所述的一种生物启发式自适应聚类方法,其特征在于:所述相似度通过以下公式进行计算:Si,j=exp(-(Nectar_diffe...

【专利技术属性】
技术研发人员:屈洪春吕强邱泽良王平
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1