当前位置: 首页 > 专利查询>暨南大学专利>正文

基于量子Grover搜索技术的量子密度峰值聚类方法技术

技术编号:31160790 阅读:24 留言:0更新日期:2021-12-04 10:27
本发明专利技术公开了一种基于量子Grover搜索技术的量子密度峰值聚类方法。该方法包括数据的预处理,数据映射到极坐标中,DistCalc线路求距离,加法线路求数据点的属性值,整合数据结果,Grover算法搜索中心点,数据的聚类。本发明专利技术利用量子叠加原理,通过DistCalc线路和量子加法线路进行聚类算法中最为关键的距离运算,大大降低其运算时间,再通过量子Grover算法对数据处理的结果进行整合,搜索出最为适合的聚类中心,按照聚类中心进行聚类,从而完成对原始输入数据的聚类。本发明专利技术其时间复杂度与数据量的关系为线性关系,可以应用于各种大数据场景下,使其快速而有效地进行数据的聚类。使其快速而有效地进行数据的聚类。使其快速而有效地进行数据的聚类。

【技术实现步骤摘要】
基于量子Grover搜索技术的量子密度峰值聚类方法


[0001]本专利技术涉及量子计算(Quantum computing)和聚类分析(Cluster analysis)
,具体涉及一种基于量子Grover搜索技术的量子密度峰值聚类方法。

技术介绍

[0002]步入信息时代,各行各业所处理的数据量呈现爆炸式地增长,聚类分析所要解决的问题变得非常复杂,利用计算机来处理聚类分析问题逐渐成为主流。人们引入多种计算机技术,在不同层面上提高执行聚类分析任务时的效率,进而可以广泛地应用于许多数据量巨大的行业,如金融市场,航空航天,交通,旅游,医疗,物联网等。
[0003]基于划分的聚类算法主要有k

Means算法,k

Medians算法,Kernel k

Means算法等,基于层次结构的聚类算法主要有BIRCH算法,CURE算法,CHAMELEON算法等,基于密度的聚类算法有DBSCAN算法,mean

shift算法,密度峰值算法等。每一种算法都有其独特的优点与适宜的应用场景,基于划分的算法原理简单,适合在圆球形分布的数据上做聚类分析,基于层次结构的算法类似于计算机的树形结构,在计算机实现上较为容易,基于密度的算法流程简洁,只需要一次迭代便可求出聚类的中心点,且可以在非圆球形分布的数据上进行聚类。但是密度峰值算法在面对海量数据的处理时所需要的计算时间较长,其时间复杂度和数据量的大小呈正比,因此,提出一种更为高效的算法,以降低密度峰值算法的时间复杂度,具有非常重要的意义,其不但可以使得密度峰值算法聚类在运行时更快得到结果,还可以使得其应用的场景更加丰富。

技术实现思路

[0004]本专利技术技术解决的问题:针对密度峰值算法在处理海量数据时效率较低的问题,利用量子技术加速其算法的运算过程,提出了一种更为高效的基于量子Grover搜索技术的量子密度峰值聚类方法。
[0005]本专利技术的目的通过以下的技术方案实现:
[0006]一种基于量子Grover搜索技术的量子密度峰值聚类方法,包括:
[0007]S1.数据预处理:对数据集中的数据的异常值做初步转换,根据数据之间的相似性提取数据集的数据特征,将数据集输入到量子线路上;
[0008]S2.量子线路计算:对输入到量子线路上的数据进行量子门操作。按照密度峰值聚类思想,提取出数据集的特征信息,计算每个数据点的关于聚类距离的两个属性值;
[0009]S3.量子Grover线路:对每个数据点的属性值进行搜索和比较,搜索出两个属性值都符合预设要求的数据点,将该数据点作为聚类中心点;
[0010]S4.数据聚类:根据聚类中心点对数据集里的所有数据进行聚类操作,使得数据集上的每一个数据点都被打上所属类别的标签,完成对数据的聚类操作。
[0011]优选地,步骤S1具体如下:
[0012]S1.1.数据归一化:对数据集的数据点归一化处理;
[0013]S1.2.数据映射:提取出数据集中的数据特征;根据每个数据点之间的相似性,把数据特征映射在以当前数据点为参考的特定坐标内;
[0014]S1.3.量子编码:对数据集中提取到的数据特征进行量子态编码,数据集的特征信息被编码在量子态的振幅当中。
[0015]优选地,步骤S2具体如下:
[0016]S2.1.量子DistCalc线路:对输入的量子态进行量子DistCalc线路处理,计算出量子态之间的相似性,并且将似性保存为具体的数量值,存储在量子态的振幅当中,得到数据点之间的距离信息,实现数据点之间的距离求解;
[0017]S2.2.量子加法线路:将通过量子DistCalc线路处理的量子态再进行量子加法线路的操作,再根据量子态之间的相似性的数量值计算出数据点的两个属性值ρ
i
和δ
i
,其中ρ
i
为局部密度值,δ
i
为高局部密度点距离。
[0018]优选地,步骤S2.2包括:根据数据点之间的距离信息,通过量子的加法器得到数据点的其中一个属性值,即局部密度值ρ
i
,再通过受控旋转操作,得到数据点的另一个属性值,即高局部密度点距离δ
i

[0019]优选地,步骤S3具体为:应用量子Grover线路,对输入的量子态搜索出符合预设条件的解的索引;根据索引值,寻找到数据集中具体数据点的全部信息。
[0020]优选地,步骤S4具体如下:
[0021]S4.1.提取聚类中心点:根据索引值提取出聚类的中心点;
[0022]S4.2.数据聚类:根据聚类中心点的信息,对数据集中所有数据点进行聚类操作,使得每一个数据点都被分配到某一个聚类当中,并且打上了聚类的标签,最终完成了数据的聚类。
[0023]优选地,根据不同的输入原始数据,聚类的中心点的数量有不同的个数。
[0024]本专利技术相对于现有技术具有如下优点:
[0025]1)本专利技术是一种聚类分析的算法,该算法利用量子叠加原理,通过DistCalc线路和量子加法线路进行聚类算法中最为关键的距离运算,大大降低其运算时间,再通过量子Grover算法对数据处理的结果进行整合,搜索出最为适合的聚类中心,按照聚类中心进行聚类,从而完成对原始输入数据的聚类。本专利技术极大地降低聚类分析过程所需消耗的时间,其效率比经典下的聚类分析算法效果高,所需的存储空间比经典下的聚类分析算法要小。该算法原理清晰,容易实施,其时间复杂度与数据量的大小呈现一次幂的关系。
[0026]2)本专利技术的算法是一种引入了量子技术的算法,所以它不但可以应用于传统常见的数据量大的场景,还可以应用于传统计算机还未涉及应用的场景,如量子化学,量子人工智能,与量子有关的生物医药工程等。
附图说明
[0027]图1为本专利技术算法的流程框图
具体实施方式
[0028]下面结合附图,对本专利技术的技术方案做进一步的说明。
[0029]本专利技术设计针对密度峰值算法在处理海量数据时效率较低的问题,利用量子
Grover技术加速其算法的运算过程,提出了一种更为高效的量子密度峰值聚类方法,如图1所示,本专利技术的一种基于量子Grover技术的量子密度峰值聚类方法包括:
[0030]S1.数据预处理:对数据的异常值做初步转换,使得数据集的数据都在一个可以接受的范围内。根据数据集的数据之间的相似性提取数据集的数据特征,使得数据集的信息可以在后面的步骤中顺利地输入到量子线路上,将数据集输入到量子线路上;步骤S1具体如下:
[0031]S1.1.数据归一化:对输入的数据集中的每一个数据点进行归一化处理,使得异常数据点的信息依然能够保持在特定的范围内,与其余数据点的范围保持相似。
[0032]S1.2.数据映射:提取出数据集中的数据特征(有效信息);根据每个数据点之间的相似性,把数据特征映射在以当前数据点为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于量子Grover搜索技术的量子密度峰值聚类方法,其特征在于,包括:S1.数据预处理:对数据集中的数据异常值做初步转换,根据数据之间的相似性提取数据集的数据特征,将数据集输入到量子线路上;S2.量子线路计算:对输入到量子线路上的数据进行量子门操作;按照密度峰值聚类思想,提取出数据集的特征信息,计算每个数据点的关于聚类距离的两个属性值;S3.量子Grover线路:对每个数据点的属性值进行搜索和比较,搜索出两个属性值都符合预设要求的数据点,将该数据点作为聚类中心点;S4.数据聚类:根据聚类中心点对数据集里的所有数据进行聚类操作,使得数据集上的每一个数据点都被打上所属类别的标签,完成对数据的聚类操作。2.根据权利要求1所述的一种基于量子Grover搜索技术的量子密度峰值聚类方法,其特征在于,步骤S1具体如下:S1.1.数据归一化:对数据集的数据点归一化处理;S1.2.数据映射:提取出数据集中的数据特征;根据每个数据点之间的相似性,把数据特征映射在以当前数据点为参考的特定坐标内;S1.3.量子态编码:对数据集中提取到的数据特征进行量子态编码,数据集的特征信息被编码在量子态的振幅当中。3.根据权利要求2所述的一种基于量子Grover搜索技术的量子密度峰值聚类方法,其特征在于,步骤S2具体如下:S2.1.量子DistCalc线路:对输入的量子态进行量子DistCalc线路处理,计算出量子态之间的相似性,并且将相似性保存为具体的数量值,存储在量子态的振幅当中,得到数据点之间的距离信息,实现数据点之间的距离求解;S2.2.量子...

【专利技术属性】
技术研发人员:宋婷婷吴智豪张衍炳
申请(专利权)人:暨南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1