一种面向GPU和DCU架构的FlashSort算法优化方法技术

技术编号：38710616 阅读：12 留言：0更新日期：2023-09-08 14:53

本发明专利技术公开了一种面向GPU和DCU架构的Flash Sort算法优化方法，属于高性能计算与算法技术领域；本发明专利技术在不同级别上(device/block/wavefront)处理数组A(数组A为待排序数组)，根据待排序数组内的元素数值范围设定桶的数量，并按照桶内的元素数量对数组的存储地址重新进行划分，将数组内的元素存储到对应的桶中。将线程划分为若干线程组，每个线程组共同完成一个桶内的元素的排序，每个线程负责桶内多个元素的排序，并预先在LDS上分配存储空间，有效解决了现有技术所存在的资源占用率低，总体性能不高的问题。总体性能不高的问题。总体性能不高的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向GPU和DCU架构的Flash Sort算法优化方法

[0001]本专利技术涉及高性能计算与算法
，具体涉及一种面向GPU和DCU架构的Flash Sort算法优化方法。

技术介绍

[0002]在计算机科学与数学中，排序算法可以将一组数据按照特定的排序方式进行排列，常用的排序算法有冒泡排序、插入排序、归并排序、奇偶排序等等。
[0003]图形处理器(GPU，Graphics Processing Unit)和深度处理器(DCU，Deep Computing Unit)可以提供强大的并行计算能力和巨大的数据吞吐量，在处理大规模数值计算问题方面表现优异，为高性能计算系统提供了坚实的计算平台。基于GPU和DCU的并行计算能力，算法可以同时对多个数据进行排序，极大的提高排序算法的运行速度。
[0004]Flash sort算法在桶排序的基础上加入对数据分布的猜测，减少了桶的用量。但是现有的Flash sort算法没有很好的在GPU和DCU架构上实现优化，资源占用率低，没有充分发挥GPU和DCU加速器的性能，鉴于此，本专利技术提出了一种面向GPU和DCU架构的Flash Sort算法优化方法。
[0005]本专利技术提供了一种Flash sort算法优化方法，将Flash sort算法在GPU和DCU架构上实现并优化，充分利用了GPU、DCU高度并行的优点，提高了Flash sort排序算法的运行速度。

技术实现思路

[0006]本专利技术的目的在于解决现有Flash so...

【技术保护点】

【技术特征摘要】
1.一种面向GPU和DCU架构的Flash Sort算法优化方法，其特征在于，包括如下步骤：S1、初始化：根据数组A的大小分别采用device/block/wavefront不同级别的计算，并对参数进行设定，所述参数包括每个线程处理的元素个数以及桶的数量；S2、计算桶id：每个线程处理多个元素，计算每个元素所属的桶id，并计算每个元素在桶内的编号，储存至共享内存中；同时计算每个桶内元素的数量，并存储到数组bucket_size中；S3、计算前缀和：计算数组bucket_size的前缀和，并根据桶的大小重新划分存储空间，确定每个桶在数组中的起始位置；S4、将数组元素放入桶内：将数组内的元素重新写入存储空间中，并按照S3中所划分的存储空间对应放入指定的桶空间中；S5...

【专利技术属性】
技术研发人员：胡长军，李慧昭，卢旭，何远杰，储根深，
申请(专利权)人：北京科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人