任意长度并行前缀和扫描算法《PMPP》笔记

🕗 发布于 2024-09-25 20:16 算法 cuda

下面的算法针对于任意长度输入

在这里插入图片描述

对于大数据集，首先将输入分为几段，每一段放进共享内存并用一个线程块处理，比如一个线程块使用1024个线程的话，每个块最多能处理2048个元素。

在前面代码中，一个块最后的执行结果保存到了Y数组中，Y 数组保存了每个段扫描的结果，可以称之为扫描块，一个扫描块只保存了当前块中前面所有元素的累加值，需要把这些扫描块合并到一个最终的结果中。

在这里插入图片描述

上述栗子，在16个输入的数组中，分为4个扫描块，kernel将4个扫描块看做独立的输入数据集处理，扫描kernel结束之后，每个Y元素保存了这个扫描块中扫描的结果。

每个扫描块最后一个元素时当前扫描块中输入元素的总和。

在第二步中，从每个扫描块中收集最后一个元素，放进一个数组S中，然后对此数组进行扫描，然后将扫描S数组后的值累加到对应的扫描块上。

可以使用3个kernel实现层级扫描，第一个kernel和之前的kernel没有太大差别（都是针对块内进行扫描），需要添加一个中间变量S，其维度为 inputSize/SECTION_SIZE, 在kernel的最后，需要块的最后一个线程把当前扫描块中最后值写到S中blockIdx.x 位置上。

第二个kernel和之前的kernel也一样，只是使用S作为输入，修改S的内容并将之作为输出。

第三个kernel接受S和Y数组作为输入，然后将输出写回到Y，将一个S的元素加到对应扫描块的Y元素上。

/*
处理任意长度输入的并行归约， 包括3个层级kernel
*/
__global__ void tier1_scan_kernel(
    float* dev_x, float *dev_y, float *dev_s, unsigned int inputSize){
    // 第一层级，实现每个块内的归约，并将归约后的最后一个元素写到S中
    __shared__ float XY[SECTION_SIZE];
    int idx = blockIdx.x * blockDim.x +threadIdx.x;
    if(idx < inputSize){
        XY[threadIdx.x] = dev_x[idx];
    }

    // 归约阶段
    for(unsigned int stride=1;stride<blockDim.x; stride*=2){
        __syncthreads();
        int index = (threadIdx.x+1)*2*stride - 1;
        if(index<blockDim.x){
            XY[index] += XY[index-stride];
        }
    }

    // 分发阶段
    for(int stride=SECTION_SIZE/4; stride>0; stride/=2){
        __syncthreads();
        int index = (threadIdx.x+1)*stride*2 - 1;
        if(index+stride< SECTION_SIZE){
            XY[index+stride] += XY[index];
        }
    }

    __syncthreads();
    dev_y[idx] = XY[threadIdx.x];
    if (threadIdx.x == 0){
        dev_s[blockIdx.x] = XY[SECTION_SIZE-1];
    }
}

__global__ void tier2_scan_kernel(float * dev_s, unsigned int inputSize){
    __shared__ float XY[SECTION_SIZE];
    int idx = blockIdx.x * blockDim.x +threadIdx.x;
    if(idx < inputSize){
        XY[threadIdx.x] = dev_s[idx];
    }

    // 归约阶段
    for(unsigned int stride=1;stride<blockDim.x; stride*=2){
        __syncthreads();
        int index = (threadIdx.x+1)*2*stride - 1;
        if(index<blockDim.x){
            XY[index] += XY[index-stride];
        }
    }

    // 分发阶段
    for(int stride=SECTION_SIZE/4; stride>0; stride/=2){
        __syncthreads();
        int index = (threadIdx.x+1)*stride*2 - 1;
        if(index+stride< SECTION_SIZE){
            XY[index+stride] += XY[index];
        }
    }

    __syncthreads();
    dev_s[idx] = XY[threadIdx.x];
}

__global__ void tier3_scan_kernel(float *dev_y, float *dev_s, unsigned int inputSize){
    int idx = blockIdx.x * blockDim.x + threadIdx.x;
    if (idx< inputSize){
        dev_y[idx] += dev_s[blockIdx.x];
    }
}

void func_scan_gpu3(float* x, unsigned int length){
    float *y = new float[length];

    float *dev_x, *dev_y, *dev_s;
    cudaMalloc((void**)&dev_x, length*sizeof(float));
    cudaMalloc((void**)&dev_y, length*sizeof(float));
    unsigned int blocks = (length + SECTION_SIZE -1)/ SECTION_SIZE;

    cudaMemcpy(dev_x, x, length*sizeof(float), cudaMemcpyHostToDevice);
    cudaMalloc((void**)&dev_s, blocks*sizeof(float));
    tier1_scan_kernel<<<blocks, SECTION_SIZE>>>(dev_x, dev_y, dev_s, length);
    tier2_scan_kernel<<<1, blocks>>>(dev_s, blocks);
    tier3_scan_kernel<<<blocks, SECTION_SIZE>>>(dev_y,dev_s, length);

    cudaMemcpy(y, dev_y,length*sizeof(float), cudaMemcpyDeviceToHost);
    print1DArr(y, SECTION_SIZE);

    cudaFree(dev_x);
    cudaFree(dev_y);
    cudaFree(dev_s);
    delete[] y;
}

原文地址：https://blog.csdn.net/sinat_41053216/article/details/142491116

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：蓝桥杯模块一：LED指示灯的基本控制
下一篇：Redis:事务

Android Button “No speakable text present” 问题解决
记录一个问题，今天让同学们做了个小车控制界面，使用Button控件，删除设置的text属性，会出现“No speakable text present”的错误，如图所示。这是由于Android的无障碍
阅读更多2024-09-28
jekins忘记admin密码
登录后，立即到“Manage Jenkins” > “Configure Global Security”中重新启用安全设置，并设置新的管理员密码。打开config.xml文件，找到与安全性（s
阅读更多2024-09-28
matlab入门学习（三）绘图
提取的是网格线相交的点构成的数值矩阵（x、y分开）相当于将xoy面划分出网格区域。
阅读更多2024-09-28
828华为云征文｜部署去中心化网络的 AI 照片管理应用 PhotoPrism
适用于去中心化网络的人工智能照片应用程序 PhotoPrism
阅读更多2024-09-28
低代码用户中心：构建高效便捷的用户管理平台
低代码用户中心为企业提供了一种灵活、高效的用户管理解决方案，帮助他们在竞争激烈的市场中脱颖而出。在未来的发展中，低代码平台将不断创新，为企业的数字化转型提供更强大的支持。如果你还未尝试低代码开发，或许
阅读更多2024-09-28
5.使用 VSCode 过程中的英语积累 - Go 菜单（每一次重点积累 5 个单词）
学习可以不局限于传统的书籍和课堂，各种生活的元素也都可以做为我们的学习对象，本文将利用 VSCode 页面上的各种英文元素来做英语的积累
阅读更多2024-09-28
【Redis 源码】5zskiplist跳跃表
什么是 Redis 的 ZSET（Sorted Set）Redis 的 ZSET 是一种有序集合，它结合了 Set 的唯一性和 List 的排序功能。每个元素都有一个分数（score），元素根据分数进
阅读更多2024-09-28
一带一路区块链样题解析（上）
本教程中，所有节点均以root用户名连接同一个本机MySQL数据库，真实业务场景中，可按需修改数据库相关配置(包括MySQL的IP和端口，连接MySQL的用户名和密码等)。（1）使用tar命令解压缩c
阅读更多2024-09-28
混合密码系统——用对称密钥提高速度，用公钥密码保护会话密钥
混合密码系统（Hybrid Cryptosystem）是一种结合了多种密码学技术和算法的加密方案，旨在充分利用不同密码算法的优势，以提供更强大的安全性、更高的效率或更好的功能特性。将消息通过对称密码加
阅读更多2024-09-28
IDEA相关设置总结
IDEA2022相关设置总结，以后会不断更新
阅读更多2024-09-28

任意长度并行前缀和 扫描算法 《PMPP》笔记

相关文章

任意长度并行前缀和扫描算法《PMPP》笔记