08_turing_tensorop_gemm

🕗 发布于 2025-01-20 11:44 c++

在00_basic_gemm中基本梳理清楚了gemm计算流程，不过使用cuda core写的，虽然目前没人用这个实现gemm了，但是优化思想还是值得学习的，现在来看看turing架构下的gemm怎么实现，和basic gemm的区别就是mma是tensor core, 具体如下：
在这里插入图片描述
和之前相比，区别在于做warp gemm的时候，上面的小绿色块是整个warp去计算得到的，之前是一个线程做。因此整个warp tile需要循环做8*8次才可以，具体实现在mma_tensor_op.h,代码如下：

      CUTLASS_PRAGMA_UNROLL
      for (int m = 0; m < MmaIterations::kRow; ++m) {

        CUTLASS_PRAGMA_UNROLL
        for (int n = 0; n < MmaIterations::kColumn; ++n) {

          int n_serpentine = ((m % 2) ? (MmaIterations::kColumn - 1 - n) : n);

          if (AccumulatorsInRowMajor) {  // matrix B is reordered
            mma(
              ptr_D[n_serpentine + m * MmaIterations::kColumn],
              ptr_A[m],
              ptr_B[n_serpentine],
              ptr_D[n_serpentine + m * MmaIterations::kColumn]);
          } 
        }
      }
    }

对于tensor core的具体使用，需要配合文档才能使用，因为这里的mma是warp为概念的，对于每个线程只要做搬运数据搬运工作就行，程序员的作用就是根据文档，让每个线程搬运指定位置的数据到寄存器就行，得到的数据再放到指定位置就行，nv这块文档给的不详细，后来推荐用wmma的api，想搞细节可以看看tensor core, 不想搞的话用用wmma也行。tensor core的实现在mma_sm75.h

  CUTLASS_HOST_DEVICE
  void operator()(
    FragmentC &d,
    FragmentA const &a,
    FragmentB const &b,
    FragmentC const &c
  ) const {

  unsigned const & A = reinterpret_cast<unsigned const &>(a);
  unsigned const & B = reinterpret_cast<unsigned const &>(b);

  int const *C = reinterpret_cast<int const *>(&c);
  int *D = reinterpret_cast<int *>(&d);

  asm volatile("mma.sync.aligned.m8n8k16.row.col.satfinite.s32.s8.s8.s32 {%0,%1}, {%2}, {%3}, {%4,%5};\n"
      : "=r"(D[0]), "=r"(D[1])
      : "r"(A), "r"(B), "r"(C[0]), "r"(C[1]));
  }
};

原文地址：https://blog.csdn.net/feng__shuai/article/details/145201043

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：一文大白话讲清楚webpack基本使用——4——vue-loader的配置和使用
下一篇：docker使用笔记

mysql之联合索引
联合索引的最左原则索引并非越多越好，过多的索引会增加数据的维护速度还有磁盘空间的浪费。当表的数据量很大的时候，可以考虑建立索引。表中经常查数据的字段，可以考虑建立索引。想要保证表中数据的唯一性，可以考
阅读更多2025-01-20
【HarmonyOS NAPI 深度探索10】HarmonyOS Next 中的 NAPI 的架构与原理
NAPI在HarmonyOSNext中扮演着核心角色，它通过统一的接口封装，实现了JavaScript和C/C++之间的高效交互。无论是其架构的精巧设计，还是内存管理和异步处理的细致考虑，都为开发者提
阅读更多2025-01-20
【Unity3D】远处的物体会闪烁问题(深度冲突) Reversed-Z
因为深度值是浮点类型float32，其浮点数记录无法保证精确度的，它仅有23个二进制有效位保存数据，8位是指数位，1位是符号位，其中23位只是小数有效位，若只谈纯整数它有24位有效位，2^24代表16
阅读更多2025-01-20
国产编辑器EverEdit - 合并行
在编写代码或其他场景下，有时需要把多行的内容缩减成一行，或者纯粹减少行数进行合并，比如：下面的字典的定义，每个元素占了一行，有点浪费，现在需要把它们缩减行数。
阅读更多2025-01-20
归并延拓：LeetCode归并排序逆序对问题
如果您渴望探索更多精心挑选的高频LeetCode面试题，以及它们背后的巧妙解法，欢迎您访问我的博客，那里有我精心准备的一系列文章，旨在帮助技术爱好者们提升算法能力与编程技巧。👉更多高频有趣LeetCo
阅读更多2025-01-20
网络Web存储之LocalStorage
是HTML5提供的一种客户端存储机制，属于Web存储API的一部分。它允许网页在用户的浏览器中存储键值对数据，这些数据会以持久化的方式保存，除非用户手动清除浏览器缓存，或者通过JavaScript代码
阅读更多2025-01-20
Linux中的基本指令（一）
本文主要介绍了Linux中的几个基本指令，包括ls，mkdir，touch，pwd，cd，rmdir，rm，man，cp以及其他的简单指令，如tree，nano，cat，ll等，同时补充了在Linux
阅读更多2025-01-20
大模型在特定行业应用
3. **Qwen系列**：由阿里云研发，这个系列的大模型在电商、金融、广告等多个领域都有应用。企业在选择模型时，通常会考虑模型在目标行业中的应用案例和性能表现。4. **腾讯混元系列**：腾讯推出的
阅读更多2025-01-20
Nginx关于servername配置无效的处理
return403;#拒绝未匹配请求，或者返回自定义响应。发现配置的server_name随便填什么都可以访问前端静态文件。的值实际上不起作用，所有通过IP访问的请求都会被路由到这个。，Nginx默认
阅读更多2025-01-20
在 Windows 下利用 `.pem` 文件配置 VS Code Remote-SSH 连接远程服务器
在日常开发中，使用VSCode的Remote-SSH插件可以方便地通过SSH连接远程服务器，实现本地开发与调试的无缝衔接。然而，在Windows系统下，如果使用`.pem`私钥文件，配置过程中可能会遇
阅读更多2025-01-20

08_turing_tensorop_gemm

相关文章