自学内容网 自学内容网

深度学习加速性能分析与Roofline Model

深度学习加速性能分析

  • 动因:由于深度学习加速器普遍采用时分复用(当然随着Graphcore等dataflow类型的芯片除外,他们是空间划分)。此时,硬件资源在不同时刻执行的计算发生变化,很难以单一时刻的计算类型进行硬件设计。所以寻找平均资源利用率就变得更重要
  • 方法:针对不同任务建立benchmark,评估模型与计算平台的亲和能力
  • 收益:亲和度高的架构设计,可以实现同等算力(硬件规格)下执行更多的有效计算。例如,同是16Tops算力下执行ResNet50,A芯片可以达到50fps,B芯片可能仅有20fps。
  • 指标:计算能力与带宽能力

Roofline Model

  • 基于计算强度的性能评估方式,在给定算力 π \pi π下,计算平台提供带宽

原文地址:https://blog.csdn.net/kkk12344/article/details/145196685

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!