特斯拉 DOJO超级计算系统究竟是个啥？（2）

🕗 发布于 2024-02-05 18:40 人工智能 机器学习 深度学习 AIGC

最近把欠读者的连载的坑先填完，再开新坑，除非有特别的事件驱动临时更新新内容以外

书接前文：特斯拉 DOJO超级计算系统究竟是个啥？（1） (qq.com)

复习一下上节课的内容

总结一下Dojo的几个特点：

非分离架构，存算一体：这其实也会是今后的方向，因为你存CKPT越快，你训练速度越快，以后的所有训练架构肯定都不会做存算分离，这是趋势，片内片外都是
每个core都可以扩展到D1或者D2，每个D1或者D2都能扩展到Tile，积木式玩法，大概率是今后自产芯片的趋势，(我司的Maia也是,但是没细粒度到Core级别，后面我会讲)
减少布线：core--->D1--->Tile几乎都是尽可能片内，减少布线，算力堆叠降低延迟
效率最大化，内核就给2Ghz，除了分支预测和小指令的缓存，其他面积全给NPU组件，向量和矩阵计算单元，和Nvidia相比，良心到极致，反正也是自己用
能省就省：Dojo core没有数据端缓存，没虚拟内存，不支持精确异常处理，说白了Dojo 等于战神GTR,"我不会让你等到弯道，而是在直道就开始加速干翻你!

"

原文地址：https://blog.csdn.net/kingsoftcloud/article/details/136045582

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：MPLAB编译 dsPIC33FJ128GP710
下一篇：项目02《游戏-07-开发》Unity3D

【优先算法】--双指针1
双指针移动零复写零
阅读更多2024-10-17
华企盾对当前网络安全挑战与应对策略探讨
北京华企盾科技有限责任公司作为国内领先的信息安全服务商，我们有责任和义务为大家揭示当前网络安全面临的挑战，并提供有效的应对策略。面对日益严峻的网络安全挑战，北京华企盾科技有限责任公司始终为您提供专业、
阅读更多2024-10-17
NVIDIA HGX
NVIDIA HGX AI 超级计算机
阅读更多2024-10-17
深度学习：领域适应（Domain Adaptation）详解
领域适应技术是解决实际应用中数据分布不一致问题的关键。通过有效的领域适应策略，可以显著提高模型在新环境中的性能和泛化能力，这对于构建可靠且实用的AI系统至关重要。随着更多先进技术的发展，领域适应将继续
阅读更多2024-10-17
缓存穿透/击穿/雪崩（附生产BUG）
此时会直接打到数据库上，并且因为查不到数据，也不会写入缓存，所以下一次同样会打到数据库上，请求每次都会走到数据库，流量大时可能导致数据库被打挂。，在缓存过期的一瞬间，有大量的读请求，由于此时缓存过期了
阅读更多2024-10-17
HarmonyOS开发（ArkUI简单使用）
Componentbuild(){//组件UI描述@Componentbuild(){//使用组件Com({title:'标题'})//UI描述@Componentbuild(){@Component
阅读更多2024-10-17
集群与分布式
当单独一台主机无法承载现有的用户请求量；或者一台主机因为单一故障导致业务中断的时候，就可以增加服务主机数，这些主机在一起提供服务，就叫集群，而用户所看到的依然是单个的主机，用户并不用知道具体是集群内哪
阅读更多2024-10-17
Java爬虫之使用Selenium WebDriver 爬取数据
Selenium WebDriver 是一种用于自动化测试 Web 应用程序的工具。它提供了一种编程接口，允许开发人员编写代码以控制浏览器的行为和交互。这个工具在 Web 开发和测试中非常流行，因为它
阅读更多2024-10-17
医护人员排班|基于springBoot的医护人员排班系统设计与实现(附项目源码+论文+数据库）
随着信息技术在管理上越来越深入而广泛的应用，管理信息系统的实施在技术上已逐步成熟。本文介绍了医护人员排班系统的开发全过程。通过分析医护人员排班系统管理的不足，创建了一个计算机管理医护人员排班系统的方案
阅读更多2024-10-17
【计算机网络 - 基础问题】每日 3 题（四十四）
ICMP 全称是 Internet Control Message Protocol，也就是互联网控制报文协议。里面有个关键词 —— 控制，如何控制的呢？网络包在复杂的网络传输环境里，常常会遇到各种问
阅读更多2024-10-17

特斯拉 DOJO超级计算系统究竟是个啥？（2）

相关文章