性能优化--CPU微架构

🕗 发布于 2024-11-21 10:02 性能优化架构

一指令集架构

Intel X86, ARM v8, RISC-V 是当今广泛使用的指令架构的实例。

大多数现代架构可以归类为基于通用寄存器的加载和存储型架构，在这种架构下，操作数倍明确指定，只能使用夹在和存储指令访问内存。除提供基本的功能之外，广泛部署的架构还在集训增强其ISA 以支持新的计算方式。包括增强的向量处理指令(例如Intel AVX2, AVX512 ARM SVE)和矩阵指令。使用这些高级指令的软件往往在性能上有几个数量级的提升。

二指令流水线

流水线是加快CPU速度的基础性技术，指令可以重叠执行。

指令执行的过程1 取指令，2 译码 3 执行 4 访问内存 5 回写。

在第一个时钟周期，指令x进入流水线的取指IF阶段。在第二个时钟周期，指令x进入译码ID阶段，同时程序的下一条指令进入取指IF阶段，以此类推。当整个流水线满载时，图7中第5个时钟周期所示，CPU的所有流水线阶段都忙于处理不同的指令，如果没有流水线的话，指令x + 1就需要等到指令x执行完毕才能开始执行。

流水线机器中每条指令的执行时间 = 非流水线机器中每条指令执行的执行时间/ 流水线阶段数。

在现代CPU中所有类别的冒险都是由硬件处理的。

结构冒险

由资源冲突而导致，在很大程度上，可以通过复制硬件资源如使用多端口寄存器或者存储器来消除。然而，要消除所有这些冒险，在硅面积和功耗方面成本可能会变得非常高昂。

数据冒险

写后读Read after write. 冒险要求相关的读取操作在写入操作后执行。当指令x + 1 在上一条指令x写入某个位置之前读取同一位置时，就会发生这种冒险，从而导致读取错误的值。CPU通过实现从流水线后期阶段到早期阶段的数据转发来减轻与RAW冒险相关的损失，这个想法是，在指令x完全完成之前，指令x的结果可以转发到指令x+1我们看一下例子。

R1 = R0 ADD 1

R2 = R1 ADD 2

高速缓存

m路组关联告诉缓存中的每个缓存块都有一个与其关联的地址标签。此外，该标签还包含诸如标记数据有效与否的有效位之类的状态位。标签还可以包含其他位，以指示访问信息，共享信息等，这些内容将在后面的章节中描述。

图11展示了如何使用流水线生成的地址来查找高速缓存。最低顺序地址位定义了给定块内的偏移量，即块偏移量位（32字节缓存行需5位。64字节缓存行需要6位）。组则是基于上述公式使用索引位来选择，一旦组被选定，就可以使用标签位与该组中的所有标签进行比较。如果其中一个标签与传入请求的标签匹配并且设置了有效位，则缓存命中。与该块条目关联的数据。

块地址

标签，索引块偏移量。

缓存未命中

典型的替换算法是最近最少使用(Least Recently Used, LRU)策略，即最近访问次数最少的缓存块被释放，为未命中地址腾出缓冲空间，另一种可选算法则随机的选择一个缓存块作为牺牲对象。大多数CPU在硬件层定义这些功能。

管理写操作

CPU的设计使用两种基本机制来处理高速缓存中的缓存命中写入操作：

在写直达(Write-Through)高速缓存中，命中的数据同时写入缓存块的层次结构中较低的层级。

在回写(Write Back)高速缓存中，命中的数据只写入缓存。

在写入未命中时分配Write-Allocate 或者读取Fetch高速缓存中，未命中位置的数据从层次结构中较低层级家在到高速缓存，随后写入命中情况一样处理剩余写入操作。

假如高速缓存使用非写分配(no-write-allocate)策略，写入未命中的事物直接被发送到层次结构中所有较低层级，并且缓存块不会被夹在到高速缓冲中。

平均访问时延 = 命中花费的时间 + 未命中比例 x 未命中花费的时间。

硬件和软件预取技术

减少缓存未命中以及后续停顿的方法之一，就是先于流水线需要将指令和数据预取到高速缓冲区的不同层级。prefetch指令。

主存

就是常说的内存，大多数CPU都支持的主流DRAM技术是DDR，DRAM技术。历史上，DRAM带宽每一代都得到了提升，而延迟保持不变，甚至更高。表2展示了最新三代DDR技术的最高数据速率对应的延迟，数据速率以每秒百万传输次数(10^6)的单位度量。

DDR3 2133 10.3ns

DDR4 3200 12.5ns

DDR5 6400 14

虚拟内存

虚拟地址包含两部分，

虚拟页编号页偏移量

页表物理地址主存

单指令多数据处理器

simd 在SIMD处理器中，单条指令通常在单个时钟周期内使用许多独立的功能单元对多个数据元素进行操作。向量和矩阵的科学计算都非常适合SIMD架构，因为向量或者矩阵的每个元素都需要使用相同指令进行处理。

原文地址：https://blog.csdn.net/fantasy_ARM9/article/details/143928397

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：接口性能优化的技巧
下一篇：金融服务的未来：测试自动化如何驱动合规、安全与创新

论文阅读——Intrusion detection systems using longshort‑term memory (LSTM)
作者提出的 LSTM 模型能够有效区分正常网络流量和攻击流量。除此之外，模型结合主成分分析（PCA）和互信息作为降维方法。实验结果表明，基于 PCA 的模型（特别是使用2个主成分）在二分类和多分类任务
阅读更多2024-11-21
用源码编译虚幻引擎，并打包到安卓平台
本文详细介绍了如何用源码编译虚幻引擎，并将其打包到安卓平台。
阅读更多2024-11-21
Vue项目开发 element-UI 前端实现 1到10排列选择的按钮
在 Element UI 中，你可以通过来实现按钮的排列选择，例如让用户选择 1 到 10 之间的数字。为了实现这一功能，我们可以使用来动态生成 1 到 10 的按钮，并通过按钮点击事件来更新
阅读更多2024-11-21
Java EE 【知识改变命运】01计算机的一些知识点
计算机一些基础知识
阅读更多2024-11-21
04 —— Webpack打包CSS代码
加载器style-loader：把解析后的css代码插入到DOM。加载器css-loader ：解析css代码。直接引用，不用变量接收。
阅读更多2024-11-21
万能程序补丁工具 C# 源代码详解
万能程序补丁工具程序目的：搜索二进制可执行 EXE 或 DLL 文件分析的特征代码，替换特征代码，达到调试修正目标程序的功能。
阅读更多2024-11-21
【MySQL数据库】C#实现MySQL数据库最简单的查询和执行函数
C#和MySQL数据库是常见的数据交互，标准的查询和执行方法如下，做个记录。
阅读更多2024-11-21
单条推理转批量推理prompt
在每个线程中设置环境变量 CUDA_VISIBLE_DEVICES，以确保每个线程只使用指定的GPU。使用 concurrent.futures.ThreadPoolExecutor 来管理多线程任务
阅读更多2024-11-21
【AIGC】ChatGPT提示词Prompt解析：情感分析，分手后还可以做朋友吗？
【AIGC】在情感博弈中，最重要的是保持清醒的认知和优雅的态度。识别控制话术不是为了对抗，而是为了更好地保护自己的情感自由，实现真正的成长。
阅读更多2024-11-21
pycharm中配置pyqt5
PyQt和wxPython则提供了更多的控件和更强大的功能，适合于需要复杂用户界面的应用程序。pyQt生成的应用程序，引用图片通常是将资源文件装换为 python 文件，然后引用资源文件，而不能直接加
阅读更多2024-11-21