自学内容网 自学内容网

PCIe SSD在温变环境的稳健性技术剖析

随着工业4.0的推进,边缘计算、物联网(IoT)以及汽车等领域的快速发展对存储设备提出了更高的要求。PCIe SSD由于其高性能和低延迟特性,在这些领域中得到广泛应用。然而,这些应用往往需要在极端温度环境中运行,这就给PCIe SSD带来了新的挑战。

在不同的应用场合,比如边缘计算、物联网(IoT)和汽车应用中,PCIe SSD可能会遇到热管理方面的挑战。这些挑战已经成为影响性能和可靠性的关键问题。如边缘计算、IoT、汽车等,可能会遇到热挑战,这些问题严重影响了性能和可靠性。例如,由于缺乏足够的空气流通,盒式PC内部温度可能会非常高,可能需要在高温下持续运行而不关闭;数据记录器则需要在高温条件下保持强持续读写性能;而工业物联网服务器面临着由温度触发的风扇动作。这里的关键在于,尽管温度变化会导致冷却系统的启动,但服务器仍需保持在一定的温度范围内运作。这需要SSD具备良好的温度适应能力,同时能够承受因温度变化带来的机械应力。

图片

除了上述场景外,其他的应用领域如网络/汽车交通、工业/国防/物联网、医疗保健、电信自动化和航空等也会面临类似的问题。在这些领域内,设备可能会经历从极寒到酷热的温度变化,这要求SSD能够在广泛的温度范围内提供一致的性能和可靠性。

总结来说,PCIe SSD在温变应用中遇到的热挑战主要来自于不同环境下温度波动对设备性能和可靠性的影响。解决这些问题的方法需要从多个角度入手,包括但不限于机械设计上的优化、环境测试中的验证以及固件层面上的改进等。只有这样,才能确保SSD在各种苛刻的工作条件下都能保持良好的表现。

工业SSD稳健性的三大要素:耐久性、温度韧性及数据完整性

耐久性是衡量SSD可以承受多少次编程/擦除(P/E)周期的一个指标。使用原生TLC模式时,SSD可以达到5,000次以上的P/E周期;而在pSLC模式下,则可以达到10万次以上。当NAND闪存接近使用寿命终结时,实施强大的错误处理机制对于减少错误并维持数据完整性至关重要。

图片

下图展示了在125℃的操作交叉温度范围内,具有稳健固件错误处理功能的重要性。随着NAND闪存接近其使用寿命结束,错误开始增加。因此,实施一个强大的错误处理机制对于减少错误并保护数据完整性至关重要。

图片

机械设计方面,从PCB设计阶段就要考虑过热问题,并通过模拟来确定电路设计中的潜在过热区域,然后通过热模拟了解机械设计对散热的影响。为了优化PCB布局和组件放置,工程师们会调整电路布局、线宽以及通孔的数量和位置,以最小化电压降(IR drop),提高性能、信号完整性和功率/热量分布效率。

图片

下图,我们可以看到热成像图显示了不同情况下SSD的温度分布。从上到下,温度逐渐降低,表明添加散热片有助于降低SSD的温度。

图片

图片

PCIe SSD在具有关键任务应用的领域中,需要进行热设计/产品特性化和规格验证以及通过广泛测试实现设计可靠性。

图片

  1. Thermal Design/Product Characterization and Specification Validation(热设计/产品特性和规格验证):这是设计阶段的一部分,旨在确保产品的热特性符合预期标准,并且满足特定的应用需求。

  2. MTBF & End-of-Life-Testing(平均无故障时间及生命周期末期测试):这是评估产品寿命的关键指标,用于预测系统在给定时间内发生故障的概率。End-of-life测试则是为了确定产品在其生命周期结束时的表现。

  3. PCBA Solderability Validation(印刷电路板组件可焊性验证):这是检查焊接质量的一个过程,确保所有组件都能牢固地连接到PCB上,这对于在恶劣环境下运行的设备至关重要。

  4. Four-Corner Cycling Tests(四角循环测试):这是一种测试方法,用于模拟不同温度和湿度条件下的工作情况,以验证产品在极端条件下的表现。

图片

图片

为了确保产品在工业温度范围内的可靠性,进行了多项测试,包括在0°C至100°C之间进行1000个周期的温度循环测试、机械冲击与振动测试。此外,还进行了加速环境应力测试(如温度湿度偏压/温度循环/高温储存寿命)、加速寿命模拟测试(如高温操作寿命/早期故障率/耐用性数据保留)等。

  1. Qualification Tests to Validate Product Robustness(资格测试以验证产品健壮性):这是指一系列测试,用来确认产品是否能够承受实际应用中的压力和负载。这些测试可以包括加速环境压力测试和加速寿命模拟测试。

  2. Multiple factors combined with cross temp applications(多个因素结合交叉温度应用):这里提到的两个具体测试是THB(温度湿度偏置/TC温度循环/HTSL高湿度存储寿命)和HTOL(高温度操作寿命/ELFR早期失效率/EDR数据保留耐久性)。

  3. Temp Cycles to Ensure Solderability(温度周期以确保可焊性):这里提到了一种热循环测试,该测试将温度在0°C至100°C之间循环1000次,同时保持预定的上升速率和停留时间。这种测试是为了确保在极端温度变化下,焊接仍然有效并且不会破裂。

  4. Mechanical Shock & Vibration(机械冲击和振动):这是另一种常见的测试,用于模拟现实世界中的物理冲击和振动,以检测潜在的损坏。

  5. Dye & Pry and Cross-Section Check:这是一种检查方法,用于观察潜在的损害,可能是通过破坏性手段来查看内部结构是否有任何可见的损伤。

图片

图片

为了确保固态硬盘(SSD)在实际应用中的可靠性和长寿命,必须进行严格的测试程序,而不仅仅是依赖于理论预测。实际盘片级别的测试是验证MTBF(平均故障间隔时间)值的关键步骤。为了获得可靠的MTBF数据,应当进行具有足够样本量的可靠性测试。

图片

在使用寿命测试中,SSD经历了P/E(编程/擦除)循环测试,直至其寿命结束甚至更长时间,期间没有出现UECC(无法纠正的错误计数)。此外,在生命周期的10%、100%和120%时进行了数据保留测试,以确保数据在断电后的持久性。所有SSD的累计TBW(总字节写入量)表明,UBER(不可纠正读取错误率)低于1,在SSD驱动级别读取10^17位时未发现不可纠正的读取错误。这一系列的测试确保了SSD在极端条件下的数据完整性和系统稳定性。

NAND Flash IC Screening是一项重要的技术流程,用于确保固态存储的可靠性和性能。以下是该流程的主要特点和优势:

  1. Good Blocks / Qualified Blocks identified for your application(识别出适合你的应用的好块/合格块):这个过程的目标是找出适合特定应用的优质块,这些块能够满足预期的工作条件和性能需求。

图片

  1. Weak Blocks / Blocks that are not qualified and screened out(弱块/不合格并被排除在外的块):筛选过程中会剔除那些不符合标准的块,以确保最终产品的质量和稳定性。

  2. Prevents products from failing before specified end of life across the industrial temperature range and across various embedded/industrial usage cases(防止产品在工业温度范围内以及各种嵌入式/工业应用场景中提前失效):通过全面的NAND闪存测试,可以在极端条件下预防产品过早失效,确保其在整个生命周期内都能正常工作。

  3. Direct and complete NAND flash quality control(直接和完整的NAND闪存质量控制):这种质量控制通常隐藏在NAND闪存控制器的纠错引擎之下,确保了产品的稳定性和可靠性。

  4. Identifies qualified/unqualified blocks intended for your application using stress accelerants such as temperature, power/voltage and other factors(利用应力加速剂如温度、功率/电压和其他因素识别适合应用程序的合格/不合格块):通过施加压力加速剂,可以快速识别出适合特定应用的块,以便优化设计和性能。

  5. Other Considerations(其他考虑因素):除了NAND闪存筛选之外,还需要评估SSD上所有组件的降额,以确保设计有足够的裕度,防止因组件性能下降导致的设计失败。

固件层面的挑战与考量

在低温下编程(Program @ low temp)似乎相对稳定,没有明显的错误。然而,当在低温下编程后,再在较高温度下读取数据时,错误率会急剧上升。例如,在0°C编程并在40°C、60°C和70°C读取时,分别产生的UECC是747、2259和5320。相反地,如果先在70°C编程然后在较低温度下读取,相对很稳定,在保持0°C恒温16小时后再读取时,只产生了1个UECC。

图片

在跨温环境下的编程和读取数据过程中,Vth分布会随着温度显著变化。实施一个稳健的跨温度错误处理机制可以恢复错误,从而保护数据完整性。这表明在设计和制造SSD时,必须考虑到温度变化的影响,并采取适当的措施来管理这些变化。

图片

此外,还要求固件层面具有优化参考电压的能力,以及复杂的自动读取校准(Auto Read Calibration, ARC)功能。ARC不仅在高温环境下恢复了错误位,增强了数据完整性,还在低温下同样有效。

  1. Optimized Reference Voltage: 优化参考电压是关键,因为它直接影响到读取重试的效果。仅靠读取重试不足以解决所有问题,特别是对于复杂的存储设备。

  2. Auto Read Calibration: 自动读取校准是必要的,因为它提供了更精确的数据读取方法,以确保数据完整性。

图片

上图中用一个无线电频道的例子来说明这一点,频率范围从92kHz到104kHz,其中93.6kHz是目标频率。这个例子用来说明读取重试和自动读取校准之间的差异,在无噪声情况下,没有UECC,即数据完整性得到保证。

  • Read Retry:读取重试的情况,其中有一个较大的调整尺度,但不能提供精确的调整到93.6kHz。这表明读取重试可能无法提供足够的精度来准确读取数据。

  • Read Retry + ARC: 读取重试加上自动读取校准时的情况,此时可以进行精确的调整到93.6kHz。这表明自动读取校准提高了读取的准确性。

图片

上方表格对比了三种情况下的结果:没有自动读取校准(w/o ARC)、高温下有自动读取校准(w/ ARC @ high temp.)和低温下有自动读取校准(w/ ARC @ low temp.)。可以看出,无论是在高温还是低温下,使用自动读取校准都可以减少错误比特数(RTBB),从而避免数据损坏。没有运行时间坏块(RTBB)意味着数据完整性得到了保障。在所有情况下,使用自动读取校准都可以恢复错误比特,从而保护数据不受损害。

综上所述,为了确保PCIe SSD在跨温度环境应用中的稳健性,需要综合考虑机械设计、温度相关的可靠性测试以及固件层面的自动读取校准等多方面因素。通过这些措施,可以有效地应对温度变化带来的挑战,确保SSD在各种环境下的可靠运行。

参考文献:FMS2024-ATP Electronics Inc-《The Challenges of PCIe SSD Robustness in CrossTemperature Applications》


如果您看完有所受益,欢迎点击文章底部左下角“关注”并点击“分享”、“在看”,非常感谢!

精彩推荐:


原文地址:https://blog.csdn.net/zhuzongpeng/article/details/142833870

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!