浪潮自研SSD:如何实现260万小时连续运行?

1.jpeg

浪潮存储产品经理:宗岗岗
浪潮SSD架构师:殷军博

北京2021年9月16日 /美通社/ -- MTBF(Mean time between failures,平均无故障时间)作为SSD闪存盘一个非常重要的可靠性参数指标,当前市场主流企业级产品指标值基本在200万小时,浪潮自研SSD经过一系列内置创新算法加持,MTBF可以达到260万小时以上,比业界标准提升30%以上

什么是MTBF

在解读MTBF之前,我们先了解下浴盆曲线概念,浴盆曲线又称失效率曲线,指产品从投入到报废为止的整个生命周期内的可靠性变化规律,左边斜线部分为早期失效期,其故障率一般较高且随着时间推移很快下降曲线中部为随机失效期,其故障率一般很低且基本固定最右部为磨损失效期,失效率急速升高 

电子产品的寿命一般都符合浴盆曲线,可分为三个阶段: 

其一早期失效期,失效率迅速递减并趋于稳定,由于设计,原材料,生产等原因导致的高失效率阶段,可通过环境应力筛选加以剔除

其二,随机失效期,失效率近似一个常数,只有随机失效产生,MTBF即是这一阶段的寿命 

其三磨损失效期,硬件故障期,产品已达设计寿命,进入报废阶段


MTBF,即平均故障间隔时间,英文全称是“Mean Time Between Failure”,是指相邻两次故障之间的平均工作时间,是衡量一个产品的可靠性指标,单位为“小时”MTBF越长表示可靠性越高,保持正确工作能力越强它反映了产品的时间质量,是体现产品在规定时间内保持功能的一种能力它仅适用于可维修产品,当产品的寿命服从指数分布时,失效率的倒数表示两个失效之间的时间间隔(λ=1/MTBF)

MTBF测算方法

MTBF主要通过实证法采用加速应力方式来证明产品长期可靠度,RDT(Reliability Demonstration Test,可靠度验证测试)测试主要通过高温加速测试计算评估,从测试深度、广度、持久度三个方向进行测验

深度测试是Endurance测试,使用JEDEC标准固态硬盘耐久性工作负载,PE(Program/Erase,擦写)值从开始到预允许最大值验证耐久度,即从生命周期开始到生命周期结束,浪潮自研SSD投入上百块数量持续测试时间达到1600小时以上

广度测试是Quality测试,主要通过读、写、数据校验、Trim、Format以及正常和异常上下电等所有用户可能的操作,验证各种操作Case下的稳定性,浪潮自研SSD共计投入上千块样品持续测试时间高达1600小时以上

持久度测试是Retention测试,在SSD闪存盘生命末期,寿命PE次数达到允许的最大值之后,投入上百块SSD进行Power loss retention测试以验证掉电后的数据保持能力

MTBF数学公式表示为MTBF=∑(downtime-uptime)/failure times,公式中的失效时间是指上一次设备恢复正常状态(公式中的up time)起,到设备此次失效那一刻(公式中的down time)之间间隔的时间浪潮自研SSD经第三方机构测评计算MTBF可以达到260万小时以上,PE可达到10K级别,寿命和可靠性都得到了大幅提升

核心技术引擎

浪潮自研SSD凭借NAND特性算法、SRR(Smart Read Retry,智能重读算法)、LDPC(Low-Density Parity-Check Codes,低密度奇偶校验)、可变条带RAID5四大核心算法技术引擎支撑,使得MTBF轻松达到260万小时

第一,NAND特性自学习算法模型。


基于浪潮自研NAND测试平台精准获取最佳NAND特性数据,创新设计NAND特性自学习算法模型,针对擦除次数、读计数、温度、保持时间不同场景下获取NAND最佳读电压,使得PE提升40%,固态盘可靠性和Qos大幅提高

第二,智能重读算法SRR

受限NAND闪存特性会出现正常读发生错误的现象,为了能够读取到正确数据,浪潮SSD内部使用了智能重读算法,当读取数据错误时,会自动触发智能重读,根据不同page状态,选择合适的shift电压,全生命周期内保证正确读取和优质的Qos


第三,低密度奇偶校验LDPC

目前市场主流SSD主要采用3D eTLC NAND 闪存作为主要存储介质,受限NAND闪存物理结构会存在读写干扰、高温、辐射、寿命减少等问题,RBER(原始比特出错率)会随着磨损次数、Retention和读干扰增加而逐渐变大为了保证数据准确性,浪潮自研SSD采用软硬协同的LDPC作为纠错方案,凭借增强型LLR(Log Likelihood Ratio,对数似然率) table,能够显著降低UBER(Uncorrectable Bit Error Rate,不可修复比特率),增强 ECC(Error Correction Code,纠错码)码的纠错能力


第四,可变条带RAID5

浪潮自研SSD设计了针对Block的健康状况进行严密的监控和记录的可变条带RAID5保护机制,采用N+1个Block组成RAID条带,其中N用于存放用户数据,1个Block用于存放校验值当出现坏块时,RAID条带在下次写入时将自动将为(N-1)-1,这种优化大大提升了RAID保护的灵活性,增强了数据保护的可靠性


浪潮自研SSD通过底层一些关键核心算法的创新,产品可靠性和安全性不断实现突破未来,浪潮存储将持续秉承“云存智用 运筹新数据”理念,加速推进底层存储介质研发和创新,掌握底层硬件关键核心技术,以领先技术助力关键行业实现突破应用,全面释放数据价值,加速数字化转型

更多浪潮自研SSD相关信息,请查看:

产品图.jpg

赞 (0)
上一篇 2024年11月23日 13:47
下一篇 2024年11月23日 13:47