查看: 106|回复: 1

【忆芯技术分享第十四期】闪存可靠性利器-NFQ

[复制链接]

3

主题

6

帖子

12

积分

新手上路

Rank: 1

积分
12
发表于 2023-3-10 20:10:09 | 显示全部楼层 |阅读模式
一、NFQ的背景和意义

NFQ全称Nand Flash Qualify。近年来随着企业数字化转型的快速发展,数据呈现爆发增长趋势,AI、大数据、云计算等新兴技术的发展使得数据来源和结构变得更加复杂多样,基于数据的智慧应用不断涌现,带来了对数据存储质量、传输速度等性能需求的提升。固态硬盘(Solid State Drives, SSD)凭借着高性能及其价格的持续优化、绿色节能等特点,成为了IT核心基础设施的重要选择,满足数字经济时代对大容量、绿色节能、高性能、高可靠的需求。NAND FLASH作为SSD的基础单元,其可靠性是存储系统、数据中心稳定可靠的基础保证,忆芯科技坚持科技创新与工匠精神,结合用户的场景要求,针对NAND FLASH可靠性测试进行全面的探索和创新,不断打磨优化确保SSD的高可靠性并且提高闪存使用寿命。
可靠性低将会导致用户数据丢失,JEDEC的标准协议之一JESD218A(SSD Requirement and Endurance Test Method,固态硬盘需求和耐用性测试方法)规定了消费级和企业级SSD耐用性测试需求和测试方法。因此,针对 NAND FLASH可靠性测试方法应运而生。Nand Flash Qualify测试方法旨在对NAND FLASH进行品质检测,筛选出高质量的NAND FLASH以保证SSD的高可靠性。忆芯科技以TLC闪存颗粒作为主流闪存产品,但由于TLC寿命相对SLC来说较短,因此需要进行Nand Flash Qualify测试以预先掌握每种NAND FLASH的耐久性和数据保持力,并且通过动态调整Vth能够有效提高可靠性。



图1.闪存颗粒对比图

二、NAND FLASH可靠性面临的难题

SSD的存储介质是闪存,闪存有天然的数据比特翻转率,因此会产生错误数据。数据错误主要有以下几种原因:

  • 擦写磨损(P/E Cycle)
  • 读干扰(Read Disturb)
  • 编程干扰(Program Disturb)
  • 数据保持力(Data Retention)



图2. 数据错误影响因素(引自arxiv.org)

因此,NNAD FLASH的可靠性会受到某种程度的影响,为了大幅度提升NAND的可靠性,需要闯过以下“三个难关”:

  • NAND特性会影响数据的可靠性。例如:NAND中未写满数据的块(Block)因数据保持力低会导致原始比特错误率 ( Raw Bit Error Rate, RBER) 升高,经过大规模NAND测试和数据分析,量化不同阶段影响程度,可以制定出最优方法去减少影响并提升固体硬盘的可靠性。
  • 默认读电压未能最佳适配NAND特性不能满足服务质量(Quality Of Service,QoS) 要求。大量实际业务读写场景中5K写入/擦除下(Program/Erase, P/E)数据保持力达到90天时就严重超出了低密度奇偶校验 (Low Density Parity Check Code,LDPC) 纠错能力,所以NAND测试需给出最优电压来满足服务质量要求。
  • NAND厂商提供的Read Retry Table如果不够全面即不能满足所有测试场景,不经过实际测试校验检测使用会导致数据丢失从而影响产品的服务质量。
因此,全方位的NAND Flash测试迫在眉睫,能够为产品优化提供精准数据。
三、NFQ的总体框架

Nand Flash Qualify测试包含两个步骤:第一步是原厂基础属性核验,主要核验原厂所提供的擦写读执行时间、原厂坏块等原厂基础属性数据的一致性;第二步是最佳读取电压的验证和优化。考虑到同型号不同批次NAND也存在部分细微差异,对同一型号每一批次NAND Flash都要进行充分验证以保证测试数据的准确性。
Nand Flash Qualify测试总体框架主要包含:取样SSD进行Aging擦写读全盘筛选出坏块并且统计基本特性指标(擦写读时间,坏块数目和ErrorBit数目);耐用性和数据保持力测试;跨温度测试;VT Scan查找各个场景下的最佳Vth值。结合Python脚本对原始数据进行高效分析和可视化呈现,大大提升了分析效率。



图3. NAND FLASH QUALIFY框架图

四、NFQ的技术特点

Data Retention与温度和NAND消耗寿命有关,温度越高,Data Retention能力越差;磨损程度严重的NAND相比磨损程度小的NAND数据保存时间更短。根据JEDEC的标准,可以用高温环境加速条件下进行测试NAND FLASH的Data Retention。忆芯科技根据阿伦尼乌斯方程式进行测试环境的设定,要达到室温40℃下需要放置1年检测其数据保持力,即相当于在85℃的高温老化条件下放置52个小时(4hour20min@85℃ = 1month@40℃)。同时,对NAND进行不同程度的写入(如1/500/1000/1500PE),并依次根据不同数据保持力的要求(如分别放置0/1/2/3/6/9/12个月)对NAND进行不同时长的放置。在不同PE消耗,不同放置时间后,读取NAND上存储的数据,记录出现的ERRORBIT和UECC比例是否能达到NAND厂商宣称的数据保持力。
同时,Data Retention还与Read Retry纠错机制直接相关,即使发生BIT翻转仍然可以通过Read Retry将错误纠正回来,不同Read Retry偏移选项对Data Retention有着极其重要的影响。因此,评估Data Retention必须同时基于P/E cycle和Read Retry进行。
虽然SSD主控和固件设计会用Read Retry的方式(可能还包括其它方式,如ECC和RAID)进行纠错,但NAND FLASH在某种条件下依然有纠不回来的可能,所以需要用UECC比例让用户知道数据误码纠不回来的概率参考数据。
Read Retry旨在当出现ECC不可纠正的读取错误时,通过尝试偏离正常阈值电压的方式找到最接近的阈值电压,试图正确读出数据。Read Retry与P/E cycle密切相关,随着P/E cycle的增加,阈值电压向右偏移,且电压分布的幅度更宽。通常来说,随着P/E cycle次数的增加,正确编程需要比阈值电压更高的电压。



图4. READ RETRY流程图

对于TLC来说,每个存储单元存储3个bit的数据,总共8种状态,通过往存储单元的浮栅门注入不同的电荷数来区分不同的状态。



图5. TLC NAND FLASH阈值电压分布(引自arxiv.org)

然而,NAND厂商给出的Read Retry Table不够全面,也有可能在某些场景下不能正确读出数据从而影响可靠性。为了提高数据的可靠性,采用VT Scan查找最佳读取电压方法应运而生。VT Scan能够直观地体现被写过的SLC/XLC Cell的电压分布。基于Cell的电压分布状态能够分析出UECC原因并且进一步分析是否存在针对该UECC能正确读出数据的最优Vth值,从而加入到Read Retry Table中减少后续出现UECC的概率。通过VT Scan找出的最优Vth值能有效避免高低温,Data Retention,Read Disturb,Open Block和高PE等场景下读取数据失败的问题。



图6. VT Scan流程图

五、NFQ的优势

Nand Flash Qualify技术具有以下几点优势:



图7. NAND FLASH QUALIFY优势示意图


  • 能够在早期提前筛选出坏块,减小后期使用过程中出现数据错误的概率。
  • 通过对比不同Nand Flash Qualify结果能够帮助选择高性能,高可靠性的NAND FLASH进行量产,提升客户使用满意度。
  • 能够掌握NAND FLASH的基本属性,从而采取纠错机制进行纠错,提升可靠性和寿命。
六、NFQ的成果

Nand Flash Qualify能够分析出NAND FLASH基本属性(擦写读时间, ERRORBIT数量和坏块数量)。擦写读时间能够为性能测试提供参考依据,坏块数量能够为分析每个逻辑单元(Logical Unit, LUN)品质好坏提供依据。



图8. 擦写读执行时间和ERRBIT平均值和标准差



图9. 原厂坏块和擦写读读坏块数量

通过分析每个逻辑单元LUN下PAGE的ERRBIT热点图能够直观看出每个LUN的好坏程度以及ERRBIT高的PAGE分布。



图10. LUN0 PAGE ERRBIT热点图

热点图说明:
· X轴:每个LUN中的BLOCK编号· Y轴:每个BLOCK中PAGE编号·每个像素点代表每个PAGE的平均ERRORBIT大小,越偏红色代表ERRORBIT越大,越偏蓝色代表 ERRORBIT越小。
通过对比相同Retention下不同PE Cycle的ERRBIT和UECC比例可以看出PE Cycle越大,数据越容易发生错误;通过对比相同PE Cycle下不同Retention的ERRBIT和UECC比例可以看出PE Cycle越大,数据越容易发生错误。



图11. RETENTION第2个月ERRBIT和UECC分布



图12. RETENTION第3个月ERRBIT和UECC分布

通过对比相同Retention/PE Cycle下不同Read Retry选项下的ERRBIT和UECC比例可以看出Data Retention和Read Retry是密切相关的,在经过磨损和放置一段时间后会有数据发生BIT翻转,但可以通过Read Retry将错误数据纠正回来。



图13. 不同READ RETRY偏移选项下ERRBIT和UECC比例

重复写将会导致已经写好的Vth分布往右拉高堆叠,造成左侧分布变少,右侧分布变多。
(A).正常写


(B).重复写一次


(C).重复写两次



图14.正常写和重复写多次VTH对比图

高低温写场景下Vth相对来说会呈现不同程度的偏移。

  • 高温时,电子能量较高,发生量子隧穿概率较高,从浮栅门中捕获到的电子较多,衬底到浮栅电场较强,MOS管栅极需要加的正向导通电压随之变大,因此Vth向右偏移。
  • 低温时,电子能量较低,发生量子隧穿概率较低,从浮栅门中捕获到的电子较少,衬底到浮栅电场较小,MOS管栅极需要加的正向导通电压随之变小,因此Vth向左偏移。



图15.高温Vth分布



图16. 低温Vth分布

七、总结与展望

Nand Flash Qualify测试手法(耐久性和数据保持力测试)可以提前将品质差的NAND FLASH筛选出来避免在客户使用阶段出现数据丢失的现象。VT Scan能够根据实际测试场景(磨损,读干扰,写干扰和老化等)动态调整阈值电压以提高读取数据的准确性和提高闪存寿命。随着机器学习的不断进步和普及,忆芯科技也将结合机器学习算法进行NAND FLASH的耐久性预测,更好的保证数据和介质的可靠性,加速SSD市场布局。

<hr/>本文为原创稿件,文章解释权归忆芯科技所有,了解更多信息请关注官方公众号“北京忆芯科技有限公司”。
回复

使用道具 举报

3

主题

12

帖子

19

积分

新手上路

Rank: 1

积分
19
发表于 前天 02:17 | 显示全部楼层
撸过
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

版权所有:阳光科技

备案:123456

快速回复 返回顶部 返回列表