flash reliability in produc4on
play

Flash Reliability in Produc4on: The Importance of - PowerPoint PPT Presentation

Flash Reliability in Produc4on: The Importance of Measurement and Analysis in Improving System Reliability Bianca Schroeder (Currently on sabbatical at Microsoft Research Redmond)


  1. Flash ¡Reliability ¡in ¡Produc4on: ¡ ¡ The ¡Importance ¡of ¡Measurement ¡and ¡ Analysis ¡in ¡Improving ¡System ¡Reliability ¡ Bianca Schroeder ¡ (Currently on sabbatical at Microsoft Research Redmond) University of Toronto

  2. • System ¡reliability ¡ • Why ¡and ¡how ¡do ¡systems ¡fail ¡in ¡the ¡wild? ¡ ¡ ¡

  3. Data ¡from ¡a ¡large ¡number ¡of ¡large-­‑scale ¡produc4on ¡ systems ¡at ¡different ¡organiza4ons: ¡

  4. ¡ ▪ Different ¡hardware ¡failure ¡events ¡ ▪ Hardware ¡replacements ¡ ▪ Correctable ¡and ¡uncorrectable ¡errors ¡in ¡DRAM ¡ ▪ Server ¡outages ¡ ▪ Hard ¡disk ¡drive ¡failures ¡ ▪ Sector ¡errors ¡in ¡hard ¡disk ¡drives ¡ ▪ Data ¡corrup4on ¡in ¡storage ¡systems ¡ ▪ Failures/errors ¡in ¡solid ¡state ¡drives ¡ ▪ Job ¡logs ¡ • Google, ¡OpenCloud ¡(Hadoop ¡cluster ¡at ¡CMU), ¡Yahoo! ¡Hadoop ¡trace ¡ ¡ Observa4ons ¡oTen ¡different ¡from ¡expecta4ons ¡ ¡ ▪ Surprising ¡to ¡operators ¡as ¡well ¡as ¡manufacturers ¡ ▪ 4

  5. ¡ Why ¡flash ¡reliability? ¡ § More ¡and ¡more ¡data ¡is ¡living ¡on ¡flash ¡ ¡ ¡ ¡ ¡ ¡=> ¡ ¡data ¡reliability ¡depends ¡on ¡flash ¡reliability ¡ § Worry ¡about ¡flash ¡wear-­‑out ¡ ¡ For ¡a ¡long ¡4me ¡only ¡lab ¡studies ¡using ¡ accelerated ¡tes4ng ¡ ¡ Recently, ¡some ¡field ¡studies: ¡ ¡ ¡ ▪ Sigmetrics’15 ¡(Facebook) ¡Meza ¡et ¡al. ¡ ▪ FAST’16 ¡(Google) ¡Schroeder ¡et ¡al. ¡ ▪ Systor’17 ¡(MicrosoT) ¡Narayanan ¡et ¡al. ¡ 5

  6. Data on repairs, replacements, bad 6 years of data blocks & bad chips Google Data on workload and 10 drive models fleet variety of error types MLC, SLC, eMLC 4 chip vendors • Custom drives based on commodity chips (but custom firmware and FTL) • Drives are reporting counters many times per day 6

  7. ¡ Percentage ¡of ¡drives ¡replaced ¡annually ¡due ¡to ¡suspected ¡ hardware ¡problems ¡over ¡the ¡first ¡4 ¡years ¡in ¡the ¡field: ¡ Consistent with 6 ¡ [Narayanan’17] ¡Average ¡annual ¡ ¡ Percentage(%) ¡ 5 ¡ replacement ¡ 4 ¡ rates ¡for ¡hard ¡disks ¡ 3 ¡ (2-­‑20%) ¡ 2 ¡ 1 ¡ 0 ¡ MLC-­‑A ¡MLC-­‑B ¡MLC-­‑C ¡MLC-­‑D ¡ SLC-­‑A ¡ SLC-­‑B ¡ SLC-­‑C ¡ SLC-­‑D ¡ § Good ¡news: ¡ ¡ § Only ¡1-­‑2% ¡of ¡drives ¡replaced ¡annually ¡-­‑-­‑ ¡ ¡much ¡lower ¡than ¡hard ¡disks! ¡ § Drives ¡benefiAed ¡from ¡ability ¡to ¡tolerate ¡chip ¡failure ¡ § 0.5-­‑1.5% ¡of ¡drives ¡developed ¡bad ¡chips ¡per ¡year ¡ 7

  8. § Much ¡worse ¡than ¡for ¡hard ¡ disk ¡drives ¡(3.5% ¡experiencing ¡ sector ¡errors)! ¡ § These ¡errors ¡are ¡insideous ¡as ¡ they ¡are ¡latent. ¡ § Bad ¡news: ¡Uncorrectable ¡errors ¡common ¡ § 26-­‑60% ¡of ¡drives ¡see ¡uncorrectable ¡errors ¡in ¡their ¡life ¡(Google) ¡ § 2-­‑6 ¡out ¡of ¡1,000 ¡drive ¡days ¡experience ¡uncorrectable ¡errors ¡ § 0.2-­‑75% ¡of ¡drives ¡at ¡Facebook ¡[Meza ¡et ¡al. ¡2015] ¡ § Rates ¡at ¡MicrosoT ¡10X ¡higher ¡than ¡target ¡rate ¡[Narayanan ¡et ¡al. ¡2016] ¡ 8

  9. ¡ Wear-­‑out ¡(limited ¡program ¡erase ¡cycles) ¡ ¡ Technology ¡(MLC, ¡SLC) ¡ ¡ Lithography ¡ ¡ Age ¡ ¡ Workload ¡ ¡ Temperature ¡ ¡ Other ¡factors? ¡ ¡ What ¡reliability ¡metric ¡to ¡use? ¡ § Raw ¡bit ¡error ¡rate ¡( RBER ) ¡ ▪ Assump4on: ¡as ¡raw ¡bit ¡errors ¡accumulate ¡they ¡turn ¡uncorrectable ¡ § Probability ¡of ¡ uncorrectable ¡errors ¡ ▪ Why ¡not ¡UBER ¡– ¡we ¡will ¡see ¡… ¡ 9

  10. Common ¡expecta4on: ¡ Exponen4al ¡increase ¡of ¡RBER ¡with ¡PE ¡cycles ¡ … ¡or ¡maybe ¡polynomial ¡ ¡… ¡or ¡other ¡super-­‑linear? ¡ -­‑-­‑-­‑ ¡ Exponentia l ¡ ¡ growth ¡ RBER ¡ PE ¡cycles ¡ 10

  11. § Big ¡differences ¡across ¡models ¡(all ¡drives ¡use ¡same ¡ECC ¡& ¡FTL, ¡so ¡ differences ¡are ¡not ¡due ¡to ¡ECC) ¡ § Linear ¡increase ¡(for ¡range ¡of ¡PE ¡cycles ¡in ¡our ¡data) ¡ § No ¡sudden ¡increase ¡after ¡PE ¡cycle ¡limit ¡ 11

  12. Common ¡expecta4on: ¡ Lower ¡error ¡rates ¡under ¡SLC ¡($$$) ¡than ¡MLC ¡ 12

  13. Red ¡lines ¡ ¡ are ¡SLC ¡drives ¡ § RBER ¡is ¡lower ¡for ¡SLC ¡drives ¡than ¡MLC ¡ § Uncorrectable ¡errors ¡are ¡not ¡lower ¡for ¡SLC ¡drives ¡(all ¡drives ¡use ¡ same ¡ECC, ¡FTL, ¡etc. ¡so ¡differences ¡are ¡not ¡due ¡to ¡ECC) ¡ § SLC ¡drives ¡don’t ¡have ¡lower ¡rate ¡of ¡repairs ¡or ¡replacement ¡ 13

  14. Common ¡expecta4on: ¡ Higher ¡error ¡rates ¡for ¡smaller ¡feature ¡size ¡ 14

  15. 43nm ¡versus ¡ 50nm ¡ 34nm ¡versus ¡ 50nm ¡ § Smaller ¡lithography ¡=> ¡higher ¡RBER ¡ § Lithography ¡has ¡less ¡impact ¡on ¡uncorrectable ¡errors ¡ 15

  16. Common ¡expecta4on: ¡ Exponen4al ¡increase ¡in ¡hardware ¡failures ¡with ¡ temperature ¡(Arrhenius ¡equa4on) ¡ -­‑-­‑-­‑ ¡ Exponentia l ¡ ¡ growth ¡ RBER ¡ Temperature ¡ 16

  17. Increase Decrease! Little effect § Uncorrectable ¡errors ¡might ¡increase, ¡decrease ¡or ¡not ¡be ¡affected ¡ by ¡temperature. ¡ § Drive-­‑internal ¡mechanisms ¡protect ¡against ¡temperature, ¡e.g. ¡ through ¡throttling. ¡ § Other ¡effects ¡might ¡dominate ¡ 17

  18. ¡ Lab ¡studies ¡find ¡workload ¡induced ¡error ¡modes ¡ § Read ¡& ¡program ¡disturb ¡errors, ¡incomplete ¡erases ¡ Metrics ¡from ¡lab ¡studies ¡ ¡ Field ¡data: ¡no ¡correla4on ¡between ¡read ¡/ ¡write ¡/ ¡ do ¡not ¡always ¡make ¡ sense ¡for ¡field ¡data. ¡ erase ¡opera4ons ¡versus ¡errors ¡(Google, ¡Facebook) ¡ § Possibly ¡because ¡data ¡at ¡per-­‑drive ¡level ¡too ¡coarse ¡ ¡ Consequence: ¡For ¡field ¡studies ¡UBER ¡is ¡not ¡a ¡ meaningful ¡metric. ¡ ¡ #Uncorrectable ¡bits ¡ UBER= ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Total ¡# ¡bits ¡read ¡ ¡ ¡ ¡ ¡ 18

  19. § Different ¡RBER ¡for ¡same ¡model ¡in ¡different ¡clusters ¡ § Other ¡factors ¡at ¡play ¡… ¡ 19

  20. ¡ The ¡main ¡purpose ¡of ¡RBER ¡is ¡as ¡a ¡metric ¡for ¡ overall ¡drive ¡reliability ¡ ¡ Allows ¡for ¡projec4ons ¡on ¡uncorrectable ¡errors ¡ [Mielke2008] 20

  21. § Drive ¡models ¡with ¡higher ¡RBER ¡don’t ¡have ¡higher ¡frequency ¡of ¡ uncorrectable ¡errors ¡ 21

  22. § Drives ¡(or ¡drive ¡days) ¡with ¡higher ¡RBER ¡don’t ¡have ¡higher ¡frequency ¡ of ¡uncorrectable ¡errors ¡ § RBER ¡is ¡not ¡a ¡good ¡predictor ¡of ¡field ¡reliability ¡ § Uncorrectable ¡errors ¡caused ¡by ¡other ¡mechanisms ¡than ¡corr. ¡errors? ¡ 22

  23. § Prior ¡errors ¡highly ¡predictive ¡of ¡later ¡uncorrectable ¡errors ¡ § Can ¡we ¡predict ¡uncorrectable ¡errors? ¡ ¡ 23

  24. ¡ ¡ Drives ¡report ¡many ¡opera4onal ¡sta4s4cs ¡e.g. ¡ through ¡S.M.A.R.T: ¡ § ¡ Workload, ¡temperature, ¡power-­‑on-­‑hours, ¡prior ¡errors, ¡etc. ¡ ¡ SMART1 SMART2 … ? SMART254 Time ¡ now ¡ Based ¡on ¡data ¡from ¡interval ¡n, ¡will ¡there ¡be ¡ uncorrectable ¡errors ¡in ¡interval ¡n+1? ¡ 24

  25. ¡ ¡ Common ¡machine ¡learning ¡techniques ¡for ¡ classifica4on ¡problems: ¡ § Classifica4on ¡and ¡regression ¡trees ¡ § Random ¡forests ¡ Increasing § Logis4c ¡regression ¡ complexity § Support ¡vector ¡machines ¡ § Neural ¡networks ¡ ¡ How ¡does ¡predic4on ¡accuracy ¡compare? ¡ ¡ How ¡can ¡we ¡use ¡predic4ons ¡in ¡prac4ce? ¡ 25

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend