transient and permanent error control for high end
play

Transient and Permanent Error Control for High-End - PowerPoint PPT Presentation

Transient and Permanent Error Control for High-End Multiprocessor Systems-on-Chip Qiaoyan Yu, Jos Cano, Jos Flich, Paul Ampadu University


  1. Transient ¡and ¡Permanent ¡Error ¡Control ¡for ¡ High-­‑End ¡Multiprocessor ¡Systems-­‑on-­‑Chip ¡ Qiaoyan ¡ ¡Yu¹, ¡José ¡Cano², ¡José ¡Flich², ¡Paul ¡Ampadu³ ¡ ¹ University ¡of ¡New ¡Hampshire, ¡USA ¡ ² Universitat ¡Politècnica ¡de ¡València ¡, ¡Spain ¡ ³ University ¡of ¡Rochester, ¡USA ¡ Conference ¡title ¡ 1

  2. Outline ¡ • Introduc)on ¡& ¡Mo)va)on ¡ – Impact ¡of ¡permanent ¡and ¡transient ¡errors ¡on ¡NoC ¡routers ¡ – Advanced ¡topologies ¡ • Proposed ¡method ¡ – LBDRhr ¡ – Transient ¡error ¡control ¡in ¡LBDRhr ¡ • Experimental ¡results ¡ • Summary ¡and ¡conclusions ¡ 2 The ¡6th ¡ACM/IEEE ¡Interna0onal ¡Symposium ¡on ¡Networks-­‑on-­‑Chip. ¡May ¡9-­‑11, ¡2012, ¡Lyngby, ¡Denmark ¡

  3. Introduc0on ¡ • Types ¡of ¡MPSoCs: ¡ – Applica)on-­‑specific ¡ ¡  Fully ¡irregular ¡topologies ¡ ¡  System ¡design ¡totally ¡customized ¡ ¡  E.g. ¡Spidergon ¡STNoC ¡ – High-­‑end ¡  Regular ¡structures ¡(2D ¡mesh-­‑based ¡topologies) ¡ ¡  E.g. ¡Tilera ¡ This ¡work ¡focuses ¡here ¡!!! ¡ ¡ 3 The ¡6th ¡ACM/IEEE ¡Interna0onal ¡Symposium ¡on ¡Networks-­‑on-­‑Chip. ¡May ¡9-­‑11, ¡2012, ¡Lyngby, ¡Denmark ¡

  4. Introduc0on ¡ • Cri)cal ¡challenge ¡in ¡current ¡NoCs: ¡ RELIABILITY ¡ – Permanent ¡errors ¡  ¡E.g. ¡due ¡to ¡defec)ve ¡components ¡(links, ¡routers) ¡ ¡  Solu)on ¡based ¡on ¡fault-­‑tolerant ¡rou)ng ¡ ¡  ¡ ¡ Logic-­‑based ¡Distributed ¡Rou0ng ¡(LBDR) ¡ – Transient ¡errors ¡  E.g. ¡due ¡to ¡par)cle ¡strike ¡  Solu)on ¡based ¡on ¡error ¡control ¡coding ¡  ¡ ¡ Inherent ¡informa0on ¡redundancy ¡(IIR) ¡ ¡ It ¡could ¡be ¡a ¡good ¡solu0on ¡for ¡addressing ¡ both ¡permanent ¡and ¡transient ¡errors ¡in ¡NoCs ¡ 4 The ¡6th ¡ACM/IEEE ¡Interna0onal ¡Symposium ¡on ¡Networks-­‑on-­‑Chip. ¡May ¡9-­‑11, ¡2012, ¡Lyngby, ¡Denmark ¡

  5. Introduc0on ¡& ¡Mo0va0on ¡ • Problem: ¡both ¡LBDR ¡and ¡IIR ¡methods ¡ cannot ¡be ¡applied ¡to ¡topologies ¡and ¡ configura)ons ¡for ¡advanced ¡NoC ¡ topologies ¡ – LBDR ¡approach ¡ ¡ North  Designed ¡for ¡2D ¡meshes ¡ ¡ West East Router Local  Routers ¡connected ¡to ¡1 ¡router ¡neighbour ¡on ¡each ¡ South dimension ¡and ¡direc)on ¡ PE ¡  Not ¡ready ¡for ¡transient ¡errors ¡ – IIR ¡approach ¡  Designed ¡for ¡XY ¡rou)ng ¡  Not ¡suitable ¡for ¡more ¡advanced ¡rou)ng ¡solu)ons ¡ ¡  Not ¡ready ¡for ¡permanent ¡faults ¡ 5 The ¡6th ¡ACM/IEEE ¡Interna0onal ¡Symposium ¡on ¡Networks-­‑on-­‑Chip. ¡May ¡9-­‑11, ¡2012, ¡Lyngby, ¡Denmark ¡

  6. Advanced ¡Topologies ¡ Diagonal mesh 2D-mesh with express channels Flattened butterfly EE port NNN port 1-hop links 1-hop links 1-hop links 2-hop diagonal links 2-hop straight links 2-hop straight links 3-hop links The ¡ini0al ¡2D-­‑mesh ¡is ¡the ¡underlying ¡topology!!! ¡ 6 The ¡6th ¡ACM/IEEE ¡Interna0onal ¡Symposium ¡on ¡Networks-­‑on-­‑Chip. ¡May ¡9-­‑11, ¡2012, ¡Lyngby, ¡Denmark ¡

  7. Proposed ¡Ideas ¡ • To ¡address ¡fault ¡tolerance ¡for ¡advanced ¡topologies: ¡ – Redesign ¡the ¡LBDR ¡mechanism: ¡ LBDRhr ¡ ¡(LBDR ¡for ¡high-­‑radix ¡networks) ¡  Adap)ve ¡rou)ng ¡algorithm ¡supported ¡  2 ¡Virtual ¡Channels ¡  Deadlock-­‑free ¡for ¡the ¡high-­‑radix ¡topologies ¡defined ¡ – Develop ¡a ¡ new ¡method ¡to ¡detect ¡transient ¡errors ¡ in ¡LBDRhr ¡logic ¡  Exploits ¡the ¡inherent ¡informa)on ¡redundancy ¡in ¡LBDRhr ¡to ¡significantly ¡reduce ¡the ¡ error ¡control ¡overhead ¡ 7 The ¡6th ¡ACM/IEEE ¡Interna0onal ¡Symposium ¡on ¡Networks-­‑on-­‑Chip. ¡May ¡9-­‑11, ¡2012, ¡Lyngby, ¡Denmark ¡

  8. NoC ¡Router ¡Func0onality ¡ • Compute ¡rou)ng ¡direc)on ¡for ¡next ¡hop ¡ • Pass ¡the ¡packet ¡to ¡its ¡intended ¡output ¡port ¡ Note: ¡24 ¡is ¡the ¡maximum ¡number ¡of ¡rou4ng ¡ports ¡for ¡each ¡router, ¡ ¡ ¡ ¡but ¡not ¡all ¡need ¡to ¡be ¡implemented, ¡depends ¡on ¡the ¡topology ¡ 8 The ¡6th ¡ACM/IEEE ¡Interna0onal ¡Symposium ¡on ¡Networks-­‑on-­‑Chip. ¡May ¡9-­‑11, ¡2012, ¡Lyngby, ¡Denmark ¡

  9. Permanent ¡Error ¡Management ¡ • Previous ¡method: ¡Logic-­‑Based ¡Distributed ¡Rou)ng ¡(LBDR) ¡ – Four ¡rou)ng ¡ports ¡per ¡switch ¡(North, ¡South, ¡East, ¡West) ¡ – Two ¡sets ¡of ¡bits: ¡Rou)ng ¡bits ¡(Rxy, ¡2 ¡per ¡output ¡port) ¡and ¡Connec)vity ¡bits ¡(Cx, ¡1 ¡per ¡ output ¡port) ¡ – Minimal ¡path ¡support ¡ C N LBDR N’ E’ W’ E’ Xcurr C M N Xdst N’ P W’ E’ R NE . . Ycurr C N’ N’ . M W’ Ydst P S’ R NW . . . 9 The ¡6th ¡ACM/IEEE ¡Interna0onal ¡Symposium ¡on ¡Networks-­‑on-­‑Chip. ¡May ¡9-­‑11, ¡2012, ¡Lyngby, ¡Denmark ¡

  10. Permanent ¡Error ¡Management ¡ • LBDRhr ¡ – Tolerates ¡permanent ¡link ¡and ¡router ¡failures ¡ – Implemented ¡with ¡three ¡basic ¡logic ¡blocks ¡  1-­‑hop, ¡2-­‑hop ¡and ¡3-­‑hop ¡ports ¡ – Uses ¡a ¡few ¡configura)on ¡bits ¡to ¡store ¡local ¡informa)on ¡about ¡the ¡neighboring ¡ routers ¡  8 ¡configura)on ¡bits ¡for ¡rou)ng ¡purposes ¡  ¡Rxy ¡  2 ¡bits ¡for ¡two ¡deroute ¡op)ons ¡(special ¡cases) ¡at ¡every ¡input ¡port ¡  ¡DRx ¡  1 ¡connec)vity ¡bit ¡per ¡output ¡port ¡  ¡Cx ¡ 10 The ¡6th ¡ACM/IEEE ¡Interna0onal ¡Symposium ¡on ¡Networks-­‑on-­‑Chip. ¡May ¡9-­‑11, ¡2012, ¡Lyngby, ¡Denmark ¡

  11. LBDRhr ¡logic ¡(common ¡part) ¡ Relative ¡direction ¡of ¡message’s ¡destination ¡ XXX’ ¡set: ¡ ¡dest ¡is ¡at ¡least ¡three ¡hops ¡away ¡in ¡X ¡direction ¡ XX’ ¡set: ¡dest ¡is ¡at ¡least ¡two ¡hops ¡away ¡in ¡X ¡direction ¡ X’ ¡set: ¡dest ¡is ¡at ¡least ¡one ¡hop ¡away ¡in ¡X ¡direction ¡ if ¡XX’ ¡set ¡-­‑> ¡X’ ¡set ¡ If ¡XXX’ ¡set ¡-­‑> ¡XX’ ¡and ¡X’ ¡set ¡ 11 The ¡6th ¡ACM/IEEE ¡Interna0onal ¡Symposium ¡on ¡Networks-­‑on-­‑Chip. ¡May ¡9-­‑11, ¡2012, ¡Lyngby, ¡Denmark ¡

  12. LBDRhr ¡logic ¡(adap0ve ¡part) ¡ One gate per output signal e.g.: NNNlbdr = NNN’ & Cnnn Routing restrictions (at 1hop ports) taken into account e.g: N’’ = (N’ & E’ & Rne) | (N’ & W’ & Rnw) | (N’ & /E’ & /W’) One gate per output signal (3hop and 2hop ports have priority) One gate per output signal (3hop ports have priority) e.g.: N’’’ = N’’ & Cn & !3hop & !2hop e.g.: NElbdr = N’ & E’ & Cne & /3hops In case of no solution at all (non-minimal path support) Take configured deroute option at the switch 12 The ¡6th ¡ACM/IEEE ¡Interna0onal ¡Symposium ¡on ¡Networks-­‑on-­‑Chip. ¡May ¡9-­‑11, ¡2012, ¡Lyngby, ¡Denmark ¡

  13. LBDRhr ¡logic ¡(escape ¡part) ¡ 13 The ¡6th ¡ACM/IEEE ¡Interna0onal ¡Symposium ¡on ¡Networks-­‑on-­‑Chip. ¡May ¡9-­‑11, ¡2012, ¡Lyngby, ¡Denmark ¡

  14. Permanent ¡Error ¡Management ¡ • Deadlock-­‑free ¡rou)ng ¡example ¡ 1/2 0 1 2 3 0 1 2 3 Deroute here 1/2 4 5 6 7 4 5 6 7 3/4 3 1 1 8 9 8 9 11 10 10 11 3 4 2 1 1/3 2 2/4 2 14 15 12 13 15 12 14 13 4 VC0: Faulty 2D-mesh with express channels VC1: Faulty 2D-mesh 14 The ¡6th ¡ACM/IEEE ¡Interna0onal ¡Symposium ¡on ¡Networks-­‑on-­‑Chip. ¡May ¡9-­‑11, ¡2012, ¡Lyngby, ¡Denmark ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend