bgp error handling
play

BGP ERROR HANDLING. DEVELOPING AN OPERATOR-LED APPROACH IN THE IETF. - PowerPoint PPT Presentation

BGP ERROR HANDLING. DEVELOPING AN OPERATOR-LED APPROACH IN THE IETF. Rob Shakir, Cable&Wireless Worldwide. NANOG 51 Feb. 01, 2011 MIAMI, FL A Typical SP Network? CUSTOMER PE PE TRANSIT PEER PE P P PE P PE PE BGP IGP


  1. BGP ERROR HANDLING. DEVELOPING AN OPERATOR-LED APPROACH IN THE IETF. Rob Shakir, Cable&Wireless Worldwide. NANOG 51 – Feb. 01, 2011 – MIAMI, FL

  2. A Typical SP Network? CUSTOMER PE PE TRANSIT PEER PE P P PE P PE PE BGP IGP CUSTOMER IGP Signals customer/Internal prefixes between PEs EGP Propagates internal prefixes to neighbouring ASes.

  3. A (Modern) Typical SP Network? CUSTOMER PE PE RR TRANSIT PEER PE PE P P P PE PE BGP IGP CUSTOMER IGP Minimal infrastructure routing information. BGP Propagate internal routing and service data.

  4. BGP Failures I. JAN. ERRORS IN AS4_PATH 09 Erroneous ¡data ¡in ¡the ¡AS4_PATH ¡op6onal ¡transi6ve ¡a9ribute ¡ causing ¡BGP ¡session ¡failure ¡(JunOS ¡bug). ¡ FEB. VERY LONG AS_PATH 09 Very ¡long ¡AS_PATHs ¡in ¡the ¡global ¡BGP ¡table ¡cause ¡session ¡failure. ¡ Not ¡the ¡first ¡6me ¡this ¡had ¡been ¡seen. ¡

  5. BGP Failures II. AUG. RIPE NCC RIS EXPERIMENT 10 A ¡RIPE ¡NCC ¡RIS/Duke ¡University ¡experiment ¡results ¡in ¡BGP ¡ sessions ¡being ¡reset ¡– ¡disrup6ng ¡global ¡table ¡(IOS ¡XR ¡bug). ¡ ?? iBGP FAILURES ?? Mul6ple ¡occurrences ¡within ¡xSP ¡networks. ¡ Likely ¡to ¡cause ¡higher ¡financial ¡impact ¡(L3VPN ¡margin). ¡

  6. Why do we see these events? RTR A RTR B UPDATE Error! RTR A RTR B NOTIFICATION

  7. Cause/Impact. LIMITED Must ¡either ¡DISCARD ¡a9ributes ¡or ¡ TOOLSET IN STANDARDS. respond ¡with ¡NOTIFICATION. ¡ SERVICE Transit/Peering ¡failure ¡ ¡-­‑ ¡although ¡error ¡source ¡may ¡be ¡remote. ¡ IMPACT. iBGP ¡failure ¡– ¡high ¡impact ¡sessions? ¡Route ¡reflectors? ¡ Results in loss of RIB! Would you tolerate this in your IGP based on one erroneous LSP?

  8. Intent of Work. DEFINE HOW Document ¡the ¡way ¡xSPs ¡use ¡BGP. ¡ BGP IS USED. Ensure ¡that ¡cri6cal ¡nature ¡of ¡the ¡protocol ¡is ¡understood. ¡ PROVIDE Determine ¡how ¡ OPERATORS ¡think ¡that ¡BGP ¡should ¡ REQUIREMENTS fail ¡– ¡and ¡what ¡we’ll ¡compromise ¡on. ¡ TIE TOGETHER Ensure ¡that ¡tools ¡resul6ng ¡from ¡exis6ng ¡dra]s ¡ IETF WORK ITEMS. form ¡a ¡useful ¡framework ¡to ¡make ¡BGP ¡robust. ¡

  9. Approach Overview. 04 01 DON’T SEND NOTIFICATION. MONITORING 02 RECOVER RIB CONSISTENCY. 03 RESTART BGP HITLESSLY.

  10. Avoid sending NOTIFICATION. Error! 172.16.0.0/12 WITHDRAWN UPDATE 172.16.0.0/12 RTR A RTR B NOTIFICATION WHAT DO WE “treat-­‑as-­‑withdraw” ¡mechanism ¡can ¡result ¡in ¡ COMPROMISE ON? rou6ng ¡inconsistency ¡(possible ¡loops!). ¡ EXISTING WORK dra]-­‑chen ¡(eBGP ¡errors) ¡– ¡includes ¡Opt ¡Trans. ¡ ITEMS IN IETF? Needs ¡to ¡be ¡extended ¡to ¡cover ¡iBGP. ¡

  11. Recover RIB Consistency. Missing 172.16.0.0/12 from RTR A REQUEST 172.16.0.0/12 RTR A RTR B UPDATE 172.16.0.0/12 HOW CAN THIS Mechanisms ¡to ¡re-­‑request ¡missing ¡NLRI. ¡ BE ACHIEVED? One ¡prefix ¡at ¡once, ¡or ¡whole ¡RIB. ¡ EXISTING WORK “One-­‑Time ¡Prefix ¡ORF”. ¡ ITEMS? Enhanced ¡ROUTE ¡REFRESH. ¡

  12. Reduce Impact of Session Reset. SESSION RESETS, NOTIFICATION ¡has ¡u6lity ¡for ¡resecng ¡state. ¡ CAN WE AVOID THEM? Consider ¡that ¡some6mes ¡it ¡is ¡unavoidable. ¡ FORWARDING PLANE UNAFFECTED. SESSION RESET RTR A RTR B SESSION RE-OPEN EXISTING WORK (Expired) ¡“SOFT-­‑NOTIFICATION”. ¡ ITEMS IN IETF? Further ¡work ¡required ¡to ¡revive! ¡

  13. Introduce Further Monitoring. EXISTING ERRORS NOCs ¡can ¡see ¡session ¡failures ¡very ¡easily ¡– ¡both ¡ ARE VERY VISIBLE. via ¡session ¡monitoring ¡and ¡forwarding ¡outage! ¡ ¡ FURTHER COMPLEXITY Mechanisms ¡are ¡required ¡to ¡make ¡error ¡ MEANS LESS MANAGEABLE handling ¡visible ¡to ¡both ¡BGP ¡speakers. ¡ EXISTING WORK (In-­‑band) ¡ADVISORY ¡and ¡DIAGNOSTIC. ¡ ITEMS IN IETF? (Out-­‑of-­‑Band) ¡BGP ¡Monitoring ¡Protocol. ¡

  14. Complexities of Approach. Know ¡the ¡NLRI? ¡ Re-­‑request ¡ (ORF) ¡ Error! ¡ Re-­‑request ¡the ¡ Hitless ¡Session ¡ treat-­‑as-­‑ whole ¡RIB ¡ Reset ¡ withdraw ¡ OOPS! OOPS!

  15. Why am I standing here? NAN O G As Operators, we deal with the fall-out of protocol issues! SO… an agreed, operator-recommended approach is required.

  16. Questions, comments, review… ALL MUCH APPRECIATED! Feedback form at http://rob.sh/bgp http://tools.ietf.org/html/draft-shakir-idr-ops-reqs-for-bgp-error-handling-00 rob.shakir@cw.com // +44(0)207 100 7532 // RJS-RIPE

  17. ADDITIONAL SLIDES. Q&A AND FURTHER BACKGROUND.

  18. Receiver side only? UTILITY FOR Yes ¡– ¡we ¡can ¡s6ll ¡use ¡these ¡mechanisms. ¡ RX-SIDE BUGS? Although ¡u6lity ¡of ¡RIB ¡consistency ¡refresh ¡is ¡reduced. ¡ Error! ¡ Repeat ¡errors ¡– ¡ ¡ Hitless ¡Session ¡ treat-­‑as-­‑ NLRI ¡remains ¡ Reset ¡ withdraw ¡ withdrawn? ¡ REQUIREMENTS Must ¡ensure ¡that ¡this ¡is ¡flagged ¡to ¡Operator. ¡ Implementa6on ¡bugs ¡cannot ¡be ¡recovered ¡by ¡ any ¡protocol ¡mechanism. ¡

  19. Multi-session BGP IS MULTISESSION No ¡– ¡it ¡helps, ¡but ¡is ¡not ¡a ¡complete ¡solu6on. ¡ ANOTHER SOLUTION? Many ¡topologies ¡in ¡one ¡AFI. ¡ DOES HAVE Can ¡achieve ¡AFI ¡error ¡separa6on. ¡ UTILITY e.g. ¡IPv4 ¡and ¡IPv6 ¡errors ¡can ¡be ¡independent ¡of ¡each ¡other. ¡ ¡ SOLUTION DOES For ¡complete ¡solu6on, ¡we ¡would ¡need ¡one ¡session ¡ NOT SCALE per ¡topology ¡– ¡control-­‑plane ¡does ¡not ¡scale ¡to ¡this! ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend