BGP ERROR HANDLING. DEVELOPING AN OPERATOR-LED APPROACH IN THE IETF. - - PowerPoint PPT Presentation

bgp error handling
SMART_READER_LITE
LIVE PREVIEW

BGP ERROR HANDLING. DEVELOPING AN OPERATOR-LED APPROACH IN THE IETF. - - PowerPoint PPT Presentation

BGP ERROR HANDLING. DEVELOPING AN OPERATOR-LED APPROACH IN THE IETF. Rob Shakir, Cable&Wireless Worldwide. NANOG 51 Feb. 01, 2011 MIAMI, FL A Typical SP Network? CUSTOMER PE PE TRANSIT PEER PE P P PE P PE PE BGP IGP


slide-1
SLIDE 1

DEVELOPING AN OPERATOR-LED APPROACH IN THE IETF.

BGP ERROR HANDLING.

Rob Shakir, Cable&Wireless Worldwide. NANOG 51 – Feb. 01, 2011 – MIAMI, FL

slide-2
SLIDE 2

A Typical SP Network?

IGP Signals customer/Internal prefixes between PEs EGP Propagates internal prefixes to neighbouring ASes.

PE PE PE PE PE PE P P P

CUSTOMER PEER TRANSIT CUSTOMER BGP IGP

slide-3
SLIDE 3

A (Modern) Typical SP Network?

IGP Minimal infrastructure routing information. BGP Propagate internal routing and service data.

PE PE PE PE PE PE P P P

CUSTOMER PEER TRANSIT CUSTOMER BGP IGP

RR

slide-4
SLIDE 4

09

JAN.

ERRORS IN AS4_PATH

Erroneous ¡data ¡in ¡the ¡AS4_PATH ¡op6onal ¡transi6ve ¡a9ribute ¡ causing ¡BGP ¡session ¡failure ¡(JunOS ¡bug). ¡

09

FEB.

VERY LONG AS_PATH

Very ¡long ¡AS_PATHs ¡in ¡the ¡global ¡BGP ¡table ¡cause ¡session ¡failure. ¡ Not ¡the ¡first ¡6me ¡this ¡had ¡been ¡seen. ¡

BGP Failures I.

slide-5
SLIDE 5

??

??

iBGP FAILURES

Mul6ple ¡occurrences ¡within ¡xSP ¡networks. ¡ Likely ¡to ¡cause ¡higher ¡financial ¡impact ¡(L3VPN ¡margin). ¡

BGP Failures II.

10

AUG.

RIPE NCC RIS EXPERIMENT

A ¡RIPE ¡NCC ¡RIS/Duke ¡University ¡experiment ¡results ¡in ¡BGP ¡ sessions ¡being ¡reset ¡– ¡disrup6ng ¡global ¡table ¡(IOS ¡XR ¡bug). ¡

slide-6
SLIDE 6

Why do we see these events?

RTR A RTR B

UPDATE

RTR A RTR B

NOTIFICATION Error!

slide-7
SLIDE 7

Cause/Impact.

LIMITED TOOLSET IN STANDARDS.

Must ¡either ¡DISCARD ¡a9ributes ¡or ¡ respond ¡with ¡NOTIFICATION. ¡

SERVICE IMPACT.

Transit/Peering ¡failure ¡ ¡-­‑ ¡although ¡error ¡source ¡may ¡be ¡remote. ¡ iBGP ¡failure ¡– ¡high ¡impact ¡sessions? ¡Route ¡reflectors? ¡

Results in loss of RIB! Would you tolerate this in your IGP based on one erroneous LSP?

slide-8
SLIDE 8

Intent of Work.

DEFINE HOW BGP IS USED.

Document ¡the ¡way ¡xSPs ¡use ¡BGP. ¡ Ensure ¡that ¡cri6cal ¡nature ¡of ¡the ¡protocol ¡is ¡understood. ¡

PROVIDE REQUIREMENTS

Determine ¡how ¡OPERATORS ¡think ¡that ¡BGP ¡should ¡ fail ¡– ¡and ¡what ¡we’ll ¡compromise ¡on. ¡

TIE TOGETHER IETF WORK ITEMS.

Ensure ¡that ¡tools ¡resul6ng ¡from ¡exis6ng ¡dra]s ¡ form ¡a ¡useful ¡framework ¡to ¡make ¡BGP ¡robust. ¡

slide-9
SLIDE 9

Approach Overview.

01 DON’T SEND NOTIFICATION. 02 RECOVER RIB CONSISTENCY. 03

RESTART BGP HITLESSLY.

04

MONITORING

slide-10
SLIDE 10

Avoid sending NOTIFICATION.

WHAT DO WE COMPROMISE ON?

“treat-­‑as-­‑withdraw” ¡mechanism ¡can ¡result ¡in ¡ rou6ng ¡inconsistency ¡(possible ¡loops!). ¡

EXISTING WORK ITEMS IN IETF?

dra]-­‑chen ¡(eBGP ¡errors) ¡– ¡includes ¡Opt ¡Trans. ¡ Needs ¡to ¡be ¡extended ¡to ¡cover ¡iBGP. ¡

RTR A RTR B

NOTIFICATION Error! 172.16.0.0/12 WITHDRAWN UPDATE

172.16.0.0/12

slide-11
SLIDE 11

Recover RIB Consistency.

HOW CAN THIS BE ACHIEVED?

Mechanisms ¡to ¡re-­‑request ¡missing ¡NLRI. ¡ One ¡prefix ¡at ¡once, ¡or ¡whole ¡RIB. ¡

EXISTING WORK ITEMS?

“One-­‑Time ¡Prefix ¡ORF”. ¡ Enhanced ¡ROUTE ¡REFRESH. ¡

RTR A RTR B

Missing 172.16.0.0/12 from RTR A REQUEST

172.16.0.0/12

UPDATE

172.16.0.0/12

slide-12
SLIDE 12

Reduce Impact of Session Reset.

SESSION RESETS, CAN WE AVOID THEM?

NOTIFICATION ¡has ¡u6lity ¡for ¡resecng ¡state. ¡ Consider ¡that ¡some6mes ¡it ¡is ¡unavoidable. ¡

EXISTING WORK ITEMS IN IETF?

(Expired) ¡“SOFT-­‑NOTIFICATION”. ¡ Further ¡work ¡required ¡to ¡revive! ¡

RTR A RTR B

SESSION RESET SESSION RE-OPEN

FORWARDING PLANE UNAFFECTED.

slide-13
SLIDE 13

Introduce Further Monitoring.

EXISTING ERRORS ARE VERY VISIBLE.

NOCs ¡can ¡see ¡session ¡failures ¡very ¡easily ¡– ¡both ¡ via ¡session ¡monitoring ¡and ¡forwarding ¡outage! ¡ ¡

FURTHER COMPLEXITY MEANS LESS MANAGEABLE

Mechanisms ¡are ¡required ¡to ¡make ¡error ¡ handling ¡visible ¡to ¡both ¡BGP ¡speakers. ¡

EXISTING WORK ITEMS IN IETF?

(In-­‑band) ¡ADVISORY ¡and ¡DIAGNOSTIC. ¡ (Out-­‑of-­‑Band) ¡BGP ¡Monitoring ¡Protocol. ¡

slide-14
SLIDE 14

Complexities of Approach.

Error! ¡ treat-­‑as-­‑ withdraw ¡ Know ¡the ¡NLRI? ¡ Re-­‑request ¡ (ORF) ¡ Re-­‑request ¡the ¡ whole ¡RIB ¡ Hitless ¡Session ¡ Reset ¡

OOPS! OOPS!

slide-15
SLIDE 15

Why am I standing here? NANOG

As Operators, we deal with the fall-out of protocol issues!

SO… an agreed, operator-recommended approach is required.

slide-16
SLIDE 16

Questions, comments, review…

ALL MUCH APPRECIATED!

rob.shakir@cw.com // +44(0)207 100 7532 // RJS-RIPE

http://tools.ietf.org/html/draft-shakir-idr-ops-reqs-for-bgp-error-handling-00

Feedback form at http://rob.sh/bgp

slide-17
SLIDE 17

Q&A AND FURTHER BACKGROUND.

ADDITIONAL SLIDES.

slide-18
SLIDE 18

Receiver side only?

UTILITY FOR RX-SIDE BUGS?

Yes ¡– ¡we ¡can ¡s6ll ¡use ¡these ¡mechanisms. ¡ Although ¡u6lity ¡of ¡RIB ¡consistency ¡refresh ¡is ¡reduced. ¡ Error! ¡ treat-­‑as-­‑ withdraw ¡ Hitless ¡Session ¡ Reset ¡ Repeat ¡errors ¡– ¡ ¡ NLRI ¡remains ¡ withdrawn? ¡

REQUIREMENTS

Must ¡ensure ¡that ¡this ¡is ¡flagged ¡to ¡Operator. ¡ Implementa6on ¡bugs ¡cannot ¡be ¡recovered ¡by ¡any ¡protocol ¡mechanism. ¡

slide-19
SLIDE 19

Multi-session BGP

IS MULTISESSION ANOTHER SOLUTION?

No ¡– ¡it ¡helps, ¡but ¡is ¡not ¡a ¡complete ¡solu6on. ¡ Many ¡topologies ¡in ¡one ¡AFI. ¡

DOES HAVE UTILITY

Can ¡achieve ¡AFI ¡error ¡separa6on. ¡ e.g. ¡IPv4 ¡and ¡IPv6 ¡errors ¡can ¡be ¡independent ¡of ¡each ¡other. ¡ ¡

SOLUTION DOES NOT SCALE

For ¡complete ¡solu6on, ¡we ¡would ¡need ¡one ¡session ¡ per ¡topology ¡– ¡control-­‑plane ¡does ¡not ¡scale ¡to ¡this! ¡