The Lossless Network in the Data Center - - PowerPoint PPT Presentation

the lossless network
SMART_READER_LITE
LIVE PREVIEW

The Lossless Network in the Data Center - - PowerPoint PPT Presentation

White Paper


slide-1
SLIDE 1

英文标题 颜色 内部使用字体 外部使用字体 中文标题 颜色 字体 黑体 英文正文 子目录 级 颜色 黑色 内部使用字体 外部使用字体 中文正文 子目录 级 颜色 黑色 字体 细黑体 配色参考方案: 建议同一页面内不超过 四种颜色,以下是 组 配色方案,同一页面内 只选择一组使用。(仅 供参考) 客户或者合作伙伴的 标志放在右上角

The Lossless Network

in the Data Center

IEEE 802 Industry Connections, November 2017 Paul Congdon

White Paper

slide-2
SLIDE 2

英文标题 颜色 内部使用字体 外部使用字体 中文标题 颜色 字体 黑体 英文正文 子目录 级 颜色 黑色 内部使用字体 外部使用字体 中文正文 子目录 级 颜色 黑色 字体 细黑体 配色参考方案: 建议同一页面内不超过 四种颜色,以下是 组 配色方案,同一页面内 只选择一组使用。(仅 供参考) 客户或者合作伙伴的 标志放在右上角

Page 2

Our Digital Lives are driving Innovation in the DC

Interactive Speech Recognition Interactive Image Recognition Human / Machine Interaction Autonomous Driving

slide-3
SLIDE 3

英文标题 颜色 内部使用字体 外部使用字体 中文标题 颜色 字体 黑体 英文正文 子目录 级 颜色 黑色 内部使用字体 外部使用字体 中文正文 子目录 级 颜色 黑色 字体 细黑体 配色参考方案: 建议同一页面内不超过 四种颜色,以下是 组 配色方案,同一页面内 只选择一组使用。(仅 供参考) 客户或者合作伙伴的 标志放在右上角

Page 3

Three Critical Use Cases

Online Data Intensive (OLDI) Services

Tail Latency is Critical

OLDI applications have real-time deadlines and run in parallel on 1000s of servers. Incast is a naturally

  • ccurring phenomenon. Tail latency reduces the quality
  • f results

Aggregator

… Worker Worker Worker … Aggregator Aggregator Aggregator Worker … Worker

Request

Deadline = 250 ms Deadline = 50 ms Deadline = 10 ms

Loss and Latency Sensitive

Disaggregated resource pooling, such as NVMe over Fabrics, use RDMA and run over converged network

  • infrastructure. Low latency and loss are critical.

NVMe over Fabrics

Training Scale is Network Limited

Massively parallel HPC applications, such AI training, are dependent on low latency and high throughput

  • network. Billions of parameters. Scales out is limited by

network performance.

Deep Learning

… … … Start Elapsed Time

Feed Data Training MPI Allreduce Weights Send Weight

Rank 0 Rank 1 Rank 2 Partition Partition 1 Partition 2 Dataset

slide-4
SLIDE 4

英文标题 颜色 内部使用字体 外部使用字体 中文标题 颜色 字体 黑体 英文正文 子目录 级 颜色 黑色 内部使用字体 外部使用字体 中文正文 子目录 级 颜色 黑色 字体 细黑体 配色参考方案: 建议同一页面内不超过 四种颜色,以下是 组 配色方案,同一页面内 只选择一组使用。(仅 供参考) 客户或者合作伙伴的 标志放在右上角

Page 4

We are dealing with massive amounts of data and computing

Requirements:

  • Fast-scalable storage
  • Parallel applications and data
  • Cloud-ified Infrastructure

High Speed Network Storage Neural Network Cloud Infrastructure

Divide and Conquer Real-time Natural Human/Machine Response

slide-5
SLIDE 5

英文标题 颜色 内部使用字体 外部使用字体 中文标题 颜色 字体 黑体 英文正文 子目录 级 颜色 黑色 内部使用字体 外部使用字体 中文正文 子目录 级 颜色 黑色 字体 细黑体 配色参考方案: 建议同一页面内不超过 四种颜色,以下是 组 配色方案,同一页面内 只选择一组使用。(仅 供参考) 客户或者合作伙伴的 标志放在右上角

Page 5

Congestion Creates the Problems

Massive Data Massive Compute Massive Messaging

Network Congestion Packet Loss Latency Loss Throughput Loss Parallelism can create congestion which leads to loss making end-user unhappy

slide-6
SLIDE 6

英文标题 颜色 内部使用字体 外部使用字体 中文标题 颜色 字体 黑体 英文正文 子目录 级 颜色 黑色 内部使用字体 外部使用字体 中文正文 子目录 级 颜色 黑色 字体 细黑体 配色参考方案: 建议同一页面内不超过 四种颜色,以下是 组 配色方案,同一页面内 只选择一组使用。(仅 供参考) 客户或者合作伙伴的 标志放在右上角

Page 6 

The impact of congestion on network performance can be very serious.

As shown in paper (Pedro J. Garcia et al, IEEE Micro 2006)[1]:

Injecting hot-spot traffic

Throughput diminishing by 70% Latency increasing

  • f three orders of

magnitude

Network Performance Degrades Dramatically after Congestion Appears

Network Throughput and Generated Traffic Average Packet Latency

[1] Garcia, Pedro Javier, et al. "Efficient, scalable congestion management for interconnection networks." IEEE Micro 26.5 (2006): 52-66.

Injecting hot-spot traffic

The Impact of Congestion in Lossless Network

slide-7
SLIDE 7

英文标题 颜色 内部使用字体 外部使用字体 中文标题 颜色 字体 黑体 英文正文 子目录 级 颜色 黑色 内部使用字体 外部使用字体 中文正文 子目录 级 颜色 黑色 字体 细黑体 配色参考方案: 建议同一页面内不超过 四种颜色,以下是 组 配色方案,同一页面内 只选择一组使用。(仅 供参考) 客户或者合作伙伴的 标志放在右上角

Page 7

… … … … … … … … …

ECMP

… … … … … … … … …

Congestion ECN Congestion Feedback ECN Mark PFC

Dealing with Congestion today

ECMP – Equal Cost MultiPath Routing Explicit Congestion Notification (ECN) + Priority-based Flow Control (PFC)

slide-8
SLIDE 8

英文标题 颜色 内部使用字体 外部使用字体 中文标题 颜色 字体 黑体 英文正文 子目录 级 颜色 黑色 内部使用字体 外部使用字体 中文正文 子目录 级 颜色 黑色 字体 细黑体 配色参考方案: 建议同一页面内不超过 四种颜色,以下是 组 配色方案,同一页面内 只选择一组使用。(仅 供参考) 客户或者合作伙伴的 标志放在右上角

Page 8

… … … … … … … … …

30G 30G 30G 15G 30G 30G 40G Links 40G Links 15G 30G

ECMP

… … … … … … … … …

Congestion PFC ECN Mark ECN Congestion Feedback HOLB

Ongoing challenges with congestion

ECMP Collisions ECN Control Loop Delay Head-of-line Blocking

slide-9
SLIDE 9

英文标题 颜色 内部使用字体 外部使用字体 中文标题 颜色 字体 黑体 英文正文 子目录 级 颜色 黑色 内部使用字体 外部使用字体 中文正文 子目录 级 颜色 黑色 字体 细黑体 配色参考方案: 建议同一页面内不超过 四种颜色,以下是 组 配色方案,同一页面内 只选择一组使用。(仅 供参考) 客户或者合作伙伴的 标志放在右上角

Page 9

Potential New Lossless Technologies for the Data Center

Goal = No Loss

No Packet Loss

No Latency Loss

No Throughput Loss Solutions

Virtual Input Queuing - VIQ

Dynamic Virtual Lanes - DVL

Load-Aware Packet Spraying - LPS

Push & Pull Hybrid Scheduling - PPH

slide-10
SLIDE 10

英文标题 颜色 内部使用字体 外部使用字体 中文标题 颜色 字体 黑体 英文正文 子目录 级 颜色 黑色 内部使用字体 外部使用字体 中文正文 子目录 级 颜色 黑色 字体 细黑体 配色参考方案: 建议同一页面内不超过 四种颜色,以下是 组 配色方案,同一页面内 只选择一组使用。(仅 供参考) 客户或者合作伙伴的 标志放在右上角

Page 10

VIQ (Virtual Input Queues):Resolve Internal Packet Loss

Incast Congestion leading to internal packet loss

  • 1. During incast scenario, ingress

queue counter doesn’t exceed the PFC threshold, so will not send PFC Pause frame to upstream. Packet will always come in from ingress port.

Ingress queue counter Ingress queue counter

  • 2. But the physical egress queue has

backlog because of convergence effect. Packet loss occurs without egress- ingress coordination.

Egress queue PFC threshold PFC threshold

VIQ could be looked as: that on out port, assign a dedicated queue for every in port. Memory changes from sharing to virtually monopolized according to in ports. So that every in port could get fair scheduling. The tail latency of business could be controlled effectively.

Coordinated egress-ingress queuing

slide-11
SLIDE 11

英文标题 颜色 内部使用字体 外部使用字体 中文标题 颜色 字体 黑体 英文正文 子目录 级 颜色 黑色 内部使用字体 外部使用字体 中文正文 子目录 级 颜色 黑色 字体 细黑体 配色参考方案: 建议同一页面内不超过 四种颜色,以下是 组 配色方案,同一页面内 只选择一组使用。(仅 供参考) 客户或者合作伙伴的 标志放在右上角

Page 11

Downstream Upstream 1 3 1 3 2 4 2 4

Ingress Port (Virtual Queues) Egress Port Ingress Port (Virtual Queues) Egress Port Congested Flows Non-Congested Flows

  • 1. Identify the flow

causing congestion and isolate locally

CIP

  • 2. Signal to neighbor

when congested queue fills

Eliminate HoL Blocking

  • 3. Upstream isolates the

flow too, eliminating head-of-line blocking

PFC

  • 4. If congested queue

continues to fill, invoke PFC for lossless

DVL (Dynamic Virtual Lanes)

slide-12
SLIDE 12

英文标题 颜色 内部使用字体 外部使用字体 中文标题 颜色 字体 黑体 英文正文 子目录 级 颜色 黑色 内部使用字体 外部使用字体 中文正文 子目录 级 颜色 黑色 字体 细黑体 配色参考方案: 建议同一页面内不超过 四种颜色,以下是 组 配色方案,同一页面内 只选择一组使用。(仅 供参考) 客户或者合作伙伴的 标志放在右上角

Page 12

LPS (Load-Aware Packet Spraying)

LPS = Packet Spraying + Endpoint Reordering + Load-Aware

Distributed Finer Granularity In-Ordering Congestion-Aware

Leaf Leaf Leaf Leaf Leaf Leaf Spine Spine Spine Spine

… … … … … …

7 8 6 5 4 3 2 1 2 1 3 4 5 6 7 8

Reordering @ Leaf Path-Congestion Feedback According to path- congestion degree, spray packets over paths 1 2 3

slide-13
SLIDE 13

英文标题 颜色 内部使用字体 外部使用字体 中文标题 颜色 字体 黑体 英文正文 子目录 级 颜色 黑色 内部使用字体 外部使用字体 中文正文 子目录 级 颜色 黑色 字体 细黑体 配色参考方案: 建议同一页面内不超过 四种颜色,以下是 组 配色方案,同一页面内 只选择一组使用。(仅 供参考) 客户或者合作伙伴的 标志放在右上角

Page 13

PPH (Push & Pull Hybrid Scheduling)

PPH = Congestion aware edge switch scheduling

Push when load is light Pull when load is high

Leaf Leaf Leaf Leaf Leaf Leaf Spine Spine Spine Spine

… … … … … …

Request Grant Data Data Request Grant

1 2 3 source source destination

Push Data Grant (Pull) Long RTT Short RTT Request (Pull) Pull Data Request (Pull) Push Data

Light load: All

  • Push. Acquire low

latency. Light congestion: Open Pull for part of the congested path Heavy load: All

  • Pull. Reduce

queuing delay, improve throughput.

slide-14
SLIDE 14

英文标题 颜色 内部使用字体 外部使用字体 中文标题 颜色 字体 黑体 英文正文 子目录 级 颜色 黑色 内部使用字体 外部使用字体 中文正文 子目录 级 颜色 黑色 字体 细黑体 配色参考方案: 建议同一页面内不超过 四种颜色,以下是 组 配色方案,同一页面内 只选择一组使用。(仅 供参考) 客户或者合作伙伴的 标志放在右上角

Page 14

Dynamic Virtual Lane

Isolate Congestion

Priority-based Flow Control (Coarse grain). Victim flows hurt by the congested flows Allow time for end-to-end congestion control. Move congested flows out of the way. Eliminate head-of-line blocking.

Push & Pull Hybrid Scheduling

Schedule Appropriately

Unscheduled and network resource unaware many-to-

  • ne communication leads to

incast packet loss

Source Network Destination

Scheduling decision integrated the information from source, network and destination.

Source Network Destination

Load-aware Packet Spraying

Spread the Load

Unbalanced load sharing. Elephant flow collisions block mice flows. Load-balance flows at higher

  • granularity. Use congestion

awareness to avoid collisions

Virtual Input Queues

Coordinated Resources

Ingress thresholds unrelated to egress buffer availability. Incast causes internal packet loss. Coordinate egress availability with ingress demand. Avoid internal switch packet loss

Coping with Congestion Mitigating Congestion

Innovation for the Lossless Network

Innovation

slide-15
SLIDE 15

英文标题 颜色 内部使用字体 外部使用字体 中文标题 颜色 字体 黑体 英文正文 子目录 级 颜色 黑色 内部使用字体 外部使用字体 中文正文 子目录 级 颜色 黑色 字体 细黑体 配色参考方案: 建议同一页面内不超过 四种颜色,以下是 组 配色方案,同一页面内 只选择一组使用。(仅 供参考) 客户或者合作伙伴的 标志放在右上角

Page 15

Thank You