f4: Facebooks Warm BLOB storage systems Subramanian Muralidhar, - - PowerPoint PPT Presentation

f4 facebook s warm blob storage systems
SMART_READER_LITE
LIVE PREVIEW

f4: Facebooks Warm BLOB storage systems Subramanian Muralidhar, - - PowerPoint PPT Presentation

f4: Facebooks Warm BLOB storage systems Subramanian Muralidhar, Wya1 Lloyd, Sabyasachi Roy, Cory Hill, Ernest Lin, Weiwen Liu, Satadru Pan, Shiva Shankar, Viswanath


slide-1
SLIDE 1

f4: ¡Facebook’s ¡Warm ¡BLOB ¡storage ¡systems

Subramanian ¡Muralidhar, ¡Wya1 ¡Lloyd, ¡Sabyasachi ¡Roy, ¡Cory ¡Hill, ¡Ernest ¡ Lin, ¡Weiwen ¡Liu, ¡Satadru ¡Pan, ¡Shiva ¡Shankar, ¡Viswanath ¡Sivakumar, ¡ Linpeng ¡Tang, ¡Sanjeev ¡Kumar ¡

* ¡Borrow ¡some ¡from ¡f4 ¡OSDI ¡slides ¡

slide-2
SLIDE 2

Problem

  • Facebook ¡has ¡to ¡deal ¡with ¡many ¡immutable ¡objects ¡
  • Large ¡in ¡size ¡ ¡
  • Immutable ¡binary ¡data ¡(BLOBs) ¡
  • Photos, ¡videos, ¡a1ached ¡files ¡(Feb ¡14. ¡400 ¡billion ¡photos) ¡
  • CreaRons, ¡reads, ¡deleRons ¡– ¡NO ¡modifica7ons ¡
  • Hot ¡and ¡warm ¡– ¡temperature ¡zones ¡exists! ¡
  • New ¡=> ¡“hot” ¡
  • Cools ¡over ¡Rme ¡(rapidly) ¡
  • Requirement: ¡
  • Low ¡latency ¡
  • Storage ¡efficiency ¡(lower ¡effecRve-­‑replicaRon-­‑factor) ¡
slide-3
SLIDE 3
slide-4
SLIDE 4

BLOB ¡Storage ¡System ¡in ¡Facebook ¡architecture TAO ¡

slide-5
SLIDE 5

BLOB ¡storage ¡system

  • CreaRon ¡(C) ¡
  • C1. ¡Request ¡goes ¡to ¡RT ¡
  • C2. ¡RT ¡directs ¡request ¡to ¡the ¡storage ¡system

(Haystack) ¡

  • Read ¡(R) ¡
  • R1. ¡Read ¡from ¡cache. ¡If ¡found, ¡return ¡
  • R2. ¡Cache ¡miss, ¡go ¡to ¡TT ¡
  • R3. ¡TT ¡redirects ¡request ¡to ¡RT ¡
  • R4. ¡RT ¡directs ¡request ¡to ¡the ¡storage ¡system

(Haystack/f4) ¡

  • DeleRon ¡(D) ¡
  • D1. ¡Request ¡goes ¡to ¡RT ¡
  • D2. ¡RT ¡directs ¡request ¡to ¡the ¡storage ¡system
slide-6
SLIDE 6

f4 ¡Design

  • Two ¡main ¡goals: ¡
  • Storage ¡efficiency ¡
  • Fault ¡tolerance ¡
  • f4 ¡cell: ¡
  • Resides ¡within ¡one ¡data ¡center ¡
  • Only ¡stores ¡lock ¡volumes ¡
  • The ¡data ¡and ¡index ¡files ¡ ¡

are ¡read-­‑only. ¡

  • Journal ¡files ¡are ¡not ¡presented. ¡
slide-7
SLIDE 7

f4: ¡Fault ¡tolerance

  • Within ¡a ¡data ¡center: ¡
  • Reed ¡Solomon ¡Encoding ¡
  • (k, ¡v): ¡k ¡blocks ¡data, ¡v ¡parity ¡blocks ¡
  • Tolerate ¡up ¡to ¡v ¡blocks ¡fails ¡
slide-8
SLIDE 8

f4: ¡Fault ¡tolerance

  • Between ¡data ¡centers: ¡
  • XOR ¡Encoding ¡

¡ 0101 ¡XOR ¡0011 ¡= ¡0110 ¡ 0101 ¡XOR ¡0110 ¡= ¡0011 ¡

slide-9
SLIDE 9

EffecBve ¡replicaBon ¡factor

  • How ¡many ¡Rmes ¡physical ¡storage ¡required ¡to ¡store ¡data? ¡
  • Haystack: ¡3.6x ¡– ¡To ¡store ¡one ¡bit, ¡need ¡3.6 ¡physical ¡bit ¡
  • RAID-­‑6. ¡1.2x ¡
  • Replicate ¡three ¡Rmes ¡
  • f4: ¡2.8x ¡
  • Replicate ¡cell ¡between ¡two ¡data ¡centers ¡
  • f4: ¡2.1x ¡
  • Use ¡third ¡cell ¡for ¡XOR ¡encoding ¡
  • Reed-­‑Solomon ¡encoding: ¡(10,4): ¡1.4x ¡
  • XOR ¡encoding: ¡1.5x ¡
slide-10
SLIDE 10

Read ¡– ¡local ¡cell ¡failure

slide-11
SLIDE 11

Read ¡– ¡data ¡center ¡failure

slide-12
SLIDE 12

EvaluaBon

  • What ¡and ¡how ¡much ¡data ¡is ¡“warm”? ¡
  • How ¡efficient ¡f4 ¡is, ¡in ¡terms ¡of ¡throughput ¡and ¡latency? ¡
slide-13
SLIDE 13

Hot ¡and ¡warm ¡devide

slide-14
SLIDE 14

EvaluaBon

slide-15
SLIDE 15

Takeaways

  • f4 ¡– ¡warm ¡storage ¡system, ¡with ¡Haystack, ¡provide ¡the ¡storage ¡layer ¡

for ¡BLOBs. ¡

  • “One-­‑size-­‑fits-­‑all” ¡no ¡longer ¡holds: ¡Different ¡types ¡of ¡data ¡should ¡be ¡handled ¡
  • differently. ¡
  • BLOBs ¡in ¡social ¡network, ¡or ¡social ¡content ¡in ¡general, ¡iniRally ¡is ¡hot ¡

and ¡cools ¡rapidly ¡over ¡Rme. ¡

  • f4 ¡reduces ¡effecRve ¡replicaRon ¡factor ¡from ¡3.6x ¡(Haystack) ¡to ¡2.1x ¡

and ¡is ¡sRll ¡resilient ¡to ¡failures ¡(disks, ¡hosts, ¡racks, ¡datacenters). ¡