PeerRush Mining for Unwanted P2P Traffic Babak Rahbarinia a - - PowerPoint PPT Presentation

peerrush
SMART_READER_LITE
LIVE PREVIEW

PeerRush Mining for Unwanted P2P Traffic Babak Rahbarinia a - - PowerPoint PPT Presentation

PeerRush Mining for Unwanted P2P Traffic Babak Rahbarinia a , Roberto Perdisci a,b , Andrea Lanzi c , Kang Li a a University of Georgia b Georgia Tech


slide-1
SLIDE 1

N I S

etwork ntelligence ecurity

University of Georgia

  • Dept. of Computer Science

PeerRush ¡

Mining ¡for ¡Unwanted ¡P2P ¡Traffic ¡

Babak ¡Rahbariniaa, ¡Roberto ¡Perdiscia,b, ¡Andrea ¡Lanzic, ¡Kang ¡Lia ¡

aUniversity ¡of ¡Georgia ¡ bGeorgia ¡Tech ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡cEURECOM ¡

slide-2
SLIDE 2

N I S

etwork ntelligence ecurity

University of Georgia

  • Dept. of Computer Science

IntroducDon ¡

  • P2P ¡traffic ¡represents ¡a ¡significant ¡fracDon ¡of ¡

all ¡Internet ¡traffic ¡

– Apps: ¡File ¡Sharing, ¡VoIP, ¡P2P ¡Botnets, ¡… ¡

  • Net ¡admins ¡need ¡to ¡categorize ¡traffic ¡that ¡

crosses ¡their ¡network’s ¡perimeter ¡

– Detect ¡malware ¡infecDons ¡related ¡to ¡P2P ¡botnets ¡ – IdenDfy/block ¡some ¡types ¡of ¡P2P ¡traffic ¡

  • IdenDfying ¡P2P ¡traffic ¡can ¡aid ¡Net-­‑based ¡IDSes ¡

2 ¡

slide-3
SLIDE 3

N I S

etwork ntelligence ecurity

University of Georgia

  • Dept. of Computer Science

Previous ¡Work ¡

  • Several ¡papers ¡on ¡P2P ¡traffic ¡detec%on ¡

– Port ¡numbers, ¡Sig-­‑based, ¡DPI, ¡staDsDcal ¡traffic ¡analysis ¡

  • Very ¡liWle ¡research ¡on ¡non-­‑sig-­‑based ¡P2P ¡traffic ¡

categoriza%on ¡

– Profiling ¡P2P ¡traffic ¡(Hu ¡et ¡al., ¡Computer ¡Networks’09) ¡ – only ¡applied ¡to ¡non-­‑encrypted ¡traffic, ¡very ¡few ¡apps ¡

  • Some ¡work ¡on ¡P2P ¡botnet ¡detec%on ¡

– BotMiner ¡(Gu ¡et ¡al.), ¡StaDsDcal ¡traffic ¡fingerprints ¡ (Zhang ¡et ¡al.), ¡Traders ¡or ¡PloWers? ¡(Yen ¡et ¡al.), ¡… ¡ – Cannot ¡disDnguish ¡between ¡different ¡P2P ¡botnets ¡

3 ¡

slide-4
SLIDE 4

N I S

etwork ntelligence ecurity

University of Georgia

  • Dept. of Computer Science

PeerRush ¡Goals ¡

  • Detect ¡and ¡categorize ¡P2P ¡traffic ¡

– Generic/flexible ¡traffic ¡categorizaDon ¡approach ¡ – StaDsDcal ¡traffic ¡features ¡ – AgnosDc ¡to ¡payload ¡encrypDon ¡

  • IdenDfy ¡unwanted ¡P2P ¡traffic ¡

– “unwanted” ¡depends ¡on ¡network ¡management ¡and ¡ security ¡policies ¡ – Includes ¡malicious ¡traffic, ¡such ¡as ¡P2P ¡botnets ¡ – May ¡include ¡other ¡legit ¡but ¡unwanted ¡apps, ¡such ¡as ¡ file ¡sharing ¡(eMule, ¡BitTorrent, ¡etc.) ¡

4 ¡

slide-5
SLIDE 5

N I S

etwork ntelligence ecurity

University of Georgia

  • Dept. of Computer Science

PeerRush: ¡System ¡Overview ¡

1 ¡ 2 ¡

5 ¡

slide-6
SLIDE 6

N I S

etwork ntelligence ecurity

University of Georgia

  • Dept. of Computer Science

P2P ¡Host ¡DetecDon ¡-­‑ ¡Overview ¡

  • Input: ¡live ¡network ¡traffic ¡
  • Approach: ¡staDsDcal ¡two-­‑class ¡classifier ¡
  • Output: ¡IPs ¡that ¡generate ¡P2P ¡traffic ¡

IPx ¡

Dme ¡ W(i) ¡ W(i+1) ¡ W(i+2) ¡ … ¡

[ ¡f1, ¡f2, ¡…, ¡fk ¡] ¡

6 ¡

slide-7
SLIDE 7

N I S

etwork ntelligence ecurity

University of Georgia

  • Dept. of Computer Science

P2P ¡Host ¡DetecDon ¡-­‑ ¡Features ¡

  • StaDsDcal ¡features ¡

– # ¡TCP/UDP ¡“connecDons” ¡with ¡no ¡DNS ¡query ¡ – # ¡failed ¡connecDons ¡(peer ¡churn ¡effect) ¡ – Non-­‑DNS ¡dst ¡IPs ¡scaWered ¡in ¡many ¡different ¡networks ¡

  • successful, ¡failed, ¡and ¡all ¡connecDons ¡
  • Non-­‑P2P ¡traffic ¡has ¡low ¡feature ¡values ¡

– e.g., ¡web ¡traffic ¡ – Most ¡non-­‑P2P ¡connecDons ¡“start” ¡with ¡DNS ¡query ¡ – Only ¡few ¡failed ¡connecDons ¡ [ ¡f1, ¡f2, ¡…, ¡fk ¡] ¡

7 ¡

slide-8
SLIDE 8

N I S

etwork ntelligence ecurity

University of Georgia

  • Dept. of Computer Science

P2P ¡Traffic ¡CategorizaDon ¡-­‑ ¡Overview ¡

  • Input: ¡

– traffic ¡from ¡each ¡P2P ¡host ¡ – P2P ¡management ¡flows ¡

  • Approach: ¡ ¡

– ApplicaDon ¡profiles ¡modeled ¡by ¡one-­‑class ¡classifiers ¡

  • Output: ¡ ¡

– P2P ¡traffic ¡profile ¡matches ¡

P2P ¡Hostx ¡

Dme ¡ W(i) ¡ W(i+1) ¡ W(i+2) ¡ … ¡

[ ¡f1, ¡f2, ¡…, ¡fm ¡] ¡

(management ¡flows) ¡

8 ¡

slide-9
SLIDE 9

N I S

etwork ntelligence ecurity

University of Georgia

  • Dept. of Computer Science

P2P ¡Traffic ¡CategorizaDon ¡-­‑ ¡Features ¡ ¡

  • Different ¡P2P ¡apps ¡generate ¡different ¡traffic ¡

– Use ¡different ¡P2P ¡protocols ¡ – Connect ¡to ¡different ¡network ¡of ¡peers ¡

  • P2P ¡management ¡(or ¡control) ¡flows ¡

– P2P ¡traffic ¡overall ¡depends ¡on ¡user ¡acDviDes ¡ – need ¡to ¡find ¡user-­‑independent ¡features! ¡ – beWer ¡to ¡focus ¡on ¡P2P ¡control ¡traffic ¡

  • e.g., ¡periodic ¡“keep ¡alive” ¡messages ¡ ¡
  • protocol-­‑specific, ¡more ¡user-­‑independent ¡
  • 1st ¡goal ¡ ¡

– separate ¡management ¡flows ¡from ¡data ¡flows ¡ ¡

9 ¡

slide-10
SLIDE 10

N I S

etwork ntelligence ecurity

University of Georgia

  • Dept. of Computer Science

Finding ¡Management ¡Flows ¡

  • HeurisDcs-­‑based ¡approach ¡
  • 1. Consider ¡only ¡non-­‑DNS ¡flows ¡
  • 2. Consider ¡long-­‑lived ¡(TCP/UDP) ¡flows ¡
  • packet ¡exchange ¡for ¡a ¡significant ¡porDon ¡of ¡analysis ¡window ¡
  • 3. Leverage ¡inter-­‑packet ¡delays ¡
  • Data ¡transfers ¡typically ¡involve ¡bursts ¡of ¡packets ¡
  • Management ¡messages ¡are ¡exchanged ¡periodically ¡

10 ¡

M ¡ M ¡ >θs ¡ >θs ¡ >θs ¡ >θs ¡ %me ¡

slide-11
SLIDE 11

N I S

etwork ntelligence ecurity

University of Georgia

  • Dept. of Computer Science

Management ¡Flow ¡Features ¡

  • DistribuDon ¡of ¡bytes ¡per ¡packet ¡(BPP) ¡
  • DistribuDon ¡of ¡inter-­‑packed ¡delays ¡(IPD) ¡

– Find ¡top ¡n ¡BPP ¡and ¡IPD ¡peaks ¡ – Measure ¡peak ¡locaDon ¡and ¡relaDve ¡height ¡

11 ¡

(encrypted) ¡ (encrypted) ¡

slide-12
SLIDE 12

N I S

etwork ntelligence ecurity

University of Georgia

  • Dept. of Computer Science

P2P ¡App ¡Profiles ¡

12 ¡

[ ¡f1, ¡f2, ¡…, ¡fm ¡] ¡

  • One-­‑class ¡classificaDon ¡approach ¡

– Each ¡traffic ¡profile ¡trained ¡using ¡only ¡examples ¡of ¡traffic ¡from ¡target ¡app ¡ – Flexibility: ¡different ¡decision ¡funcDon ¡and ¡threshold ¡per ¡each ¡app ¡

dist1(score1, ¡θ1) ¡ dist2(score2, ¡θ2) ¡ dist3(score3, ¡θ3) ¡ distN(scoreN, ¡θN) ¡ One ¡match ¡ MulDple ¡matches ¡ (need ¡disambiguaDon) ¡ Unknown ¡P2P ¡app ¡

slide-13
SLIDE 13

N I S

etwork ntelligence ecurity

University of Georgia

  • Dept. of Computer Science

EvaluaDon ¡Datasets ¡

  • 5 ¡ordinary ¡(non-­‑malicious) ¡apps ¡

– Several ¡days ¡per ¡app ¡ – Hundreds ¡of ¡GB ¡of ¡traffic ¡

13 ¡

NATed ¡nodes ¡ candidate ¡supernodes ¡ outside ¡node ¡

Automated ¡UI ¡input ¡

slide-14
SLIDE 14

N I S

etwork ntelligence ecurity

University of Georgia

  • Dept. of Computer Science

EvaluaDon ¡Datasets ¡

  • Traffic ¡from ¡3 ¡real-­‑world ¡P2P ¡botnets ¡

– Storm, ¡Waledac, ¡Zeus ¡P2P ¡(encrypted) ¡

  • Non-­‑P2P ¡traffic ¡

– about ¡5 ¡days ¡of ¡CS ¡dept. ¡network ¡ – custom ¡sniffing, ¡anonymizes ¡packets ¡“on ¡the ¡fly” ¡ – pruned ¡all ¡src ¡IPs ¡that ¡are ¡suspected ¡P2P ¡hosts ¡

  • any ¡query ¡to ¡*.skype.com, ¡any ¡match ¡of ¡Snort ¡P2P ¡rules ¡
  • 21 ¡out ¡of ¡931 ¡hosts ¡pruned ¡overall ¡

14 ¡

slide-15
SLIDE 15

N I S

etwork ntelligence ecurity

University of Georgia

  • Dept. of Computer Science

Eval ¡of ¡P2P ¡Host ¡DetecDon ¡

  • Cross-­‑validaDon ¡on ¡non-­‑malicious ¡apps ¡

– Datasets: ¡ordinary ¡P2P ¡traffic ¡+ ¡non-­‑P2P ¡traffic ¡ – Classifier: ¡Boosted ¡Decision ¡Trees ¡

  • Separate ¡“hold-­‑out” ¡test ¡on ¡P2P ¡Botnets ¡

15 ¡

slide-16
SLIDE 16

N I S

etwork ntelligence ecurity

University of Georgia

  • Dept. of Computer Science

Eval ¡of ¡P2P ¡CategorizaDon ¡

  • App ¡profile ¡= ¡one-­‑class ¡classifier ¡

– Different ¡“opDmum” ¡classifier ¡configuraDon ¡per ¡app ¡ – Cross-­‑validaDon ¡results ¡

16 ¡

slide-17
SLIDE 17

N I S

etwork ntelligence ecurity

University of Georgia

  • Dept. of Computer Science

Overall ¡Eval ¡of ¡P2P ¡CategorizaDon ¡

17 ¡

  • rdinary ¡P2P ¡

80% ¡training ¡ 20% ¡tesDng ¡ Botnets ¡ 80% ¡training ¡ 20% ¡tesDng ¡

slide-18
SLIDE 18

N I S

etwork ntelligence ecurity

University of Georgia

  • Dept. of Computer Science

Conclusion ¡

  • PeerRush ¡allows ¡for ¡flexible ¡and ¡accurate ¡P2P ¡traffic ¡

detecDon ¡and ¡categorizaDon ¡

  • Enables ¡detecDon ¡of ¡unwanted ¡P2P ¡traffic ¡

– different ¡types ¡of ¡modern ¡P2P ¡botnets ¡ – unwanted ¡“ordinary” ¡P2P ¡apps ¡ – agnosDc ¡to ¡traffic ¡encrypDon ¡

  • Extensive ¡evaluaDon ¡

– 5 ¡ordinary ¡P2P ¡apps ¡+ ¡3 ¡modern ¡P2P ¡botnets ¡ – High ¡accuracy ¡of ¡different ¡system ¡components ¡ – Promising ¡results ¡on ¡robustness ¡against ¡traffic ¡noise ¡ ¡ (results ¡in ¡the ¡paper) ¡ ¡

18 ¡

slide-19
SLIDE 19

N I S

etwork ntelligence ecurity

University of Georgia

  • Dept. of Computer Science

19 ¡

perdisci@cs.uga.edu ¡

slide-20
SLIDE 20

N I S

etwork ntelligence ecurity

University of Georgia

  • Dept. of Computer Science

Overall ¡Eval ¡of ¡P2P ¡CategorizaDon ¡

20 ¡

  • rdinary ¡P2P ¡

80% ¡training ¡ 20% ¡tesDng ¡ Botnets ¡ arDficial ¡noise ¡ 80% ¡training ¡ 20% ¡tesDng ¡ non-­‑P2P ¡traffic ¡ mixed ¡to ¡flows ¡ + ¡

slide-21
SLIDE 21

N I S

etwork ntelligence ecurity

University of Georgia

  • Dept. of Computer Science

EvaluaDon ¡Datasets ¡

  • 5 ¡non-­‑malicious ¡P2P ¡apps ¡

– Skype ¡ – μTorrent ¡ – eMule ¡ – Vuze ¡ – Frostwire ¡

  • 3 ¡P2P ¡botnets ¡

– Storm ¡ – Waledac ¡ – Zeus ¡P2P ¡

21 ¡