Outline Core Concept and Goal Expressiveness vs - - PowerPoint PPT Presentation

outline
SMART_READER_LITE
LIVE PREVIEW

Outline Core Concept and Goal Expressiveness vs - - PowerPoint PPT Presentation

Outline Core Concept and Goal Expressiveness vs Representa6on Towards a Behavioral Dic6onary Example Behavior: Fumbling What is Fumbling? Why


slide-1
SLIDE 1
slide-2
SLIDE 2

Outline ¡

  • Core ¡Concept ¡and ¡Goal ¡

– Expressiveness ¡vs ¡Representa6on ¡

  • Towards ¡a ¡Behavioral ¡Dic6onary ¡
  • Example ¡Behavior: ¡Fumbling ¡

– What ¡is ¡Fumbling? ¡ – Why ¡Fumbling? ¡ – Who ¡Fumbles? ¡

  • Current ¡Study: ¡ID ¡Crawlers ¡Via ¡Fumbling ¡
slide-3
SLIDE 3

CORE ¡CONCEPTS ¡

slide-4
SLIDE 4

Expressiveness ¡Vs. ¡Representa6on ¡

  • “If ¡I ¡just ¡had ¡

TCPDUMP ¡OF ¡ EVERYTHING ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ all ¡my ¡problems ¡ would ¡be ¡ solved” ¡

  • Most ¡traffic, ¡on ¡

a ¡flow-­‑by-­‑flow ¡ basis ¡is ¡either ¡ garbage ¡or ¡ uninteres6ng ¡

Record ¡ Footprint ¡ Coverage ¡ Access ¡ Time ¡

slide-5
SLIDE 5

Goal ¡

  • Develop ¡narra6ves ¡which ¡describe ¡ac6vity ¡

between ¡hosts ¡in ¡a ¡more ¡abstract ¡fashion ¡

– “This ¡is ¡fumbly” ¡ – “This ¡is ¡chaRy” ¡

  • Ideally, ¡these ¡aRributes ¡will ¡be ¡ ¡

– Intui6ve ¡(an ¡analyst ¡can ¡grasp ¡them ¡by ¡looking ¡at ¡ a ¡log) ¡ – Rigorous ¡(derived ¡from ¡some ¡model ¡of ¡behavior) ¡

  • Partly ¡iden6fica6on ¡applica6ons ¡by ¡behavior ¡
slide-6
SLIDE 6

A ¡Crude ¡Picture ¡

20 40 60 80 100 20 40 60 80 100 Fumbling Parameter Wandering Parameter SMTP Servers Webcrawlers Scanners Normal Browsers

Connec6on ¡Failure ¡ Probability ¡of ¡Novelty ¡

slide-7
SLIDE 7

ARributes ¡For ¡Narra6ves… ¡

  • This ¡is ¡clustering, ¡just ¡on ¡different ¡axes ¡
  • Possible ¡aRributes: ¡

– Probability ¡of ¡connec6on ¡failure ¡ – Locality ¡ – Probability ¡of ¡file ¡transfer ¡ – Packet ¡size ¡

slide-8
SLIDE 8

CASE ¡STUDY: ¡FUMBLING ¡

slide-9
SLIDE 9

What ¡is ¡Fumbling? ¡

  • Intui6vely, ¡fumbling ¡is ¡a ¡consistent ¡failure ¡to ¡

connect ¡with ¡a ¡host ¡

– Previously ¡used ¡to ¡iden6fy ¡BitTorrent ¡ [Collins06,BartleR07] ¡

  • Challenge: ¡differen6a6ng ¡fumbling ¡

– From ¡scanning, ¡where ¡clients ¡probe ¡‘a ¡ lot’ ¡[Jung04] ¡ – From ¡normal ¡surfing, ¡where ¡clients ¡get ¡bored ¡and ¡ move ¡on ¡

slide-10
SLIDE 10

What ¡Fumbles? ¡

  • Routed/automated ¡

lookup ¡

– SMTP ¡ – P2P ¡ – NNTP ¡

  • Search ¡bots ¡
  • Scanners ¡don’t ¡

fumble ¡– ¡they ¡seek ¡

  • ut ¡everything ¡
  • Users ¡don’t ¡fumble ¡– ¡

they ¡lose ¡pa6ence ¡

slide-11
SLIDE 11

Why ¡Care ¡About ¡Fumbling? ¡

  • Scanning ¡false ¡posi6ves ¡

– Uncleanliness ¡Data ¡– ¡don’t ¡mark ¡yahoo ¡unclean ¡ – Differen6ate ¡scanners ¡in ¡a ¡naturally ¡noisy ¡set ¡-­‑-­‑ ¡ SMTP ¡

  • Iden6fy ¡applica6ons ¡that ¡require ¡blind ¡lookup ¡

– Internal ¡p2p ¡applica6ons ¡(unknown ¡ports) ¡ – Google ¡doesn’t ¡publish ¡crawler ¡IP ¡addresses ¡

slide-12
SLIDE 12

CHARACTERIZING ¡FUMBLING ¡

slide-13
SLIDE 13

Source ¡Data ¡

  • Task: ¡differen6ate ¡crawlers ¡by ¡quan6fying ¡

fumbling ¡

  • 4 ¡days ¡of ¡crawling ¡data ¡
  • Crawlers ¡iden6fied ¡by ¡IP ¡space ¡

– Cuil: ¡Google ¡“compe6tor”, ¡embarrassing ¡launch ¡last ¡ year ¡ – Ye6: ¡Naver.com ¡(Korean ¡search ¡engine) ¡ – “Twiceler”: ¡Some ¡searchbots ¡use ¡twiceler ¡as ¡an ¡ID, ¡ refers ¡to ¡twiceler ¡from ¡domains ¡cuil ¡says ¡are ¡not ¡its ¡ domains ¡ – Voila: ¡Voila.fr ¡search ¡engine ¡(French) ¡

slide-14
SLIDE 14

Basic ¡Numbers ¡

Engine ¡ ID# ¡ Flows ¡ IPs ¡ Failed ¡ Flow ¡ Failed ¡IP ¡ Cuil ¡ 1 ¡ 3760 ¡ 189 ¡ 504 ¡ 45 ¡ 2 ¡ 4945 ¡ 170 ¡ 195 ¡ 42 ¡ 3 ¡ 3128 ¡ 204 ¡ 1033 ¡ 43 ¡ Ye6 ¡ 4 ¡ 2635 ¡ 247 ¡ 84 ¡ 28 ¡ “Twiceler” ¡ 5 ¡ 5338 ¡ 185 ¡ 829 ¡ 51 ¡ Voila ¡ 6 ¡ 12808 ¡ 680 ¡ 2745 ¡ 75 ¡ 7 ¡ 12506 ¡ 679 ¡ 2306 ¡ 73 ¡ “Twiceler” ¡ 8 ¡ 2252 ¡ 172 ¡ 101 ¡ 45 ¡

slide-15
SLIDE 15

Consecu6ve ¡Failure ¡Rate ¡

  • Number ¡of ¡6mes ¡that ¡a ¡failure ¡occurs ¡

repeatedly ¡

  • Used ¡in ¡darkspace ¡analysis ¡– ¡scans ¡are ¡marked ¡

as ¡such ¡when ¡> ¡3-­‑5 ¡consecu6ve ¡failures ¡[Jung, ¡ 2004] ¡

  • Fumblers ¡are ¡different ¡because ¡they ¡have ¡a ¡

nontrivial ¡success ¡rate ¡

slide-16
SLIDE 16

Visualizing ¡Sequen6al ¡Hypothesis ¡ Tes6ng ¡

Category ¡1 ¡ Category ¡2 ¡ Further ¡Informa6on ¡ Needed ¡

slide-17
SLIDE 17

Some ¡Failure ¡Plots ¡

1 2 3 4 5 6 7 100 200 300 400 500 Consecutive Successes Number of tests 10 20 30 40 50 100 200 300 400 500 Consecutive Successes Number of tests

slide-18
SLIDE 18

Why ¡The ¡Mountains? ¡

  • In ¡the ¡long ¡run, ¡high ¡

success ¡rate: ¡

– 0.5% ¡failure ¡to ¡70% ¡in ¡ the ¡worst ¡case ¡ – Vs. ¡99.95% ¡failure ¡rate ¡ for ¡scanners ¡

  • However, ¡failures ¡are ¡

common ¡mode ¡

– IP ¡address ¡X ¡is ¡down ¡ – IP ¡address ¡X ¡is ¡hit ¡ repeatedly ¡ ¡

Engine ¡ ID# ¡ FPR ¡(4 ¡failures) ¡ ¡ Cuil ¡ 1 ¡ 9.10% ¡ 2 ¡ 1.50% ¡ 3 ¡ 34.4% ¡ Ye6 ¡ 4 ¡ 10.3% ¡ “Twiceler” ¡ 5 ¡ 17.9% ¡ Voila ¡ 6 ¡ 13.9% ¡ 7 ¡ 1.00% ¡ “Twiceler” ¡ 8 ¡ 1.00% ¡

slide-19
SLIDE 19

Permu6ng ¡Addresses ¡

10 20 30 40 50 100 200 300 400 500 Consecutive Successes Number of tests 5 10 15 20 100 200 300 400 500 Consecutive Successes Number of tests

slide-20
SLIDE 20

Results ¡of ¡Permuta6on ¡

  • Drops ¡expected ¡

values ¡down ¡

  • “real6me” ¡

detec6on ¡is ¡no ¡ longer ¡valid ¡ ¡

  • Fumbling ¡

requires ¡both ¡a ¡ presence ¡and ¡ absence… ¡

Engine ¡ ID # ¡ Norm ¡ FPR ¡ Random ¡ FPR ¡ Cuil ¡ 1 ¡ 9.10% ¡ 0.00% ¡ 2 ¡ 1.50% ¡ 0.00% ¡ 3 ¡ 34.4% ¡ 15.5% ¡ Ye6 ¡ 4 ¡ 10.3% ¡ 0.00% ¡ “Twiceler” ¡ 5 ¡ 17.9% ¡ 0.00% ¡ Voila ¡ 6 ¡ 13.9% ¡ 0.00% ¡ 7 ¡ 1.00% ¡ 0.00% ¡ “Twiceler” ¡ 8 ¡ 1.00% ¡ 0.00% ¡

slide-21
SLIDE 21

Locality ¡

  • Propensity ¡of ¡users ¡to ¡sit ¡around ¡a ¡set ¡of ¡

common ¡hosts ¡[McHugh03] ¡

  • Modeled ¡using ¡a ¡working ¡set: ¡

– LRU ¡stack, ¡fixed ¡size ¡ – Locality ¡is ¡then ¡the ¡probability, ¡when ¡an ¡address ¡is ¡ presented, ¡of ¡not ¡replacing ¡an ¡address ¡in ¡the ¡ working ¡set ¡

slide-22
SLIDE 22

Searchbots ¡Are ¡Local ¡

  • Searchbots ¡are ¡actually ¡fairly ¡local ¡

– Slightly ¡more ¡localized ¡than ¡humans, ¡it ¡turns ¡out ¡ – CDNs? ¡ ¡Single-­‑page ¡sites? ¡

  • Much ¡more ¡local ¡than ¡scanners ¡

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 20 40 60 80 100 Probability of Novelty (1 = Certainty) Working Set Size (# of Elements)

slide-23
SLIDE 23

Start ¡Classifying ¡

Local? ¡ Connects? ¡ Yes ¡ No ¡ Yes ¡ Surfer ¡ Searchbot ¡ No ¡ Hitlist ¡Scanner? ¡ Scanner ¡

slide-24
SLIDE 24

Leading ¡Us ¡Back ¡To ¡This ¡Picture… ¡

20 40 60 80 100 20 40 60 80 100 Fumbling Parameter Wandering Parameter SMTP Servers Webcrawlers Scanners Normal Browsers

Connec6on ¡Failure ¡ Probability ¡of ¡Novelty ¡

slide-25
SLIDE 25

Conclusions ¡

  • Combining ¡locality ¡with ¡detec6on ¡failure ¡may ¡

provide ¡an ¡indicator ¡of ¡fumbling ¡

– Have ¡to ¡develop ¡a ¡suitable ¡n ¡(working ¡set ¡size) ¡ – N ¡also ¡changes ¡over ¡6me ¡

  • A ¡false ¡posi6ve ¡is ¡an ¡indicator ¡your ¡IDS ¡isn’t ¡done ¡

yet ¡ ¡

– We ¡can ¡differen6ate ¡searchbots ¡from ¡scanners ¡with ¡ more ¡informa6on, ¡but ¡it ¡may ¡cost ¡us ¡‘real6me’ ¡ – Whatever ¡‘real6me ¡scan ¡detec6on’ ¡is ¡worth… ¡