outline
play

Outline Core Concept and Goal Expressiveness vs - PowerPoint PPT Presentation

Outline Core Concept and Goal Expressiveness vs Representa6on Towards a Behavioral Dic6onary Example Behavior: Fumbling What is Fumbling? Why


  1. Outline ¡ • Core ¡Concept ¡and ¡Goal ¡ – Expressiveness ¡ vs ¡Representa6on ¡ • Towards ¡a ¡Behavioral ¡Dic6onary ¡ • Example ¡Behavior: ¡Fumbling ¡ – What ¡is ¡Fumbling? ¡ – Why ¡Fumbling? ¡ – Who ¡Fumbles? ¡ • Current ¡Study: ¡ID ¡Crawlers ¡Via ¡Fumbling ¡

  2. CORE ¡CONCEPTS ¡

  3. Expressiveness ¡Vs. ¡Representa6on ¡ • “If ¡I ¡just ¡had ¡ TCPDUMP ¡OF ¡ EVERYTHING ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ all ¡my ¡problems ¡ would ¡be ¡ solved” ¡ • Most ¡traffic, ¡on ¡ a ¡flow-­‑by-­‑flow ¡ basis ¡is ¡either ¡ garbage ¡or ¡ Record ¡ Coverage ¡ uninteres6ng ¡ Access ¡ Footprint ¡ Time ¡

  4. Goal ¡ • Develop ¡narra6ves ¡which ¡describe ¡ac6vity ¡ between ¡hosts ¡in ¡a ¡more ¡abstract ¡fashion ¡ – “This ¡is ¡fumbly” ¡ – “This ¡is ¡chaRy” ¡ • Ideally, ¡these ¡aRributes ¡will ¡be ¡ ¡ – Intui6ve ¡(an ¡analyst ¡can ¡grasp ¡them ¡by ¡looking ¡at ¡ a ¡log) ¡ – Rigorous ¡(derived ¡from ¡some ¡model ¡of ¡behavior) ¡ • Partly ¡iden6fica6on ¡applica6ons ¡by ¡behavior ¡

  5. A ¡Crude ¡Picture ¡ SMTP Servers Scanners Webcrawlers Normal Browsers 100 80 Connec6on ¡Failure ¡ Fumbling Parameter 60 40 20 0 0 20 40 60 80 100 Probability ¡of ¡Novelty ¡ Wandering Parameter

  6. ARributes ¡For ¡Narra6ves… ¡ • This ¡is ¡clustering, ¡just ¡on ¡different ¡axes ¡ • Possible ¡aRributes: ¡ – Probability ¡of ¡connec6on ¡failure ¡ – Locality ¡ – Probability ¡of ¡file ¡transfer ¡ – Packet ¡size ¡

  7. CASE ¡STUDY: ¡FUMBLING ¡

  8. What ¡is ¡Fumbling? ¡ • Intui6vely, ¡fumbling ¡is ¡a ¡ consistent ¡failure ¡to ¡ connect ¡with ¡a ¡host ¡ – Previously ¡used ¡to ¡iden6fy ¡BitTorrent ¡ [Collins06,BartleR07] ¡ • Challenge: ¡differen6a6ng ¡fumbling ¡ – From ¡scanning, ¡where ¡clients ¡probe ¡‘a ¡ lot’ ¡[Jung04] ¡ – From ¡normal ¡surfing, ¡where ¡clients ¡get ¡bored ¡and ¡ move ¡on ¡

  9. What ¡Fumbles? ¡ • Routed/automated ¡ • Scanners ¡don’t ¡ lookup ¡ fumble ¡– ¡they ¡seek ¡ out ¡everything ¡ – SMTP ¡ • Users ¡don’t ¡fumble ¡– ¡ – P2P ¡ they ¡lose ¡pa6ence ¡ – NNTP ¡ • Search ¡bots ¡

  10. Why ¡Care ¡About ¡Fumbling? ¡ • Scanning ¡false ¡posi6ves ¡ – Uncleanliness ¡Data ¡– ¡don’t ¡mark ¡yahoo ¡unclean ¡ – Differen6ate ¡scanners ¡in ¡a ¡naturally ¡noisy ¡set ¡-­‑-­‑ ¡ SMTP ¡ • Iden6fy ¡applica6ons ¡that ¡require ¡blind ¡lookup ¡ – Internal ¡p2p ¡applica6ons ¡(unknown ¡ports) ¡ – Google ¡doesn’t ¡publish ¡crawler ¡IP ¡addresses ¡

  11. CHARACTERIZING ¡FUMBLING ¡

  12. Source ¡Data ¡ • Task: ¡differen6ate ¡crawlers ¡by ¡quan6fying ¡ fumbling ¡ • 4 ¡days ¡of ¡crawling ¡data ¡ • Crawlers ¡iden6fied ¡by ¡IP ¡space ¡ – Cuil: ¡Google ¡“compe6tor”, ¡embarrassing ¡launch ¡last ¡ year ¡ – Ye6: ¡Naver.com ¡(Korean ¡search ¡engine) ¡ – “Twiceler”: ¡Some ¡searchbots ¡use ¡twiceler ¡as ¡an ¡ID, ¡ refers ¡to ¡twiceler ¡from ¡domains ¡cuil ¡says ¡are ¡not ¡its ¡ domains ¡ – Voila: ¡Voila.fr ¡search ¡engine ¡(French) ¡

  13. Basic ¡Numbers ¡ Engine ¡ ID# ¡ Flows ¡ IPs ¡ Failed ¡ Failed ¡IP ¡ Flow ¡ Cuil ¡ 1 ¡ 3760 ¡ 189 ¡ 504 ¡ 45 ¡ 2 ¡ 4945 ¡ 170 ¡ 195 ¡ 42 ¡ 3 ¡ 3128 ¡ 204 ¡ 1033 ¡ 43 ¡ Ye6 ¡ 4 ¡ 2635 ¡ 247 ¡ 84 ¡ 28 ¡ “Twiceler” ¡ 5 ¡ 5338 ¡ 185 ¡ 829 ¡ 51 ¡ Voila ¡ 6 ¡ 12808 ¡ 680 ¡ 2745 ¡ 75 ¡ 7 ¡ 12506 ¡ 679 ¡ 2306 ¡ 73 ¡ “Twiceler” ¡ 8 ¡ 2252 ¡ 172 ¡ 101 ¡ 45 ¡

  14. Consecu6ve ¡Failure ¡Rate ¡ • Number ¡of ¡6mes ¡that ¡a ¡failure ¡occurs ¡ repeatedly ¡ • Used ¡in ¡darkspace ¡analysis ¡– ¡scans ¡are ¡marked ¡ as ¡such ¡when ¡> ¡3-­‑5 ¡consecu6ve ¡failures ¡[Jung, ¡ 2004] ¡ • Fumblers ¡are ¡different ¡because ¡they ¡have ¡a ¡ nontrivial ¡success ¡rate ¡

  15. Visualizing ¡Sequen6al ¡Hypothesis ¡ Tes6ng ¡ Further ¡Informa6on ¡ Needed ¡ Category ¡1 ¡ Category ¡2 ¡

  16. Some ¡Failure ¡Plots ¡ 50 7 6 40 5 Consecutive Successes Consecutive Successes 30 4 3 20 2 10 1 0 0 0 0 100 100 200 200 300 300 400 400 500 500 Number of tests Number of tests

  17. Why ¡The ¡Mountains? ¡ Engine ¡ ID# ¡ FPR ¡(4 ¡failures) ¡ ¡ • In ¡the ¡long ¡run, ¡high ¡ success ¡rate: ¡ Cuil ¡ 1 ¡ 9.10% ¡ – 0.5% ¡failure ¡to ¡70% ¡in ¡ 2 ¡ 1.50% ¡ the ¡worst ¡case ¡ 3 ¡ 34.4% ¡ – Vs. ¡99.95% ¡failure ¡rate ¡ Ye6 ¡ 4 ¡ 10.3% ¡ for ¡scanners ¡ “Twiceler” ¡ 5 ¡ 17.9% ¡ • However, ¡failures ¡are ¡ common ¡mode ¡ Voila ¡ 6 ¡ 13.9% ¡ – IP ¡address ¡X ¡is ¡down ¡ 7 ¡ 1.00% ¡ – IP ¡address ¡X ¡is ¡hit ¡ “Twiceler” ¡ 8 ¡ 1.00% ¡ repeatedly ¡ ¡

  18. Permu6ng ¡Addresses ¡ 50 40 Consecutive Successes 30 20 10 0 0 100 200 300 400 500 Number of tests 20 15 Consecutive Successes 10 5 0 0 100 200 300 400 500 Number of tests

  19. Results ¡of ¡Permuta6on ¡ Engine ¡ ID Norm ¡ Random ¡ • Drops ¡expected ¡ # ¡ FPR ¡ FPR ¡ values ¡down ¡ Cuil ¡ 1 ¡ 9.10% ¡ 0.00% ¡ • “real6me” ¡ 2 ¡ 1.50% ¡ 0.00% ¡ detec6on ¡is ¡no ¡ 3 ¡ 34.4% ¡ 15.5% ¡ longer ¡valid ¡ ¡ Ye6 ¡ 4 ¡ 10.3% ¡ 0.00% ¡ • Fumbling ¡ “Twiceler” ¡ 5 ¡ 17.9% ¡ 0.00% ¡ requires ¡both ¡a ¡ Voila ¡ 6 ¡ 13.9% ¡ 0.00% ¡ presence ¡and ¡ 7 ¡ 1.00% ¡ 0.00% ¡ absence… ¡ “Twiceler” ¡ 8 ¡ 1.00% ¡ 0.00% ¡

  20. Locality ¡ • Propensity ¡of ¡users ¡to ¡sit ¡around ¡a ¡set ¡of ¡ common ¡hosts ¡[McHugh03] ¡ • Modeled ¡using ¡a ¡working ¡set: ¡ – LRU ¡stack, ¡fixed ¡size ¡ – Locality ¡is ¡then ¡the ¡probability, ¡when ¡an ¡address ¡is ¡ presented, ¡of ¡not ¡replacing ¡an ¡address ¡in ¡the ¡ working ¡set ¡

  21. Searchbots ¡Are ¡Local ¡ 1 0.9 0.8 Probability of Novelty (1 = Certainty) 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 • Searchbots ¡are ¡actually ¡fairly ¡local ¡ 0 20 40 60 80 100 Working Set Size (# of Elements) – Slightly ¡ more ¡localized ¡than ¡humans, ¡it ¡turns ¡out ¡ – CDNs? ¡ ¡Single-­‑page ¡sites? ¡ • Much ¡ more ¡local ¡than ¡scanners ¡

  22. Start ¡Classifying ¡ Local? ¡ Connects? ¡ Yes ¡ No ¡ Yes ¡ Surfer ¡ Searchbot ¡ No ¡ Hitlist ¡Scanner? ¡ Scanner ¡

  23. Leading ¡Us ¡Back ¡To ¡This ¡Picture… ¡ SMTP Servers Scanners Webcrawlers Normal Browsers 100 80 Connec6on ¡Failure ¡ Fumbling Parameter 60 40 20 0 0 20 40 60 80 100 Probability ¡of ¡Novelty ¡ Wandering Parameter

  24. Conclusions ¡ • Combining ¡locality ¡with ¡detec6on ¡failure ¡may ¡ provide ¡an ¡indicator ¡of ¡fumbling ¡ – Have ¡to ¡develop ¡a ¡suitable ¡ n ¡(working ¡set ¡size) ¡ – N ¡also ¡changes ¡over ¡6me ¡ • A ¡false ¡posi6ve ¡is ¡an ¡indicator ¡your ¡IDS ¡isn’t ¡done ¡ yet ¡ ¡ – We ¡can ¡differen6ate ¡searchbots ¡from ¡scanners ¡with ¡ more ¡informa6on, ¡but ¡it ¡may ¡cost ¡us ¡‘real6me’ ¡ – Whatever ¡‘real6me ¡scan ¡detec6on’ ¡is ¡worth… ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend