Forensic Inves,ga,ons in Cyberspace: what about big data? - - PowerPoint PPT Presentation

forensic inves ga ons in
SMART_READER_LITE
LIVE PREVIEW

Forensic Inves,ga,ons in Cyberspace: what about big data? - - PowerPoint PPT Presentation

Computa*onal Forensics Forensic Inves,ga,ons in Cyberspace: what about big data? Katrin Franke Norwegian Information Security Laboratory (NISlab), Department of Computer Science and Media Technology,


slide-1
SLIDE 1

Forensics Lab

1 ¡ Computa*onal ¡Forensics ¡

Forensic ¡Inves,ga,ons ¡in ¡ Cyberspace: ¡what ¡about ¡big ¡data?

Katrin Franke Norwegian Information Security Laboratory (NISlab), Department of Computer Science and Media Technology, Gjøvik University College http://www.nislab.no

slide-2
SLIDE 2

Forensics Lab

2 ¡ Computa*onal ¡Forensics ¡

Crime ¡in ¡the ¡Modern ¡World ¡

§ Massive ¡amount ¡of ¡data: ¡

– 247 ¡billion ¡email ¡per ¡day ¡ – 234 ¡million ¡websites ¡ – 5 ¡billion ¡mobile-­‑phone ¡users ¡

§ ICT ¡Infrastructures: ¡

– Complex, ¡rapidly ¡growing ¡ – Dynamically ¡changing ¡ – Hos*le, ¡adversary ¡environment ¡

§ Cybercrime: ¡

– One ¡million ¡vic*ms ¡daily ¡ – Expected ¡losses ¡297 ¡billion ¡Euro ¡ – Crowd ¡sourcing ¡-­‑> ¡Crime ¡sourcing ¡ – Flash ¡mobs ¡-­‑> ¡Flash ¡robs ¡

§ Proac*ve, ¡Ultra-­‑large ¡scale ¡

Forensic ¡Inves*ga*ons, ¡ ¡ Computa*onal ¡Forensics: ¡

– Situa*on-­‑aware ¡methods ¡ – Quan*fied, ¡measurable ¡indicators ¡ – Adap*ve, ¡self-­‑organizing ¡models ¡ – Distributed, ¡coopera*ve, ¡ ¡

autonomous ¡

§ Rule-­‑of-­‑Law: ¡

– Culture, ¡social ¡behaviours ¡ – Legal ¡& ¡privacy ¡aspects ¡ – Cross-­‑jurisdic*on ¡coopera*on ¡ – European ¡/ ¡Interna*onal ¡cyberlaw ¡ – Law ¡as ¡framework ¡for ¡ICT ¡ – Law ¡as ¡contents ¡of ¡ICT, ¡Automa*on, ¡

programming ¡of ¡legal ¡rules ¡

slide-3
SLIDE 3

Forensics Lab

3 ¡ Computa*onal ¡Forensics ¡

Computa,onal ¡Forensics: ¡ ¡ Adding ¡Efficiency ¡and ¡Intelligence ¡to ¡ BIG ¡DATA ¡Inves,ga,on ¡

slide-4
SLIDE 4

Forensics Lab

4 ¡ Computa*onal ¡Forensics ¡ Requirement of Adapted


Computer Models & Operators

NN FL EC

Brain Reasoning Natural Evolution

NN: Neuronal Networks
 FL: Fuzzy Logic
 EC: Evolutionary Computation

Computational
 Intelligence Imprecision, Uncertainty, Partial Truth

slide-5
SLIDE 5

Forensics Lab

5 ¡ Computa*onal ¡Forensics ¡

Methods of Computational / Machine Intelligence

§ Signal / Image Processing : one-dimensional signals and two-dimensional

images are transformed for the purpose of better human or machine processing,

§ Computer Vision : images are automatically recognized to identify objects, § Computer Graphics / Data Visualization : 


two-dimensional images or three-dimensional scenes are synthesized from multi- dimensional data for better human understanding,

§ Statistical Pattern Recognition : 


abstract measurements are classified as belonging to one or more classes, e.g., whether a sample belongs to a known class and with what probability,

§ Data Mining : large volumes of data are processed to discover nuggets of

information, e.g., presence of associations, number of clusters, outliers in a cluster,

§ Robotics : human movements are replicated by a machine, and § Machine Learning : a mathematical model is learnt from examples.

20/06/2013 5

slide-6
SLIDE 6

Forensics Lab

6 ¡ Computa*onal ¡Forensics ¡

Data-­‑driven ¡Approaches ¡

Inter-­‑rela*on ¡of ¡ ¡ feature ¡complexity ¡and ¡ ¡ expected ¡recogni*on ¡

  • accuracy. ¡

(Franke ¡2005) ¡

Big ¡Data ¡Analysis ¡

slide-7
SLIDE 7

Forensics Lab

7 ¡ Computa*onal ¡Forensics ¡

Reverse ¡Engineering ¡ Malware ¡

Lars ¡Arne ¡Sand, ¡Katrin ¡Franke, ¡ ¡ Jarle ¡Kialsen, ¡Peter ¡Ekstrand ¡Berg, ¡Hai ¡Thanh ¡Nguyen ¡ Norwegian ¡Informa*on ¡Security ¡Laboratory ¡(NISlab) ¡ Gjøvik ¡University ¡College ¡ www.nislab.no ¡

¡ ¡

slide-8
SLIDE 8

Forensics Lab

8 ¡ Computa*onal ¡Forensics ¡

Reverse ¡Engineering ¡Malware ¡

§ Sta,c ¡analysis ¡ § System ¡ar,facts ¡ § Dynamic ¡analysis ¡ § Debugging ¡ § Analyzing ¡malicious ¡content ¡

– PDFs ¡ – JavaScripts ¡ – Office ¡documents ¡ – Shellcode ¡ – Network ¡traffic ¡

slide-9
SLIDE 9

Forensics Lab

9 ¡ Computa*onal ¡Forensics ¡

Sta,c ¡Analysis ¡

§ Sta*c ¡analysis ¡

– Does ¡not ¡execute ¡malware ¡ – Analyze: ¡

  • System ¡ar*facts ¡
  • Debugging ¡
  • Source ¡code ¡(not ¡included) ¡
  • Disassembled ¡code ¡(not ¡included) ¡
slide-10
SLIDE 10

Forensics Lab

10 ¡ Computa*onal ¡Forensics ¡

Dynamic ¡Analysis ¡

§ Defini*on ¡

– Dynamic ¡analysis ¡is ¡the ¡process ¡of ¡execu7ng ¡malware ¡in ¡ a ¡monitored ¡environment ¡to ¡observe ¡its ¡behaviors ¡

§ Deals ¡with ¡finding ¡and ¡understanding ¡the ¡changes ¡

made ¡to ¡the ¡system ¡

§ Pro: ¡

– Provide ¡quick ¡informa*on ¡about ¡created ¡and ¡changed ¡ files, ¡registry ¡keys, ¡processes, ¡handles, ¡contacted ¡ websites, ¡etc. ¡

§ Con: ¡

– Excessive ¡and ¡overwhelming ¡results ¡ – Need ¡to ¡know ¡the ¡normal ¡behavior ¡of ¡a ¡system ¡

slide-11
SLIDE 11

Forensics Lab

11 ¡ Computa*onal ¡Forensics ¡

Framework concept

  • User interacts via Java client
  • Client is the front-end for

accessing & processing information

  • Information is distributed over and

hosted by trusted servers

  • Via their clients, users request

services provided by the servers

slide-12
SLIDE 12

Forensics Lab

12 ¡ Computa*onal ¡Forensics ¡

WANDA System

slide-13
SLIDE 13

Forensics Lab

13 ¡ Computa*onal ¡Forensics ¡

Plug-In Concept

slide-14
SLIDE 14

Forensics Lab

14 ¡ Computa*onal ¡Forensics ¡

Reverse ¡Engineering ¡Malware ¡

§ Sta,c ¡analysis ¡ § System ¡ar,facts ¡ § Dynamic ¡analysis ¡ § Debugging ¡ § Analyzing ¡malicious ¡content ¡

– PDFs ¡ – JavaScripts ¡ – Office ¡documents ¡ – Shellcode ¡ – Network ¡traffic ¡

slide-15
SLIDE 15

Forensics Lab

15 ¡ Computa*onal ¡Forensics ¡

Behavioral ¡ ¡ Malware ¡Detec,on ¡

(sta,c, ¡dynamic, ¡combined) ¡

Lars ¡Arne ¡Sand, ¡Katrin ¡Franke ¡ Norwegian ¡Informa*on ¡Security ¡Laboratory ¡(NISlab) ¡ Gjøvik ¡University ¡College ¡ www.nislab.no ¡

¡ ¡

slide-16
SLIDE 16

Forensics Lab

16 ¡ Computa*onal ¡Forensics ¡

Layers ¡of ¡Detec,on ¡

l User ¡mode ¡(library ¡calls) ¡ l Kernel ¡mode ¡(system ¡calls) ¡ l Hybrid ¡(func*on ¡calls) ¡

slide-17
SLIDE 17

Forensics Lab

17 ¡ Computa*onal ¡Forensics ¡

l Ordering ¡dependency ¡(1) ¡ l sequence ¡ l Value ¡dependency ¡(2) ¡ l parameters ¡ l Def-­‑use ¡dependency ¡(3) ¡ l Parameter ¡and ¡return ¡value ¡ l Sample: ¡ l call_1(parameter1,ffff0000)=0 ¡ l call_2(par)=0x4fff0418 ¡ l call_3(0x4fff0418,0xffff0000)=0 ¡

Informa,on-­‑based ¡ ¡ Dependency ¡Matching ¡

slide-18
SLIDE 18

Forensics Lab

18 ¡ Computa*onal ¡Forensics ¡

l Library ¡calls ¡(Hello ¡World.c) ¡

– Code ¡ – Trace ¡ ¡ ¡ – Graph ¡

Example ¡#1 ¡

slide-19
SLIDE 19

Forensics Lab

19 ¡ Computa*onal ¡Forensics ¡

l System ¡calls ¡(Hello ¡world.c) ¡

– Trace ¡

  • Much ¡more ¡extensive ¡due ¡to ¡memory ¡

mapping ¡

  • Example ¡trace ¡

– Graph ¡

  • Example ¡Graph ¡

¡

Example ¡#2 ¡

slide-20
SLIDE 20

Forensics Lab

20 ¡ Computa*onal ¡Forensics ¡

l Actual ¡malware ¡example ¡

l Malware ¡system ¡call ¡Graph ¡Examples ¡

  • Virus.Linux.Snoopy.a ¡
  • Rootkit.Linux.Matrics.a ¡
  • Exploit.Linux.Small.k ¡

Example ¡#3 ¡

slide-21
SLIDE 21

Forensics Lab

21 ¡ Computa*onal ¡Forensics ¡ l Graph-­‑based ¡Matching ¡

– hlp://ailab.wsu.edu/subdue/unsupervised.swf ¡ – Subdue ¡finds ¡substructures ¡by ¡compressing ¡graphs ¡ – Supervised ¡Learning ¡is ¡performed ¡by ¡finding ¡substructures ¡ that ¡occur ¡frequently ¡in ¡one ¡class ¡but ¡seldom ¡in ¡another ¡ ¡

l Dataset ¡

l Malware ¡

  • Extracted ¡from: ¡vx.netlux.org/index.html ¡(currently ¡down) ¡
  • 190 ¡samples: ¡7150 ¡ver,ces, ¡7790 ¡edges ¡

l Benign ¡Somware ¡

  • Ubuntu ¡binaries ¡
  • 75 ¡samples: ¡9025 ¡ver,ces, ¡9395 ¡edges ¡

¡

Experimental ¡Design ¡& ¡Data ¡Set ¡#1 ¡ ¡ ¡

slide-22
SLIDE 22

Forensics Lab

22 ¡ Computa*onal ¡Forensics ¡

Preliminary ¡Results ¡#1: ¡ Graph-­‑based ¡Matching ¡

l Detec*on ¡rate ¡of ¡98,9% ¡ l Confusion ¡matrix ¡

¡ ¡ ¡

l 190/190 ¡Malware ¡correctly ¡classified ¡ l ¡72/75 ¡Somware ¡correctly ¡classified ¡

slide-23
SLIDE 23

Forensics Lab

23 ¡ Computa*onal ¡Forensics ¡

Detec,ng ¡Malicious ¡PDF ¡

Jarle ¡Kilelsen, ¡Katrin ¡Franke, ¡Hai ¡Thanh ¡Nguyen ¡ Norwegian ¡Informa*on ¡Security ¡Laboratory ¡(NISlab) ¡ Gjøvik ¡University ¡College ¡ www.nislab.no ¡

¡ ¡

slide-24
SLIDE 24

Forensics Lab

24 ¡ Computa*onal ¡Forensics ¡

Analyzing ¡Malicious ¡Content ¡#1 ¡

§ Frequent ¡analysis: ¡

– PDF ¡ – JavaScript ¡ – Office ¡Documents ¡ – Flash ¡(not ¡included) ¡ – Shellcode ¡ – Network ¡Traffic ¡

slide-25
SLIDE 25

Forensics Lab

25 ¡ Computa*onal ¡Forensics ¡

§ Which ¡features ¡are ¡significant ¡for ¡detec*ng ¡

malicious ¡PDF ¡documents? ¡

§ Which ¡classifier ¡design ¡and ¡configura*on ¡

yields ¡op*mal ¡performance ¡in ¡malicious ¡PDF ¡ detec*on? ¡

§ How ¡can ¡a ¡real-­‑world ¡IDS, ¡capable ¡of ¡detec*ng ¡

malicious ¡PDFs ¡in ¡network ¡traffic, ¡be ¡ implemented? ¡

Research ¡Ques,ons ¡

slide-26
SLIDE 26

Forensics Lab

26 ¡ Computa*onal ¡Forensics ¡

Method ¡Overview ¡

slide-27
SLIDE 27

Forensics Lab

27 ¡ Computa*onal ¡Forensics ¡

§ PDFs ¡collected ¡within ¡the ¡malware ¡research ¡

community ¡and ¡through ¡webcrawling, ¡e.g., ¡

§ Websense ¡ § Abuse.ch ¡ § Sourcefire ¡

§ Malicious ¡samples ¡have ¡been ¡submiled ¡globally ¡

and ¡detected ¡in ¡various ¡ways, ¡some ¡of ¡the ¡samples ¡ are ¡under ¡NDA. ¡

§ Data ¡set ¡in ¡total: ¡

§ ¡ ¡7,454 ¡unique ¡benign ¡PDF ¡samples. ¡

§ 16,296 ¡unique ¡malicious ¡PDF ¡samples. ¡

Data ¡Collec,on ¡

slide-28
SLIDE 28

Forensics Lab

28 ¡ Computa*onal ¡Forensics ¡

§ Keys ¡from ¡the ¡PDF ¡format ¡(ISO ¡32000) ¡ ¡

relevant ¡to ¡malicious ¡PDFs, ¡e.g., ¡ ¡

§ /JavaScript ¡ § /OpenAc*on ¡ § /AcroForm ¡

§ Key ¡selec*on ¡based ¡upon ¡the ¡independed ¡

research ¡by ¡(i) ¡Didier ¡Stevens, ¡(ii) ¡Paul ¡Baccas. ¡

§ 18 ¡features ¡(keys) ¡are ¡selected ¡to ¡ini*alize. ¡ § Addi*onal ¡feature-­‑set ¡for ¡Javascript. ¡

Expert-­‑Knowledge ¡Features ¡(KPI) ¡

slide-29
SLIDE 29

Forensics Lab

29 ¡ Computa*onal ¡Forensics ¡

  • 1. Feature ¡& ¡Classifier ¡Selec*on ¡
  • 2. Classifier ¡Op*maliza*on ¡and ¡Tes*ng ¡
  • 3. Real-­‑world ¡tes*ng ¡
  • 4. Embedded ¡javascripts ¡

Experiments ¡(Exp ¡1…4) ¡

slide-30
SLIDE 30

Forensics Lab

30 ¡ Computa*onal ¡Forensics ¡

Original ¡feature ¡vector ¡(18): ¡

AA, ¡RichMedia, ¡xref, ¡Encrypt, ¡JBIG2Decode, ¡Launch, ¡JavaScript, ¡OpenAc*on, ¡Colors,JS, ¡

  • bj_mis, ¡startxref, ¡AsciiHexDecode, ¡ObjStm, ¡AcroForm, ¡stream_mis, ¡Page, ¡trailer ¡

¡ Golub-­‑score ¡feature ¡selec*on ¡(7): ¡

JavaScript, ¡OpenAc*on, ¡JS, ¡obj_mis, ¡AcroForm, ¡Page, ¡trailer ¡

Generic ¡feature ¡selec*on ¡GeFS ¡(5): ¡

JavaScript, ¡JS, ¡startxref, ¡Page, ¡trailer ¡

Exp ¡1: ¡Feature ¡& ¡Classifier ¡Selec,on ¡

slide-31
SLIDE 31

Forensics Lab

31 ¡ Computa*onal ¡Forensics ¡

Tested ¡perfomance ¡using ¡5 ¡different ¡classifiers: ¡ ¡ ¡ ¡ Choose ¡7 ¡features ¡from ¡Golub-­‑score ¡selec*on, ¡ SVM* ¡classifier ¡for ¡further ¡experimenta*on. ¡

*SVM ¡-­‑ ¡Support ¡Vector ¡Machine ¡ ¡ ¡ ¡ ¡ *Bal ¡succ ¡-­‑ ¡Balanced ¡Successrate ¡ ¡ ¡ ¡*AUC ¡-­‑ ¡Area ¡Under ¡(ROC) ¡Curve ¡

Exp ¡1: ¡Feature ¡& ¡Classifier ¡Selec,on ¡

slide-32
SLIDE 32

Forensics Lab

32 ¡ Computa*onal ¡Forensics ¡

§ The ¡dataset ¡

– Difficul*es ¡controlling ¡factors ¡ – Best ¡solu*on: ¡MD5, ¡generaliza*on ¡experiment, ¡big ¡dataset ¡from ¡many ¡

  • sources. ¡

§ Changes ¡over ¡*me ¡

– Need ¡for ¡re-­‑learning ¡ – Online ¡learning ¡

§ Detec*ng ¡malicious ¡PDF ¡documents ¡is ¡feasible ¡

– using ¡reduced ¡expert ¡feature ¡set, ¡javascript ¡features, ¡SVM ¡

§ Aquired ¡knowledge ¡& ¡lessons ¡learned: ¡

– A ¡PDF ¡dataset ¡(16.296 ¡ ¡/ ¡7,454) ¡for ¡future ¡reseach. ¡ – Knowledge ¡on ¡significant ¡features ¡for ¡PDF ¡classifica*on. ¡ ¡ – A ¡method ¡for ¡automated ¡detec*on ¡of ¡malicious ¡PDF ¡in ¡network ¡traffic. ¡ – A ¡star*ng ¡point ¡for ¡future ¡research ¡on ¡malicious ¡javascript ¡detec*on. ¡

Discussion ¡and ¡Summary ¡

slide-33
SLIDE 33

Forensics Lab

33 ¡ Computa*onal ¡Forensics ¡

Concluding ¡Remarks ¡

§ Computa*onal ¡forensics ¡holds ¡the ¡ ¡

poten*al ¡to ¡greatly ¡benefit ¡all ¡of ¡the ¡ ¡ forensic ¡sciences. ¡ ¡

§ For ¡the ¡computer ¡scien*st ¡it ¡poses ¡a ¡new ¡

fron*er ¡where ¡new ¡problems ¡and ¡challenges ¡ are ¡to ¡be ¡faced. ¡ ¡

§ The ¡poten*al ¡benefits ¡to ¡society, ¡meaningful ¡

inter-­‑disciplinary ¡research, ¡and ¡ ¡ challenging ¡problems ¡should ¡alract ¡high ¡ quality ¡students ¡and ¡researchers ¡to ¡the ¡field. ¡

slide-34
SLIDE 34

Forensics Lab

34 ¡ Computa*onal ¡Forensics ¡

Further ¡Reading ¡

§

NAS ¡Report: ¡Strengthening ¡Forensic ¡Science ¡in ¡the ¡United ¡States: ¡A ¡Path ¡Forward ¡ ¡ hlp://www.nap.edu/catalog/12589.html ¡

§

van ¡der ¡Steen, ¡M., ¡Blom, ¡M.: ¡A ¡roadmap ¡for ¡future ¡forensic ¡research. ¡Technical ¡report, ¡Netherlands ¡Forensic ¡Ins*tute ¡ (NFI), ¡The ¡Hague, ¡The ¡Netherlands ¡(2007) ¡ ¡

§

  • M. ¡Saks ¡and ¡J. ¡Koehler. ¡The ¡coming ¡paradigm ¡shiC ¡in ¡forensic ¡iden7fica7on ¡science. ¡Science, ¡309:892-­‑895, ¡2005. ¡

§

  • Starzecpyzel. ¡United ¡states ¡vs. ¡Starzecpyzel. ¡880 ¡F. ¡Supp. ¡1027 ¡(S.D.N.Y), ¡1995. ¡

§

hlp://en.wikipedia.org/wiki/Daubert_Standard ¡

§

  • C. ¡Aitken ¡and ¡F. ¡Taroni. ¡Sta7s7cs ¡and ¡the ¡Evalua7on ¡of ¡Evidence ¡for ¡Forensic ¡Scien7sts. ¡Wiley, ¡2nd ¡edi*on, ¡2005. ¡

§

  • K. ¡Foster ¡and ¡P. ¡Huber. ¡Judging ¡Science. ¡MIT ¡Press, ¡1999. ¡

§

Franke, ¡K., ¡Srihari, ¡S.N. ¡(2008). ¡Computa7onal ¡Forensics: ¡An ¡Overview, ¡in ¡Computa*onal ¡Forensics ¡-­‑ ¡IWCF ¡2008, ¡LNCS ¡ 5158, ¡Srihari, ¡S., ¡Franke, ¡K. ¡(Eds.), ¡Springer ¡Verlag, ¡pp. ¡1-­‑10. ¡

§

Our ¡research ¡center: ¡www.nislab.no ¡

§

Our ¡research-­‑lab ¡pages: ¡ ¡Tes*mon ¡Forensics ¡Lab: ¡hlp://goo.gl/YHMSf ¡

§

Our ¡latest ¡publica*ons: ¡hlp://goo.gl/R58SL ¡ ¡ ¡

slide-35
SLIDE 35

Forensics Lab

35 ¡ Computa*onal ¡Forensics ¡

Thank ¡you ¡for ¡your ¡ considera,on ¡of ¡comments! ¡

Geang ¡in ¡touch ¡ WWW: ¡kyfranke.com ¡ Email: ¡kyfranke@ieee.org ¡ Skype/gTalk: ¡kyfranke ¡