The fundamental problem of Forensic Sta6s6cs How to - - PowerPoint PPT Presentation

the fundamental problem of forensic sta6s6cs
SMART_READER_LITE
LIVE PREVIEW

The fundamental problem of Forensic Sta6s6cs How to - - PowerPoint PPT Presentation

The fundamental problem of Forensic Sta6s6cs How to assess the eviden6al value of a rare type match Giulia Cereda, Universit de Lausanne


slide-1
SLIDE 1

The ¡fundamental ¡problem ¡of ¡ Forensic ¡Sta6s6cs ¡

How ¡to ¡assess ¡the ¡eviden6al ¡value ¡ ¡

  • f ¡a ¡rare ¡type ¡match ¡

Giulia ¡Cereda, ¡Université ¡de ¡Lausanne ¡ ¡ Richard ¡D. ¡Gill, ¡University ¡of ¡Leiden ¡

slide-2
SLIDE 2

The ¡problem ¡

  • A ¡crime ¡
  • A ¡piece ¡of ¡evidence ¡found ¡at ¡the ¡crime ¡scene ¡

(DNA, ¡fingerprint, ¡footprint, ¡hand ¡wri6ng, ¡etc.) ¡ ¡

  • A ¡suspect ¡(iden6fied ¡independently) ¡
  • A ¡match ¡between ¡suspect’s ¡characteris6c ¡and ¡

evidence’s ¡characteris6c. ¡

  • A ¡database ¡which ¡counts ¡the ¡frequency ¡of ¡each ¡
  • characteris6c. ¡
  • Database ¡frequency ¡of ¡the ¡crime ¡(and ¡the ¡

suspect) ¡characteris6c ¡is ¡0 ¡

slide-3
SLIDE 3

Example ¡

  • A ¡DNA ¡stain ¡is ¡found ¡on ¡the ¡vic6m’s ¡body. ¡
  • Y-­‑STR ¡profile ¡of ¡type ¡h. ¡
  • A ¡suspect ¡is ¡iden6fied, ¡which ¡is ¡also ¡of ¡Y-­‑STR ¡type ¡
  • h. ¡
  • The ¡Y-­‑STR ¡database ¡of ¡reference ¡does ¡not ¡

contain ¡type ¡h ¡ ¡ Small ¡databases ¡

slide-4
SLIDE 4

¡ Generalized-­‑Good. ¡Non ¡parametric ¡Good-­‑type ¡ es6mator ¡based ¡on ¡Good ¡(1953). ¡ ¡ ¡ DiscLap-­‑method ¡(Andersen ¡et ¡al. ¡2013) ¡ ¡ Explore ¡other ¡methods ¡(Brenner ¡2010, ¡Roewer ¡ 2000, ¡…) ¡

How ¡to ¡evaluate ¡this ¡kind ¡of ¡evidence? ¡

slide-5
SLIDE 5

The ¡Likelihood ¡Ra6o ¡

E ¡is ¡the ¡evidence ¡to ¡be ¡evaluated ¡ ¡ B ¡is ¡the ¡background ¡informa6on ¡ Hp: ¡the ¡suspect ¡le[ ¡the ¡stain Hd: ¡someone ¡else ¡le[ ¡the ¡stain

Many ¡possible ¡ choices ¡

THE ¡likelihood ¡ra6o ¡does ¡not ¡exists ¡

The image cannot be displayed. Your computer may not have enough memory to open the image, or the image may have been corrupted. Restart your computer, and then open the file
  • again. If the red x still appears, you may have to delete the image and then insert it again.
slide-6
SLIDE 6

Typical ¡choice ¡

  • E= ¡the ¡par6cular ¡haplotype ¡of ¡the ¡suspect ¡and ¡
  • f ¡the ¡crime ¡stain ¡ ¡
  • B=the ¡list ¡of ¡haplotypes ¡in ¡the ¡database ¡

that LR = Pr(E|Hp, B) Pr(E|Hd, B) =

= 1 Pr(observing haplotype h in the population of interest)

e.g. ¡ ¡Discrete ¡Laplace ¡Method ¡

b fh

10

Pr(E|Hp) Pr(E|Hd) ) ) =

slide-7
SLIDE 7

= 1 Pr(observing haplotype h in the population of interest)

This ¡frequency ¡is ¡not ¡known. ¡It ¡can ¡only ¡be ¡es6mated ¡ ¡ ¡

Uncertainty ¡

e.g. ¡DiscLap ¡method ¡

= fh

= 1 ˆ Pr(observing haplotype h in the population of interest)

d b fh

DL

slide-8
SLIDE 8

A ¡different ¡choice: ¡ ¡ Reduce ¡informa6on ¡

  • E=number ¡of ¡6mes ¡the ¡haplotypes ¡of ¡the ¡

suspect ¡(hs) ¡and ¡the ¡haplotype ¡of ¡the ¡crime-­‑ stain ¡(hc) ¡are ¡in ¡the ¡data-­‑base ¡and ¡whether ¡or ¡ not ¡they ¡are ¡the ¡same ¡haplotype. ¡

  • B= ¡EMPTY ¡modifica ¡negli ¡altri. ¡ ¡

¡ Ignore ¡informa6on ¡about ¡the ¡par6cular ¡haplotype ¡

informa6on ¡is ¡discarded ¡

slide-9
SLIDE 9
  • D ¡database ¡

¡ Gotham City, 12,13,30,24,10,11,13 Gotham City, 12,13,30,24,10,11,14 Gotham City, 13,12,30,24,10,11,13 Gotham City, 13,13,29,23,10,11,13 Gotham City, 13,13,29,24,10,11,14 Gotham City, 13,13,29,24,11,13,13 Gotham City, 13,13,29,24,11,13,13 Gotham City, 13,13,30,24,10,11,13 Gotham City, 13,13,30,24,10,11,13 Gotham City, 13,13,30,24,10,11,13 Gotham City, 13,13,30,24,10,11,13 ¡ ¡

D’ ¡database ¡count ¡

¡ ¡Gotham ¡City, ¡12,13,30,24,10,11,13 ¡1 ¡ ¡ ¡Gotham ¡City, ¡12,13,30,24,10,11,14 ¡1 ¡ ¡Gotham ¡City, ¡ ¡13,12,30,24,10,11,13 ¡1 ¡ ¡Gotham ¡City, ¡13,13,29,23,10,11,13 ¡1 ¡ ¡Gotham ¡City, ¡13,13,29,24,10,11,14 ¡1 ¡ ¡Gotham ¡City, ¡13,13,29,24,11,13,13 ¡2 ¡ ¡Gotham ¡City, ¡13,13,30,24,10,11,13 ¡4 ¡ ¡

The ¡frequencies ¡of ¡frequencies ¡

N1 5 N2 1 N3 N4 1

Df ¡frequencies ¡of ¡frequencies ¡

Informa6on ¡ ¡ is ¡discarded ¡ N1 ¡is ¡the ¡number ¡of ¡haplotypes ¡which ¡occur ¡ ¡ ¡ ¡ ¡ ¡ ¡once ¡in ¡D ¡(singletons) ¡ N2 ¡is ¡the ¡number ¡of ¡duplets ¡

  • Etc. ¡
slide-10
SLIDE 10

A ¡database ¡D ¡of ¡size ¡N ¡ ¡ ¡

¡ Gotham City, 12,13,30,24,10,11,13 Gotham City, 12,13,30,24,10,11,14 Gotham City, 13,12,30,24,10,11,13 Gotham City, 13,13,29,23,10,11,13 Gotham City, 13,13,29,24,10,11,14 Gotham City, 13,13,29,24,11,13,13 Gotham City, 13,13,29,24,11,13,13 Gotham City, 13,13,30,24,10,11,13 Gotham City, 13,13,30,24,10,11,13 Gotham City, 13,13,30,24,10,11,13 Gotham City, 13,13,30,24,10,11,13

¡

can ¡be ¡considered ¡as ¡an ¡ ¡ i.i.d. ¡sample ¡(Y1, ¡Y2, ¡…, ¡YN ¡) ¡from ¡ ¡ species ¡{1,2,…,s} ¡ ¡with ¡ ¡ probabili6es ¡(p1, ¡p2, ¡… ¡ps). ¡

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡

¡

The ¡database ¡count ¡

¡ Gotham City, 12,13,30,24,10,11,13

  • 1

Gotham City, 12,13,30,24,10,11,14

  • 1

Gotham City, 13,12,30,24,10,11,13

  • 1

Gotham City, 13,13,29,23,10,11,13

  • 1

Gotham City, 13,13,29,24,10,11,14

  • 1

Gotham City, 13,13,29,24,11,13,13

  • 2

Gotham City, 13,13,30,24,10,11,13

  • 4

  • is ¡a ¡realiza6on ¡of ¡r.v. ¡(X1, ¡X2, ¡…, ¡Xs), ¡ ¡

defined ¡Xj=#{i|Yi=j}. ¡ ¡ ¡

¡ ¡

¡ ¡

¡ The ¡frequencies ¡of ¡frequencies ¡

¡ ¡

¡ ¡ ¡ ¡ is ¡made ¡of ¡(N1, ¡N2,… ¡) ¡ where ¡Nj=#{i|Xi=j} ¡

N1 5 N2 1 N3 N4 1

slide-11
SLIDE 11
  • E=numbers ¡of ¡6mes ¡the ¡haplotypes ¡of ¡the ¡

suspect ¡(hs) ¡and ¡the ¡haplotype ¡of ¡the ¡crime-­‑ stain ¡(hc) ¡are ¡in ¡the ¡data-­‑base ¡and ¡whether ¡or ¡ not ¡they ¡are ¡the ¡same ¡haplotype. ¡

  • B= ¡the ¡frequencies ¡of ¡the ¡frequencies ¡of ¡the ¡

database ¡(Df) ¡ ¡

that LR = Pr(E|Hp, B) Pr(E|Hd, B) = b Pr(hs = hc = h, h / ∈ D|Df, Hp) Pr(hs = hc = h, h / ∈ D|Df, Hd)

h

= Pr(hs = hc = h, h / ∈ D|Hp) Pr(hs = hc = h, h / ∈ D|Hd)

slide-12
SLIDE 12

that LR =

) ) = Pr(YN+1 / ∈ {Y1, Y2, ...YN}) Pr(YN+1 / ∈ {Y1, Y2, ...YN} ∩ YN+1 = YN+2)

+2) ≈

Pr(YN / ∈ {Y1, Y2, ...YN−1}) Pr(YN / ∈ {Y1, Y2, ...YN−2} ∩ YN = YN−1)

) = Pr(YN / ∈ {Y1, Y2, ...YN1}) =

X = E ✓N1 N ◆ ) = Pr(YN / ∈ {Y1, Y2, ...YN2} ∩ YN = YN1) =

@ − X = E ✓ 2N2 N(N − 1) ◆

= Pr(hs = hc = h, h / ∈ D|Hp) Pr(hs = hc = h, h / ∈ D|Hd)

slide-13
SLIDE 13

E ✓N1 N

unbiased ¡es6mator ¡for ¡the ¡numerator ¡ ¡ ) = Pr(YN / ∈ {Y1, Y2, ...YN1}) =

@ E ✓ 2N2 N(N − 1) ◆

unbiased ¡es6mator ¡ for ¡the ¡denominator ¡ ¡

) = Pr(YN / ∈ {Y1, Y2, ...YN2} ∩ YN = YN1) =

It ¡is ¡more ¡sensible ¡ ¡to ¡es6mate ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡instead ¡of ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡. ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡is ¡approximately ¡unbiased ¡for ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡. ¡ ¡

  • g LR

log10 LR

log10 LR

log10

NN1 2N2

This ¡suggests ¡to ¡use ¡ ¡ ˆ LR = N1/N 2N2/(N(N 1)) ' NN1 2N2 ¡as ¡an ¡es6mator ¡for ¡LR

d LR

slide-14
SLIDE 14

How ¡well ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡es6mates ¡the ¡true ¡(unknown) ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡? ¡ ¡ ¡

¡

¡ ¡ ¡ ¡

Take a big database of size 12,727. Consider it as the world population. C1=0, C2=0. Then,

  • 1. Sample a little databases of size N=100+1+1.
  • 2. If the 101th type is a new one in the small database increase

C1=C1+1

  • 3. Check if the 101th is a new type equal to the 102th. C2=C2+1
  • 4. Repeat steps 1-3 M=10,000 times.

P1=C1/M, P2=C2/M, ¡

distribu6on ¡of ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡over ¡many ¡replica6ons ¡of ¡small ¡ databases ¡(size ¡N=100) ¡sampled ¡from ¡a ¡bigger ¡one ¡(size ¡N=12,727) ¡ which ¡we ¡pretend ¡is ¡the ¡popula6on. ¡

log10

NN1 2N2

log10 LR log10

NN1 2N2

And ¡from ¡which ¡we ¡obtain ¡a ¡value ¡for ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡2.603:

log10 LR

+2) ≈

slide-15
SLIDE 15

We ¡sample ¡1000 ¡databases ¡of ¡size ¡100 ¡from ¡the ¡big ¡one, ¡and ¡for ¡ each ¡we ¡calculate ¡the ¡es6mate ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡: ¡ ¡

  • 200

400 600 800 1000 2.4 2.6 2.8 3.0 3.2 3.4 3.6 Index log10(LRg_est)

  • 2.4

2.6 2.8 3.0 3.2 3.4 3.6 log10(LRg_est)

Performance ¡of ¡the ¡GG-­‑method ¡

¡

We ¡know ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡. ¡

log10 LR

log10

NN1 2N2

slide-16
SLIDE 16

Histogram of y

log10(LRg_est) Frequency 2.2 2.4 2.6 2.8 3.0 3.2 3.4 3.6 50 100 150 200 250

Min 1st Qu. Median Mean 3rd Qu. Max sd log10 ˆ LRg 2.261 2.547 2.656 2.678 2.780 3.558 0.175 2.603

¡

We ¡know ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡. ¡ We ¡sample ¡1000 ¡databases ¡of ¡size ¡100 ¡from ¡the ¡big ¡one, ¡and ¡for ¡ each ¡we ¡calculate ¡the ¡es6mate ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡: ¡ ¡

log10 LR

log10

NN1 2N2

Performance ¡of ¡the ¡GG-­‑method ¡

slide-17
SLIDE 17

How ¡well ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡es6mates ¡the ¡true ¡(unknown) ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡? ¡ ¡ ¡ ¡ ¡ distribu6on ¡over ¡many ¡replica6ons ¡of ¡small ¡databases ¡(size ¡N=100) ¡ ¡ and ¡new ¡haplotype ¡sampled ¡from ¡a ¡bigger ¡one ¡(size ¡N=12,727). ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡

b log10 1 b fh

DL

fh

For ¡each ¡database ¡sampled, ¡the ¡true ¡frequency ¡ ¡ ¡of ¡the ¡new ¡ haplotype ¡h ¡is ¡taken ¡equal ¡to ¡its ¡frequency ¡in ¡the ¡big ¡database. ¡

b fh

DL

The ¡es6mated ¡frequency ¡ ¡ ¡ ¡is ¡calculated ¡using ¡the ¡Discrete ¡ Laplace ¡method ¡with ¡default ¡op6ons ¡(iterations, ¡init_y …). ¡

log10 LR

b log10 1 b fh

DL

We ¡calculate ¡the ¡distribu6on ¡of ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡and ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡for ¡each ¡ ¡ ¡database ¡and ¡new ¡haplotype ¡sampled. ¡

log10 LR

slide-18
SLIDE 18

Performance ¡of ¡the ¡DiscLap-­‑method ¡

Comparing ¡the ¡distribu6on ¡of ¡ ¡

Min 1st Qu. Median Mean 3rd Qu. Max sd log ˆ LR 1.936 3.227 3.891 4.017 4.624 8.922 1.087 log LR 1.641 2.762 3.260 3.241 3.804 4.105 0.608

log10 LR =

2N2

\ log10 LR =

log10 LR =

2N2

\ log10 LR =

b log10 1 b fh

DL

b log10 1 fh

slide-19
SLIDE 19
  • 200

400 600 800 1000 2 4 6

Comparing ¡the ¡errors ¡of ¡the ¡two ¡methods ¡

DiscLap-­‑method ¡ GG-­‑method ¡

  • 200

400 600 800 1000 2 4 6 Index

e = log10 LR − log10 d LR = log10 LR d LR

slide-20
SLIDE 20
  • −1

1 2 3 4 5 6

  • −1

1 2 3 4 5 6

Comparing ¡the ¡errors ¡of ¡the ¡two ¡methods ¡

DiscLap-­‑method ¡ GG-­‑method ¡

Min 1st Qu. Median Mean 3rd Qu. Max sd eGG

  • 0.342
  • 0.057

0.052 0.074 0.176 0.955 0.175 eDL

  • 1.553

0.225 0.74 0.848 1.332 6.376 0.925

slide-21
SLIDE 21

Remarks ¡

Two ¡more ¡levels ¡of ¡uncertainty: ¡ ¡ ¡ ¡ ¡

  • whether ¡or ¡not ¡the ¡model ¡M ¡that ¡we ¡are ¡

assuming ¡for ¡Pr ¡is ¡“correct ¡enough” ¡

  • whether ¡or ¡not ¡parameters ¡of ¡Pr in ¡the ¡model ¡

M ¡are ¡“correct ¡enough” ¡ Basic ¡uncertainty: ¡ ¡

  • whether ¡or ¡not ¡the ¡trace ¡comes ¡from ¡the ¡

suspect ¡ ¡ ¡ ¡

slide-22
SLIDE 22

Maybe ¡DiscLap ¡was ¡never ¡intended ¡it ¡to ¡be ¡used ¡for ¡such ¡ small ¡databases. ¡ ¡ Maybe ¡DiscLap ¡does ¡beker ¡for ¡our ¡purpose ¡when ¡used ¡in ¡ more ¡clever ¡(targeted ¡for ¡our ¡purpose) ¡ways. ¡ The ¡error ¡in ¡the ¡DiscLap ¡method ¡is ¡given ¡by ¡two ¡levels ¡of ¡ uncertainty: ¡

  • Popula6on ¡vs ¡DiscLap ¡
  • Parameter ¡es6ma6on ¡(within ¡Disclap) ¡

The ¡GG ¡is ¡a ¡“model-­‑free” ¡method ¡which ¡thus ¡has ¡only ¡one ¡ level ¡of ¡uncertainty, ¡given ¡by ¡the ¡direct ¡es6ma6on ¡of ¡the ¡ probability ¡Pr ¡

slide-23
SLIDE 23

Conclusions ¡

  • The ¡situa6on ¡is ¡more ¡complex ¡than ¡it ¡appears. ¡

¡ ¡

  • Using ¡more ¡informa6on ¡less ¡accurate ¡LR. ¡ ¡ ¡

¡

  • Assuming ¡less ¡gives ¡more ¡reliable ¡LR. ¡

¡

slide-24
SLIDE 24

References ¡ ¡

¡ ¡

13] Good, I. [1953], ‘The population frequencies of species and the estimation of population param- eters’, Biometrika 40(3-4), 237–264. 1] Andersen, M. M., Eriksen, P. S. and Morling, N. [2013], ‘The discrete Laplace exponential family and estimation of Y-STR haplotype frequencies’, Journal of Theoretical Biology 329(0), 39–51. 20] Roewer, L., Kayser, M., de Knijff, P., Anslinger, K., Betz, A., Caglia, A., Corach, D., Furedi, S., Henke, L., Hidding, M., Kargel, H., Lessig, R., Nagy, M., Pascali, V., Parson, W., Rolf, B., Schmitt, C., Szibor, R., Teifel-Greding, J. and Krawczak, M. [2000], ‘A new method for the evaluation of matches in non-recombining genomes: application to Y-chromosomal short tandem repeat (STR) haplotypes in European males’, Forensic Science International 114, 31–43.

3] Brenner, C. H. [2010], ‘Fundamental problem of forensic mathematics—The evidential value of a rare haplotype’, Forensic Science International: Genetics 4(5), 281–291.

slide-25
SLIDE 25

You ¡want ¡to ¡discuss? ¡Know ¡more? ¡ Collaborate? ¡Give ¡sugges6ons? ¡

¡ ¡ ¡ You ¡are ¡welcome! ¡ Giulia.cereda@unil.ch ¡ ¡ ¡ hkp://www.slideshare.net/Giulia7488/the-­‑ fundamental-­‑problem-­‑of-­‑forensic-­‑sta6s6cs ¡