Robustly correc3ng mistakes made by OCR so;ware Jasper De - - PowerPoint PPT Presentation

robustly correc3ng mistakes made by ocr so ware
SMART_READER_LITE
LIVE PREVIEW

Robustly correc3ng mistakes made by OCR so;ware Jasper De - - PowerPoint PPT Presentation

5 th SIPTA school on imprecise probability 16-20 July 2012, Pescara (Italy) Robustly correc3ng mistakes made by OCR so;ware Jasper De Bock


slide-1
SLIDE 1

Jasper ¡De ¡Bock ¡ University ¡of ¡Ghent ¡(Belgium) ¡ jasper.debock@ugent.be ¡ 5th ¡SIPTA ¡school ¡

  • n ¡imprecise ¡probability ¡

¡

¡ ¡ ¡16-­‑20 ¡July ¡2012, ¡Pescara ¡(Italy) ¡

Robustly ¡correc3ng ¡mistakes ¡ made ¡by ¡OCR ¡so;ware ¡

slide-2
SLIDE 2

2 ¡

Jasper ¡De ¡Bock ¡

S1 ¡(O1|X1) ¡ ¡ S3 ¡(O3|X3) ¡ ¡ S2 ¡(O2|X2) ¡ ¡

A ¡sequence ¡of ¡hidden ¡state ¡variables ¡ A ¡sequence ¡of ¡observable ¡output ¡variables ¡

Jasper ¡De ¡Bock ¡

2 ¡

X1 ¡ X2 ¡ X3 ¡ O1 ¡ O3 ¡ O2 ¡

(imprecise) ¡state ¡sequence ¡es3ma3on ¡

5th ¡SIPTA ¡school ¡(2012) ¡

slide-3
SLIDE 3

3 ¡

Jasper ¡De ¡Bock ¡

X ¡= ¡ O ¡= ¡

S1 ¡(O1|X1) ¡ ¡ S3 ¡(O3|X3) ¡ ¡ S2 ¡(O2|X2) ¡ ¡

A ¡sequence ¡of ¡hidden ¡state ¡variables ¡ A ¡sequence ¡of ¡observable ¡output ¡variables ¡

Jasper ¡De ¡Bock ¡

3 ¡

  • r ¡
  • r ¡
  • r ¡
  • r ¡

5th ¡SIPTA ¡school ¡(2012) ¡

(imprecise) ¡state ¡sequence ¡es3ma3on ¡

slide-4
SLIDE 4

4 ¡

Jasper ¡De ¡Bock ¡

S1 ¡(O1|X1) ¡ ¡ S3 ¡(O3|X3) ¡ ¡ S2 ¡(O2|X2) ¡ ¡

A ¡sequence ¡of ¡observable ¡output ¡variables ¡

Jasper ¡De ¡Bock ¡

4 ¡

5th ¡SIPTA ¡school ¡(2012) ¡

A ¡sequence ¡of ¡hidden ¡state ¡variables ¡

? ¡ ? ¡ ? ¡

(imprecise) ¡state ¡sequence ¡es3ma3on ¡

slide-5
SLIDE 5

5 ¡

Jasper ¡De ¡Bock ¡

S1 ¡(O1|X1) ¡ ¡ S3 ¡(O3|X3) ¡ ¡ S2 ¡(O2|X2) ¡ ¡

Jasper ¡De ¡Bock ¡

5 ¡

5th ¡SIPTA ¡school ¡(2012) ¡

? ¡ ? ¡ ? ¡

(imprecise) ¡state ¡sequence ¡es3ma3on ¡

S1 ¡(O1|X1) ¡ ¡ S3 ¡(O3|X3) ¡ ¡ S2 ¡(O2|X2) ¡ ¡ Q2 ¡(X2|X1) ¡ ¡ Q1 ¡(X1) ¡ ¡ Q2 ¡(X3|X2) ¡ ¡ Viterbi ¡algorithm ¡

slide-6
SLIDE 6

6 ¡

Jasper ¡De ¡Bock ¡

S1 ¡(O1|X1) ¡ ¡ S3 ¡(O3|X3) ¡ ¡ S2 ¡(O2|X2) ¡ ¡

Jasper ¡De ¡Bock ¡

6 ¡

5th ¡SIPTA ¡school ¡(2012) ¡

? ¡ ? ¡ ? ¡

(imprecise) ¡state ¡sequence ¡es3ma3on ¡

S1 ¡(O1|X1) ¡ ¡ S3 ¡(O3|X3) ¡ ¡ S2 ¡(O2|X2) ¡ ¡ Q2 ¡(X2|X1) ¡ ¡ Q1 ¡(X1) ¡ ¡ Q2 ¡(X3|X2) ¡ ¡ Es3HMM ¡algorithm ¡

slide-7
SLIDE 7

7 ¡

Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡

7 ¡

5th ¡SIPTA ¡school ¡(2012) ¡

APPLICATIONS ¡?

slide-8
SLIDE 8

8 ¡

Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡

8 ¡

5th ¡SIPTA ¡school ¡(2012) ¡

Applica3ons ¡of ¡state ¡sequence ¡es3ma3on ¡ Ø ¡Speech ¡recogniRon ¡ Ø ¡Bio-­‑informaRcs ¡ § ¡Finding ¡CpG-­‑islands ¡ § ¡LocaRng ¡introns ¡and ¡exons ¡ Ø ¡GrammaRcal ¡tagging ¡ Ø ¡OCR ¡postprocessing ¡ Ø ¡… ¡

slide-9
SLIDE 9

OCR ¡postprocessing ¡

Op3cal ¡character ¡recogni3on ¡so;ware ¡

9 ¡

Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡

9 ¡

5th ¡SIPTA ¡school ¡(2012) ¡

slide-10
SLIDE 10

10 ¡

Jasper ¡De ¡Bock ¡

10 ¡

Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡

10 ¡

C ¡ W ¡ Q ¡ C ¡ O ¡ W ¡

5th ¡SIPTA ¡school ¡(2012) ¡

OCR ¡postprocessing ¡

slide-11
SLIDE 11

11 ¡

Jasper ¡De ¡Bock ¡

? ¡ ? ¡ ? ¡

11 ¡

Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡

11 ¡

C ¡ W ¡ Q ¡

5th ¡SIPTA ¡school ¡(2012) ¡

OCR ¡postprocessing ¡

slide-12
SLIDE 12

12 ¡

Jasper ¡De ¡Bock ¡

S1 ¡(O1|X1) ¡ ¡ S3 ¡(O3|X3) ¡ ¡ S2 ¡(O2|X2) ¡ ¡ Q2 ¡(X2|X1) ¡ ¡ Q1 ¡(X1) ¡ ¡ Q2 ¡(X3|X2) ¡ ¡

12 ¡

Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡

12 ¡

? ¡ ? ¡ ? ¡ C ¡ W ¡ Q ¡

5th ¡SIPTA ¡school ¡(2012) ¡

Viterbi ¡

OCR ¡postprocessing ¡

(usually) ¡only ¡one ¡es3mate ¡

slide-13
SLIDE 13

13 ¡

Jasper ¡De ¡Bock ¡

S1 ¡(O1|X1) ¡ ¡ S3 ¡(O3|X3) ¡ ¡ S2 ¡(O2|X2) ¡ ¡ Q2 ¡(X2|X1) ¡ ¡ Q1 ¡(X1) ¡ ¡ Q2 ¡(X3|X2) ¡ ¡

13 ¡

Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡

13 ¡

? ¡ ? ¡ ? ¡ C ¡ Q ¡ W ¡

5th ¡SIPTA ¡school ¡(2012) ¡

Es3HMM ¡

OCR ¡postprocessing ¡

(some3mes) ¡mul3ple ¡es3mates ¡

slide-14
SLIDE 14

14 ¡

Jasper ¡De ¡Bock ¡

S1 ¡(O1|X1) ¡ ¡ S3 ¡(O3|X3) ¡ ¡ S2 ¡(O2|X2) ¡ ¡ Q2 ¡(X2|X1) ¡ ¡ Q1 ¡(X1) ¡ ¡ Q2 ¡(X3|X2) ¡ ¡

14 ¡

Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡

14 ¡

5th ¡SIPTA ¡school ¡(2012) ¡

Viterbi ¡

OCR ¡postprocessing ¡

Calculate ¡rela3ve ¡frequencies ¡ in ¡a ¡(small) ¡training ¡set ¡with ¡ known ¡hidden ¡states ¡ ¡

slide-15
SLIDE 15

15 ¡

Jasper ¡De ¡Bock ¡

S1 ¡(O1|X1) ¡ ¡ S3 ¡(O3|X3) ¡ ¡ S2 ¡(O2|X2) ¡ ¡ Q2 ¡(X2|X1) ¡ ¡ Q1 ¡(X1) ¡ ¡ Q2 ¡(X3|X2) ¡ ¡

15 ¡

Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡

15 ¡

5th ¡SIPTA ¡school ¡(2012) ¡

Es3HMM ¡

OCR ¡postprocessing ¡

Apply ¡an ¡IDM ¡to ¡a ¡ (small) ¡training ¡set ¡with ¡ known ¡hidden ¡states ¡ ¡

slide-16
SLIDE 16

16 ¡

Jasper ¡De ¡Bock ¡

La ¡Divina ¡Commedia ¡

16 ¡

Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡

16 ¡

5th ¡SIPTA ¡school ¡(2012) ¡

OCR ¡postprocessing ¡ OCR ¡

ORIGINAL ¡ ¡ WORDS ¡IN ¡ ¡ THE ¡BOOK ¡ CORRESPONDING ¡ WORDS ¡IN ¡TEXT ¡ DOCUMENT ¡ TRAINING ¡ SET ¡ TESTING ¡ SET ¡ TRAINING ¡ SET ¡ TESTING ¡ SET ¡

? ¡

build ¡an ¡ (imprecise) ¡ HMM ¡

slide-17
SLIDE 17

17 ¡

Jasper ¡De ¡Bock ¡

La ¡Divina ¡Commedia ¡

  • riginal ¡

VITA ¡

correctly ¡read ¡ digital ¡

VITA ¡

Solu3on ¡Viterbi ¡

VITA ¡ VITA ¡

Solu3on(s) ¡Es3HMM-­‑algoritme ¡

17 ¡

Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡

17 ¡

5th ¡SIPTA ¡school ¡(2012) ¡

OCR ¡postprocessing ¡

slide-18
SLIDE 18

18 ¡

Jasper ¡De ¡Bock ¡

La ¡Divina ¡Commedia ¡

CON ¡ CCN ¡ CON ¡ CON ¡

18 ¡

Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡

18 ¡

  • riginal ¡

incorrectly ¡read ¡ digital ¡ Solu3on ¡Viterbi ¡ Solu3on(s) ¡Es3HMM-­‑algoritme ¡

5th ¡SIPTA ¡school ¡(2012) ¡

OCR ¡postprocessing ¡

slide-19
SLIDE 19

19 ¡

Jasper ¡De ¡Bock ¡

La ¡Divina ¡Commedia ¡

  • riginal ¡

correctly ¡read ¡ Solu3on ¡Viterbi ¡ Solu3on(s) ¡Es3HMM-­‑algoritme ¡

19 ¡

Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡

19 ¡

EH ¡ EN ¡ CH ¡ EH ¡ EN ¡ EH ¡

digital ¡

5th ¡SIPTA ¡school ¡(2012) ¡

OCR ¡postprocessing ¡

slide-20
SLIDE 20

20 ¡

Jasper ¡De ¡Bock ¡

La ¡Divina ¡Commedia ¡

20 ¡

Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡

20 ¡

  • riginal ¡

incorrectly ¡read ¡ digital ¡ Solu3on ¡Viterbi ¡ Solu3on(s) ¡Es3HMM-­‑algoritme ¡

IO ¡ ZO ¡ LO ¡ LO ¡ IO ¡

5th ¡SIPTA ¡school ¡(2012) ¡

OCR ¡postprocessing ¡

slide-21
SLIDE 21

21 ¡

Jasper ¡De ¡Bock ¡

La ¡Divina ¡Commedia ¡

21 ¡

Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡

21 ¡

  • riginal ¡

incorrectly ¡read ¡ digital ¡ Solu3on ¡Viterbi ¡ Solu3on(s) ¡Es3HMM-­‑algoritme ¡

CHE ¡ CNE ¡ ONE ¡ CBE ¡ ¡ ¡CHE ¡ CNE ¡ ¡ ¡CZE ¡ ¡ ONE ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡

5th ¡SIPTA ¡school ¡(2012) ¡

OCR ¡postprocessing ¡

slide-22
SLIDE 22

22 ¡

Jasper ¡De ¡Bock ¡

La ¡Divina ¡Commedia ¡

22 ¡

Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡

22 ¡

5th ¡SIPTA ¡school ¡(2012) ¡

OCR ¡postprocessing ¡

Ø Both ¡algorithms ¡are ¡able ¡to ¡detect ¡and ¡correct ¡errors ¡ Ø The ¡EsRHMM ¡algorithm ¡(in ¡this ¡case) ¡does ¡not ¡introduce ¡ errors ¡in ¡words ¡that ¡were ¡already ¡correct ¡ Ø Es3HMM ¡someRmes ¡returns ¡mul3ple ¡solu3ons ¡and ¡therefore ¡ (of ¡course) ¡includes ¡the ¡correct ¡soluRon ¡more ¡o`en ¡

slide-23
SLIDE 23

23 ¡

Jasper ¡De ¡Bock ¡

La ¡Divina ¡Commedia ¡

23 ¡

Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡

23 ¡

5th ¡SIPTA ¡school ¡(2012) ¡

OCR ¡postprocessing ¡

Ø If ¡the ¡EsRHMM ¡algorithm ¡gives ¡a ¡single ¡solu3on, ¡it ¡will ¡be ¡ iden3cal ¡to ¡the ¡solu3on ¡given ¡by ¡the ¡Viterbi ¡algorithm ¡ Ø EsRHMM ¡giving ¡a ¡single ¡solu3on ¡serves ¡as ¡an ¡indica3on ¡that ¡ § the ¡word ¡we ¡are ¡applying ¡it ¡to ¡does ¡not ¡contain ¡errors ¡ § the ¡result ¡returned ¡by ¡the ¡Viterbi ¡algorithm ¡is ¡correct ¡

slide-24
SLIDE 24

24 ¡

Jasper ¡De ¡Bock ¡

La ¡Divina ¡Commedia ¡

24 ¡

Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡

24 ¡

5th ¡SIPTA ¡school ¡(2012) ¡

OCR ¡postprocessing ¡

Ø EsRHMM ¡giving ¡mul3ple ¡solu3ons ¡serves ¡as ¡an ¡indica3on ¡that ¡ § the ¡word ¡we ¡are ¡applying ¡it ¡to ¡does ¡indeed ¡contain ¡errors ¡ § the ¡result ¡returned ¡by ¡the ¡Viterbi ¡algorithm ¡is ¡less ¡reliable ¡ Ø EsRHMM ¡can ¡be ¡used ¡to ¡robus3fy ¡the ¡precise ¡result ¡given ¡by ¡ the ¡Viterbi ¡algorithm ¡

slide-25
SLIDE 25

25 ¡

Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡

25 ¡

5th ¡SIPTA ¡school ¡(2012) ¡

HOW ¡CAN ¡THIS ¡ BE ¡USEFUL ¡? ¡

slide-26
SLIDE 26

26 ¡

Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡

26 ¡

5th ¡SIPTA ¡school ¡(2012) ¡

How ¡can ¡undecisiveness ¡be ¡useful? ¡

Ø As ¡a ¡method ¡of ¡picking ¡out ¡the ¡hard ¡ problems, ¡which ¡you ¡then ¡try ¡to ¡solve ¡with ¡ more ¡expensive ¡or ¡Rme-­‑consuming ¡methods ¡ (solve ¡easy ¡cases ¡automa3cally ¡and ¡use ¡ experts ¡only ¡for ¡the ¡difficult ¡ones!) ¡

Ø ¡ ¡

Ø If ¡not ¡deciding ¡is ¡a ¡useful ¡choice ¡too, ¡ because ¡making ¡a ¡wrong ¡decision ¡is ¡ dangerous ¡or ¡expensive ¡(choosing ¡between ¡ specific ¡and ¡general ¡medica3on) ¡

slide-27
SLIDE 27

27 ¡

Jasper ¡De ¡Bock ¡

Thanks ¡for ¡your ¡agen3on! ¡

27 ¡

Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡

27 ¡

5th ¡SIPTA ¡school ¡(2012) ¡