Jasper ¡De ¡Bock ¡ University ¡of ¡Ghent ¡(Belgium) ¡ jasper.debock@ugent.be ¡ 5th ¡SIPTA ¡school ¡
- n ¡imprecise ¡probability ¡
¡
¡ ¡ ¡16-‑20 ¡July ¡2012, ¡Pescara ¡(Italy) ¡
Robustly correc3ng mistakes made by OCR so;ware Jasper De - - PowerPoint PPT Presentation
5 th SIPTA school on imprecise probability 16-20 July 2012, Pescara (Italy) Robustly correc3ng mistakes made by OCR so;ware Jasper De Bock
Jasper ¡De ¡Bock ¡ University ¡of ¡Ghent ¡(Belgium) ¡ jasper.debock@ugent.be ¡ 5th ¡SIPTA ¡school ¡
¡
¡ ¡ ¡16-‑20 ¡July ¡2012, ¡Pescara ¡(Italy) ¡
2 ¡
Jasper ¡De ¡Bock ¡
S1 ¡(O1|X1) ¡ ¡ S3 ¡(O3|X3) ¡ ¡ S2 ¡(O2|X2) ¡ ¡
A ¡sequence ¡of ¡hidden ¡state ¡variables ¡ A ¡sequence ¡of ¡observable ¡output ¡variables ¡
Jasper ¡De ¡Bock ¡
2 ¡
(imprecise) ¡state ¡sequence ¡es3ma3on ¡
5th ¡SIPTA ¡school ¡(2012) ¡
3 ¡
Jasper ¡De ¡Bock ¡
S1 ¡(O1|X1) ¡ ¡ S3 ¡(O3|X3) ¡ ¡ S2 ¡(O2|X2) ¡ ¡
A ¡sequence ¡of ¡hidden ¡state ¡variables ¡ A ¡sequence ¡of ¡observable ¡output ¡variables ¡
Jasper ¡De ¡Bock ¡
3 ¡
5th ¡SIPTA ¡school ¡(2012) ¡
(imprecise) ¡state ¡sequence ¡es3ma3on ¡
4 ¡
Jasper ¡De ¡Bock ¡
S1 ¡(O1|X1) ¡ ¡ S3 ¡(O3|X3) ¡ ¡ S2 ¡(O2|X2) ¡ ¡
A ¡sequence ¡of ¡observable ¡output ¡variables ¡
Jasper ¡De ¡Bock ¡
4 ¡
5th ¡SIPTA ¡school ¡(2012) ¡
A ¡sequence ¡of ¡hidden ¡state ¡variables ¡
(imprecise) ¡state ¡sequence ¡es3ma3on ¡
5 ¡
Jasper ¡De ¡Bock ¡
S1 ¡(O1|X1) ¡ ¡ S3 ¡(O3|X3) ¡ ¡ S2 ¡(O2|X2) ¡ ¡
Jasper ¡De ¡Bock ¡
5 ¡
5th ¡SIPTA ¡school ¡(2012) ¡
(imprecise) ¡state ¡sequence ¡es3ma3on ¡
S1 ¡(O1|X1) ¡ ¡ S3 ¡(O3|X3) ¡ ¡ S2 ¡(O2|X2) ¡ ¡ Q2 ¡(X2|X1) ¡ ¡ Q1 ¡(X1) ¡ ¡ Q2 ¡(X3|X2) ¡ ¡ Viterbi ¡algorithm ¡
6 ¡
Jasper ¡De ¡Bock ¡
S1 ¡(O1|X1) ¡ ¡ S3 ¡(O3|X3) ¡ ¡ S2 ¡(O2|X2) ¡ ¡
Jasper ¡De ¡Bock ¡
6 ¡
5th ¡SIPTA ¡school ¡(2012) ¡
(imprecise) ¡state ¡sequence ¡es3ma3on ¡
S1 ¡(O1|X1) ¡ ¡ S3 ¡(O3|X3) ¡ ¡ S2 ¡(O2|X2) ¡ ¡ Q2 ¡(X2|X1) ¡ ¡ Q1 ¡(X1) ¡ ¡ Q2 ¡(X3|X2) ¡ ¡ Es3HMM ¡algorithm ¡
7 ¡
Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡
7 ¡
5th ¡SIPTA ¡school ¡(2012) ¡
8 ¡
Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡
8 ¡
5th ¡SIPTA ¡school ¡(2012) ¡
Applica3ons ¡of ¡state ¡sequence ¡es3ma3on ¡ Ø ¡Speech ¡recogniRon ¡ Ø ¡Bio-‑informaRcs ¡ § ¡Finding ¡CpG-‑islands ¡ § ¡LocaRng ¡introns ¡and ¡exons ¡ Ø ¡GrammaRcal ¡tagging ¡ Ø ¡OCR ¡postprocessing ¡ Ø ¡… ¡
OCR ¡postprocessing ¡
Op3cal ¡character ¡recogni3on ¡so;ware ¡
9 ¡
Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡
9 ¡
5th ¡SIPTA ¡school ¡(2012) ¡
10 ¡
Jasper ¡De ¡Bock ¡
10 ¡
Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡
10 ¡
5th ¡SIPTA ¡school ¡(2012) ¡
OCR ¡postprocessing ¡
11 ¡
Jasper ¡De ¡Bock ¡
11 ¡
Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡
11 ¡
5th ¡SIPTA ¡school ¡(2012) ¡
OCR ¡postprocessing ¡
12 ¡
Jasper ¡De ¡Bock ¡
S1 ¡(O1|X1) ¡ ¡ S3 ¡(O3|X3) ¡ ¡ S2 ¡(O2|X2) ¡ ¡ Q2 ¡(X2|X1) ¡ ¡ Q1 ¡(X1) ¡ ¡ Q2 ¡(X3|X2) ¡ ¡
12 ¡
Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡
12 ¡
5th ¡SIPTA ¡school ¡(2012) ¡
Viterbi ¡
OCR ¡postprocessing ¡
(usually) ¡only ¡one ¡es3mate ¡
13 ¡
Jasper ¡De ¡Bock ¡
S1 ¡(O1|X1) ¡ ¡ S3 ¡(O3|X3) ¡ ¡ S2 ¡(O2|X2) ¡ ¡ Q2 ¡(X2|X1) ¡ ¡ Q1 ¡(X1) ¡ ¡ Q2 ¡(X3|X2) ¡ ¡
13 ¡
Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡
13 ¡
5th ¡SIPTA ¡school ¡(2012) ¡
Es3HMM ¡
OCR ¡postprocessing ¡
(some3mes) ¡mul3ple ¡es3mates ¡
14 ¡
Jasper ¡De ¡Bock ¡
S1 ¡(O1|X1) ¡ ¡ S3 ¡(O3|X3) ¡ ¡ S2 ¡(O2|X2) ¡ ¡ Q2 ¡(X2|X1) ¡ ¡ Q1 ¡(X1) ¡ ¡ Q2 ¡(X3|X2) ¡ ¡
14 ¡
Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡
14 ¡
5th ¡SIPTA ¡school ¡(2012) ¡
Viterbi ¡
OCR ¡postprocessing ¡
Calculate ¡rela3ve ¡frequencies ¡ in ¡a ¡(small) ¡training ¡set ¡with ¡ known ¡hidden ¡states ¡ ¡
15 ¡
Jasper ¡De ¡Bock ¡
S1 ¡(O1|X1) ¡ ¡ S3 ¡(O3|X3) ¡ ¡ S2 ¡(O2|X2) ¡ ¡ Q2 ¡(X2|X1) ¡ ¡ Q1 ¡(X1) ¡ ¡ Q2 ¡(X3|X2) ¡ ¡
15 ¡
Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡
15 ¡
5th ¡SIPTA ¡school ¡(2012) ¡
Es3HMM ¡
OCR ¡postprocessing ¡
Apply ¡an ¡IDM ¡to ¡a ¡ (small) ¡training ¡set ¡with ¡ known ¡hidden ¡states ¡ ¡
16 ¡
Jasper ¡De ¡Bock ¡
La ¡Divina ¡Commedia ¡
16 ¡
Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡
16 ¡
5th ¡SIPTA ¡school ¡(2012) ¡
OCR ¡postprocessing ¡ OCR ¡
ORIGINAL ¡ ¡ WORDS ¡IN ¡ ¡ THE ¡BOOK ¡ CORRESPONDING ¡ WORDS ¡IN ¡TEXT ¡ DOCUMENT ¡ TRAINING ¡ SET ¡ TESTING ¡ SET ¡ TRAINING ¡ SET ¡ TESTING ¡ SET ¡
build ¡an ¡ (imprecise) ¡ HMM ¡
17 ¡
Jasper ¡De ¡Bock ¡
La ¡Divina ¡Commedia ¡
correctly ¡read ¡ digital ¡
Solu3on ¡Viterbi ¡
Solu3on(s) ¡Es3HMM-‑algoritme ¡
17 ¡
Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡
17 ¡
5th ¡SIPTA ¡school ¡(2012) ¡
OCR ¡postprocessing ¡
18 ¡
Jasper ¡De ¡Bock ¡
La ¡Divina ¡Commedia ¡
18 ¡
Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡
18 ¡
incorrectly ¡read ¡ digital ¡ Solu3on ¡Viterbi ¡ Solu3on(s) ¡Es3HMM-‑algoritme ¡
5th ¡SIPTA ¡school ¡(2012) ¡
OCR ¡postprocessing ¡
19 ¡
Jasper ¡De ¡Bock ¡
La ¡Divina ¡Commedia ¡
correctly ¡read ¡ Solu3on ¡Viterbi ¡ Solu3on(s) ¡Es3HMM-‑algoritme ¡
19 ¡
Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡
19 ¡
digital ¡
5th ¡SIPTA ¡school ¡(2012) ¡
OCR ¡postprocessing ¡
20 ¡
Jasper ¡De ¡Bock ¡
La ¡Divina ¡Commedia ¡
20 ¡
Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡
20 ¡
incorrectly ¡read ¡ digital ¡ Solu3on ¡Viterbi ¡ Solu3on(s) ¡Es3HMM-‑algoritme ¡
5th ¡SIPTA ¡school ¡(2012) ¡
OCR ¡postprocessing ¡
21 ¡
Jasper ¡De ¡Bock ¡
La ¡Divina ¡Commedia ¡
21 ¡
Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡
21 ¡
incorrectly ¡read ¡ digital ¡ Solu3on ¡Viterbi ¡ Solu3on(s) ¡Es3HMM-‑algoritme ¡
5th ¡SIPTA ¡school ¡(2012) ¡
OCR ¡postprocessing ¡
22 ¡
Jasper ¡De ¡Bock ¡
La ¡Divina ¡Commedia ¡
22 ¡
Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡
22 ¡
5th ¡SIPTA ¡school ¡(2012) ¡
OCR ¡postprocessing ¡
Ø Both ¡algorithms ¡are ¡able ¡to ¡detect ¡and ¡correct ¡errors ¡ Ø The ¡EsRHMM ¡algorithm ¡(in ¡this ¡case) ¡does ¡not ¡introduce ¡ errors ¡in ¡words ¡that ¡were ¡already ¡correct ¡ Ø Es3HMM ¡someRmes ¡returns ¡mul3ple ¡solu3ons ¡and ¡therefore ¡ (of ¡course) ¡includes ¡the ¡correct ¡soluRon ¡more ¡o`en ¡
23 ¡
Jasper ¡De ¡Bock ¡
La ¡Divina ¡Commedia ¡
23 ¡
Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡
23 ¡
5th ¡SIPTA ¡school ¡(2012) ¡
OCR ¡postprocessing ¡
Ø If ¡the ¡EsRHMM ¡algorithm ¡gives ¡a ¡single ¡solu3on, ¡it ¡will ¡be ¡ iden3cal ¡to ¡the ¡solu3on ¡given ¡by ¡the ¡Viterbi ¡algorithm ¡ Ø EsRHMM ¡giving ¡a ¡single ¡solu3on ¡serves ¡as ¡an ¡indica3on ¡that ¡ § the ¡word ¡we ¡are ¡applying ¡it ¡to ¡does ¡not ¡contain ¡errors ¡ § the ¡result ¡returned ¡by ¡the ¡Viterbi ¡algorithm ¡is ¡correct ¡
24 ¡
Jasper ¡De ¡Bock ¡
La ¡Divina ¡Commedia ¡
24 ¡
Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡
24 ¡
5th ¡SIPTA ¡school ¡(2012) ¡
OCR ¡postprocessing ¡
Ø EsRHMM ¡giving ¡mul3ple ¡solu3ons ¡serves ¡as ¡an ¡indica3on ¡that ¡ § the ¡word ¡we ¡are ¡applying ¡it ¡to ¡does ¡indeed ¡contain ¡errors ¡ § the ¡result ¡returned ¡by ¡the ¡Viterbi ¡algorithm ¡is ¡less ¡reliable ¡ Ø EsRHMM ¡can ¡be ¡used ¡to ¡robus3fy ¡the ¡precise ¡result ¡given ¡by ¡ the ¡Viterbi ¡algorithm ¡
25 ¡
Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡
25 ¡
5th ¡SIPTA ¡school ¡(2012) ¡
26 ¡
Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡
26 ¡
5th ¡SIPTA ¡school ¡(2012) ¡
How ¡can ¡undecisiveness ¡be ¡useful? ¡
Ø As ¡a ¡method ¡of ¡picking ¡out ¡the ¡hard ¡ problems, ¡which ¡you ¡then ¡try ¡to ¡solve ¡with ¡ more ¡expensive ¡or ¡Rme-‑consuming ¡methods ¡ (solve ¡easy ¡cases ¡automa3cally ¡and ¡use ¡ experts ¡only ¡for ¡the ¡difficult ¡ones!) ¡
Ø ¡ ¡
Ø If ¡not ¡deciding ¡is ¡a ¡useful ¡choice ¡too, ¡ because ¡making ¡a ¡wrong ¡decision ¡is ¡ dangerous ¡or ¡expensive ¡(choosing ¡between ¡ specific ¡and ¡general ¡medica3on) ¡
27 ¡
Jasper ¡De ¡Bock ¡
Thanks ¡for ¡your ¡agen3on! ¡
27 ¡
Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡
27 ¡
5th ¡SIPTA ¡school ¡(2012) ¡