A�Voting�System�for� A�Voting�System�for� Automatic�Correction�of�OCR Automatic�Correction�of�OCR Output Output ���� ��������������������� �������� ����������
Introduction Introduction OCR�=�Optical�Character�Recognition
��������� �������� � ����� ���� ����� ��������� ���� �������� ������������������������� � �������������������������� !������
Known�Techniques�for� Known�Techniques�for� Spelling�Correction Spelling�Correction Edit�Distance: The�minimum�number�of�editing�operations� (i.e.,�insertion,�deletion�and�substitution�of� letters)�required�to�transform�one�string�to� another. ������������� ������������� ���������������� �
Known�Techniques�for�Spelling�Correction� Known�Techniques�for�Spelling�Correction� (cont...) (cont...) � Hashing: � Skeleton�Key . . � �� � � ��� � ���� � � �� ��� �� cmnctouia communication . � �� � ��� � ���� . � � ������ ������ 0 0 � � ���� � 1 0 �� � 2 1 �� ���� 3 0 � � ���� � �� 4 0 � 5 0 � � ���� � 6 1 �� � 7 0 8 1
� � So,�what�is�the�problem�? So,�what�is�the�problem�? • Most�of�the�techniques�are�relevant�only� for�typing�errors. • Designed�for�isolated words. • We�are�interested�in�a�fully automatic�system.
The�Algorithm The�Algorithm � � � � �� � � �� � �������� ���� ��� � �� ������� �� � �� � �� �� � ���� ��� ��� � � � ��� ��� � ����� � � �� � � �� �� �� ���� � ��� �� � ���� ����������� � � � ��� �� � � �� � ����� � � � �� � � �
The�Algorithm�(cont...) � �������� ����������� � � �������������������� � ��������������� ������ ��������� � �������������� � � �������������� ������������ � � ������������������������ � ���������� � ����������� � � ���������� ����� �������� ���������� ���������
The�Algorithm�(cont...) � ���������� ������������������� � ���������� ������������������� � � � � ���� � � � � �� w w 1 2 j j ���� � ��������� ��� � � ��������� � ����� � ��������� � � � � ��� ��� ��� ����� ����� � �� � � � � ��� ��� ��� ��� � �� � � �� � ������ ������� ��� �� ����� � ��� � � � � � ��� ��� ��� ��� � �� � � �� �� �������� ��� �� ����� � ��� � � � � � ��� ��� ��� ��� � �� � � �� �� �� ��� �� ���� � ��� �
The�Algorithm�(cont...) • If��words�are�identical: w w 1 2 � j j Accept�the�word. � � � ��� ��� ��� ��� ��� � �� � � w w 1 2 � j j � � �� ����� ����� � � � � � ��� � � �� � ����� � � � �� � � � � � ��� � ������ � ���� � � � ����� ��
The�Algorithm�(cont...) If�the�words�mismatch: w w 1 2 � j j • If only�one�of�them�is�valid � Then: Accept�the�valid�one. i = ⋅ i + dictionary w freq w local dictionary ( ) 0 . 6 ( , _ ) j j ⋅ i freq w global dictionary 0 . 4 ( , _ ) ���������� ���������� ���������� ���������� ������� j
The�Algorithm�(cont...) � � � � ��� �� ������ � ��� �� � ��� � ����� ���� � �� �� � ����� ���� ��� �� ��� �� � � �� �� � � ������ ��� �������� w w 1 2 � j j = ���������� ��������� Candidates w 1 � ( ) �� j ���������� ��������� w 2 ���������� ���������� �� ( ) j
The�Algorithm�(cont...) � � �� � ������� ����� �� ������ ��� � �� �� � ���� � � �� �� ����� ����� � � �� � ���� ���� �� �� � � ����� � � �� � � � � �� ��� � ������ � ���� � � i i = edit_dista nce w w � 1 ������ if � ( , ) 1 . j j = is close � k _ � � 0 ������ otherwise. = ⋅ + i i i i mark w error freq w w OCR ( ) 0 . 6 ( _ ( , , )) j j j k k ⋅ i i i + word gram w w w ���������� ���������� � 0.4 ( _ ( , , ) − + j j j 1 1 k i + dictionary w ���������� ���������� ��������� ( ) j k i i is close w w ���������� ���������� ��������� _ ( , )) j j k
The�Algorithm�(cont...) � If both�words�are�valid: i = i + context w freq w local dictionary ( ) ( , _ ) j j i i i word gram w w w ���������� ���������� ��� _ ( , , ). − + j j j 1 1 i = i ⋅ ⋅ i + mark w accuracy OCR context w ( ) ( ) [ 0 . 6 ( ) j j ⋅ i freq w global dictionary ���������� ��������� 0.4 ( , _ )] j
The�Algorithm�(cont...) ���������������������� ���������������������� � � � � � � � � � � �� � ������ � � � � � � ����� � �� �� � � � � �� � � � ��� � ����� � � ���� � � � � � � � �� ����� ����� ���� � � ���� ��� �� � � � � �� �������� ��� �� ��� ����� � ��� � � � � � ��������� ��� � �� �� � ��������
The� The� Experiments Experiments � � ��� � � � � � ���� � �� � ��� �� � � � � � ��� �� � � � � �
The�Environment�of�the� The�Environment�of�the� Experiments Experiments � ������� ����������� �� ������������� � Source�String Error�String OCR�1 OCR�2 i 1 1.58% 0.48% 0 o 3.54% 0.77% da d 0.75% 0.10% 2 z 0.30% 0.72% 0.15% 0.72% f l i 1 1.58% 0.48% e g 1.18% 0.10%
Examples�of�successful� Examples�of�successful� corrections corrections ������������� �������� �� Original�Word OCR�1 OCR�2 Accepted�Word going going goring going survivors surveyors survivors survivors we’re we’te we’e we’re thankfully thankfvlly thankfiily thankfully school schooi sciiool school neighborhood ne~hborhood nei&iborho~ neighborhood precisent pr,cisent preci~ent precisent details d,tails detaHs details
Recommend
More recommend