a voting system for a voting system for automatic
play

AVotingSystemfor AVotingSystemfor AutomaticCorrectionofOCR - PowerPoint PPT Presentation

AVotingSystemfor AVotingSystemfor AutomaticCorrectionofOCR AutomaticCorrectionofOCR Output Output


  1. A�Voting�System�for� A�Voting�System�for� Automatic�Correction�of�OCR Automatic�Correction�of�OCR Output Output ���� ��������������������� �������� ����������

  2. Introduction Introduction OCR�=�Optical�Character�Recognition

  3. ��������� �������� � ����� ���� ����� ��������� ���� �������� ������������������������� � �������������������������� !������

  4. Known�Techniques�for� Known�Techniques�for� Spelling�Correction Spelling�Correction Edit�Distance: The�minimum�number�of�editing�operations� (i.e.,�insertion,�deletion�and�substitution�of� letters)�required�to�transform�one�string�to� another. ������������� ������������� ���������������� �

  5. Known�Techniques�for�Spelling�Correction� Known�Techniques�for�Spelling�Correction� (cont...) (cont...) � Hashing: � Skeleton�Key . . � �� � � ��� � ���� � � �� ��� �� cmnctouia communication . � �� � ��� � ���� . � � ������ ������ 0 0 � � ���� � 1 0 �� � 2 1 �� ���� 3 0 � � ���� � �� 4 0 � 5 0 � � ���� � 6 1 �� � 7 0 8 1

  6. � � So,�what�is�the�problem�? So,�what�is�the�problem�? • Most�of�the�techniques�are�relevant�only� for�typing�errors. • Designed�for�isolated words. • We�are�interested�in�a�fully automatic�system.

  7. The�Algorithm The�Algorithm � � � � �� � � �� � �������� ���� ��� � �� ������� �� � �� � �� �� � ���� ��� ��� � � � ��� ��� � ����� � � �� � � �� �� �� ���� � ��� �� � ���� ����������� � � � ��� �� � � �� � ����� � � � �� � � �

  8. The�Algorithm�(cont...) � �������� ����������� � � �������������������� � ��������������� ������ ��������� � �������������� � � �������������� ������������ � � ������������������������ � ���������� � ����������� � � ���������� ����� �������� ���������� ���������

  9. The�Algorithm�(cont...) � ���������� ������������������� � ���������� ������������������� � � � � ���� � � � � �� w w 1 2 j j ���� � ��������� ��� � � ��������� � ����� � ��������� � � � � ��� ��� ��� ����� ����� � �� � � � � ��� ��� ��� ��� � �� � � �� � ������ ������� ��� �� ����� � ��� � � � � � ��� ��� ��� ��� � �� � � �� �� �������� ��� �� ����� � ��� � � � � � ��� ��� ��� ��� � �� � � �� �� �� ��� �� ���� � ��� �

  10. The�Algorithm�(cont...) • If��words�are�identical: w w 1 2 � j j Accept�the�word. � � � ��� ��� ��� ��� ��� � �� � � w w 1 2 � j j � � �� ����� ����� � � � � � ��� � � �� � ����� � � � �� � � � � � ��� � ������ � ���� � � � ����� ��

  11. The�Algorithm�(cont...) If�the�words�mismatch: w w 1 2 � j j • If only�one�of�them�is�valid � Then: Accept�the�valid�one. i = ⋅ i + dictionary w freq w local dictionary ( ) 0 . 6 ( , _ ) j j ⋅ i freq w global dictionary 0 . 4 ( , _ ) ���������� ���������� ���������� ���������� ������� j

  12. The�Algorithm�(cont...) � � � � ��� �� ������ � ��� �� � ��� � ����� ���� � �� �� � ����� ���� ��� �� ��� �� � � �� �� � � ������ ��� �������� w w 1 2 � j j = ���������� ��������� Candidates w 1 � ( ) �� j ���������� ��������� w 2 ���������� ���������� �� ( ) j

  13. The�Algorithm�(cont...) � � �� � ������� ����� �� ������ ��� � �� �� � ���� � � �� �� ����� ����� � � �� � ���� ���� �� �� � � ����� � � �� � � � � �� ��� � ������ � ���� � � i i = edit_dista nce w w � 1 ������ if � ( , ) 1 . j j = is close � k _ � � 0 ������ otherwise. = ⋅ + i i i i mark w error freq w w OCR ( ) 0 . 6 ( _ ( , , )) j j j k k ⋅ i i i + word gram w w w ���������� ���������� � 0.4 ( _ ( , , ) − + j j j 1 1 k i + dictionary w ���������� ���������� ��������� ( ) j k i i is close w w ���������� ���������� ��������� _ ( , )) j j k

  14. The�Algorithm�(cont...) � If both�words�are�valid: i = i + context w freq w local dictionary ( ) ( , _ ) j j i i i word gram w w w ���������� ���������� ��� _ ( , , ). − + j j j 1 1 i = i ⋅ ⋅ i + mark w accuracy OCR context w ( ) ( ) [ 0 . 6 ( ) j j ⋅ i freq w global dictionary ���������� ��������� 0.4 ( , _ )] j

  15. The�Algorithm�(cont...) ���������������������� ���������������������� � � � � � � � � � � �� � ������ � � � � � � ����� � �� �� � � � � �� � � � ��� � ����� � � ���� � � � � � � � �� ����� ����� ���� � � ���� ��� �� � � � � �� �������� ��� �� ��� ����� � ��� � � � � � ��������� ��� � �� �� � ��������

  16. The� The� Experiments Experiments � � ��� � � � � � ���� � �� � ��� �� � � � � � ��� �� � � � � �

  17. The�Environment�of�the� The�Environment�of�the� Experiments Experiments � ������� ����������� �� ������������� � Source�String Error�String OCR�1 OCR�2 i 1 1.58% 0.48% 0 o 3.54% 0.77% da d 0.75% 0.10% 2 z 0.30% 0.72% 0.15% 0.72% f l i 1 1.58% 0.48% e g 1.18% 0.10%

  18. Examples�of�successful� Examples�of�successful� corrections corrections ������������� �������� �� Original�Word OCR�1 OCR�2 Accepted�Word going going goring going survivors surveyors survivors survivors we’re we’te we’e we’re thankfully thankfvlly thankfiily thankfully school schooi sciiool school neighborhood ne~hborhood nei&iborho~ neighborhood precisent pr,cisent preci~ent precisent details d,tails detaHs details

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend