LOC-DB Reference Extraction DR. DR.-ING SHERAZ AHMED SYED TA - - PowerPoint PPT Presentation

▶

Aug 18, 2023 7 likes •219 views

LOC-DB Reference Extraction DR. DR.-ING SHERAZ AHMED SYED TA TAHSEEN RAZA RIZVI LOC-DB Architecture 2 LOC-DB OCR Component Types of Input files: Digital Born PDF Scanned Documents XML/HTML XML File Scanned Document Textual PDF

SLIDE 1

LOC-DB Reference Extraction

DR. DR.-ING SHERAZ AHMED SYED TA TAHSEEN RAZA RIZVI

SLIDE 2

LOC-DB Architecture

SLIDE 3

LOC-DB OCR Component

Types of Input files:

Digital Born PDF
Scanned Documents
XML/HTML

XML File Textual PDF Scanned Document

SLIDE 4

Reference Extraction from: Scanned Documents

SLIDE 5

Scanned Documents: Reference Extraction

Step 1: Binarization
Greyscale(0-255)/color to

Binary (0-1)

RGB Image Binary Image

SLIDE 6

Scanned Documents : Reference Extraction

Step 2: Image Classification
Single/Double Column Documents

Single Column Document Double Column Document

Single Column Documents Double Column Documents

SLIDE 7

Scanned Documents : Reference Extraction

Step 3: OCR (Optical Character Recognition)

OCR Result

SLIDE 8

Scanned Documents : Reference Extraction

Step 4: Reference Segmentation
Using ParsCit

SLIDE 9

Reference Extraction from: Textual / Digital Born PDFs

SLIDE 10

Digital Born PDFs : Reference Extraction

Step 1: Text Extraction

Textual PDF Extracted Text

SLIDE 11

Digital Born PDFs : Reference Extraction

Step 2: Reference Extraction
Using ParsCit

SLIDE 12

Reference Extraction from: Structured XML

SLIDE 13

Structured XML : Reference Extraction

Step 1: Preprocessing

SLIDE 14

Structured XML : Reference Extraction

Step 2: Reference Extraction
Using ParsCit

SLIDE 15

Scanned Documents Textual PDFs Structured XML

Reference Extraction Pipeline - Overview

Binarization Image Classification OCR Text Extraction Reference Segmentation Pre-Processing

SLIDE 16

DeepBibX: A Neural Network based approach

SLIDE 17

DeepBibX: Intuition

SLIDE 18

Neural Network Based Approach

SLIDE 19

Comparison with ParsCit

ParsCit Output DeepBibX Output

SLIDE 20

Comparison with ParsCit

On a test set of 286 bibliographic document

images:

Total: 5090 references
ParsCit extracted: 3645 references
Proposed approach: 4323 references

1000 2000 3000 4000 5000 6000 ParsCit FCN based approach

Extraction Comparison

Total References Total Detections

SLIDE 21

LOC-DB Reference Extraction

LOC-DB Architecture

LOC-DB OCR Component

Types of Input files:

Reference Extraction from: Scanned Documents

Scanned Documents: Reference Extraction

Scanned Documents : Reference Extraction

Scanned Documents : Reference Extraction

Scanned Documents : Reference Extraction

Reference Extraction from: Textual / Digital Born PDFs

Digital Born PDFs : Reference Extraction

Digital Born PDFs : Reference Extraction

Reference Extraction from: Structured XML

Structured XML : Reference Extraction

Structured XML : Reference Extraction

Reference Extraction Pipeline - Overview

DeepBibX: A Neural Network based approach

DeepBibX: Intuition

Neural Network Based Approach

Comparison with ParsCit

Comparison with ParsCit

Thank you