Automa'c Iden'fica'on of Research Ar'cles from Crawled - - PowerPoint PPT Presentation

automa c iden fica on of research ar cles from crawled
SMART_READER_LITE
LIVE PREVIEW

Automa'c Iden'fica'on of Research Ar'cles from Crawled - - PowerPoint PPT Presentation

Automa'c Iden'fica'on of Research Ar'cles from Crawled Documents Cornelia Caragea 1 , Jian Wu 2 , Kyle Williams 2 , Sujatha Das G. 1 , Madian Khabsa 3 , Pradeep


slide-1
SLIDE 1

Automa'c ¡Iden'fica'on ¡of ¡ Research ¡Ar'cles ¡from ¡Crawled ¡ Documents ¡ ¡

Cornelia ¡Caragea1, ¡Jian ¡Wu2, ¡Kyle ¡Williams2, ¡Sujatha ¡Das ¡G.1, ¡ Madian ¡Khabsa3, ¡Pradeep ¡Teregowda3, ¡C. ¡Lee ¡Giles2,3 ¡ ¡

1Computer ¡Science ¡and ¡Engineering, ¡University ¡of ¡North ¡Texas ¡ 2InformaMon ¡Sciences ¡and ¡Technology, ¡3Computer ¡Science ¡and ¡

Engineering, ¡Pennsylvania ¡State ¡University ¡

See ¡CIKM ¡2013 ¡and ¡ICDM ¡2011 ¡plenaries ¡for ¡more ¡details ¡

slide-2
SLIDE 2

Online ¡Research ¡ArMcle ¡Libraries ¡

  • Digital ¡libraries ¡store ¡and ¡index ¡research ¡arMcles ¡

– Make ¡it ¡easier ¡for ¡researchers ¡to ¡search ¡for ¡scienMfic ¡ informaMon ¡ ¡

  • Examples ¡of ¡online ¡scholarly ¡digital ¡libraries: ¡

– CiteSeerX, ¡MicrosoV ¡Academic ¡Search, ¡arXiv, ¡ ArnetMiner, ¡ACM ¡DL, ¡Google ¡Scholar, ¡PubMed. ¡

  • The ¡size ¡of ¡online ¡digital ¡libraries ¡has ¡grown ¡from ¡

thousands ¡to ¡many ¡millions ¡of ¡research ¡arMcles ¡

slide-3
SLIDE 3

Large ¡Number ¡of ¡Scholarly ¡Documents ¡on ¡the ¡Web ¡

Total Scholar Web of Science Academic PubMed Size in Millions 20 40 60 80 100 120

EsMmates ¡ Khabsa, ¡Giles, ¡2014 ¡– ¡in ¡review ¡ EsMmates ¡for ¡early ¡2013 ¡

slide-4
SLIDE 4
  • Medium ¡for ¡answering ¡quesMons ¡such ¡as: ¡

– How ¡topics ¡emerge, ¡evolve, ¡or ¡disappear? ¡ – What ¡is ¡a ¡good ¡measure ¡of ¡quality ¡of ¡published ¡ works? ¡ – What ¡are ¡the ¡most ¡promising ¡areas ¡of ¡research? ¡ ¡ – How ¡authors ¡connect ¡and ¡influence ¡each ¡other? ¡ – Who ¡are ¡the ¡experts ¡in ¡a ¡field? ¡ – What ¡works ¡are ¡similar? ¡ – … ¡

Online ¡Research ¡ArMcle ¡Digital ¡ Libraries ¡

slide-5
SLIDE 5

h_p://citeseerx.ist.psu.edu ¡

CiteSeerX ¡

  • ~3 ¡M ¡documents ¡
  • ¡Ms ¡of ¡files ¡
  • 80 ¡M ¡citaMons ¡
  • 12 ¡M ¡authors ¡
  • 2 ¡to ¡4 ¡M ¡hits ¡day ¡
  • ¡100K ¡documents ¡added ¡

monthly ¡

  • ¡300K ¡document ¡

downloaded ¡monthly ¡

  • 800K ¡individual ¡users ¡
  • ¡several ¡Tbytes ¡
  • ¡CiteSeerX ¡crawls ¡researcher ¡homepages ¡and ¡repositories ¡on ¡the ¡web ¡for ¡research ¡

papers ¡in ¡PDF, ¡formerly ¡in ¡computer ¡science, ¡but ¡all ¡fields ¡

  • ¡Converts ¡PDF ¡to ¡text ¡
  • ¡AutomaMcally ¡extracts ¡OAI ¡metadata ¡and ¡other ¡data ¡
  • ¡AutomaMc ¡citaMon ¡indexing, ¡links ¡to ¡cited ¡documents, ¡creaMon ¡of ¡

document ¡page, ¡author ¡disambiguaMon ¡

  • ¡SoVware ¡open ¡source ¡– ¡can ¡be ¡used ¡to ¡build ¡other ¡such ¡tools ¡
  • ¡Data ¡shared ¡with ¡others ¡for ¡research ¡
slide-6
SLIDE 6

CiteSeer ¡(aka ¡ResearchIndex) ¡

  • C. Lee Giles

Kurt Bollacker Steve Lawrence

l Project ¡of ¡NEC ¡Research ¡InsMtute ¡ l Hosted ¡at ¡Princeton, ¡from ¡1997 ¡– ¡2004 ¡ l Moved ¡to ¡Penn ¡State ¡aVer ¡collaborators ¡leV ¡NEC ¡ l Provided ¡a ¡broad ¡range ¡of ¡unique ¡services ¡

including ¡

l AutomaMc ¡metadata ¡extracMon ¡ l Autonomous ¡citaMon ¡indexing ¡ l Reference ¡linking ¡ l Full ¡text ¡indexing ¡ l Similar ¡documents ¡lisMng ¡ l Several ¡other ¡pioneering ¡features ¡

l Impact ¡

l Changed ¡scienMfic ¡research ¡– ¡preceded ¡Google ¡Scholar ¡ l Shares ¡code ¡and ¡data ¡

slide-7
SLIDE 7

Research ¡with ¡CiteSeerX ¡Data ¡

  • Large ¡data ¡set ¡with ¡millions ¡of ¡categories ¡and ¡millions ¡of ¡examples ¡

– Authors, ¡papers, ¡citaMons, ¡tables, ¡figures, ¡equaMons, ¡etc. ¡ – Downloadable ¡from ¡Amazon ¡3c ¡

  • Proven ¡as ¡a ¡powerful ¡resource ¡in ¡many ¡applicaMons ¡that ¡analyze ¡

research ¡arMcles ¡at ¡web ¡wide ¡scale, ¡including: ¡ ¡ ¡

– Topic ¡classificaMon ¡of ¡research ¡arMcles ¡ – document ¡and ¡citaMon ¡recommendaMon ¡ ¡ – author ¡name ¡disambiguaMon ¡ ¡ – expert ¡search ¡ ¡ – topic ¡evoluMon ¡ ¡ – collaborator ¡recommendaMon ¡ ¡

  • These ¡applicaMons ¡require ¡accurate ¡and ¡representaMve ¡collecMons ¡of ¡

research ¡arMcles. ¡ ¡

– Depends ¡on ¡the ¡quality ¡of ¡a ¡classifier ¡that ¡idenMfies ¡research ¡arMcles ¡ from ¡other ¡documents ¡crawled ¡on ¡the ¡Web. ¡

slide-8
SLIDE 8

CiteSeerX ¡Growth ¡

  • The ¡growth ¡in ¡the ¡number ¡of ¡crawled ¡documents ¡as ¡well ¡as ¡in ¡the ¡

number ¡of ¡research ¡papers ¡indexed ¡by ¡CiteSeerX ¡between ¡‘08 ¡and ¡‘13. ¡ ¡

0" 2" 4" 6" 8" 10" 12" 14" 2008" 2009" 2010" 2011" 2012" 2013" Documents/million- Year-

CiteSeerX-Document-Collec4on-

(crawled, ¡ingested, ¡indexed) ¡

slide-9
SLIDE 9

Research ¡QuesMon ¡ Classify ¡Research ¡Papers ¡from ¡Large ¡ Focused ¡Crawls ¡

  • How ¡to ¡design ¡features ¡that ¡capture ¡the ¡

specifics ¡of ¡research ¡arMcle ¡and ¡result ¡in ¡ classificaMon ¡models ¡that ¡accurately ¡and ¡ efficiently ¡idenMfy ¡such ¡documents ¡from ¡a ¡ collecMon ¡of ¡documents ¡crawled ¡on ¡the ¡Web. ¡

  • Scholar, ¡CiteSeer, ¡MAS, ¡do ¡this ¡but ¡how ¡well? ¡ ¡
slide-10
SLIDE 10

AutomaMc ¡Research ¡ArMcle ¡ClassificaMon ¡ Methodology ¡

  • Classify ¡documents ¡as ¡research ¡if ¡they ¡contain ¡any ¡of ¡the ¡words ¡

references ¡or ¡bibliography ¡in ¡text ¡

– Current ¡method ¡in ¡CiteSeer ¡ – Drawback: ¡ ¡

  • Will ¡mistakenly ¡classify ¡documents ¡such ¡as ¡CV ¡or ¡slides ¡as ¡research ¡arMcles ¡

if ¡they ¡contain ¡references ¡in ¡them ¡

  • Will ¡miss ¡to ¡idenMfy ¡research ¡arMcles ¡that ¡do ¡not ¡contain ¡any ¡of ¡the ¡two ¡

words ¡

  • Classify ¡documents ¡using ¡a ¡“bag ¡of ¡words” ¡approach ¡

– Drawback: ¡

  • May ¡not ¡capture ¡the ¡specifics ¡of ¡research ¡arMcles, ¡e.g., ¡due ¡to ¡the ¡diversity ¡
  • f ¡the ¡topics ¡covered ¡in ¡CiteSeerX. ¡ ¡
  • For ¡example, ¡an ¡arMcle ¡in ¡HCI ¡may ¡have ¡a ¡different ¡vocabulary ¡space ¡

compared ¡to ¡a ¡paper ¡in ¡IR, ¡but ¡some ¡essenMal ¡terms ¡may ¡persist ¡across ¡

  • papers. ¡
  • Be_er ¡methods? ¡
slide-11
SLIDE 11

Possible ¡Features ¡for ¡Research ¡ArMcle ¡ IdenMficaMon ¡

Data ¡derived ¡from ¡PDFBox ¡text ¡

slide-12
SLIDE 12

Structural ¡(Str) ¡Features ¡for ¡Research ¡ ArMcle ¡IdenMficaMon ¡

slide-13
SLIDE 13

Textual ¡Features ¡

slide-14
SLIDE 14

Datasets ¡

  • Two ¡independent ¡sets ¡of ¡documents ¡sampled ¡from ¡CiteSeerX: ¡

– 1000 ¡docs ¡sampled ¡from ¡the ¡crawled ¡docs ¡(Crawl) ¡ – 1500 ¡docs ¡sampled ¡from ¡CiteSeerX ¡that ¡passed ¡the ¡“references” ¡or ¡ “bibliography” ¡filter ¡(CiteSeerX) ¡ – Data ¡is ¡three ¡years ¡old ¡

  • Manual ¡labeling: ¡

– PosiMve ¡docs: ¡papers ¡in ¡conference ¡proceedings, ¡journal ¡arMcles, ¡research ¡ press ¡releases, ¡book ¡chapters, ¡and ¡technical ¡reports ¡ – NegaMve ¡docs: ¡books, ¡theses, ¡long ¡technical ¡documentaMon ¡of ¡more ¡than ¡50 ¡ pages, ¡slides, ¡posters, ¡incomplete ¡papers/books ¡(e.g., ¡a ¡references ¡list, ¡ preface, ¡table, ¡abstract), ¡brochures ¡(e.g., ¡a ¡company ¡introducMon, ¡circular, ¡ad, ¡ product ¡manual, ¡government ¡report, ¡meeMng ¡notes, ¡policy, ¡form ¡instrucMon, ¡ code, ¡installaMon ¡guide), ¡handouts, ¡homework, ¡schedule, ¡agenda, ¡news, ¡form, ¡ flyer, ¡syllabus, ¡class ¡notes, ¡le_ers, ¡curriculum ¡vita, ¡resumes, ¡memos, ¡speeches. ¡

  • Datasets ¡descripMon: ¡

– Missing ¡text ¡mostly ¡from ¡scanned ¡documents ¡– ¡used ¡PDFBox ¡

slide-15
SLIDE 15
slide-16
SLIDE 16
slide-17
SLIDE 17

Experimental ¡Design: ¡Research ¡QuesMons ¡ ¡

  • How ¡does ¡the ¡performance ¡of ¡classifiers ¡trained ¡

using ¡the ¡proposed ¡features, ¡called ¡structural ¡ features ¡compare ¡with ¡that ¡of ¡“bag ¡of ¡words” ¡ classifiers ¡and ¡the ¡“references” ¡rule-­‑based ¡learner? ¡ ¡

  • Do ¡classifiers ¡trained ¡on ¡the ¡structural ¡features ¡

generalize ¡well ¡on ¡new ¡unseen ¡data? ¡ ¡

  • Among ¡the ¡structural ¡features, ¡what ¡are ¡those ¡that ¡

are ¡most ¡informaMve ¡in ¡idenMfying ¡research ¡arMcles ¡ from ¡the ¡crawled ¡documents? ¡ ¡

slide-18
SLIDE 18

Performance ¡of ¡classifiers ¡trained ¡on ¡ structural ¡features ¡ ¡

  • Results ¡on ¡the ¡Crawl ¡dataset. ¡ ¡
  • Results ¡on ¡the ¡CiteSeerX ¡dataset. ¡ ¡

SVM ¡ LogisMc ¡regression ¡LR ¡ Naïve ¡Bayes ¡NB ¡ Decision ¡Trees ¡DT ¡ Random ¡Forest ¡RF ¡

slide-19
SLIDE 19

Performance ¡of ¡classifiers ¡trained ¡on ¡ structural ¡features ¡ ¡

  • Precision-­‑Recall ¡curves ¡for ¡Crawl ¡
  • Precision-­‑Recall ¡curves ¡for ¡CiteSeerX ¡

Weka ¡algorithms ¡with ¡10 ¡fold ¡cross-­‑validaMon ¡ ¡

slide-20
SLIDE 20

GeneralizaMon ¡performance ¡of ¡ structural ¡features ¡based ¡classifiers ¡

  • Performance ¡of ¡classifiers ¡trained ¡on ¡Crawl ¡ ¡

and ¡evaluated ¡on ¡CiteSeerX. ¡ ¡

  • Precision-­‑Recall ¡curves ¡for ¡SVM ¡and ¡NB ¡trained ¡on ¡Crawl ¡and ¡evaluated ¡on ¡ ¡

CiteSeerX, ¡and ¡for ¡SVM ¡evaluated ¡on ¡CiteSeerX ¡using ¡cross-­‑validaMon ¡(CV). ¡ ¡

slide-21
SLIDE 21

Most ¡InformaMve ¡Features ¡for ¡ Research ¡ArMcle ¡IdenMficaMon ¡

  • Top ¡15 ¡ranked ¡features ¡by ¡InformaMon ¡Gain ¡ ¡
slide-22
SLIDE 22

Analysis ¡of ¡Feature ¡Types ¡

  • The ¡SecMon ¡specific ¡features ¡result ¡in ¡higher ¡F-­‑Measure ¡

compared ¡to ¡the ¡other ¡individual ¡features ¡ ¡

  • The ¡combinaMon ¡of ¡Containment, ¡Text ¡specific ¡and ¡SecMon ¡

specific ¡features ¡results ¡in ¡the ¡highest ¡performance ¡ ¡

slide-23
SLIDE 23

Summary ¡

  • Proposed ¡novel ¡features ¡for ¡idenMfying ¡research ¡arMcles ¡

from ¡documents ¡crawled ¡on ¡the ¡Web ¡to ¡improve ¡data ¡ quality ¡in ¡CiteSeerx ¡ ¡

– Models ¡based ¡on ¡the ¡proposed ¡features ¡outperform ¡“bag ¡of ¡ words” ¡models ¡and ¡a ¡rule-­‑based ¡learner ¡that ¡uses ¡the ¡existence ¡

  • f ¡“references” ¡or ¡“bibliography” ¡to ¡idenMfy ¡research ¡papers. ¡
  • Show ¡that ¡semi-­‑supervised ¡approaches ¡such ¡as ¡co-­‑training ¡

that ¡make ¡use ¡of ¡unlabeled ¡data ¡to ¡improve ¡the ¡ performance ¡of ¡classifiers ¡on ¡the ¡task ¡of ¡idenMfying ¡papers ¡

  • CiteSeerX ¡paper ¡quality ¡has ¡since ¡improved ¡from ¡60% ¡to ¡

90% ¡due ¡to ¡use ¡of ¡repositories ¡

slide-24
SLIDE 24

Future ¡DirecMons ¡

  • Ensemble ¡methods ¡for ¡improved ¡classificaMon ¡
  • Scalability ¡of ¡methods ¡

– IngesMon ¡is ¡expensive ¡ – Incorporate ¡in ¡Citeseer ¡

  • Change ¡definiMon ¡of ¡research ¡arMcle ¡
  • Use ¡URL ¡features ¡

– Design ¡URL ¡features ¡and ¡use ¡them ¡in ¡conjuncMon ¡with ¡structural ¡ features ¡as ¡complementary ¡views ¡in ¡co-­‑training. ¡ – Example ¡URLs ¡poinMng ¡to ¡research ¡papers ¡ ¡

slide-25
SLIDE 25

Thank ¡you! ¡

Jian ¡Wu ¡ Madian ¡Khabsa ¡ Kyle ¡Williams ¡ Pradeep ¡Teregowda ¡ Sujatha ¡Das ¡G. ¡ Cornelia ¡Caragea ¡

  • C. ¡Lee ¡Giles ¡