Automa'c Methods for Coding Historical Occupa'on - - PowerPoint PPT Presentation

automa c methods for coding historical occupa on descrip
SMART_READER_LITE
LIVE PREVIEW

Automa'c Methods for Coding Historical Occupa'on - - PowerPoint PPT Presentation

Automa'c Methods for Coding Historical Occupa'on Descrip'ons to Standard Classifica'ons Graham Kirby, Jamie Carson, Fraser Dunlop, Chris Dibben, Alan Dearle, Lee


slide-1
SLIDE 1

Automa'c ¡Methods ¡for ¡Coding ¡Historical ¡ Occupa'on ¡ Descrip'ons ¡to ¡Standard ¡Classifica'ons ¡

Graham ¡Kirby, ¡Jamie ¡Carson, ¡Fraser ¡Dunlop, ¡Chris ¡ Dibben, ¡Alan ¡Dearle, ¡Lee ¡Williamson, ¡Eilidh ¡ Garre<, ¡Alice ¡Reid ¡

digi@singscotland@lscs.ac.uk ¡ ¡ digi@singscotland.cs.st-­‑andrews.ac.uk ¡

¡ ¡

slide-2
SLIDE 2

Mo@va@on ¡

  • Increasing ¡number ¡of ¡digi@sed ¡registra@on ¡

records ¡for ¡the ¡19th ¡and ¡20th ¡centuries. ¡

  • Varying ¡forms ¡of ¡data ¡
  • Scale ¡of ¡data ¡prevents ¡manual ¡analysis ¡

digi@singscotland@lscs.ac.uk ¡ 2 ¡

slide-3
SLIDE 3

Challenges ¡

  • Significant ¡methodological ¡issues: ¡

– How ¡can ¡we ¡consistently ¡code ¡occupa@onal ¡data ¡ so ¡that ¡researchers ¡can ¡explore ¡changing ¡pa<erns ¡ and ¡trends? ¡ ¡ – How ¡can ¡we ¡automate ¡this ¡process ¡so ¡that ¡the ¡ majority ¡of ¡records ¡do ¡not ¡need ¡to ¡be ¡manually ¡ coded? ¡

digi@singscotland@lscs.ac.uk ¡ 3 ¡

slide-4
SLIDE 4

Digi@sing ¡Scotland ¡

  • Records ¡of ¡births, ¡marriages ¡and ¡deaths ¡recorded ¡in ¡Scotland ¡

from ¡1855 ¡to ¡present ¡day. ¡

digi@singscotland@lscs.ac.uk ¡ 4 ¡

slide-5
SLIDE 5

Digi@sing ¡Scotland ¡

digi@singscotland@lscs.ac.uk ¡ 5 ¡

Record ¡Type ¡

Births ¡ Mariages ¡ Deaths ¡

  • Approximately ¡29 ¡million ¡

records ¡

  • Approximately ¡50 ¡million ¡
  • ccupa@on ¡strings, ¡8 ¡

million ¡causes ¡of ¡death ¡

  • Classify ¡occupa@ons ¡to ¡

Historical ¡Interna@onal ¡ Standard ¡Classifica@on ¡of ¡ Occupa@ons ¡(HISCO) ¡

  • Cause ¡of ¡death ¡to ¡ICD10 ¡

¡

slide-6
SLIDE 6

6 ¡

slide-7
SLIDE 7

7 ¡

slide-8
SLIDE 8

8 ¡

slide-9
SLIDE 9

9 ¡

slide-10
SLIDE 10

10 ¡

slide-11
SLIDE 11

Experimental ¡Dataset ¡

  • Vital ¡event ¡records ¡currently ¡being ¡transcribed ¡
  • Use ¡a ¡dataset ¡with ¡similar ¡content ¡for ¡experiments ¡
  • 60,000 ¡records ¡from ¡the ¡Cambridge ¡Family ¡History ¡

Study ¡(records ¡from ¡1800-­‑1990) ¡

  • Occupa@on ¡descrip@ons ¡and ¡associated ¡HISCO ¡codes ¡
  • HISCO ¡coding ¡done ¡by ¡historians ¡
  • Dataset ¡contains ¡330 ¡different ¡HISCO ¡codes ¡

digi@singscotland@lscs.ac.uk ¡ 11 ¡

slide-12
SLIDE 12

digi@singscotland@lscs.ac.uk ¡ 12 ¡

HISCO ¡Hierarchy ¡Example ¡ ¡

slide-13
SLIDE 13

Classifica@on ¡Example ¡

String ¡from ¡record ¡ Gold ¡Standard ¡ Classifica'on ¡ Automa'c ¡Classifica'on ¡ Output ¡ Farm ¡horseman ¡ 62460 ¡ 62460 ¡ Shoe ¡maker ¡ 80110 ¡ 80110 ¡ Fireman ¡(railway) ¡ 98330 ¡ 98330 ¡ Fireman ¡ 58100 ¡ 58100 ¡ Sta@oner ¡ 41000 ¡ 91000 ¡

digi@singscotland@lscs.ac.uk ¡ 13 ¡

slide-14
SLIDE 14

Classifica@on ¡Example ¡

String ¡from ¡record ¡ Gold ¡Standard ¡ Classifica'on ¡ Automa'c ¡Classifica'on ¡ Output ¡ Farm ¡horseman ¡ 62460 ¡Horse ¡Worker ¡ 62460 ¡Horse ¡Worker ¡ Shoe ¡maker ¡ 80110 ¡Shoemaker, ¡General ¡ 80110 ¡Shoemaker, ¡General ¡ Fireman ¡(railway) ¡ 98330 ¡Railway ¡Steam-­‑ Engine ¡Fireman ¡ 98330 ¡Railway ¡Steam-­‑ Engine ¡Fireman ¡ ¡ Fireman ¡ 58100 ¡Fire-­‑Fighter ¡ 58100 ¡Fire-­‑Fighter ¡ Sta@oner ¡ 41000 ¡Working ¡Proprietors ¡ (Wholesale ¡and ¡Retail ¡ Trade) ¡ 91000 ¡Paper ¡and ¡ Paperboard ¡product ¡ makers ¡

digi@singscotland@lscs.ac.uk ¡ 14 ¡

slide-15
SLIDE 15

Classifica@on ¡Example ¡

String ¡from ¡record ¡ Gold ¡Standard ¡ Classifica'on ¡ Automa'c ¡Classifica'on ¡ Output ¡ Farm ¡horseman ¡ 62460 ¡Horse ¡Worker ¡ 62460 ¡Horse ¡Worker ¡ Shoe ¡maker ¡ 80110 ¡Shoemaker, ¡General ¡ 80110 ¡Shoemaker, ¡General ¡ Fireman ¡(railway) ¡ 98330 ¡Railway ¡Steam-­‑ Engine ¡Fireman ¡ 98330 ¡Railway ¡Steam-­‑ Engine ¡Fireman ¡ ¡ Fireman ¡ 58100 ¡Fire-­‑Fighter ¡ 58100 ¡Fire-­‑Fighter ¡ Sta@oner ¡ 41000 ¡Working ¡Proprietors ¡ (Wholesale ¡and ¡Retail ¡ Trade) ¡ 91000 ¡Paper ¡and ¡ Paperboard ¡product ¡ makers ¡

digi@singscotland@lscs.ac.uk ¡ 15 ¡

slide-16
SLIDE 16

Approach ¡

  • Text ¡analysis ¡
  • Supervised ¡machine ¡learning ¡

– Apache ¡Mahout ¡framework. ¡

  • Combina@on ¡of ¡these ¡techniques. ¡

digi@singscotland@lscs.ac.uk ¡ 16 ¡

slide-17
SLIDE 17

Supervised ¡Machine ¡Learning ¡

digi@singscotland@lscs.ac.uk ¡

Training ¡Data ¡ Machine ¡Learning ¡ Unseen ¡Data ¡ Predic'on ¡Model ¡ Predicted ¡Classifica'on ¡

17 ¡

Predic'on ¡Model ¡

slide-18
SLIDE 18

Supervised ¡Machine ¡Learning ¡

digi@singscotland@lscs.ac.uk ¡

Training ¡Data ¡ Machine ¡Learning ¡ Unseen ¡Data ¡ Predic'on ¡Model ¡ Predicted ¡Classifica'on ¡

18 ¡

Predic'on ¡Model ¡

Farm ¡horseman ¡62460 ¡ Shoe ¡maker ¡80110 ¡ Fireman ¡ ¡58100 ¡ ¡ Sta@oner ¡ ¡41000 ¡

slide-19
SLIDE 19

Supervised ¡Machine ¡Learning ¡

digi@singscotland@lscs.ac.uk ¡

Training ¡Data ¡ Machine ¡Learning ¡ Unseen ¡Data ¡ Predic'on ¡Model ¡ Predicted ¡Classifica'on ¡

19 ¡

Predic'on ¡Model ¡

Farm ¡horseman ¡62460 ¡ Shoe ¡maker ¡80110 ¡ Fireman ¡ ¡58100 ¡ ¡ Sta@oner ¡ ¡41000 ¡ Farm ¡horseman ¡ Boot ¡maker ¡ Fireman ¡ ¡ Painter ¡ ¡

slide-20
SLIDE 20

Supervised ¡Machine ¡Learning ¡

digi@singscotland@lscs.ac.uk ¡

Training ¡Data ¡ Machine ¡Learning ¡ Unseen ¡Data ¡ Predic'on ¡Model ¡ Predicted ¡Classifica'on ¡

20 ¡

Predic'on ¡Model ¡

Farm ¡horseman ¡62460 ¡ Shoe ¡maker ¡80110 ¡ Fireman ¡ ¡58100 ¡ ¡ Sta@oner ¡ ¡41000 ¡ Farm ¡horseman ¡ Boot ¡maker ¡ Fireman ¡ ¡ Painter ¡ ¡

? ¡

Predic'on ¡Model ¡

slide-21
SLIDE 21

Machine ¡Learning ¡

  • Inputs ¡are ¡split ¡into ¡features ¡and ¡converted ¡to ¡high ¡dimension ¡

vectors ¡

digi@singscotland@lscs.ac.uk ¡

Record ¡ Original ¡Input ¡ Cleaned ¡input ¡ Vector ¡ ¡ A ¡ Boot ¡and ¡shoe ¡maker ¡ B ¡ Boot ¡and ¡shoe ¡dealer ¡ C ¡ Fireman ¡ D ¡ Ca<le ¡(& ¡sheep) ¡farmer ¡

21 ¡

slide-22
SLIDE 22

Machine ¡Learning ¡

  • Inputs ¡are ¡split ¡into ¡features ¡and ¡converted ¡to ¡high ¡dimension ¡

vectors ¡

digi@singscotland@lscs.ac.uk ¡

Record ¡ Original ¡Input ¡ Cleaned ¡input ¡ Vector ¡ ¡ A ¡ Boot ¡and ¡shoe ¡maker ¡ boot ¡shoe ¡maker ¡ B ¡ Boot ¡and ¡shoe ¡dealer ¡ boot ¡shoe ¡dealer ¡ C ¡ Fireman ¡ fireman ¡ D ¡ Ca<le ¡(& ¡sheep) ¡farmer ¡ ca<le ¡sheep ¡farmer ¡

22 ¡

slide-23
SLIDE 23

Machine ¡Learning ¡

  • Inputs ¡are ¡split ¡into ¡features ¡and ¡converted ¡to ¡high ¡dimension ¡

vectors ¡

digi@singscotland@lscs.ac.uk ¡

Record ¡ Original ¡Input ¡ Cleaned ¡input ¡ Vector ¡ ¡ A ¡ Boot ¡and ¡shoe ¡maker ¡ boot ¡shoe ¡maker ¡ B ¡ Boot ¡and ¡shoe ¡dealer ¡ boot ¡shoe ¡dealer ¡ C ¡ Fireman ¡ fireman ¡ D ¡ Ca<le ¡(& ¡sheep) ¡farmer ¡ ca<le ¡sheep ¡farmer ¡

boot ¡ caIle ¡ dealer ¡ farmer ¡ fireman ¡ horse ¡ maker ¡ sheep ¡ shoe ¡ A ¡ B ¡ C ¡ D ¡

23 ¡

slide-24
SLIDE 24

Machine ¡Learning ¡

  • Inputs ¡are ¡split ¡into ¡features ¡and ¡converted ¡to ¡high ¡dimension ¡

vectors ¡

digi@singscotland@lscs.ac.uk ¡

Record ¡ Original ¡Input ¡ Cleaned ¡input ¡ Vector ¡ ¡ A ¡ Boot ¡and ¡shoe ¡maker ¡ boot ¡shoe ¡maker ¡ B ¡ Boot ¡and ¡shoe ¡dealer ¡ boot ¡shoe ¡dealer ¡ C ¡ Fireman ¡ fireman ¡ D ¡ Ca<le ¡(& ¡sheep) ¡farmer ¡ ca<le ¡sheep ¡farmer ¡

boot ¡ caIle ¡ dealer ¡ farmer ¡ fireman ¡ horse ¡ maker ¡ sheep ¡ shoe ¡ A ¡ 1 ¡ B ¡ C ¡ D ¡

24 ¡

slide-25
SLIDE 25

Machine ¡Learning ¡

  • Inputs ¡are ¡split ¡into ¡features ¡and ¡converted ¡to ¡high ¡dimension ¡

vectors ¡

digi@singscotland@lscs.ac.uk ¡

Record ¡ Original ¡Input ¡ Cleaned ¡input ¡ Vector ¡ ¡ A ¡ Boot ¡and ¡shoe ¡maker ¡ boot ¡shoe ¡maker ¡ B ¡ Boot ¡and ¡shoe ¡dealer ¡ boot ¡shoe ¡dealer ¡ C ¡ Fireman ¡ fireman ¡ D ¡ Ca<le ¡(& ¡sheep) ¡farmer ¡ ca<le ¡sheep ¡farmer ¡

boot ¡ caIle ¡ dealer ¡ farmer ¡ fireman ¡ horse ¡ maker ¡ sheep ¡ shoe ¡ A ¡ 1 ¡ 0 ¡ B ¡ C ¡ D ¡

25 ¡

slide-26
SLIDE 26

Machine ¡Learning ¡

  • Inputs ¡are ¡split ¡into ¡features ¡and ¡converted ¡to ¡high ¡dimension ¡

vectors ¡

digi@singscotland@lscs.ac.uk ¡

Record ¡ Original ¡Input ¡ Cleaned ¡input ¡ Vector ¡ ¡ A ¡ Boot ¡and ¡shoe ¡maker ¡ boot ¡shoe ¡maker ¡ B ¡ Boot ¡and ¡shoe ¡dealer ¡ boot ¡shoe ¡dealer ¡ C ¡ Fireman ¡ fireman ¡ D ¡ Ca<le ¡(& ¡sheep) ¡farmer ¡ ca<le ¡sheep ¡farmer ¡

boot ¡ caIle ¡ dealer ¡ farmer ¡ fireman ¡ horse ¡ maker ¡ sheep ¡ shoe ¡ A ¡ 1 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ B ¡ C ¡ D ¡

26 ¡

slide-27
SLIDE 27

Machine ¡Learning ¡

  • Inputs ¡are ¡split ¡into ¡features ¡and ¡converted ¡to ¡high ¡dimension ¡

vectors ¡

digi@singscotland@lscs.ac.uk ¡

Record ¡ Original ¡Input ¡ Cleaned ¡input ¡ Vector ¡ ¡ A ¡ Boot ¡and ¡shoe ¡maker ¡ boot ¡shoe ¡maker ¡ B ¡ Boot ¡and ¡shoe ¡dealer ¡ boot ¡shoe ¡dealer ¡ C ¡ Fireman ¡ fireman ¡ D ¡ Ca<le ¡(& ¡sheep) ¡farmer ¡ ca<le ¡sheep ¡farmer ¡

boot ¡ caIle ¡ dealer ¡ farmer ¡ fireman ¡ horse ¡ maker ¡ sheep ¡ shoe ¡ A ¡ 1 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 1 ¡ B ¡ C ¡ D ¡

27 ¡

slide-28
SLIDE 28

Machine ¡Learning ¡

  • Inputs ¡are ¡split ¡into ¡features ¡and ¡converted ¡to ¡high ¡dimension ¡

vectors ¡

digi@singscotland@lscs.ac.uk ¡

Record ¡ Original ¡Input ¡ Cleaned ¡input ¡ Vector ¡ ¡ A ¡ Boot ¡and ¡shoe ¡maker ¡ boot ¡shoe ¡maker ¡ B ¡ Boot ¡and ¡shoe ¡dealer ¡ boot ¡shoe ¡dealer ¡ C ¡ Fireman ¡ fireman ¡ D ¡ Ca<le ¡(& ¡sheep) ¡farmer ¡ ca<le ¡sheep ¡farmer ¡

boot ¡ caIle ¡ dealer ¡ farmer ¡ fireman ¡ horse ¡ maker ¡ sheep ¡ shoe ¡ A ¡ 1 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 1 ¡ 0 ¡ 1 ¡ B ¡ C ¡ D ¡

28 ¡

slide-29
SLIDE 29

Machine ¡Learning ¡

  • Inputs ¡are ¡split ¡into ¡features ¡and ¡converted ¡to ¡high ¡dimension ¡

vectors ¡

digi@singscotland@lscs.ac.uk ¡

Record ¡ Original ¡Input ¡ Cleaned ¡input ¡ Vector ¡ ¡ A ¡ Boot ¡and ¡shoe ¡maker ¡ boot ¡shoe ¡maker ¡ B ¡ Boot ¡and ¡shoe ¡dealer ¡ boot ¡shoe ¡dealer ¡ C ¡ Fireman ¡ fireman ¡ D ¡ Ca<le ¡(& ¡sheep) ¡farmer ¡ ca<le ¡sheep ¡farmer ¡

boot ¡ caIle ¡ dealer ¡ farmer ¡ fireman ¡ horse ¡ maker ¡ sheep ¡ shoe ¡ A ¡ 1 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 1 ¡ 0 ¡ 1 ¡ B ¡ 1 ¡ 0 ¡ 1 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 1 ¡ C ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 1 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ D ¡ 0 ¡ 1 ¡ 0 ¡ 1 ¡ 0 ¡ 0 ¡ 0 ¡ 1 ¡ 0 ¡

29 ¡

slide-30
SLIDE 30

Machine ¡Learning ¡

  • Inputs ¡are ¡split ¡into ¡features ¡and ¡converted ¡to ¡high ¡dimension ¡

vectors ¡

digi@singscotland@lscs.ac.uk ¡

Record ¡ Original ¡Input ¡ Cleaned ¡input ¡ Vector ¡ ¡ A ¡ Boot ¡and ¡shoe ¡maker ¡ boot ¡shoe ¡maker ¡ 100000101 ¡ B ¡ Boot ¡and ¡shoe ¡dealer ¡ boot ¡shoe ¡dealer ¡ 101000001 ¡ C ¡ Fireman ¡ fireman ¡ 000010000 ¡ D ¡ Ca<le ¡(& ¡sheep) ¡farmer ¡ ca<le ¡sheep ¡farmer ¡ 010100010 ¡

boot ¡ caIle ¡ dealer ¡ farmer ¡ fireman ¡ horse ¡ maker ¡ sheep ¡ shoe ¡ A ¡ 1 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 1 ¡ 0 ¡ 1 ¡ B ¡ 1 ¡ 0 ¡ 1 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 1 ¡ C ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 1 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ D ¡ 0 ¡ 1 ¡ 0 ¡ 1 ¡ 0 ¡ 0 ¡ 0 ¡ 1 ¡ 0 ¡

30 ¡

slide-31
SLIDE 31

Approach ¡to ¡Classifica@on ¡

digi@singscotland@lscs.ac.uk ¡ 31 ¡

Training ¡Data ¡

slide-32
SLIDE 32

Approach ¡to ¡Classifica@on ¡

digi@singscotland@lscs.ac.uk ¡ 32 ¡

Training ¡Data ¡ Train ¡Model ¡

slide-33
SLIDE 33

Approach ¡to ¡Classifica@on ¡

digi@singscotland@lscs.ac.uk ¡ 33 ¡

Training ¡Data ¡ Train ¡Model ¡ Classify ¡New ¡ Data ¡

slide-34
SLIDE 34

Approach ¡to ¡Classifica@on ¡

digi@singscotland@lscs.ac.uk ¡ 34 ¡

Training ¡ Data ¡ Train ¡ Model ¡ Classify ¡ New ¡Data ¡ Sample ¡ Data ¡

slide-35
SLIDE 35

Approach ¡to ¡Classifica@on ¡

digi@singscotland@lscs.ac.uk ¡ 35 ¡

Training ¡ Data ¡ Train ¡ Model ¡ Classify ¡ New ¡Data ¡ Sample ¡ Data ¡ Correct ¡ misclassifica@ons ¡

slide-36
SLIDE 36

Feature ¡Selec@on ¡

  • Changes ¡to ¡the ¡data ¡input ¡to ¡the ¡classifica@on ¡system ¡
  • Feature ¡Selec@on ¡

– Selec@ng ¡the ¡most ¡appropriate ¡features ¡to ¡use ¡in ¡the ¡ training ¡data ¡

  • Analyse ¡the ¡input ¡to ¡iden@fy ¡features ¡are ¡likely ¡to ¡harm ¡the ¡

quality ¡of ¡the ¡classifica@on ¡

  • Common ¡words ¡that ¡appear ¡in ¡lots ¡of ¡different ¡output ¡codes. ¡
  • Example: ¡“farmers ¡daughter”, ¡“Butchers ¡daughter”… ¡

– Remove ¡the ¡word ¡daughter. ¡

digi@singscotland@lscs.ac.uk ¡ 36 ¡

slide-37
SLIDE 37

Gold ¡Standard ¡Misclassifica@on ¡

  • Varia@ons ¡in ¡coding ¡of ¡unique ¡strings ¡make ¡it ¡

harder ¡to ¡calculate ¡a ¡good ¡model ¡

  • Different ¡coders, ¡extra ¡data, ¡mistakes ¡
  • Try ¡removing ¡strings ¡coded ¡to ¡mul@ple ¡codes ¡
  • Try ¡changing ¡less ¡common ¡codes ¡to ¡most ¡

common ¡

digi@singscotland@lscs.ac.uk ¡ 37 ¡

slide-38
SLIDE 38

Edit ¡Distance ¡Classifier ¡

  • Rela@vely ¡simple ¡string ¡similarity ¡classifier ¡
  • HISCO ¡uses ¡numerical ¡codes, ¡so ¡compare ¡with ¡

code ¡descrip@on ¡

  • Assume ¡similar ¡inputs ¡have ¡similar ¡descrip@ons ¡
  • Similarity ¡measured ¡using ¡edit ¡distance ¡

– Number ¡of ¡single-­‑character ¡inser@ons, ¡dele@ons ¡or ¡ replacements ¡needed ¡to ¡transform ¡

  • Look ¡for ¡highest ¡number ¡of ¡exact ¡matches ¡

between ¡words, ¡fall ¡back ¡to ¡similarity ¡if ¡equal ¡ number ¡of ¡matches. ¡

¡

digi@singscotland@lscs.ac.uk ¡ 38 ¡

slide-39
SLIDE 39

Edit ¡Distance ¡Example ¡

Occupa'on ¡ Gold ¡Standard ¡Output ¡ Edit ¡Distance ¡Output ¡ Hotel ¡proprietor ¡ Working ¡Proprietor ¡(Hotel ¡ and ¡Restaurant) ¡ Working ¡Proprietor ¡(Hotel ¡ and ¡Restaurant) ¡ Taxi ¡driver ¡ Taxi ¡driver ¡ Taxi ¡driver ¡ Tax ¡clerk ¡ Tax ¡collector ¡ Tax ¡collector ¡ Painter ¡& ¡decorator ¡ Painters, ¡Construc@on ¡ Sign ¡Painter ¡ File ¡Cu<er ¡ Machinery ¡Fi<ers, ¡Machine ¡ Assemblers ¡and ¡Precision ¡ Instrument ¡Makers ¡(except ¡ Electrical) ¡NEC ¡ Stock ¡Clerks ¡

digi@singscotland@lscs.ac.uk ¡ 39 ¡

slide-40
SLIDE 40

Edit ¡Distance ¡Example ¡

Occupa'on ¡ Gold ¡Standard ¡Output ¡ Edit ¡Distance ¡Output ¡ Hotel ¡proprietor ¡ Working ¡Proprietor ¡(Hotel ¡ and ¡Restaurant) ¡ Working ¡Proprietor ¡(Hotel ¡ and ¡Restaurant) ¡ Taxi ¡driver ¡ Taxi ¡driver ¡ Taxi ¡driver ¡ Tax ¡clerk ¡ Tax ¡collector ¡ Tax ¡collector ¡ Painter ¡& ¡decorator ¡ Painters, ¡Construc@on ¡ Sign ¡Painter ¡ File ¡Cu<er ¡ Machinery ¡Fi<ers, ¡Machine ¡ Assemblers ¡and ¡Precision ¡ Instrument ¡Makers ¡(except ¡ Electrical) ¡NEC ¡ Stock ¡Clerks ¡

digi@singscotland@lscs.ac.uk ¡ 40 ¡

slide-41
SLIDE 41

Edit ¡Distance ¡Example ¡

Occupa'on ¡ Gold ¡Standard ¡Output ¡ Edit ¡Distance ¡Output ¡ Hotel ¡proprietor ¡ Working ¡Proprietor ¡(Hotel ¡ and ¡Restaurant) ¡ Working ¡Proprietor ¡(Hotel ¡ and ¡Restaurant) ¡ Taxi ¡driver ¡ Taxi ¡driver ¡ Taxi ¡driver ¡ Tax ¡clerk ¡ Tax ¡collector ¡ Tax ¡collector ¡ Painter ¡& ¡decorator ¡ Painters, ¡Construc@on ¡ Sign ¡Painter ¡ File ¡Cu<er ¡ Machinery ¡Fi<ers, ¡Machine ¡ Assemblers ¡and ¡Precision ¡ Instrument ¡Makers ¡(except ¡ Electrical) ¡NEC ¡ Stock ¡Clerks ¡

digi@singscotland@lscs.ac.uk ¡ 41 ¡

slide-42
SLIDE 42

Individual ¡Machine ¡Learning ¡Classifiers ¡

  • Naïve ¡Bayes ¡

– Probabilis@c ¡classifier ¡ – Co-­‑occurrence ¡of ¡features ¡ ¡

  • Stochas@c ¡Gradient ¡Descent ¡

– Op@misa@on ¡of ¡logis@c ¡regression ¡

digi@singscotland@lscs.ac.uk ¡ 42 ¡

slide-43
SLIDE 43

Ensemble ¡Approaches ¡

  • Majority ¡vo@ng ¡

– Pick ¡the ¡most ¡frequent ¡classifica@on ¡

  • Confidence ¡threshold ¡technique ¡

– Pick ¡the ¡SGD ¡classifica@on ¡unless ¡its ¡likelihood ¡value ¡is ¡ below ¡a ¡given ¡threshold ¡

  • Pseudo ¡confidence ¡threshold ¡

– Produce ¡a ¡pseudo ¡measure ¡of ¡likelihood ¡for ¡the ¡Naive ¡ Naïve ¡classifier. ¡Pick ¡the ¡best ¡classifica@on ¡from ¡Naïve ¡ Bayes ¡and ¡SGD. ¡

digi@singscotland@lscs.ac.uk ¡ 43 ¡

slide-44
SLIDE 44

Experiments ¡

  • Which ¡single ¡classifica@on ¡technique ¡produces ¡the ¡

highest ¡accuracy ¡when ¡classifying ¡occupa@ons ¡to ¡ HISCO? ¡

  • Which ¡ensemble ¡technique ¡produces ¡the ¡highest ¡

accuracy? ¡

  • What ¡difference, ¡if ¡any, ¡does ¡using ¡feature ¡

selec@on ¡make? ¡

  • What ¡difference ¡does ¡fixing ¡or ¡removing ¡mul@ple ¡

codings ¡make? ¡

  • What ¡effect ¡does ¡classifying ¡to ¡different ¡HISCO ¡

levels ¡make? ¡

digi@singscotland@lscs.ac.uk ¡ 44 ¡

slide-45
SLIDE 45

Evalua@on ¡

  • Need ¡to ¡assess ¡the ¡quality ¡of ¡the ¡automa@c ¡

coding ¡

  • Hold ¡out ¡method ¡
  • Split ¡data ¡into ¡two ¡sets, ¡a ¡training ¡set ¡and ¡a ¡

valida@on ¡set ¡

  • 80% ¡chosen ¡for ¡training, ¡20% ¡for ¡valida@on ¡
  • Pick ¡a ¡new ¡training/test ¡set ¡each ¡repe@@on ¡
  • Correct ¡classifica@on ¡is ¡gold ¡standard ¡code ¡

matches ¡output ¡code ¡

digi@singscotland@lscs.ac.uk ¡ 45 ¡

slide-46
SLIDE 46

Accuracy ¡Measures ¡

  • HISCO ¡employs ¡a ¡hierarchical ¡structure ¡
  • If ¡we ¡are ¡only ¡interested ¡in ¡coarse ¡

classifica@ons ¡we ¡can ¡relax ¡the ¡closeness ¡of ¡ the ¡match ¡required ¡ ¡

  • Match ¡unit ¡group ¡
  • Match ¡minor ¡group ¡
  • Match ¡major ¡group ¡

digi@singscotland@lscs.ac.uk ¡ 46 ¡

slide-47
SLIDE 47

digi@singscotland@lscs.ac.uk ¡ 47 ¡

0 ¡ 10 ¡ 20 ¡ 30 ¡ 40 ¡ 50 ¡ 60 ¡ 70 ¡ 80 ¡ 90 ¡ 100 ¡ String ¡Similarity ¡ SGD ¡ Naïve ¡Bayes ¡ Majority ¡Vote ¡ Confidence ¡Weighted ¡1 ¡ Confidence ¡Weighted ¡2 ¡ Accuracy ¡% ¡ Techniques ¡

Classifica'on ¡Accuracy ¡

slide-48
SLIDE 48

digi@singscotland@lscs.ac.uk ¡ 48 ¡

0 ¡ 10 ¡ 20 ¡ 30 ¡ 40 ¡ 50 ¡ 60 ¡ 70 ¡ 80 ¡ 90 ¡ 100 ¡ string ¡sim ¡ SGD ¡ Naïve ¡Bayes ¡ Majority ¡Vote ¡ Confidence ¡ Weighted ¡1 ¡ Confidence ¡ Weighted ¡2 ¡ Accuracy ¡% ¡ Techniques ¡

Comparison ¡of ¡different ¡data ¡manipula'ons ¡techniques ¡

Data ¡Correc@on ¡ Feature ¡Selec@on ¡ ¡ Data ¡Corrected ¡ Data ¡Discarded ¡

slide-49
SLIDE 49

digi@singscotland@lscs.ac.uk ¡ 49 ¡

0 ¡ 10 ¡ 20 ¡ 30 ¡ 40 ¡ 50 ¡ 60 ¡ 70 ¡ 80 ¡ 90 ¡ 100 ¡ Exact ¡match ¡ Unit ¡group ¡ Minor ¡group ¡ Major ¡group ¡ Accuracy ¡% ¡ Hierarchy ¡level ¡matched ¡to ¡

Varying ¡levels ¡of ¡HISCO ¡hierarchy ¡with ¡Naïve ¡Bayes ¡Classifier ¡

slide-50
SLIDE 50

Summary ¡

  • Highest ¡accuracy: ¡Naïve ¡Bayes ¡classifier ¡with ¡

feature ¡selec@on ¡and ¡correc@on ¡of ¡mul@ply ¡ coded ¡descrip@ons. ¡ ¡

  • Exact ¡match ¡accuracy ¡using ¡this ¡technique ¡was ¡

92.3 ¡± ¡0.2% ¡

  • ¡Considering ¡only ¡major ¡group ¡matching ¡94.9 ¡± ¡

1.4% ¡was ¡achieved. ¡ ¡

  • Although ¡the ¡ensemble ¡did ¡not ¡improve ¡

performance, ¡addi@on ¡of ¡another ¡high ¡ performance ¡algorithm ¡should ¡yield ¡gains. ¡

digi@singscotland@lscs.ac.uk ¡ 50 ¡

slide-51
SLIDE 51

Discussion ¡

  • Previous ¡results ¡classifying ¡cause ¡of ¡death ¡

using ¡ensemble ¡methods ¡showed ¡ improvement ¡of ¡2-­‑3% ¡

  • Run ¡@mes: ¡

– String ¡Similarity: ¡a ¡few ¡minutes ¡ – ¡Naïve ¡Bayes: ¡a ¡few ¡minutes ¡ – SGD: ¡3-­‑4 ¡hours ¡depending ¡on ¡learning ¡parameters ¡

  • SGD ¡has ¡been ¡reworked, ¡preliminary ¡results: ¡

88-­‑94% ¡

digi@singscotland@lscs.ac.uk ¡ 51 ¡

slide-52
SLIDE 52

Future ¡Work ¡

  • Con@nue ¡machine ¡learning ¡and ¡string ¡

matching ¡development ¡to ¡classify ¡cause ¡of ¡ death ¡and ¡occupa@ons ¡

  • Con@nue ¡to ¡examine ¡behaviour ¡of ¡SGD ¡

algorithm ¡to ¡try ¡and ¡achieve ¡be<er ¡

  • performance. ¡ ¡
  • Add ¡further ¡machine ¡learning ¡models, ¡such ¡as ¡

support ¡vector ¡machines ¡into ¡the ¡ensemble ¡

digi@singscotland@lscs.ac.uk ¡ 52 ¡