automa c methods for coding historical occupa on descrip
play

Automa'c Methods for Coding Historical Occupa'on - PowerPoint PPT Presentation

Automa'c Methods for Coding Historical Occupa'on Descrip'ons to Standard Classifica'ons Graham Kirby, Jamie Carson, Fraser Dunlop, Chris Dibben, Alan Dearle, Lee


  1. Automa'c ¡Methods ¡for ¡Coding ¡Historical ¡ Occupa'on ¡ Descrip'ons ¡to ¡Standard ¡Classifica'ons ¡ Graham ¡Kirby, ¡Jamie ¡Carson, ¡Fraser ¡Dunlop, ¡Chris ¡ Dibben, ¡Alan ¡Dearle, ¡Lee ¡Williamson, ¡Eilidh ¡ Garre<, ¡Alice ¡Reid ¡ digi@singscotland@lscs.ac.uk ¡ ¡ digi@singscotland.cs.st-­‑andrews.ac.uk ¡ ¡ ¡

  2. Mo@va@on ¡ • Increasing ¡number ¡of ¡digi@sed ¡registra@on ¡ records ¡for ¡the ¡19 th ¡and ¡20 th ¡centuries. ¡ • Varying ¡forms ¡of ¡data ¡ • Scale ¡of ¡data ¡prevents ¡manual ¡analysis ¡ digi@singscotland@lscs.ac.uk ¡ 2 ¡

  3. Challenges ¡ • Significant ¡methodological ¡issues: ¡ – How ¡can ¡we ¡consistently ¡code ¡occupa@onal ¡data ¡ so ¡that ¡researchers ¡can ¡explore ¡changing ¡pa<erns ¡ and ¡trends? ¡ ¡ – How ¡can ¡we ¡automate ¡this ¡process ¡so ¡that ¡the ¡ majority ¡of ¡records ¡do ¡not ¡need ¡to ¡be ¡manually ¡ coded? ¡ digi@singscotland@lscs.ac.uk ¡ 3 ¡

  4. Digi@sing ¡Scotland ¡ • Records ¡of ¡births, ¡marriages ¡and ¡deaths ¡recorded ¡in ¡Scotland ¡ from ¡1855 ¡to ¡present ¡day. ¡ digi@singscotland@lscs.ac.uk ¡ 4 ¡

  5. Digi@sing ¡Scotland ¡ • Approximately ¡29 ¡million ¡ records ¡ • Approximately ¡50 ¡million ¡ Record ¡Type ¡ occupa@on ¡strings, ¡8 ¡ million ¡causes ¡of ¡death ¡ Births ¡ • Classify ¡occupa@ons ¡to ¡ Mariages ¡ Historical ¡Interna@onal ¡ Deaths ¡ Standard ¡Classifica@on ¡of ¡ Occupa@ons ¡(HISCO) ¡ • Cause ¡of ¡death ¡to ¡ICD10 ¡ ¡ digi@singscotland@lscs.ac.uk ¡ 5 ¡

  6. 6 ¡

  7. 7 ¡

  8. 8 ¡

  9. 9 ¡

  10. 10 ¡

  11. Experimental ¡Dataset ¡ • Vital ¡event ¡records ¡currently ¡being ¡transcribed ¡ • Use ¡a ¡dataset ¡with ¡similar ¡content ¡for ¡experiments ¡ • 60,000 ¡records ¡from ¡the ¡Cambridge ¡Family ¡History ¡ Study ¡(records ¡from ¡1800-­‑1990) ¡ • Occupa@on ¡descrip@ons ¡and ¡associated ¡HISCO ¡codes ¡ • HISCO ¡coding ¡done ¡by ¡historians ¡ • Dataset ¡contains ¡330 ¡different ¡HISCO ¡codes ¡ digi@singscotland@lscs.ac.uk ¡ 11 ¡

  12. HISCO ¡Hierarchy ¡Example ¡ ¡ digi@singscotland@lscs.ac.uk ¡ 12 ¡

  13. Classifica@on ¡Example ¡ String ¡from ¡record ¡ Gold ¡Standard ¡ Automa'c ¡Classifica'on ¡ Classifica'on ¡ Output ¡ Farm ¡horseman ¡ 62460 ¡ 62460 ¡ Shoe ¡maker ¡ 80110 ¡ 80110 ¡ Fireman ¡(railway) ¡ 98330 ¡ 98330 ¡ Fireman ¡ 58100 ¡ 58100 ¡ Sta@oner ¡ 41000 ¡ 91000 ¡ digi@singscotland@lscs.ac.uk ¡ 13 ¡

  14. Classifica@on ¡Example ¡ String ¡from ¡record ¡ Gold ¡Standard ¡ Automa'c ¡Classifica'on ¡ Classifica'on ¡ Output ¡ Farm ¡horseman ¡ 62460 ¡Horse ¡Worker ¡ 62460 ¡Horse ¡Worker ¡ Shoe ¡maker ¡ 80110 ¡Shoemaker, ¡General ¡ 80110 ¡Shoemaker, ¡General ¡ Fireman ¡(railway) ¡ 98330 ¡Railway ¡Steam-­‑ 98330 ¡Railway ¡Steam-­‑ Engine ¡Fireman ¡ Engine ¡Fireman ¡ ¡ Fireman ¡ 58100 ¡Fire-­‑Fighter ¡ 58100 ¡Fire-­‑Fighter ¡ Sta@oner ¡ 41000 ¡Working ¡Proprietors ¡ 91000 ¡Paper ¡and ¡ (Wholesale ¡and ¡Retail ¡ Paperboard ¡product ¡ Trade) ¡ makers ¡ digi@singscotland@lscs.ac.uk ¡ 14 ¡

  15. Classifica@on ¡Example ¡ String ¡from ¡record ¡ Gold ¡Standard ¡ Automa'c ¡Classifica'on ¡ Classifica'on ¡ Output ¡ Farm ¡horseman ¡ 62460 ¡Horse ¡Worker ¡ 62460 ¡Horse ¡Worker ¡ Shoe ¡maker ¡ 80110 ¡Shoemaker, ¡General ¡ 80110 ¡Shoemaker, ¡General ¡ Fireman ¡(railway) ¡ 98330 ¡Railway ¡Steam-­‑ 98330 ¡Railway ¡Steam-­‑ Engine ¡Fireman ¡ Engine ¡Fireman ¡ ¡ Fireman ¡ 58100 ¡Fire-­‑Fighter ¡ 58100 ¡Fire-­‑Fighter ¡ Sta@oner ¡ 41000 ¡Working ¡Proprietors ¡ 91000 ¡Paper ¡and ¡ (Wholesale ¡and ¡Retail ¡ Paperboard ¡product ¡ Trade) ¡ makers ¡ digi@singscotland@lscs.ac.uk ¡ 15 ¡

  16. Approach ¡ • Text ¡analysis ¡ • Supervised ¡machine ¡learning ¡ – Apache ¡Mahout ¡framework. ¡ • Combina@on ¡of ¡these ¡techniques. ¡ digi@singscotland@lscs.ac.uk ¡ 16 ¡

  17. Supervised ¡Machine ¡Learning ¡ Training ¡Data ¡ Machine ¡Learning ¡ Predic'on ¡Model ¡ Unseen ¡Data ¡ Predic'on ¡Model ¡ Predicted ¡Classifica'on ¡ digi@singscotland@lscs.ac.uk ¡ 17 ¡

  18. Supervised ¡Machine ¡Learning ¡ Training ¡Data ¡ Machine ¡Learning ¡ Predic'on ¡Model ¡ Farm ¡horseman ¡62460 ¡ Shoe ¡maker ¡80110 ¡ Fireman ¡ ¡58100 ¡ ¡ Sta@oner ¡ ¡41000 ¡ Unseen ¡Data ¡ Predic'on ¡Model ¡ Predicted ¡Classifica'on ¡ digi@singscotland@lscs.ac.uk ¡ 18 ¡

  19. Supervised ¡Machine ¡Learning ¡ Training ¡Data ¡ Machine ¡Learning ¡ Predic'on ¡Model ¡ Farm ¡horseman ¡62460 ¡ Shoe ¡maker ¡80110 ¡ Fireman ¡ ¡58100 ¡ ¡ Sta@oner ¡ ¡41000 ¡ Unseen ¡Data ¡ Predic'on ¡Model ¡ Predicted ¡Classifica'on ¡ Farm ¡horseman ¡ Boot ¡maker ¡ Fireman ¡ ¡ Painter ¡ ¡ digi@singscotland@lscs.ac.uk ¡ 19 ¡

  20. Supervised ¡Machine ¡Learning ¡ Training ¡Data ¡ Machine ¡Learning ¡ Predic'on ¡Model ¡ Farm ¡horseman ¡62460 ¡ Shoe ¡maker ¡80110 ¡ Fireman ¡ ¡58100 ¡ ¡ Sta@oner ¡ ¡41000 ¡ Unseen ¡Data ¡ Predic'on ¡Model ¡ Predic'on ¡Model ¡ Predicted ¡Classifica'on ¡ Farm ¡horseman ¡ ? ¡ Boot ¡maker ¡ Fireman ¡ ¡ Painter ¡ ¡ digi@singscotland@lscs.ac.uk ¡ 20 ¡

  21. Machine ¡Learning ¡ • Inputs ¡are ¡split ¡into ¡features ¡and ¡converted ¡to ¡high ¡dimension ¡ vectors ¡ Record ¡ Original ¡Input ¡ Cleaned ¡input ¡ Vector ¡ ¡ A ¡ Boot ¡and ¡shoe ¡maker ¡ B ¡ Boot ¡and ¡shoe ¡dealer ¡ C ¡ Fireman ¡ D ¡ Ca<le ¡(& ¡sheep) ¡farmer ¡ digi@singscotland@lscs.ac.uk ¡ 21 ¡

  22. Machine ¡Learning ¡ • Inputs ¡are ¡split ¡into ¡features ¡and ¡converted ¡to ¡high ¡dimension ¡ vectors ¡ Record ¡ Original ¡Input ¡ Cleaned ¡input ¡ Vector ¡ ¡ A ¡ Boot ¡ and ¡shoe ¡maker ¡ boot ¡shoe ¡maker ¡ B ¡ Boot ¡ and ¡shoe ¡dealer ¡ boot ¡shoe ¡dealer ¡ C ¡ Fireman ¡ fireman ¡ D ¡ Ca<le ¡ (& ¡sheep ) ¡farmer ¡ ca<le ¡sheep ¡farmer ¡ digi@singscotland@lscs.ac.uk ¡ 22 ¡

  23. Machine ¡Learning ¡ • Inputs ¡are ¡split ¡into ¡features ¡and ¡converted ¡to ¡high ¡dimension ¡ vectors ¡ Record ¡ Original ¡Input ¡ Cleaned ¡input ¡ Vector ¡ ¡ A ¡ Boot ¡ and ¡shoe ¡maker ¡ boot ¡shoe ¡maker ¡ B ¡ Boot ¡ and ¡shoe ¡dealer ¡ boot ¡shoe ¡dealer ¡ C ¡ Fireman ¡ fireman ¡ D ¡ Ca<le ¡ (& ¡sheep ) ¡farmer ¡ ca<le ¡sheep ¡farmer ¡ boot ¡ caIle ¡ dealer ¡ farmer ¡ fireman ¡ horse ¡ maker ¡ sheep ¡ shoe ¡ A ¡ B ¡ C ¡ D ¡ digi@singscotland@lscs.ac.uk ¡ 23 ¡

  24. Machine ¡Learning ¡ • Inputs ¡are ¡split ¡into ¡features ¡and ¡converted ¡to ¡high ¡dimension ¡ vectors ¡ Record ¡ Original ¡Input ¡ Cleaned ¡input ¡ Vector ¡ ¡ A ¡ Boot ¡ and ¡shoe ¡maker ¡ boot ¡shoe ¡maker ¡ B ¡ Boot ¡ and ¡shoe ¡dealer ¡ boot ¡shoe ¡dealer ¡ C ¡ Fireman ¡ fireman ¡ D ¡ Ca<le ¡ (& ¡sheep ) ¡farmer ¡ ca<le ¡sheep ¡farmer ¡ boot ¡ caIle ¡ dealer ¡ farmer ¡ fireman ¡ horse ¡ maker ¡ sheep ¡ shoe ¡ A ¡ 1 ¡ B ¡ C ¡ D ¡ digi@singscotland@lscs.ac.uk ¡ 24 ¡

  25. Machine ¡Learning ¡ • Inputs ¡are ¡split ¡into ¡features ¡and ¡converted ¡to ¡high ¡dimension ¡ vectors ¡ Record ¡ Original ¡Input ¡ Cleaned ¡input ¡ Vector ¡ ¡ A ¡ Boot ¡ and ¡shoe ¡maker ¡ boot ¡shoe ¡maker ¡ B ¡ Boot ¡ and ¡shoe ¡dealer ¡ boot ¡shoe ¡dealer ¡ C ¡ Fireman ¡ fireman ¡ D ¡ Ca<le ¡ (& ¡ sheep ) ¡farmer ¡ ca<le ¡sheep ¡farmer ¡ boot ¡ caIle ¡ dealer ¡ farmer ¡ fireman ¡ horse ¡ maker ¡ sheep ¡ shoe ¡ A ¡ 1 ¡ 0 ¡ B ¡ C ¡ D ¡ digi@singscotland@lscs.ac.uk ¡ 25 ¡

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend