Crowdsourcing CSCI 470: Web Science Keith Vertanen - - PowerPoint PPT Presentation

crowdsourcing
SMART_READER_LITE
LIVE PREVIEW

Crowdsourcing CSCI 470: Web Science Keith Vertanen - - PowerPoint PPT Presentation

Crowdsourcing CSCI 470: Web Science Keith Vertanen Overview Crowdsourcing = Crowd + Outsourcing Incented coopera6on Paid tasks Compe66ons


slide-1
SLIDE 1

CSCI ¡470: ¡Web ¡Science ¡ ¡• ¡ ¡Keith ¡Vertanen ¡

Crowdsourcing ¡

slide-2
SLIDE 2

Overview ¡

  • Crowdsourcing ¡= ¡Crowd ¡+ ¡Outsourcing ¡

– Incented ¡coopera6on ¡

  • Paid ¡tasks ¡
  • Compe66ons ¡

– Forced ¡coopera6on ¡ – Volunteer ¡coopera6on ¡

2 ¡

slide-3
SLIDE 3

Paid ¡crowdsourcing ¡

3 ¡

slide-4
SLIDE 4

Amazon ¡Mechanical ¡Turk ¡

  • Human ¡Intelligence ¡Task ¡(HIT) ¡

– Workers ¡and ¡requestors ¡ – Web-­‑based ¡

  • HTML ¡+ ¡JavaScript ¡if ¡hosted ¡en6rely ¡on ¡MTurk ¡

– Price ¡per ¡HIT ¡ – # ¡of ¡workers ¡per ¡HIT ¡ – Qualifica6ons ¡for ¡workers ¡ – Accept/reject ¡work ¡

4 ¡ hVp://waxy.org/2008/11/the_faces_of_mechanical_turk/ ¡ hVp://www.behind-­‑the-­‑enemy-­‑lines.com/2010/03/new-­‑ demographics-­‑of-­‑mechanical-­‑turk.html ¡

slide-5
SLIDE 5

Specialty ¡paid ¡markets ¡

5 ¡

slide-6
SLIDE 6

Crowdsourcing ¡for ¡prizes ¡

  • 2009 ¡DARPA ¡network ¡challenge ¡

– Defense ¡Advanced ¡Research ¡Projects ¡Agency ¡ ¡ – 40th ¡anniversary ¡of ¡the ¡Internet ¡ – $40,000 ¡first ¡team ¡to ¡locate ¡

  • 10 ¡moored, ¡8 ¡foot, ¡red, ¡weather ¡balloons ¡
  • 10 ¡previously ¡undisclosed ¡loca6ons ¡

– 4,000 ¡teams ¡competed ¡

6 ¡

slide-7
SLIDE 7

7 ¡

slide-8
SLIDE 8

MIT ¡team’s ¡strategy ¡

  • Mul6-­‑level ¡marke6ng ¡

– $2000: ¡whoever ¡sends ¡correct ¡coordinates ¡ – $1000: ¡whoever ¡invited ¡them ¡ – $500: ¡whoever ¡invited ¡person ¡who ¡invited ¡them ¡ – $250: ¡… ¡

  • Mobilizing ¡people ¡requires ¡right ¡incen6ve ¡
  • Georgia ¡Tech ¡

– Promised ¡to ¡donate ¡proceeds ¡to ¡charity ¡ – 2nd ¡place ¡

8 ¡

hVp://www.youtube.com/watch?v=6Ga_EJWLzHA ¡

slide-9
SLIDE 9

Nellix ¡prize ¡

  • $1M ¡prize ¡
  • Predict ¡ra6ngs ¡given ¡past ¡ra6ngs ¡

– Goal: ¡10% ¡improvement ¡over ¡Nellix's ¡algorithm ¡ – Started ¡Oct. ¡2006, ¡won ¡in ¡Sept. ¡2009 ¡

  • Data: ¡ ¡

– Training: ¡100M ¡ra6ngs, ¡480K ¡users, ¡18K ¡movies ¡

  • user, ¡movie, ¡date ¡of ¡grade, ¡grade ¡

– Quiz ¡set ¡(1.4M), ¡Test ¡set ¡(1.4M) ¡ – BellKor's ¡Pragma6c ¡Chaos ¡

  • 10.06% ¡improvement ¡

9 ¡

slide-10
SLIDE 10

Forced ¡crowdsourcing ¡

  • CAPTCHA ¡

– Completely ¡Automated ¡Public ¡Turing ¡test ¡to ¡tell ¡ Computer ¡and ¡Humans ¡Apart ¡ – Challenge ¡response ¡test ¡to ¡prevent ¡bots ¡

  • reCAPTCHA ¡

– Originally ¡CMU ¡project, ¡acquired ¡by ¡Google ¡ – Helps ¡digi6ze ¡books, ¡newspapers, ¡old ¡6me ¡radio ¡ – 200 ¡million ¡CAPTCHAs ¡/ ¡day ¡

10 ¡

slide-11
SLIDE 11

Problems: ¡CAPTCHA ¡

  • Accessibility ¡

– Audio ¡versions ¡

  • Defea6ng ¡CAPTCHA ¡

– Use ¡vision/machine ¡learning ¡ – Replay ¡to ¡humans ¡to ¡solve ¡

  • Sweat ¡shop: ¡solve ¡for ¡$4/day ¡

– Replay ¡on ¡high ¡volume ¡site ¡

11 ¡

slide-12
SLIDE 12

12 ¡

Volunteer ¡crowdsourcing ¡

slide-13
SLIDE 13
  • Online ¡astronomy ¡project ¡

– Ci6zen ¡science: ¡volunteers ¡classify ¡galaxies ¡

  • Original ¡version(2007) ¡

– Sloan ¡Digital ¡Sky ¡Survey, ¡1M ¡image ¡galaxies ¡ – Classify: ¡ellip6cal/spiral, ¡clockwise/an6-­‑clockwise ¡

  • 24 ¡hours ¡arer ¡launch: ¡70,000 ¡classifica6on/hour ¡
  • 50M ¡classifica6ons/year ¡from ¡150K ¡people ¡
  • Mul6ple ¡volunteers ¡= ¡good ¡as ¡professional ¡astronomers ¡

13 ¡

slide-14
SLIDE 14
  • Galaxy ¡Zoo ¡2 ¡

– 250K ¡brightest ¡galaxies ¡from ¡Galaxy ¡Zoo ¡ – More ¡detailed ¡classifica6on: ¡

  • ¡Shape/intensity, ¡oddi6es ¡

– 60M ¡classifica6ons ¡

  • Galaxy ¡Zoo ¡Hubble ¡

– Images ¡from ¡NASA ¡Hubble ¡telescope ¡ – Many ¡more ¡ques6ons ¡

  • Is ¡it ¡smooth ¡with ¡no ¡sign ¡of ¡a ¡disk? ¡
  • How ¡rounded ¡is ¡it? ¡
  • Could ¡this ¡be ¡a ¡disk ¡viewed ¡edge-­‑on? ¡

14 ¡

slide-15
SLIDE 15

Crowdsourced ¡games ¡

  • ESP ¡game ¡

– Pairs ¡of ¡players ¡try ¡and ¡guess ¡same ¡word ¡for ¡ image ¡ – “Labeling ¡Images ¡with ¡a ¡Computer ¡Game” ¡

  • Luis ¡von ¡Ahn ¡and ¡Laura ¡Dabbish, ¡CHI ¡2004 ¡

15 ¡

slide-16
SLIDE 16

Crowdsourced ¡games ¡

  • Foldit ¡
  • EteRNA ¡

– Games ¡related ¡to ¡folding ¡of ¡RNA ¡molecules ¡

16 ¡

slide-17
SLIDE 17

Crowdsourcing ¡art ¡

17 ¡

hVp://swarmsketch.com/view/snakes-­‑on-­‑a-­‑plane ¡ ¡ hVp://www.thejohnnycashproject.com/ ¡ hVps://www.youtube.com/watch?v=JaFVr_cJJIY ¡ ¡