assessing the impact of a health intervention via user
play

Assessing the impact of a health intervention via - PowerPoint PPT Presentation

Assessing the impact of a health intervention via user-generated Internet data Data Mining and Knowledge Discovery 29(5), pp. 14341457, 2015 Vasileios Lampos


  1. Assessing ¡the ¡impact ¡of ¡a ¡health ¡intervention ¡ via ¡user-­‑generated ¡Internet ¡data ¡ Data ¡Mining ¡and ¡Knowledge ¡Discovery ¡29(5), ¡pp. ¡1434–1457, ¡2015 Vasileios ¡Lampos , ¡Elad ¡Yom-­‑Tov, ¡ ¡ Richard ¡Pebody ¡and ¡Ingemar ¡J. ¡Cox ECML ¡PKDD ¡2015, ¡Porto, ¡Portugal

  2. ๏ Background ¡and ¡motivation ¡ ๏ Nowcasting ¡disease ¡rates ¡from ¡online ¡text ¡ ๏ Estimating ¡the ¡impact ¡of ¡a ¡health ¡intervention ¡ ๏ Case ¡study: ¡influenza ¡vaccination ¡impact ¡ ๏ Conclusions ¡& ¡future ¡work 1% Assessing ¡the ¡impact ¡of ¡a ¡health ¡intervention ¡via ¡online ¡content

  3. Online, ¡user-­‑generated ¡data + Social ¡media, ¡blogs, ¡search ¡engine ¡query ¡logs ¡ + Proxy ¡of ¡real-­‑world ¡( online + offline ) ¡behaviour ¡ + Complementary ¡information ¡sensors ¡to ¡more ¡ ‘traditional’ ¡crowdsourcing ¡efforts ¡ + Can ¡answer ¡questions ¡difficult ¡to ¡resolve ¡otherwise ¡ + Strong ¡predictive ¡power

  4. Online, ¡user-­‑generated ¡data ¡— ¡Applications + Politics ¡ • voting ¡intention ¡ ( Lampos, ¡Preotiuc-­‑Pietro ¡& ¡Cohn, ¡2013 ) • result ¡of ¡an ¡election ¡ ( Tumasjan ¡et ¡al., ¡2010 ) + Finance ¡ • financial ¡indices ¡ ( Bollen, ¡Mao ¡& ¡Zeng, ¡2011 ) • tourism ¡patterns ¡ ( Choi ¡& ¡Varian, ¡2012 ) + User ¡profiling ¡ • age ¡ ( Rao ¡et ¡al., ¡2010 ) • gender ¡ ( Burger ¡et ¡al., ¡2011 ) • occupation ( Preotiuc-­‑Pietro, ¡Lampos ¡& ¡Aletras, ¡2015 )

  5. Online, ¡user-­‑generated ¡data ¡for ¡health Traditional ¡disease ¡surveillance ¡ - does ¡not ¡cover ¡the ¡entire ¡population ¡ - not ¡present ¡everywhere ¡(cities ¡/ ¡countries) ¡ - not ¡always ¡timely ¡ Digital ¡disease ¡surveillance ¡ + different ¡or ¡better ¡population ¡coverage ¡ + better ¡geographical ¡granularity ¡ + useful ¡in ¡underdeveloped ¡parts ¡of ¡the ¡world ¡ + almost ¡instant ¡ - noisy, ¡unstructured ¡information e.g. ¡( Lampos ¡& ¡Cristianini, ¡2010 ¡& ¡2012 ), ¡( Lamb, ¡Paul ¡& ¡Dredze, ¡2013 ), ¡( Lampos ¡et ¡al., ¡2015 ) ¡

  6. What ¡this ¡work ¡is ¡all ¡about disease ¡rates impact ? ( Pebody ¡& ¡Cox, ¡2015 Health ¡intervention

  7. What ¡this ¡work ¡is ¡all ¡about disease ¡rates impact ? ( Lampos, ¡Yom-­‑Tov, ¡ Pebody ¡& ¡Cox, ¡2015 ) Health ¡intervention

  8. ✓ Background ¡and ¡motivation ¡ ๏ Estimating ¡disease ¡rates ¡from ¡online ¡text ¡ ๏ Estimating ¡the ¡impact ¡of ¡a ¡health ¡intervention ¡ ๏ Case ¡study: ¡influenza ¡vaccination ¡impact ¡ ๏ Conclusions ¡& ¡future ¡work 15% Assessing ¡the ¡impact ¡of ¡a ¡health ¡intervention ¡via ¡online ¡content

  9. Estimating ¡disease ¡rates ¡from ¡online ¡text time ¡intervals N n-­‑grams M X ∈ R N × M frequency ¡of ¡n-­‑grams ¡during ¡the ¡time ¡intervals y ∈ R N disease ¡rates ¡during ¡the ¡time ¡intervals Ridge ¡regression 0 1 N M ( x i w + β − y i ) 2 + κ X X w 2 argmin ( Hoerl ¡& ¡Kennard, ¡1970 ) @ j A w , β i =1 j =1 Elastic ¡net 0 1 N M M ( x i w + β − y i ) 2 + λ 1 X X X w 2 argmin | w j | + λ 2 ( Zou ¡& ¡Hastie, ¡2005 ) @ j A w , β i =1 j =1 j =1

  10. Estimating ¡disease ¡rates ¡from ¡online ¡text Gaussian ¡Process � � µ ( x ) = 0 , k ( x , x 0 ) f ( x ) ⇠ GP ( Rasmussen ¡& ¡Williams, ¡2006 ) Rational ¡Quadratic ¡covariance ¡function ¡(kernel) ◆ � α 1 + k x � x 0 k 2 ✓ k RQ ( x , x 0 ) = � 2 2 2 ↵` 2 infinite ¡sum ¡of ¡squared ¡exponential ¡(RBF) ¡kernels One ¡kernel ¡per ¡n-­‑gram ¡category ¡ varied ¡usage ¡patterns , ¡ increasing ¡semantic ¡value C ! X k ( x , x 0 ) = k RQ ( g n , g 0 + k N ( x , x 0 ) n ) n =1 see ¡also ¡(

  11. Estimating ¡disease ¡rates ¡from ¡online ¡text Gaussian ¡Process � � µ ( x ) = 0 , k ( x , x 0 ) f ( x ) ⇠ GP ( Rasmussen ¡& ¡Williams, ¡2006 ) Rational ¡Quadratic ¡covariance ¡function ¡(kernel) ◆ � α 1 + k x � x 0 k 2 ✓ k RQ ( x , x 0 ) = � 2 2 2 ↵` 2 infinite ¡sum ¡of ¡squared ¡exponential ¡(RBF) ¡kernels One ¡kernel ¡per ¡n-­‑gram ¡category ¡ varied ¡usage ¡patterns , ¡ increasing ¡semantic ¡value C ! X k ( x , x 0 ) = k RQ ( g n , g 0 + k N ( x , x 0 ) n ) n =1 see ¡also ¡( Lampos ¡et ¡al., ¡2015 )

  12. Estimating ¡influenza-­‑like ¡illness ¡(ILI) ¡rates ¡— ¡Data User-­‑generated ¡data , ¡geolocated ¡in ¡England ¡ • Twitter: ¡May ¡2011 ¡to ¡April ¡2014 ¡( 308 ¡million ¡tweets ) ¡ • Bing: ¡end ¡of ¡December ¡2012 ¡to ¡April ¡2014 ILI ¡rates ¡from ¡Public ¡Health ¡England ¡(PHE) 0.04 ILI rates (PHE) Bing ILI rate per 100 people 0.03 0.02 0.01 0 2012 2013 2014

  13. Estimating ¡ILI ¡rates ¡— ¡Feature ¡extraction • Start ¡with ¡a ¡manually ¡crafted ¡list ¡of ¡ 36 ¡textual ¡ markers , ¡e.g. ¡ flu , ¡ headache , ¡ doctor , ¡ cough ¡ ¡ • Extract ¡frequent ¡co-­‑occurring ¡n-­‑grams ¡from ¡a ¡corpus ¡ of ¡30 ¡million ¡UK ¡tweets ¡(February ¡& ¡March, ¡2014) ¡ after ¡removing ¡stop-­‑words ¡ • Set ¡of ¡markers ¡expanded ¡to ¡ 205 ¡n-­‑grams ¡(n ¡≤ ¡4) 
 e.g. ¡ #flu , ¡ #cough , ¡ annoying ¡cough , ¡ worst ¡sore ¡throat ¡ ¡ • Relatively ¡small ¡set ¡of ¡features ¡motivated ¡by ¡ previous ¡work ¡ ( Culotta, ¡2013 )

  14. Estimating ¡ILI ¡rates ¡— ¡Experimental ¡setup Two ¡time ¡intervals ¡based ¡on ¡the ¡different ¡temporal ¡ coverage ¡of ¡Twitter ¡and ¡Bing ¡data ¡ • Dt1 : ¡154 ¡weeks ¡(May ¡2011 ¡to ¡April ¡2014) ¡ • Dt2 : ¡67 ¡weeks ¡(December ¡2012 ¡to ¡April ¡2014) ¡ Stratified ¡ 10-­‑fold ¡cross ¡validation ¡ Error ¡metrics ¡ • Pearson ¡correlation ¡( r ) ¡ • Mean ¡Absolute ¡Error ¡( MAE )

  15. Estimating ¡ILI ¡rates ¡— ¡Performance Ridge ¡Regression Elastic ¡Net Gaussian ¡Process 1 0.952 0.924 0.9 Pearson ¡correlation ¡(r) 0.867 0.845 0.8 0.814 0.744 0.7 0.718 0.698 0.64 0.6 0.5 Twitter ¡(Dt1) Twitter ¡(Dt2) Bing ¡(Dt2) User-­‑generated ¡data ¡source

  16. Estimating ¡ILI ¡rates ¡— ¡Performance Ridge ¡Regression Elastic ¡Net Gaussian ¡Process 4.2 4.084 3.56 x ¡10 3 3.198 2.92 3.074 2.963 MAE 2.828 2.564 2.28 2.196 1.999 1.64 1.598 1 Twitter ¡(Dt1) Twitter ¡(Dt2) Bing ¡(Dt2) User-­‑generated ¡data ¡source

  17. ✓ Background ¡and ¡motivation ¡ ✓ Estimating ¡disease ¡rates ¡from ¡online ¡text ¡ ๏ Estimating ¡the ¡impact ¡of ¡a ¡health ¡intervention ¡ ๏ Case ¡study: ¡influenza ¡vaccination ¡impact ¡ ๏ Conclusions ¡& ¡future ¡work 41% Assessing ¡the ¡impact ¡of ¡a ¡health ¡intervention ¡via ¡online ¡content

  18. Estimating ¡the ¡impact ¡of ¡a ¡health ¡intervention 1. Disease ¡intervention ¡launched ¡(to ¡a ¡set ¡of ¡areas) ¡ 2. Define ¡a ¡distinct ¡set ¡of ¡control ¡areas ¡ 3. Estimate ¡disease ¡rates ¡in ¡all ¡areas ¡ 4.Identify ¡pairs ¡of ¡areas ¡with ¡strong ¡historical ¡correlation ¡ in ¡their ¡disease ¡rates ¡ 5. Use ¡this ¡relationship ¡during ¡and ¡slightly ¡after ¡the ¡ intervention ¡to ¡infer ¡diseases ¡rates ¡in ¡the ¡affected ¡areas ¡ had ¡the ¡intervention ¡not ¡taken ¡place

  19. Estimating ¡the ¡impact ¡of ¡a ¡health ¡intervention time ¡interval(s) ¡before ¡the ¡intervention τ = { t 1 , . . . , t N } location(s) ¡where ¡the ¡intervention ¡took ¡place v control ¡location(s) c disease ¡rate(s) ¡in ¡ disease ¡rate(s) ¡in ¡ r ( q ⌧ v , q ⌧ affected ¡location ¡ control ¡location ¡ c ) before ¡intervention before ¡intervention high N � 2 X q t i c w + β − q t i such ¡that � argmin f ( w, β ) : R → R v w, � i =1

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend