sample cat project
play

Sample.Cat Project Comment Twitter reflte les sentiments dune - PowerPoint PPT Presentation

Sample.Cat Project Comment Twitter reflte les sentiments dune population en tat de choc ? Mathieu Gaborit PSES-HSF 3 juillet 2016 Contenu 1. Remember... 2. Qui est on ? 3. TimeLine & Dfis passs 4. La suite : Machine


  1. Sample.Cat Project Comment Twitter reflète les sentiments d’une population en état de choc ? Mathieu Gaborit PSES-HSF – 3 juillet 2016

  2. Contenu 1. Remember... 2. Qui est ”on” ? 3. TimeLine & Défis passés 4. La suite : Machine Learning 5. Un peu de socio 6. We have cookies

  3. Celui qui chante cause Mathieu Gaborit • Padawan physicien • Idéaliste pythoniste aimant les données • Intéressé par... un peu tout

  4. Remember...

  5. Souvenez vous…

  6. Jan. 2015 Juil. 2015 Jan. 2016 Juil. 2016 Jan. 2017 Charlie Hebdo: 15 personnes Source Wikipédia

  7. Jan. 2015 Juil. 2015 Jan. 2016 Juil. 2016 Jan. 2017 Hyper Casher: 5 personnes Source Wikipédia

  8. Jan. 2015 Juil. 2015 Jan. 2016 Juil. 2016 Jan. 2017 Thalys: 4 personnes Source Wikipédia

  9. Jan. 2015 Juil. 2015 Jan. 2016 Juil. 2016 Jan. 2017 Paris Attacks: 500 personnes Source Wikipédia

  10. Jan. 2015 Juil. 2015 Jan. 2016 Juil. 2016 Jan. 2017 San Bernardino: 15 personnes Source Wikipédia

  11. Jan. 2015 Juil. 2015 Jan. 2016 Juil. 2016 Jan. 2017 Istanbul: 25 personnes Source Wikipédia

  12. Jan. 2015 Juil. 2015 Jan. 2016 Juil. 2016 Jan. 2017 Brussels: 360 personnes Source Wikipédia

  13. Jan. 2015 Juil. 2015 Jan. 2016 Juil. 2016 Jan. 2017 Orlando: 100 personnes Source Wikipédia

  14. Jan. 2015 Juil. 2015 Jan. 2016 Juil. 2016 Jan. 2017 Istanbul (Atatürk) : 200 personnes Source Wikipédia

  15. Things that shape you... Beaucoup de crises sociales depuis quelques années : • nouvelle montée d’un “terrorisme d’état” • retour des questions d’identité nationale • toujours moins d’accord entre population et gouvernement • propagation de l’info toujours plus rapide (stress partagé) Hypothèse : ces crises sociales modifient la perception du monde et les réactions futures

  16. Things that shape you... Beaucoup de crises sociales depuis quelques années : • nouvelle montée d’un “terrorisme d’état” • retour des questions d’identité nationale • toujours moins d’accord entre population et gouvernement • propagation de l’info toujours plus rapide (stress partagé) Hypothèse : ces crises sociales modifient la perception du monde et les réactions futures

  17. Problème à deux échelles A l’échelle d’une personne • analyse psychologique • réflexion sur le penchant affectif • lien avec des peurs personnelles • prise en compte des expériences passées A l’échelle d’une population • analyses sociologique & politique • effets à moyen et long terme • réflexion sur l’appartenance à des groupes, des communautés • problème statistique

  18. Problème à deux échelles A l’échelle d’une personne • analyse psychologique • réflexion sur le penchant affectif • lien avec des peurs personnelles • prise en compte des expériences passées A l’échelle d’une population • analyses sociologique & politique • effets à moyen et long terme • réflexion sur l’appartenance à des groupes, des communautés • problème statistique

  19. Problème à deux échelles A l’échelle d’une personne • analyse psychologique • réflexion sur le penchant affectif • lien avec des peurs personnelles • prise en compte des expériences passées A l’échelle d’une population • analyses sociologique & politique • effets à moyen et long terme • réflexion sur l’appartenance à des groupes, des communautés • problème statistique

  20. Comment mesurer ? questions • impartial par essence Mais... • de la définition des marqueurs • du défi technique Pas toujours idéal à cause... Data-mining sur des réseaux sociaux • l’impartialité des Plusieurs approches et en particulier : • la représentativité Mais pas pour... • le contrôle du volume • la mise en oeuvre Sympa pour... Sondage classique/internet • représentativité analysée

  21. Comment mesurer ? questions • impartial par essence Mais... • de la définition des marqueurs • du défi technique Pas toujours idéal à cause... Data-mining sur des réseaux sociaux • l’impartialité des Plusieurs approches et en particulier : • la représentativité Mais pas pour... • le contrôle du volume • la mise en oeuvre Sympa pour... Sondage classique/internet • représentativité analysée

  22. Comment mesurer ? questions • impartial par essence Mais... • de la définition des marqueurs • du défi technique Pas toujours idéal à cause... Data-mining sur des réseaux sociaux • l’impartialité des Plusieurs approches et en particulier : • la représentativité Mais pas pour... • le contrôle du volume • la mise en oeuvre Sympa pour... Sondage classique/internet • représentativité analysée

  23. Sample.Cat Project Quelles informations peut-on tirer de l’activité d’une population sur Twitter ?

  24. Qui est ”on” ?

  25. Team – Part 1 Ahmet Aker, PhD • PhD en NLP • Research Fellow à USFD (Sheffield, UK) • Intéressé par l’extraction d’informations et la classification Baekkwan Park, PhD • PhD en Sciences Politiques • Chercheur post-doc à MSU (East Lansing, USA) • Intéressé par les problématiques sociales et NLP

  26. Team – Part 2 Ben Michalski • Ingénieur logiciel sur des projets web • Problem-solver on steroids • Intéressé par le côté BigData (récup., stockage, manip.) Fred Blain, PhD • Co-fondateur du HAUM • Chercheur post-doc à USFD (Sheffield, UK) • Intéressé par les problématiques NLP/ML

  27. TimeLine & Défis passés

  28. s 3 s e # l w é s a d k r i l c a s T e s M e r è d U i m A t H u e b r é P D Statistiques Classification (supervisée) Clustering Analyse sémantique Timeline … 13 Nov. 15 s k c a t t A s i r a P #

  29. 3 s # l w s a k r l c a T s M e d U A t H u b é D Statistiques Classification (supervisée) Clustering Analyse sémantique Timeline … Déc. 15 s s k e c é a d t i t A s s e i r r è a i P m # e r P

  30. s l w a r c s e d t u b é D 8 Jan. 16 Statistiques Classification (supervisée) Clustering Analyse sémantique Timeline … s s 3 k e # c é s a d k t i l t a A s T s e M i r r è U a i P m A # H e r P

  31. Timeline Mars 16 Analyse sémantique Clustering Classification (supervisée) Statistiques … s s 3 s k e # l w c é s a a d k t r i l t c a A s T s e s M i e r r è d U a i P m A t # u H e b r é P D

  32. Timeline Statistiques Analyse sémantique Clustering Classification (supervisée) … s s 3 s k e # l w c é s a a d k t r i l t c a A s T s e s M i e r r è d U a i P m A t # u H e b r é P D

  33. Réduction du champ 2 questions pour l’instant : Twitter ? 2. Quelle est l’influence des médias sur le sentiment global ? Outils pour y répondre : 1. Classification supervisée, Markov Chains 2. Analyse statistique, traitement de signal, NLP 3. Quelques idées farfelues à tester 1. Peut-on définir un temps caractéristique social en observant

  34. Réduction du champ 2 questions pour l’instant : Twitter ? 2. Quelle est l’influence des médias sur le sentiment global ? Outils pour y répondre : 1. Classification supervisée, Markov Chains 2. Analyse statistique, traitement de signal, NLP 3. Quelques idées farfelues à tester 1. Peut-on définir un temps caractéristique social en observant

  35. Prérequis Statistiques, Machine Learning non supervisé Besoin de grands jeux de données Analyse sémantique, Machine Learning supervisé Besoin de jeux qualifiés et annotés

  36. TimeLine & Défis passés Récupérer des tweets : défi #1

  37. Des tweets dans le passé Twitter est l’instantané même… …la récupération “facile” dans le passé est limitée à 10 jours. Solution : mettre en place un crawler sauce Michalski ! 1. Scrapping web sur la recherche avancée (géoloc) : 86kT 2. Enrichissement via /statuses/lookup 3. Extraction des hashtags : 26k# 4. Filtrage (violent, par nombre d’occurences) 5. Scrapping et enrichissement jour par jour, hashtag par hashtag Autre solution (payante) : gnip.com

  38. Des tweets dans le passé Twitter est l’instantané même… …la récupération “facile” dans le passé est limitée à 10 jours. Solution : mettre en place un crawler sauce Michalski ! 2. Enrichissement via /statuses/lookup 4. Filtrage (violent, par nombre d’occurences) 5. Scrapping et enrichissement jour par jour, hashtag par hashtag Autre solution (payante) : gnip.com 1. Scrapping web sur la recherche avancée (géoloc) : ∼ 86kT 3. Extraction des hashtags : ∼ 26k#

  39. Des tweets dans le passé Twitter est l’instantané même… …la récupération “facile” dans le passé est limitée à 10 jours. Solution : mettre en place un crawler sauce Michalski ! 2. Enrichissement via /statuses/lookup 4. Filtrage (violent, par nombre d’occurences) 5. Scrapping et enrichissement jour par jour, hashtag par hashtag Autre solution (payante) : gnip.com 1. Scrapping web sur la recherche avancée (géoloc) : ∼ 86kT 3. Extraction des hashtags : ∼ 26k#

Download Presentation
Download Policy: The content available on the website is offered to you 'AS IS' for your personal information and use only. It cannot be commercialized, licensed, or distributed on other websites without prior consent from the author. To download a presentation, simply click this link. If you encounter any difficulties during the download process, it's possible that the publisher has removed the file from their server.

Recommend


More recommend