Vers un système de fouille d’opinions dans les commentaires de la presse en ligne : cas du Sénégal
Abstract
L'avènement du journalisme web 2.0 offrent aux lecteurs la possibilité de donner leurs
avis sur différentes publications. Ainsi, les sites d’informations se transforment
progressivement en lieu public de discussion de questions d'actualité concernant les
préoccupations des populations.
Par conséquent, les commentaires issus de ces sources contiennent des informations
précieuses dont l’analyse peut permettre de déterminer l'opinion globale des lecteurs sur un
article ou un aspect d’un article publié.
La fouille d'opinion se présente comme l’outil par excellence pour valoriser les
commentaires en ligne. Elle consiste à analyser des contenus textuels issus d’échanges en ligne
en vue de mettre en évidence les opinions des internautes par rapport à une entité. Les outils
(ressources et méthodes) de fouille d’opinions proposés dans la littérature sont adaptés aux
textes rédigés dans des langues officielles comme l'anglais et le français. Cependant,
l’hétérogénéité des sources par la différence de leur DOM (Document Object Model) d’une part
et l’utilisation du langage urbain d’autre part rendent complexe le traitement des commentaires
issus de la presse sénégalaise en ligne par les outils actuels de fouille d’opinions.
Pour faire face à cette complexité, nous proposons des ressources et méthodes
permettant de recueillir les commentaires à partir de la presse sénégalaise en ligne, de les
stocker et de les analyser tout en nous adaptant au langage urbain utilisé par les internautes. Six
contributions sont présentées dans la thèse. La première contribution est une description de la
complexité des commentaires issus de la presse sénégalaise en ligne. La deuxième contribution
est une architecture d’un système de fouille d’opinions dans la presse sénégalaise en ligne qui
structure les autres contributions de cette thèse. La troisième contribution est une modélisation
de commentaires journalistiques pour la fouille d’opinions. La quatrième contribution est un
outil d’acquisition, de catégorisation et de stockage des données en provenance de la presse en
ligne. La cinquième contribution est un lexique bilingue constitué sur la base du langage urbain
pour la fouille d’opinions. La dernière contribution est une méthode de fouille d’opinions
adoptée pour l’étiquetage et la classification d’opinions sur les commentaires de la presse
sénégalaise en ligne.