Approche à base d’apprentissage automatique de calcul de similarité entre paires de phrases dans le domaine clinique
Abstract
L’étude de la similarité sémantique entre concepts est une tâche importante dans le traitement
de texte et dans de nombreux domaines du traitement automatique des langues comme
l'extraction d'information, la recherche documentaire, la classification de textes et la traduction
automatique. Du fait de manque de ressources linguistiques, cette tâche reste un défi dans
beaucoup domaines.
Dans ce mémoire, nous proposons une approche de calcul de similarité entre paires de phrases
écrites en Français dans le domaine clinique. Ce processus d’étude de données textuelles se
rattache exclusivement au domaine du traitement automatique des langues qui propose un
certain nombre d’applications pour aider à la compréhension et au traitement automatique du
langage humain.
Beaucoup d’approches de calcul de similarité textuelle ont été proposées dans la littérature.
Certaines approches couramment utilisées exploitent la structure syntaxique des phrases.
D’autres tentent de prendre en compte les problèmes de synonymie et la sémantique des phrases
en exploitant des ressources sémantiques ou des méthodes statistiques.
Nous proposons une approche basée sur l’apprentissage automatique pour calculer la similarité
entre des paires de phrases dans le domaine clinique. Cette approche consiste à entrainer un
algorithme à partir de données d'entraînement pour qu'il puisse apprendre à reconnaître les
similitudes et les différences entre les paires de phrases. Ainsi, cinq algorithmes d’apprentissage
automatique supervisé sont explorés et évalués sur des données standards. Les évaluations
réalisées nous ont permis de choisir le meilleur modèle sur les données qui est obtenu avec le
perceptron multicouche avec un score d’exactitude de 59%.