Approche à base d’apprentissage automatique de calcul de similarité entre paires de phrases dans le domaine clinique
Abstract
L’étude de la similarité sémantique entre concepts est une tâche importante dans le traitement 
de texte et dans de nombreux domaines du traitement automatique des langues comme 
l'extraction d'information, la recherche documentaire, la classification de textes et la traduction 
automatique. Du fait de manque de ressources linguistiques, cette tâche reste un défi dans 
beaucoup domaines. 
Dans ce mémoire, nous proposons une approche de calcul de similarité entre paires de phrases
écrites en Français dans le domaine clinique. Ce processus d’étude de données textuelles se 
rattache exclusivement au domaine du traitement automatique des langues qui propose un 
certain nombre d’applications pour aider à la compréhension et au traitement automatique du 
langage humain.
Beaucoup d’approches de calcul de similarité textuelle ont été proposées dans la littérature.
Certaines approches couramment utilisées exploitent la structure syntaxique des phrases. 
D’autres tentent de prendre en compte les problèmes de synonymie et la sémantique des phrases 
en exploitant des ressources sémantiques ou des méthodes statistiques.
Nous proposons une approche basée sur l’apprentissage automatique pour calculer la similarité
entre des paires de phrases dans le domaine clinique. Cette approche consiste à entrainer un 
algorithme à partir de données d'entraînement pour qu'il puisse apprendre à reconnaître les 
similitudes et les différences entre les paires de phrases. Ainsi, cinq algorithmes d’apprentissage
automatique supervisé sont explorés et évalués sur des données standards. Les évaluations
réalisées nous ont permis de choisir le meilleur modèle sur les données qui est obtenu avec le 
perceptron multicouche avec un score d’exactitude de 59%.

