Extraction d’entités nommées spécifiques à partir de données biomédicales non structurées
Abstract
Les technologies de l’information et de la communication sont communément utilisées dans des activités quotidiennes. Une grande quantité d’informations est générée via les réseaux sociaux, les blogs, les forums, etc. Le traitement de cette masse d’informations, représentée souvent dans des formats non structurés (textes) ou semi structurés, de façon robuste et performante devient un grand enjeu. Le traitement automatique des langues (TAL) s’intéresse à cette question et il fournit des outils pour réaliser cette tâche. L’extraction d’informations, qui est un sous domaine du TAL, vise à extraire des informations pertinentes à partir des textes. L’extraction d’entités nommées qui peut être vue comme une sous tâche de l’extraction d’informations, suscite un grand engouement aujourd’hui. Différentes approches sont proposées dans la littérature : approches symboliques basées sur des lexiques et des dictionnaires, approches statistiques basées sur l’apprentissage automatique (machine learning, ML en anglais) et les approches hybrides. Les outils utilisant ces approches ont connu un grand succès notamment sur des textes en anglais (avec des précisions et f-mesures de plus de 90%), mais ils restent moins performants pour les langues comme le français.
Ce mémoire présente dans un premier temps un état de l’art sur l’extraction d’entités nommées dans le domaine général ainsi que dans le domaine biomédical : son historique, les approches utilisées et les outils existants. Dans un second temps, nous allons décrire le modèle proposé pour la reconnaissance d’entités nommées sur des données biomédicales en utilisant une approche à base de règles exploitant des lexiques, des dictionnaires et des règles. L’évaluation de notre approche sur des données standards a donné des résultats satisfaisants (avec une précision et un rappel de plus de 94%).