Construction de Datasets : Vers un modèle de langage basé sur les langues locales sénégalaises (cas du Wolof, Sérère et du Pulaar)
Abstract
La diversité linguistique au Sénégal est confrontée à un obstacle majeur en raison du faible
taux d'alphabétisation, avec 54,6% de la population ayant peu ou pas de compétences en
lecture et écriture. Cette situation limite l'accès aux services numériques et à des secteurs
vitaux comme la santé, l'éducation et l'agriculture. Pour pallier ce problème, le projet
Kallaama mobilise des linguistes et des informaticiens pour créer des données audios
transcrites et annotées, collecter des ressources textuelles et développer des dictionnaires de
prononciation dans les principales langues sénégalaises (Wolof, Sérère, Pulaar). Ces données
sont utilisées pour entraîner des systèmes de reconnaissance vocale, facilitant ainsi le
développement d’agents conversationnels vocaux (voicebots, callbots). Kallaama est soutenu
par l’entreprise Jokalante, qui souhaite offrir des services vocaux et conversationnels
personnalisés en langue locale pour conseiller les petits producteurs et entreprises agricoles.
Ce mémoire de fin d’études a contribué à la collecte de ressources textuelles en ligne et hors
ligne, au prétraitement (nettoyage et normalisation) de ces données, puis à la construction de
jeux de données textuels et de lexiques de prononciation pour les trois principales langues
vernaculaires du Sénégal. Ces datasets sont utilisés à des fins d'apprentissage automatique
(Machine Learning) et d’apprentissage profond (Deep Learning) en vue de créer des modèles
de langage et de prononciation, avec pour finalité la mise en place d’agents conversationnels
vocaux, utiles pour les populations peu ou pas lettrées.