Construction de Datasets : Vers un modèle de langage basé sur les langues locales sénégalaises (cas du Wolof, Sérère et du Pulaar)

Diallo, Boubacar

dc.contributor.author	Diallo, Boubacar
dc.date.accessioned	2024-08-20T11:41:07Z
dc.date.available	2024-08-20T11:41:07Z
dc.date.issued	2024
dc.identifier.uri	http://rivieresdusud.uasz.sn/xmlui/handle/123456789/2157
dc.description.abstract	La diversité linguistique au Sénégal est confrontée à un obstacle majeur en raison du faible taux d'alphabétisation, avec 54,6% de la population ayant peu ou pas de compétences en lecture et écriture. Cette situation limite l'accès aux services numériques et à des secteurs vitaux comme la santé, l'éducation et l'agriculture. Pour pallier ce problème, le projet Kallaama mobilise des linguistes et des informaticiens pour créer des données audios transcrites et annotées, collecter des ressources textuelles et développer des dictionnaires de prononciation dans les principales langues sénégalaises (Wolof, Sérère, Pulaar). Ces données sont utilisées pour entraîner des systèmes de reconnaissance vocale, facilitant ainsi le développement d’agents conversationnels vocaux (voicebots, callbots). Kallaama est soutenu par l’entreprise Jokalante, qui souhaite offrir des services vocaux et conversationnels personnalisés en langue locale pour conseiller les petits producteurs et entreprises agricoles. Ce mémoire de fin d’études a contribué à la collecte de ressources textuelles en ligne et hors ligne, au prétraitement (nettoyage et normalisation) de ces données, puis à la construction de jeux de données textuels et de lexiques de prononciation pour les trois principales langues vernaculaires du Sénégal. Ces datasets sont utilisés à des fins d'apprentissage automatique (Machine Learning) et d’apprentissage profond (Deep Learning) en vue de créer des modèles de langage et de prononciation, avec pour finalité la mise en place d’agents conversationnels vocaux, utiles pour les populations peu ou pas lettrées.	en_US
dc.language.iso	fr	en_US
dc.subject	Reconnaissance vocale	en_US
dc.subject	Langues vernaculaires	en_US
dc.subject	Agents conversationnels vocaux	en_US
dc.subject	Voicebots	en_US
dc.subject	Callbots	en_US
dc.subject	Apprentissage automatique	en_US
dc.subject	Apprentissage profond	en_US
dc.subject	Datasets	en_US
dc.subject	Dictionnaires de prononciation	en_US
dc.title	Construction de Datasets : Vers un modèle de langage basé sur les langues locales sénégalaises (cas du Wolof, Sérère et du Pulaar)	en_US
dc.type	Mémoire	en_US
dc.territoire	Région de Ziguinchor	en_US

Files in this item

Name:: diallo_memoire_2024.pdf
Size:: 1.404Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Mémoires UFR ST

Show simple item record