dc.description.abstract | Le Deep Learning (DL) s’est imposé comme un paradigme révolutionnaire dans le domaine de l’intelligence
artificielle et du machine learning. Reposant sur des réseaux de neurones artificiels, le DL s’est montré efficace
dans plusieurs domaines d’application tels que la reconnaissance vocale (SIRI d’Apple), la traduction automatique
(Google Translate) et bien d’autres.
Dans ce mémoire, nous proposons un état de l’art et une étude comparative des trois architectures de base du
deep learning : le perceptron multicouche (Multi-Layer Perceptron (MLP)), les réseaux convolutifs (Convolutional
Neural Network (CNN)) et les réseaux récurrents (Recurrent Neural Network (RNN)).
Nous présenterons l’origine et l’évolution historique du deep learning et ses fondements théoriques : le neurone
formel, les fonctions d’activation, l’évaluation des modèles, les topologies des réseaux de neurones, les techniques
d’apprentissage du deep learning ainsi que les algorithmes d’optimisation.
Nous aborderons l’architecture du MLP, son fonctionnement, l’algorithme de la rétropropagation, son domaine
d’application et ses limites.
Pour les CNN, nous présenterons le principe de la convolution qui constitue la base des CNN ainsi que leurs
architectures avec leurs différentes couches : couche de convolution, couche de pooling et couche entièrement
connectée. Nous présenterons aussi leurs domaines d’application et leurs limites
Pour les RNN, en plus de leur architecture, nous présenterons leur mécanisme d’apprentissage avec la rétropropa-
gation à travers le temps (Backpropagation Through Time). Nous parlerons de leurs problèmes d’apprentissage, à
savoir la disparition du gradient et l’explosion du gradient. Nous présenterons les variantes des RNN : les mémoires
à long et court terme (Long Short-Term Memory (LSTM)) et les unités récurrentes à portes (Gated Recurrent Unit
(GRU)). Leurs domaines d’application ainsi que leurs limites seront abordés.
Des travaux antérieurs ont montré que les CNN sont plus adaptés pour les tâches de traitement d’image, tandis que
les RNN sont plus aptes pour le traitement des données séquentielles ou des séries temporelles .
Nous avons proposé une étude comparative entre les architectures MLP et CNN sur la classification d’image avec
le jeu de données CIFAR-10 et entre les architectures CNN et RNN pour l’analyse de sentiment avec le jeu de
données IMDB, ainsi que pour la génération de poèmes avec un recueil de poèmes de Victor Hugo.
Les résultats de cette étude sur les métriques d’exactitude, précision, rappel, score f1 ainsi que sur le temps d’en-
traînement, confortent les observations de nos prédécesseurs en élargissant le champ d’étude sur d’autres tâches. | en_US |