dc.description.abstract | Ces dernières années, les données numériques échangées à travers Internet ont connu une
augmentation exponentielle et une diversité sans précédent, donnant naissance au concept de
Big Data. Ce phénomène, en plein essor, désigne aujourd’hui un vaste volume de données struc-
turées et non structurées, souvent difficiles à traiter et à analyser en utilisant les technologies
traditionnelles. Ces immenses volumes de données regorgent de précieuses informations qui
peuvent être extraites à l’aide des algorithmes de machine learning. Cependant, l’application de
ces algorithmes soulève plusieurs défis importants.
L’objectif de ce mémoire est, dans un premier temps, de réaliser une étude globale sur le
machine learning en passant en revue les différents types d’apprentissage ainsi que les diverses
méthodes d’analyse. Cette étude inclura notamment l’analyse de classification, où l’algorithme
des K-plus proches voisins (KNN) et celui des arbres de décision (ID3) feront l’objet d’une ana-
lyse détaillée. Nous aborderons également les méthodes de régression et d’analyse par graphe.
Dans un second temps, ce mémoire explorera les concepts fondamentaux du Big Data en
discutant de l’origine des 5V, en examinant les défis associés au traitement des données mas-
sives, et en présentant les technologies utilisées dans ce domaine. Une attention particulière sera
portée à une étude détaillée de Hadoop, une des technologies phares du Big Data.
Enfin, une étude comparative des performances des algorithmes KNN et ID3 sera réalisée.
Cette comparaison se fera en testant les algorithmes sur une machine simple, puis sur un cluster
Hadoop constitué de trois nœuds. L’objectif de cette étude est de mettre en évidence les dif-
férences de performances entre une exécution sur une seule machine et une exécution sur un
environnement distribué Hadoop. | en_US |