Résumé:
La notion de Big Data est un concept qui a pu être popularisé à partir 2012 et ce dans
un but d’exprimer essentiellement le fait que les entreprises sont aujourd’hui devant un
problème celui des volumes de données qu’il faut savoir traiter et avec une croissance rapide
et considérable . Ces volumes de données massifs engendrent alors une évolution fulgurante
de modèles technologiques possédant l’évolution nécessaires qui permet d’accéder à des
nouvelles opportunités. De nouvelles techniques sont proposées dans un but d’améliorer le
stockage et le traitement de ces données massives tel que le projet Apache Hadoop .Ces
mêmes données ne peuvent être traitées qu’avec une gestion de base de données classiques
c’est la raison pour laquelle ont été crées les bases de données NOSQL(Not Only SQL) .
Dans ce mémoire, on a établi un état de l’art impliquant l’extraction de connaissances à
partir de données (ECD) définie comme un processus de découverte d’informations
implicites, inconnues auparavant et potentiellement utiles à partir des données. Ce processus
s’effectue en plusieurs étapes : préparation des données (recherche, nettoyage), fouille des
données (recherche d’un modèle de connaissances), validation et interprétation du résultat et
enfin intégration des connaissances apprises.
Enfin, nous avons travaillé sur la conception d’une architecture basée sur le nettoyage
des données structurées et non structurées afin d’extraire les connaissances à partir des big
data.