Big Data – Smart Data

Big-Data

Les Big data ou aussi données massives désignent un ensemble de données dont le volume et la complexité (accroissement continuel des données peu ou pas structurées dans le web, les entreprises et les organismes publics) sont tels que les capacités des technologies classiques pour l’exploiter, les stocker, les traiter, les transporter à un coût raisonnable et selon un délai acceptable sont dépassées. Les géants du net comme Google, Facebook, LinkedIn, Amazon ou eBay, sont depuis longtemps les piliers de l’activité Big data. Il est devenu urgent d’imaginer de nouvelles structures, de nouvelles technologies, des nouveaux algorithmes afin de proposer des solutions efficaces en termes de capture de la données, de stockage, de moteur de recherche, d’analyse et de visualisation. Notre formation propose de vous illustrer les différentes problématiques du Big Data ainsi que les solutions de traitement et d’analyse de données afin que vous soyez capables de profiter de gisement potentiel de la valeur ajoutée que représentent ces masses de données.

Plan

  • Introduction, historiques et concepts.
  • Analyse de données
  • Architecture big data.
  • Stockage.
  • Traitement et calcul.
  • Analyse de données avancées.

 

Participants

DSI, directeur technique, chef de projets, architecte, responsable SI.

Prérequis

Connaissance de base des architectures techniques.

 

Plan détaillé

Chapitre 1.Introduction

  • Définition de big data.
  • Les problématiques de big data.
  • Les défis et les enjeux technologiques, économiques et environnementaux?
  • Les 4V.
  • Améliorer les performances en exploitant les solutions big data.
  • Les nouvelles compétences métier.

Chapitre 2. Analyse de données

  • Récupération des données. Privées et publiques.
  • Les contraintes de la CNIL.
  • Type de données.
  • Les techniques d’analyse de données non structurées (scrawler et scraper)
  • Les frameworks utiles pour récupérer les données.
  • Prédiction ou description ?
  • Visualisation des connaissances et retour à la donnée.

Chapitre 3. Architecture big data.

  • L’écosystème big data: stocker traiter et analyser
  • Les limites des solutions Traditionnelles
  • Les solutions et les panoramas de technologies
  • Choisir la bonne solution adaptée à mon besoin.
  • Architecture hadoop.

Chapitre 4. Stockage

  • SQL, NoSQL, NewSQL.
  • Atomicité, Cohérence, Isolation et Durabilité « ACID »
  • Théorème de CAP.
  • Les 4 catégories NoSQL : clé-valeur, clé-document, colonne et graphe.
  • Techniques de modélisation NoSQL.
  • TP : Redis ou MongoDB.

Chapitre 5. Traitement et calcul.

  • Programmation parallèle : algorithmes, logiciels et matériels.
  • Pattern Map-reduce.
  • TP.
    • Installation Hadoop standlone
    • Mettre en place une application de wordCount.

Chapitre 6. Analyse décisionnelle

  • Etat de l’art.
  • Classification supervisée ou non supervisée pour la prédiction ou la description.
  • Cycle de fouille de données.
  • Etude de cas.