Certification BIG DATA

Data Science et Big Data

« Big Data » est un terme générique utilisé pour décrire n’importe quel ensemble de données assez large ou complexe pour qu’il devienne difficile de les traiter avec des techniques traditionnelles telles que les bases de données relationnelles.

La Data Science appliquée au domaine du Big Data regroupe des activités consistant à identifier, collecter, structurer et analyser les masses de données générées aujourd’hui par les entreprises elles-mêmes (serveurs de e-commerce, Industrie 4.0, etc.), dans le but d’améliorer les processus existants, ou bien de découvrir de nouvelles applications possibles à partir des gisements des données. La « donnée » est aujourd’hui considérée comme stratégique, au même titre que l’énergie par le passé, on parle même de « data mining » pour signifier que l’on creuse dans une mine de données.

Les solutions Big Data sont souvent nécessaires, quand les technologies et savoir-faire classiques ont atteint leurs limites.

L’exécution d’activités relatives au Big Data nécessite des compétences spécifiques, ces activités étant par ailleurs regroupées dans les différents métiers exercés dans les entreprises et qui ont fait, en France, l’objet d’études détaillées par l’OPIIEC et le CIGREF.

Certification de niveau 1 : Big Data Foundation

Le programme résulte des travaux menés en 2016/2017 par les experts, qui ont abouti à un « tronc commun » BigData Foundation d’une certification de compétences caractérisée par une vision « à 360° » avec trois angles de vue reliés entre eux de la connaissance des fondamentaux du Big Data :

  • Connaissance des définitions et de la terminologie
  • Connaissance des activités Big Data
  • Connaissance des outils du Big Data

Experts

  • 8 ateliers de travail successifs ont réuni le groupe projet constitué d’experts délégués par deux organisations très impliquées :

THALES-Services, apportant son expérience dans l’exploitation des données du Big data  (gestion/stockage des données), du Big analytics (traitement, d’enrichissement et de valorisation des données) et du Visual analytics  (exploitation et de visualisation interactive des données) pour ses marchés aéronautique, espace, transport terrestre, sécurité, défense

ACTIVUS-Services, l’une des meilleures ESN du classement Syntec pour ses travaux sur la restitution de données collectées par des objets connectés à travers deux grands types d’analyses : prédictive afin de pouvoir anticiper les interactions entre objets, et agrégée afin de valoriser et classifier les comportements des objets sur un réseau communautaire.

Le travail des experts a également permis de définir un schéma de certification Big Data qui positionne 5 métiers principaux sur 3 niveaux de qualification :

  • Dans la filière Delivery, les métiers de l’architecture des solutions techniques soutenant le Big Data d’une part, les métiers de production Data Scientist et Data Analyst d’autre part
  • Dans la filière Conseil et Assistance, les métiers de Data Engineer et de Consultant spécialisés Big Data

Data Scientist Practitioner et Data Scientist Expert

Le rôle du Data Scientist est d’explorer (de manière itérative), exploiter, analyser et évaluer la richesse des données pour établir des scénarios permettant de comprendre et d’anticiper de futurs levier Métiers ou opérationnels pour l’entreprise. Positionné auprès des Métiers, c’est un statisticien qui analyse les données pour traduire une problématique Métier en un problème mathématique/statistique et réciproquement. Il compare et évalue les différents modèles ou méthodes de calcul et sait anticiper leurs avantages et inconvénients dans un environnement Métier. Sa connaissance des gisements pertinents de données lui permet aussi de faire des recommandations quant aux entrepôts de données à consolider, modifier, rapatrier, externaliser, internaliser.

La certification Data Scientist Practitioner (niveau 2 dans le schéma de certification Big Data) donne l’assurance de disposer des compétences optimales pour :

  • Appliquer des techniques (statistiques, text mining, comportementale, géolocalisation, …) d’extraction et d’analyse d’informations, obtenues à partir de gisements de données (Big Data)
  • Obtenir des données adéquates, trouver les sources de données pertinentes, faire des recommandations sur les bases de données à consolider, modifier, rapatrier, externaliser, internaliser, concevoir des datamarts, voire des entrepôts de données (data warehouses)
  • Évaluer la qualité et la richesse des données, les analyser et en restituer les résultats pour ensuite les intégrer dans le système d’information cible du Métier
  • Analyser les données pour traduire une problématique Métier en problème mathématiques/statistiques et réciproquement
  • Comparer et évaluer différents modèles ou méthodes de calcul et anticiper les avantages et inconvénients dans un environnement Métier.

La certification Data Scientist Expert (niveau 3 dans le schéma de certification Big Data) atteste de compétences techniques élevées du domaine ainsi que de compétences spécifiques de type savoir-être, qui légitiment son titulaire à intervenir au niveau stratégique de l’organisation.

Data Analyst Practitioner

Son rôle est de mettre en œuvre les outils informatiques, les techniques et les méthodes statistiques qui permettront l’organisation, la synthèse et la traduction des données de l’entreprise. Il est positionné à la DSI où il fournit un appui analytique à la conduite d’exploration et à l’analyse complexe des données, industrialise les procédés d’analyse et gère les opérations de modélisation et d’architecture des gisements de données tout en garantissant leur cohérence. Ainsi que son titre l’indique, le métier de Data Analyst Practitioner est clairement orienté sur des travaux de type mise en œuvre.

La certification Data Analyst Practitioner donne l’assurance de disposer des compétences optimales pour :

  • Fournir un appui analytique à la conduite d’exploration et à l’analyse complexe de données
  • Créer des algorithmes de recherche de données qui permettent d’explorer les données utiles
  • Industrialiser le procédé pour les données les plus intéressantes
  • Organiser, synthétiser et traduire les informations pour faciliter la prise de décision
  • Gérer les opérations et l’administration, la modélisation et l’architecture des gisements de données
  • S’assurer que les organisations de données existantes fonctionnent bien et en cohérence
  • Assister le Data Scientist et le Data Architect pour la mise en place des modèles prédictifs et des solutions techniques adéquates