Certification BIG DATA

Data Science et Big Data

« Big Data » est un terme générique utilisé pour décrire n’importe quel ensemble de données assez large ou complexe pour qu’il devienne difficile de les traiter avec des techniques traditionnelles telles que les bases de données relationnelles.

La Data Science appliquée au domaine du Big Data regroupe des activités consistant à identifier, collecter, structurer et analyser les masses de données générées aujourd’hui par les entreprises elles-mêmes (serveurs de e-commerce, Industrie 4.0, etc.), dans le but d’améliorer les processus existants, ou bien de découvrir de nouvelles applications possibles à partir des gisements des données. La « donnée » est aujourd’hui considérée comme stratégique, au même titre que l’énergie par le passé, on parle même de « data mining » pour signifier que l’on creuse dans une mine de données.

Les solutions Big Data sont souvent nécessaires, quand les technologies et savoir-faire classiques ont atteint leurs limites.

L’exécution d’activités relatives au Big Data nécessite des compétences spécifiques, ces activités étant par ailleurs regroupées dans les différents métiers exercés dans les entreprises et qui ont fait, en France, l’objet d’études détaillées par l’OPIIEC et le CIGREF.

Le programme Big data / data Science

Le programme résulte des travaux menés de 2016 à 2019 par différents experts, qui ont bâti à partir de leurs expériences un ensemble de métiers et de niveaux de qualification correspondant aux besoins des entreprises, tels qu’ils ont pu les pratiquer et en tenant compte des travaux opérés par d’autres groupes tels que le CIGREF.

Experts

  • 8 ateliers de travail successifs ont réuni le groupe projet constitué d’experts délégués par deux organisations très impliquées :

THALES-Services, apportant son expérience dans l’exploitation des données du Big data  (gestion/stockage des données), du Big analytics (traitement, d’enrichissement et de valorisation des données) et du Visual analytics  (exploitation et de visualisation interactive des données) pour ses marchés aéronautique, espace, transport terrestre, sécurité, défense

ACTIVUS-Services, l’une des meilleures ESN du classement Syntec pour ses travaux sur la restitution de données collectées par des objets connectés à travers deux grands types d’analyses : prédictive afin de pouvoir anticiper les interactions entre objets, et agrégée afin de valoriser et classifier les comportements des objets sur un réseau communautaire.

Le travail des experts a permis de définir un schéma de certification Big Data qui, au dessus du tronc commun Big Data Foundation, positionne 4 métiers principaux sur 3 niveaux de qualification :

  • Dans la filière Delivery, les métiers qui conçoivent les solutions techniques Big Data
  • Dans la filière Conseil et Assistance, les métiers de la promotion et de l’utilité du Big Data pour l’entreprise

Certification de niveau 1 : Big Data Foundation

Le niveau Big Data Foundation constitue le tronc commun de connaissances  partagées par tous les métiers du Big Data. Ce n’est pas un métier en soi, cependant l’ensemble des savoirs qu’il regroupe permet de le certifier. C’est un prérequis exigé pour être candidat à une évaluation de niveau 2 dans le schéma de certification Big Data. Ce tronc commun est caractérisé par une vision « à 360° » avec trois angles de vue reliés entre eux de la connaissance des fondamentaux du Big Data :

  • définitions et terminologie
  • activités du Big Data
  • méthodologie d’exploration de données CRISP-DM

De manière générale, la certification Big Data Foundation atteste de la capacité de son titulaire à être partie prenante d’activités dans le domaine du Big Data, sous forme d’exécution de tâches, d’interlocution et de contribution à des projets ou tâches qui lui sont spécifiés.

Certifications de niveau 2

Data Scientist & Analyst Practitioner  (DSAP)

Son rôle est d’explorer (de manière itérative), exploiter, analyser et évaluer la richesse des données pour établir des scénarios permettant de comprendre, anticiper et mettre en oeuvre de nouveaux leviers Métiers ou opérationnels pour l’entreprise. La satisfaction de cet objectif requiert un ensemble de compétences :

  1. c’est un statisticien qui analyse les données pour traduire une problématique métier en un problème mathématique/statistique et réciproquement. Il compare et évalue les différents modèles ou méthodes de calcul et sait anticiper leurs avantages et inconvénients dans un environnement métier. Sa connaissance des gisements pertinents de données lui permet aussi de faire des recommandations quant aux entrepôts de données à consolider, modifier, rapatrier, externaliser, internaliser.
  2. c’est un informaticien chargé de mettre en œuvre les outils, les techniques et les méthodes statistiques qui permettront l’organisation, la synthèse et la traduction des données de l’entreprise. Il fournit un appui analytique à la conduite d’exploration et à l’analyse complexe des données, industrialise les procédés d’analyse et gère les opérations de modélisation et d’architecture des gisements de données tout en garantissant leur cohérence.

La certification Data Scientist & Analyst Practitioner donne l’assurance de disposer des compétences optimales pour

  • Appliquer des techniques (statistiques, text mining, comportementale, géolocalisation, …) d’extraction et d’analyse d’informations, obtenues à partir de gisements de données (Big Data)
  • Obtenir des données adéquates, trouver les sources de données pertinentes, faire des recommandations sur les bases de données à consolider, modifier, rapatrier, externaliser, internaliser, concevoir des datamarts, voire des entrepôts de données (data warehouses)
  • Évaluer la qualité et la richesse des données, les analyser et en restituer les résultats pour ensuite les intégrer dans le système d’information cible du Métier.
  • Analyser les données pour traduire une problématique Métier en problème mathématiques/statistiques et réciproquement
  • Comparer et évaluer différents modèles ou méthodes de calcul et anticiper les avantages et inconvénients dans un environnement Métier.
  • Fournir un appui analytique à la conduite d’exploration et à l’analyse complexe de données
  • Créer des algorithmes de recherche de données qui permettent d’explorer les données utiles.
  • Industrialiser le procédé pour les données les plus intéressantes.
  • Organiser, synthétiser et traduire les informations pour faciliter la prise de décision
  • Gérer les opérations et l’administration, la modélisation et l’architecture des gisements de données.
  • S’assurer que les organisations de données existantes fonctionnent bien et en cohérence
  • Assister le Data Architect pour la mise en place des modèles prédictifs et des solutions techniques adéquates.

DSAA – Data Scientist & Analyst Advanced

Le DSAP est amené à appliquer différentes méthodes spécialisées en fonction des données à explorer ou domaines d’application, telles que les séries temporelles, l’intelligence artificielle etc. L’acquisition d’au moins une spécialité certifiée permet à son titulaire de revendiquer la certification Data Scientist & Analyst Advanced.

Certification de niveau 3

Data Scientist & Analyst Master (DSAM)

La certification DSAM atteste que son titulaire dispose de compétences de haut niveau sur différents axes :

  • En tant que DSAA certifié pour un minimum de 3 spécialités, il possède des capacités d’intervention sur un large périmètre fonctionnel
  • Ses compétences de type savoir-être (« softskills ») légitiment son titulaire à intervenir au niveau stratégique de l’organisation et attestent de sa capacité à piloter des situations complexes ou de crise

Ses travaux professionnels dans le domaine de la Data Science durant les trois dernières années lui permettent de faire bénéficier ses interlocuteurs d’un retour d’expérience pertinent.