“BIG DATA” PAR CI, “BIG DATA” PAR-LÀ, UNE RÉELLE RÉVOLUTION SE CACHE DERRIÈRE CETTE EXPRESSION À LA MODE : LES DONNÉES DEVIENNENT OMNIPRÉSENTES DANS LA SOCIÉTÉ. LEUR VOLUME A AUGMENTÉ CONSIDÉRABLEMENT AVEC L’USAGE D’INTERNET ET L’UBIQUITÉ DES CAPTEURS ; L’ENVIE DE LES UTILISER POUR PRENDRE OU ÉVALUER DES DÉCISIONS EST ALORS NATURELLE. DANS LE MÊME TEMPS, L’ÉMERGENCE DU CALCUL DISTRIBUÉ, EXÉCUTÉ SUR DES MACHINES TOUJOURS MOINS COUTEUSES ET GRÂCE À DES PROCESSEURS TOUJOURS PLUS PUISSANTS, A CONDUIT À UNE BAISSE CONSIDÉRABLE DU COÛT DU CALCUL ET RENDU POSSIBLE CETTE ASPIRATION. POUR LES ENTREPRISES, LE BIG DATA EST UNE MINE D’OR, POUR LES CHERCHEURS, UN LEVIER EN FAVEUR DE LA RECHERCHE SCIENTIFIQUE ET POUR LES PARTICULIERS UNE APPRÉHENSION QUANT À L’UTILISATION DE LEURS DONNÉES PERSONNELLES.
Les données, pétrole du 21e siècle
De nombreux produits emblématiques sont ainsi nés des données dans les dernières décennies : les moteurs de recherche des pages constituant le web, les publicités en lignes de nos traces de navigation, la médecine personnalisés de notre profil médicale, l’optimisation des réseaux des villes intelligents des capteurs ou encore, en science, les thérapies géniques à partir des profils génomiques ou la mise en évidence du boson de Higgs à partir des mesures du CERN. Partout les données sont vues comme une source potentielle de richesse permettant soit d’optimiser le développement et la fabrication de produits existants, d’en construire des nouveaux ou de proposer des nouveaux usages. Il faut penser leur exploitation comme un tout : de l’acquisition au produit, en passant par le stockage, le traitement, l’analyse ou encore la visualisation. À la frontière entre l’Informatique et les Mathématiques appliquées, la science des données, une discipline qui inclut le Big Data, s’attache à comprendre comment exploiter les données et à proposer des solutions concrètes. Il s’agit également de faire ressortir les applications possibles dans un domaine et de les implémenter. L’École polytechnique est très active sur ces thèmes à travers de nombreux projets en lien avec l’industrie et la société. Fédérés par une initiative de recherche, les recherches de pointe se concrétisent dans le cadre de plusieurs chaires consacrées à la data science ainsi que dans un partenariat emblématique noué avec la Caisse d’Assurance Maladie (CNAMTS).
Data scientist, un métier à visages multiples ?
Le héros de cette discipline est le data scientist. Celui-ci maîtrise les trois clés de la science des données : il connait les méthodes avec leurs fondements mathématiques, sait les implémenter et dispose d’une connaissance approfondie du domaine d’application envisagé. En pratique, cet être idéal n’existe pas et la maîtrise de toutes ces compétences n’est possible qu’à travers des équipes mélangeant des profils variés. Un data scientist est ainsi un expert dans l’un de ces champs ou dispose de connaissances plus larges lui permettant d’être à l’interface entre plusieurs d’entre eux. Alors qu’il existe encore peu de formations dédiées, l’École polytechnique a choisi de proposer une offre large et complémentaire. Au sein du cursus d’ingénieur polytechnicien, l’X propose un parcours d’approfondissement en 3e année qui constitue une introduction à la data science. Cette formation se complète au sein du parcours Data Science proposé dans le Master Mathématiques et Applications de l’Université Paris-Saclay. L’École polytechnique Executive Education propose également une formation continue, le Data Sciences Starter Program qui s’adresse à des professionnels soucieux d’intégrer le Big Data à leur mission.
Enfin, l’École polytechnique n’oublie pas sa tradition humaniste et le défi qui attend tous les data scientists en devenir, celui de la responsabilité et de l’éthique dans l’utilisation d’un outil très puissant. « Science sans conscience n’est que ruine de l’âme » vaut aussi pour la Data Science…
Par Erwan Le Pennec,
Professeur associé au Centre de Mathématiques appliquées de l’École polytechnique