RÉSEAUX SOCIAUX, OUTILS NUMÉRIQUES, CLOUD, APPAREILS NOMADES, GRANDS INSTRUMENTS SCIENTIFIQUES… DEPUIS QUELQUES ANNÉES, LES NOUVELLES TECHNOLOGIES PRODUISENT DES MASSES DE DONNÉES NUMÉRIQUES QU’IL FAUT TRIER, STOCKER, ANALYSER, ETC. ERIC SCHMIDT, LE PDG DE GOOGLE, ÉVOQUAIT DANS UNE CONFÉRENCE EN 2010 QUE « TOUS LES DES JOURS, NOUS PRODUISONS AUTANT D’INFORMATIONS QUE NOUS EN AVONS GÉNÉRÉES DEPUIS L’AUBE DE LA CIVILISATION JUSQU’EN 2003. »

La data science est une discipline récente (le terme apparaît pour la première fois en 2001) dont l’objectif est l’extraction de connaissances à partir de données homogènes ou hétérogènes et la visualisation de ces données en s’appuyant sur des outils mathématiques, sur des statistiques et sur des outils informatiques. L’origine de cette discipline est l’apparition et le développement de base de données et d’internet, et tente de répondre à la complexité croissante et au volume en croissance exponentielle du nombre de données numériques disponibles dans le monde. Tous les domaines sont touchés : l’analyse tendancielle, la génomique, la météorologie, l’épidémiologie, la gestion des réseaux énergétiques (smartgrids), l’écologie, la physique, la gestion des risques. Le Big Data constitue un défi scientifique considérable qui nécessite des travaux aussi bien en ingénierie que dans les sciences fondamentales. Les problématiques sont nombreuses : comment stocker les données, les pérenniser ? Comment les traiter, les analyser, les visualiser, leur donner du sens ? Comment les protéger, empêcher leur usage abusif et aussi les supprimer ?

 

Le temps de traitement
Le LSST (Large Synoptic Survey Télescope) prendra une image du ciel de 3 milliards de pixels toutes les 17 à partir de 2020. Avec les algorithmes existants en fouille de données notamment, il faudrait des dizaines d’années pour explorer la base des données produites. Rien que sur le Web, tous les messages, tous les documents, toutes les images et vidéos sont captés par des applications qui, en échange des services fournis, accumulent d’immenses banques de données. De nombreux travaux essaient de trouver de nouvelles manières de stocker l’information en utilisant le minimum de ressources.

 

L’usage de la donnée
Le coût de stockage de la donnée est important mais la donnée est une matière première permettant de nombreuses choses. La masse de données et les statistiques permettent de prédire des comportements, des actions ou des achats par exemple. Ainsi, les données permettant d’optimiser des marchés, de positionner des ressources sont désormais monnayées.

 

La maîtrise et l’exploitation la création
Une des révolutions des grandes masses de données, portée notamment par l’explosion du Web Social, c’est la production de contenu non plus par des entreprises. Dans l’enseignement supérieur, au niveau des usages, l’émergence et la diversification des cours en lignes montrent la voie d’un bouleversement de l’accès à la connaissance et la quantité de cours disponibles doublent tous les trois mois depuis deux ans et semblent s’accélérer. La propriété intellectuelle est le second problème. Il est de plus en plus difficile voire impossible devant la quantité de documents disponibles de pouvoir déterminer l’originalité de travaux et de garantir le respect de la propriété intellectuelle. La nécessité de former des data scientists est une évidence. On prédit un besoin de 200 000 spécialistes d’ici 2018 rien qu’aux Etats-Unis mais les formations n’existent pas encore. La data science est un des enjeux majeurs des années qui arrivent. La connaissance et les données sont trop nombreuses et seuls des outils perfectionnés et rapides pourront nous aider à manipuler ces données. Mais autant les données sont déjà présentes, autant il reste tout à faire quant aux outils pour les utiliser. De belles perspectives d’avenir.

 

Par Alain Simac-Lejeune,
Maître de Conférences en Informatique et Directeur de l’ESME Sudria Lyon