Tip:
Highlight text to annotate it
X
Le « Big Data » - les données massives - est une notion insaisissable,
qui représente une quantité d'informations numériques,
très difficile à stocker,
de transporter,
ou d'analyser.
Le Big Data est si volumineux
qu'il submerge les technologies d'aujourd'hui
et nous pousse à créer la prochaine génération
d'outils et de techniques de stockage de données.
Le Big Data n'est pas nouveau.
En effet, les physiciens du CERN bataillent
avec le problème de leurs données massives en constante expansion depuis des décennies.
Il y a cinquante ans, les données du CERN pouvaient être stockées
dans un seul ordinateur.
Certes, ce n'était pas un ordinateur habituel,
il s'agissait d'un ordinateur central
qui remplissait un bâtiment entier.
Pour analyser les données,
les physiciens du monde entier se rendaient au CERN
pour se connecter à l'énorme machine.
Dans les années 1970, nos données massives en croissance constante
ont été réparties à travers différents ensembles d'ordinateurs,
qui se sont multipliés au CERN.
Chaque ensemble était relié
dans les réseaux dédiés, faits sur place.
Mais les physiciens collaboraient sans tenir compte
des frontières entre les ensembles,
et avaient donc besoin d'accéder aux données sur tous les ensembles.
Alors, nous avons connecté les réseaux indépendants ensemble
dans notre propre CERNET.
Dans les années 1980, des îles de réseaux similaires
parlant des dialectes différents
ont surgi dans toute l'Europe et les États-Unis,
rendant l'accès distant possible mais tortueux.
Pour faciliter à nos physiciens du monde entier
l'accès aux données massives sans cesse croissantes
stockées au CERN sans se déplacer,
les réseaux devaient parler
la même langue.
Nous avons adopté la norme de travail d'Internet naissante des États-Unis,
suivis par le reste de l'Europe,
et nous avons établi le lien principal du CERN
entre l'Europe et les États-Unis en 1989,
et le véritable internet mondial a décollé !
Les physiciens pouvaient alors facilement accéder
aux téraoctets de données massives
à distance de partout dans le monde,
générer des résultats,
et écrire des publications dans leurs établissements d'accueil.
Puis, ils ont voulu partager leurs découvertes
avec tous leurs collègues.
Pour faciliter ce partage de l'information
nous avons créé le web au début des années 1990.
Les physiciens n'avaient plus besoin de savoir
où l'information était stockée
pour la trouver et y accéder sur le web,
une idée qui a pris à travers le monde
et a transformé la façon dont nous communiquons
dans notre vie quotidienne.
Dans le début des années 2000,
la croissance continue de nos données massives
a dépassé notre capacité à l'analyser au CERN,
malgré les bâtiments pleins d'ordinateurs.
Nous avons dû commencer à distribuer les pétaoctets de données
à nos partenaires
afin d'employer l'informatique et le stockage locaux
dans des centaines d'instituts différents.
Pour orchestrer ces ressources interconnectées
avec leurs diverses technologies,
nous avons élaboré une grille de calcul,
permettant le partage sans soudure
des ressources informatiques partout dans le monde.
Elle repose sur des relations de confiance et d'échange mutuel.
Mais ce modèle de grille n'a pas pu être transféré
hors de notre communauté si facilement,
où tout le monde ne dispose pas de ressources à partager
ni d'entreprises dont on puisse attendre
qu'elles aient le même niveau de confiance.
Au lieu de cela, une approche alternative, plus proche du fonctionnement des affaires,
pour accéder à des ressources à la demande
s'est généralisé récemment,
c'est ce qu'on appelle le « cloud computing »,
que les autres communautés exploitent désormais
pour l'analyse de leurs données massives.
Il peut sembler paradoxal pour un endroit comme le CERN,
qu'un laboratoire centré sur l'étude
des éléments constitutifs de la matière, incroyablement petits,
soit à l'origine de quelque chose d'aussi gros que des données massives.
Mais la façon dont nous étudions les particules fondamentales,
ainsi que les forces par lesquelles elles interagissent,
consiste à les créer fugitivement,
en créant des collisions de protons dans nos accélérateurs
et en capturant leur trace
quand ils partent à une vitesse proche de la lumière.
Pour voir ces traces,
notre détecteur, avec 150 millions de capteurs,
agit comme une caméra 3D vraiment massive,
qui prend une photo de chaque collision -
c'est jusqu'à 14 millions de fois par seconde.
Ça fait beaucoup de données.
Mais si les données massives existent depuis si longtemps,
pourquoi soudain en entend-on parler tout le temps maintenant ?
Eh bien, comme l'explique la métaphore ancienne,
le tout est plus grand que la somme de ses parties,
et ce n'est donc plus seulement la science qui les exploite.
Le fait que nous pouvons tirer plus de connaissances
en réunissant les informations connexes
et en repérant des corrélations
peut informer et enrichir les nombreux aspects de la vie quotidienne
soit en temps réel,
comme le trafic ou les conditions financières,
dans les évolutions à court terme,
telles que situations médicales ou météorologique,
ou dans des situations prédictives,
comme les tendances en affaires, le crime ou les maladies.
Pratiquement tous les domaines se tournent vers la collecte de données massives,
avec les réseaux de capteurs mobiles couvrant le globe,
les caméras sur le terrain et dans les airs,
les archives qui stockent les informations publiées sur le web,
et les enregistreurs qui capturent les activités
des citoyens de l'Internet partout dans le monde.
Le défi consiste à inventer de nouveaux outils et techniques
pour exploiter ces vastes stockages,
d'informer le processus décisionnel,
pour améliorer le diagnostic médical,
et sinon pour répondre aux besoins et désirs
de la société de demain de façons qui sont inimaginables aujourd'hui.