Tip:
Highlight text to annotate it
X
Traducteur: eric vautier Relecteur: nakhli rania
Je vais vous montrer quelque chose.
(Enfant) C'est un chat assis sur un lit.
Le garçon caresse l'éléphant.
Des gens montent dans un avion.
C'est un gros avion.
(Fei-Fei Li) C'est une enfant de 3 ans
qui décrit ce qu'elle voit sur des photos.
Elle a peut-être encore beaucoup à apprendre,
mais elle est déjà experte dans un domaine très important :
comprendre ce qu'elle voit.
Notre société est technologiquement plus avancée que jamais.
On envoie des gens sur la Lune, on fait des téléphones qui nous parlent,
on a des stations de radio qui ne passent que ce qu'on aime.
Pourtant, les machines et les ordinateurs les plus avancés
ont toujours du mal à faire ça.
Alors aujourd'hui je vais vous expliquer où nous en sommes,
nos dernières recherches sur la vision par ordinateur,
l'une des technologies les plus novatrices et potentiellement révolutionnaires
en informatique.
Oui, nous avons des prototypes de voitures qui conduisent toutes seules,
mais sans la vision intelligente, elles ne font pas la différence
entre un sac de papier roulé en boule, que l'on peut écraser,
et une pierre qu'il faut éviter.
Nous fabriquons des appareils photo à mégapixels incroyables,
mais nous n'avons pas donné la vue aux aveugles.
Les drones peuvent parcourir de grandes distances
mais la technologie n'est pas assez avancée
pour suivre l'évolution des forêts tropicales.
Il y a des caméras de sécurité partout,
mais elles ne savent pas nous alerter quand un enfant se noie dans une piscine.
La photo et la vidéo font partie de notre vie.
Elles sont générées tellement vite qu'aucun humain
ou groupe d'humains ne peut tout voir,
Vous et moi, nous y contribuons, avec cette conférence TED.
Pourtant nos programmes les plus avancés ont du mal à comprendre
et à gérer cet énorme contenu.
En d'autres termes, nous, la société,
sommes vraiment aveugles,
parce que nos plus intelligentes machines sont encore aveugles.
« Pourquoi est-ce si difficile ? », pourriez-vous demander.
Un appareil peut prendre une photo comme celle-ci,
il convertit la lumière en tableaux bidimensionnels
que l'on nomme pixels,
mais ce ne sont que des nombres sans vie.
Par eux-mêmes, ils ne signifient rien.
Tout comme entendre n'est pas la même chose qu'écouter,
prendre une photo, ce n'est pas comme voir,
et par « voir », entendez « comprendre ».
En fait, Mère Nature a travaillé dur 540 millions d'années
pour accomplir cette tâche,
et le plus gros de cet effort a été
le développement de l'appareil qui produit la vision dans notre cerveau,
pas les yeux.
La vision commence avec les yeux,
mais tout se passe en fait dans le cerveau.
Depuis maintenant 15 ans, d'abord en thèse à Caltech
puis à la tête du Vision Lab à Stanford,
je travaille avec mes mentors, collaborateurs et étudiants
pour apprendre la vision aux ordinateurs.
Il s'agit de vision par ordinateur et d'apprentissage machine.
C'est un pan de la recherche sur l'intelligence artificielle.
Le but est d'enseigner aux machines à voir comme nous :
nommer des objets, identifier des gens, déduire des formes géométriques 3D,
comprendre les relations, les émotions, les actions et les intentions.
Nous tissons constamment des histoires de gens, d'endroits, de choses
dès que nous posons les yeux dessus.
Le premier pas est d'apprendre à l'ordinateur à voir des objets,
c'est l'élément de base du monde visuel.
Pour parler simplement, imaginez que ce processus d'apprentissage
consiste à montrer à l'ordinateur
des images d'un certain objet, par exemple des chats,
puis concevoir un modèle qui puisse apprendre avec ces images.
Ça ne doit pas être bien difficile !
Après tout, un chat est un ensemble de formes et de couleurs.
Au début de la modélisation objet, c'est ce que nous avons fait.
On rentrait un algorithme en langage mathématique
pour dire que le chat a un visage rond, un corps un peu dodu,
deux oreilles pointues et une longue queue
et tout allait bien.
Mais que fait-on pour celui-ci ?
(Rires)
Il est tout retourné.
Alors il faut ajouter d'autres formes et points de vue au modèle objet.
Et si le chat est caché ?
Et ces drôles de chats-là ?
Vous voyez ce que je veux dire.
Quelque chose d'aussi simple qu'un animal domestique
présente une infinité de variations du modèle objet.
Et ça n'est qu'un seul objet.
Il y a environ 8 ans,
une réflexion toute simple mais profonde a changé ma manière de penser.
Personne ne dit à un enfant comment voir,
surtout dans les premières années.
Il apprend par l'expérience, par des exemples quotidiens.
Pensez aux yeux d'un enfant
comme à deux appareils photo biologiques
qui prennent une photo chaque 200 millisecondes,
la durée moyenne du mouvement de l’œil.
A 3 ans, un enfant a vu des centaines de millions de photos
du monde réel.
Ça nous fait beaucoup d'exemples.
Alors plutôt que se concentrer sur l'amélioration des algorithmes,
mon idée a été de former les algorithmes avec le genre de données
qu'un enfant reçoit par l'expérience
tant en quantité qu'en qualité
Une fois que nous avons compris ça,
nous savions qu'il fallait collecter un ensemble de données
qui contienne bien plus d'images que jamais auparavant,
peut-être des milliers de fois plus.
Avec le professeur Kai Li de l'Université de Princeton,
nous avons donc lancé le projet ImageNet en 2007.
Heureusement, ce n'était pas la peine de se mettre une caméra sur la tête
et d'attendre plusieurs années.
Nous sommes allés sur Internet,
la plus grande mine de photos que l'humain ait jamais créée.
Nous avons téléchargé près d'un milliard d'images.
Des technologies de crowdsourcing comme le Turc Mécanique d'Amazon
nous ont aidés à cataloguer les images.
A son plus haut, ImageNet a été l'un des plus gros employeurs
du Turc Mécanique d'Amazon :
près de 50 000 employés
dans 167 pays
nous ont aidés à nettoyer, trier, étiqueter
presque un milliard d'images.
C'est vous dire l'effort entrepris
pour capturer une fraction des images
qu'un enfant stocke pendant ses premières années.
Aujourd'hui, cette idée d'utiliser ces masses de données
pour construire des algorithmes peut paraître évidente,
mais pas en 2007.
Pendant longtemps, nous étions bien seuls.
Des collègues me conseillaient de trouver autre chose pour devenir titulaire,
et c'était une bataille constante pour trouver des crédits de recherche.
Je disais en plaisantant à mes étudiants
que je pourrais reprendre ma laverie pour financer ImageNet.
Après tout, j'avais financé mes études grâce à elle.
Mais nous avons continué.
En 2009, le projet ImageNet avait
une base de données de 15 millions d'images,
22 000 classes d'objets et de choses
organisées avec des mots d'anglais du quotidien.
Tant en quantité qu'en qualité,
une telle échelle de grandeur était une première.
Par exemple, les chats,
nous avons plus de 62 000 chats,
toutes sortes d'apparences et de poses,
toutes les espèces, domestiques et sauvages.
C'était formidable d'avoir bâti ImageNet,
et nous voulions en faire profiter le monde de la recherche.
Alors, à la manière de TED, nous avons donné l'accès aux données
à la recherche, gratuitement et dans le monde entier.
(Applaudissements)
Maintenant que nous avons les données pour nourrir notre cerveau informatique,
nous pouvons revenir sur les algorithmes.
Il se trouve que la manne d'informations désormais dans ImageNet
allait parfaitement avec un certain type d'algorithmes,
le réseau de neurones à convolution,
développé par Kunihiko Fukushima, Geoff Hinton et Yann LeCun
dans les années 1970 et 80.
Tout comme le cerveau est composé de milliards de neurones connectés,
l'unité de base d'un réseau neuronal
est le nœud de type neurone.
Il reçoit des informations d'autres nœuds
et en envoie à d'autres.
De plus, ces centaines de milliers voire millions de nœuds
sont organisés en couches hiérarchiques,
similaires au cerveau.
Dans le réseau neuronal classique que nous utilisons,
il y a 24 millions de nœuds,
140 millions de paramètres,
et 15 milliards de connexions.
C'est un modèle énorme.
Avec la puissance des données d'ImageNet
et les processeurs modernes pour traiter cet énorme modèle,
le réseau de neurones à convolution
s'est transformé de manière inattendue.
Il est devenu l'architecture idéale
pour générer des résultats fabuleux en reconnaissance d'objets.
Ceci est un ordinateur qui nous dit
que la photo contient un chat
et où est ce chat.
Bien sûr, il y a autre chose que des chats.
Ici un algorithme nous dit
que la photo contient un garçon et un ours en peluche,
un chien, une personne, et un cerf-volant en arrière-plan.
Ici, beaucoup d'activités
avec un homme, un skateboard, une rampe, un lampadaire, etc.
Parfois l'ordinateur n'est pas trop sûr,
nous lui avons appris à être assez intelligent
pour donner une réponse sûre, sans trop s'engager,
c'est ce que nous ferions.
D'autres fois, l'algorithme a la capacité incroyable
de nous dire exactement ce qu'est l'objet :
marque, modèle, année d'une voiture.
Nous avons utilisé cet algorithme sur des millions d'images Google Street View,
dans des centaines de villes américaines,
et nous avons découvert quelque chose de très intéressant.
D'abord, il a été confirmé
que le prix des voitures
et le revenu des foyers sont liés.
Mais, étonnamment, le prix des voitures
et le taux de crimes dans les villes sont également liés,
même chose avec la répartition géographique des votes.
Attendez un peu... c'est tout ?
Est-ce que l'ordinateur atteint, voire surpasse, les capacités humaines ?
Pas si vite.
Jusque là, nous avons appris aux ordinateurs à voir des objets,
comme un jeune enfant apprend à prononcer quelques noms.
C'est déjà incroyable,
mais ce n'est que la première étape.
Bientôt, nous atteindrons un autre niveau,
l'enfant commence à faire des phrases.
Au lieu de dire que c'est un chat sur la photo,
comme nous l'a dit la petite fille tout à l'heure.
Pour apprendre à l'ordinateur à générer des phrases à partir d'une photo,
le mariage entre les données et l'algorithme d'apprentissage
doit franchir une autre étape.
L'ordinateur doit apprendre à partir des photos,
en utilisant des phrases en langage naturel
générée par l'être humain.
Tout comme le cerveau combine vision et langage,
notre modèle connecte les parties de choses visuelles,
des petits bouts visuels,
avec des mots ou groupes de mots, pour en faire des phrases.
Il y a environ 4 mois,
nous avons enfin réussi
à créer l'un des premiers modèles de vision artificielle
capagle de générer une phrase comme un être humain
qui découvre une image.
Aujourd'hui, je suis prête à vous montrer ce que dit l'ordinateur
quand il voit la photo
que la petite fille voyait tout à l'heure.
(Vidéo) L'ordinateur : Un homme est debout à coté d'un éléphant.
Un grand avion est assis sur une piste d'aéroport.
FFL : Bien sûr, il y a encore beaucoup de travail sur les algorithmes,
l'ordinateur a encore beaucoup à apprendre,
(Applaudissements)
et il fait encore des erreurs.
(Vidéo) Ordinateur : un chat est couché sur un lit dans une couverture.
FFL : Bien sûr, s'il voit trop de chats,
il pense que tout est peut-être un chat.
(Vidéo) Ordinateur : un garçon tient une batte de base-ball.
(Rires)
FFL : Ou alors, s'il n'a jamais vu de brosse à dents, elle devient une batte.
(Vidéo) Ordinateur : Un homme se promène à cheval près d'un bâtiment.
(Rires)
Nous n'avons pas enseigné l'histoire de l'art à l'ordinateur.
(Vidéo) L'ordinateur : Un zèbre se trouve dans un pré.
FFL : Et il ne sait pas apprécier la beauté de la nature
comme vous et moi.
Ça a donc été un long voyage.
Aller de 0 à 3 ans a été difficile.
Le vrai défi est d'aller de 3 à 13 et bien au-delà.
Revoici l'image du garçon avec le gâteau.
Jusque là, nous avons appris à l'ordinateur à voir des objets
ou à créer une petite histoire d'après une photo.
(Vidéo) L'ordinateur : Une personne assise à une table avec un gâteau.
FFL : Mais il y a beaucoup plus
qu'une personne et un gâteau.
Ce que l'ordinateur ne voit pas est que c'est un gâteau italien spécial
servi uniquement à Pâques.
Le garçon porte son t-shirt préféré,
celui que lui a offert son père après un voyage à Sydney,
et vous et moi voyons bien à quel point il est heureux
et ce qu'il pense à ce moment.
C'est mon fils Léo.
Au cours de ma quête de l'intelligence visuelle,
Léo était constamment dans mes pensées
ainsi que le monde dans lequel il vivra.
Quand les machines pourront voir,
les médecins et infirmières auront une paire d'yeux infatigables en plus
pour les aider au diagnostic et au soin des patients.
Les voitures seront plus intelligentes et plus sûres.
Des robots, pas seulement des humains,
nous aideront à sauver des vies dans des zones sinistrées.
Nous découvrirons de nouvelles espèces, de meilleurs matériaux,
nous explorerons d'autres frontières, avec l'aide des machines.
Petit à petit, nous donnons la vue aux machines.
D'abord nous leur apprenons à voir.
Puis c'est elles qui nous aident à mieux voir.
Pour la première fois, les yeux humains ne seront pas les seuls
à questionner et explorer notre monde.
En plus d'utiliser les machines pour leur intelligence,
nous collaborerons avec elles de manière inédite.
C'est ma quête :
donner aux ordinateurs l'intelligence visuelle
et créer un meilleur avenir pour Léo et pour le monde.
Merci.
(Applaudissements)