How We Teach Computers to Understand Pictures - Fei fei li - Ted talks

Traducteur: eric vautier Relecteur: nakhli rania Je vais vous montrer quelque chose. (Enfant) C'est un chat assis sur un lit. Le garçon caresse l'éléphant. Des gens montent dans un avion. C'est un gros avion. (Fei-Fei Li) C'est une enfant de 3 ans qui décrit ce qu'elle voit sur des photos. Elle a peut-être encore beaucoup à apprendre, mais elle est déjà experte dans un domaine très important : comprendre ce qu'elle voit. Notre société est technologiquement plus avancée que jamais. On envoie des gens sur la Lune, on fait des téléphones qui nous parlent, on a des stations de radio qui ne passent que ce qu'on aime. Pourtant, les machines et les ordinateurs les plus avancés ont toujours du mal à faire ça. Alors aujourd'hui je vais vous expliquer où nous en sommes, nos dernières recherches sur la vision par ordinateur, l'une des technologies les plus novatrices et potentiellement révolutionnaires en informatique. Oui, nous avons des prototypes de voitures qui conduisent toutes seules, mais sans la vision intelligente, elles ne font pas la différence entre un sac de papier roulé en boule, que l'on peut écraser, et une pierre qu'il faut éviter. Nous fabriquons des appareils photo à mégapixels incroyables, mais nous n'avons pas donné la vue aux aveugles. Les drones peuvent parcourir de grandes distances mais la technologie n'est pas assez avancée pour suivre l'évolution des forêts tropicales. Il y a des caméras de sécurité partout, mais elles ne savent pas nous alerter quand un enfant se noie dans une piscine. La photo et la vidéo font partie de notre vie. Elles sont générées tellement vite qu'aucun humain ou groupe d'humains ne peut tout voir, Vous et moi, nous y contribuons, avec cette conférence TED. Pourtant nos programmes les plus avancés ont du mal à comprendre et à gérer cet énorme contenu. En d'autres termes, nous, la société, sommes vraiment aveugles, parce que nos plus intelligentes machines sont encore aveugles. « Pourquoi est-ce si difficile ? », pourriez-vous demander. Un appareil peut prendre une photo comme celle-ci, il convertit la lumière en tableaux bidimensionnels que l'on nomme pixels, mais ce ne sont que des nombres sans vie. Par eux-mêmes, ils ne signifient rien. Tout comme entendre n'est pas la même chose qu'écouter, prendre une photo, ce n'est pas comme voir, et par « voir », entendez « comprendre ». En fait, Mère Nature a travaillé dur 540 millions d'années pour accomplir cette tâche, et le plus gros de cet effort a été le développement de l'appareil qui produit la vision dans notre cerveau, pas les yeux. La vision commence avec les yeux, mais tout se passe en fait dans le cerveau. Depuis maintenant 15 ans, d'abord en thèse à Caltech puis à la tête du Vision Lab à Stanford, je travaille avec mes mentors, collaborateurs et étudiants pour apprendre la vision aux ordinateurs. Il s'agit de vision par ordinateur et d'apprentissage machine. C'est un pan de la recherche sur l'intelligence artificielle. Le but est d'enseigner aux machines à voir comme nous : nommer des objets, identifier des gens, déduire des formes géométriques 3D, comprendre les relations, les émotions, les actions et les intentions. Nous tissons constamment des histoires de gens, d'endroits, de choses dès que nous posons les yeux dessus. Le premier pas est d'apprendre à l'ordinateur à voir des objets, c'est l'élément de base du monde visuel. Pour parler simplement, imaginez que ce processus d'apprentissage consiste à montrer à l'ordinateur des images d'un certain objet, par exemple des chats, puis concevoir un modèle qui puisse apprendre avec ces images. Ça ne doit pas être bien difficile ! Après tout, un chat est un ensemble de formes et de couleurs. Au début de la modélisation objet, c'est ce que nous avons fait. On rentrait un algorithme en langage mathématique pour dire que le chat a un visage rond, un corps un peu dodu, deux oreilles pointues et une longue queue et tout allait bien. Mais que fait-on pour celui-ci ? (Rires) Il est tout retourné. Alors il faut ajouter d'autres formes et points de vue au modèle objet. Et si le chat est caché ? Et ces drôles de chats-là ? Vous voyez ce que je veux dire. Quelque chose d'aussi simple qu'un animal domestique présente une infinité de variations du modèle objet. Et ça n'est qu'un seul objet. Il y a environ 8 ans, une réflexion toute simple mais profonde a changé ma manière de penser. Personne ne dit à un enfant comment voir, surtout dans les premières années. Il apprend par l'expérience, par des exemples quotidiens. Pensez aux yeux d'un enfant comme à deux appareils photo biologiques qui prennent une photo chaque 200 millisecondes, la durée moyenne du mouvement de l’œil. A 3 ans, un enfant a vu des centaines de millions de photos du monde réel. Ça nous fait beaucoup d'exemples. Alors plutôt que se concentrer sur l'amélioration des algorithmes, mon idée a été de former les algorithmes avec le genre de données qu'un enfant reçoit par l'expérience tant en quantité qu'en qualité Une fois que nous avons compris ça, nous savions qu'il fallait collecter un ensemble de données qui contienne bien plus d'images que jamais auparavant, peut-être des milliers de fois plus. Avec le professeur Kai Li de l'Université de Princeton, nous avons donc lancé le projet ImageNet en 2007. Heureusement, ce n'était pas la peine de se mettre une caméra sur la tête et d'attendre plusieurs années. Nous sommes allés sur Internet, la plus grande mine de photos que l'humain ait jamais créée. Nous avons téléchargé près d'un milliard d'images. Des technologies de crowdsourcing comme le Turc Mécanique d'Amazon nous ont aidés à cataloguer les images. A son plus haut, ImageNet a été l'un des plus gros employeurs du Turc Mécanique d'Amazon : près de 50 000 employés dans 167 pays nous ont aidés à nettoyer, trier, étiqueter presque un milliard d'images. C'est vous dire l'effort entrepris pour capturer une fraction des images qu'un enfant stocke pendant ses premières années. Aujourd'hui, cette idée d'utiliser ces masses de données pour construire des algorithmes peut paraître évidente, mais pas en 2007. Pendant longtemps, nous étions bien seuls. Des collègues me conseillaient de trouver autre chose pour devenir titulaire, et c'était une bataille constante pour trouver des crédits de recherche. Je disais en plaisantant à mes étudiants que je pourrais reprendre ma laverie pour financer ImageNet. Après tout, j'avais financé mes études grâce à elle. Mais nous avons continué. En 2009, le projet ImageNet avait une base de données de 15 millions d'images, 22 000 classes d'objets et de choses organisées avec des mots d'anglais du quotidien. Tant en quantité qu'en qualité, une telle échelle de grandeur était une première. Par exemple, les chats, nous avons plus de 62 000 chats, toutes sortes d'apparences et de poses, toutes les espèces, domestiques et sauvages. C'était formidable d'avoir bâti ImageNet, et nous voulions en faire profiter le monde de la recherche. Alors, à la manière de TED, nous avons donné l'accès aux données à la recherche, gratuitement et dans le monde entier. (Applaudissements) Maintenant que nous avons les données pour nourrir notre cerveau informatique, nous pouvons revenir sur les algorithmes. Il se trouve que la manne d'informations désormais dans ImageNet allait parfaitement avec un certain type d'algorithmes, le réseau de neurones à convolution, développé par Kunihiko Fukushima, Geoff Hinton et Yann LeCun dans les années 1970 et 80. Tout comme le cerveau est composé de milliards de neurones connectés, l'unité de base d'un réseau neuronal est le nœud de type neurone. Il reçoit des informations d'autres nœuds et en envoie à d'autres. De plus, ces centaines de milliers voire millions de nœuds sont organisés en couches hiérarchiques, similaires au cerveau. Dans le réseau neuronal classique que nous utilisons, il y a 24 millions de nœuds, 140 millions de paramètres, et 15 milliards de connexions. C'est un modèle énorme. Avec la puissance des données d'ImageNet et les processeurs modernes pour traiter cet énorme modèle, le réseau de neurones à convolution s'est transformé de manière inattendue. Il est devenu l'architecture idéale pour générer des résultats fabuleux en reconnaissance d'objets. Ceci est un ordinateur qui nous dit que la photo contient un chat et où est ce chat. Bien sûr, il y a autre chose que des chats. Ici un algorithme nous dit que la photo contient un garçon et un ours en peluche, un chien, une personne, et un cerf-volant en arrière-plan. Ici, beaucoup d'activités avec un homme, un skateboard, une rampe, un lampadaire, etc. Parfois l'ordinateur n'est pas trop sûr, nous lui avons appris à être assez intelligent pour donner une réponse sûre, sans trop s'engager, c'est ce que nous ferions. D'autres fois, l'algorithme a la capacité incroyable de nous dire exactement ce qu'est l'objet : marque, modèle, année d'une voiture. Nous avons utilisé cet algorithme sur des millions d'images Google Street View, dans des centaines de villes américaines, et nous avons découvert quelque chose de très intéressant. D'abord, il a été confirmé que le prix des voitures et le revenu des foyers sont liés. Mais, étonnamment, le prix des voitures et le taux de crimes dans les villes sont également liés, même chose avec la répartition géographique des votes. Attendez un peu... c'est tout ? Est-ce que l'ordinateur atteint, voire surpasse, les capacités humaines ? Pas si vite. Jusque là, nous avons appris aux ordinateurs à voir des objets, comme un jeune enfant apprend à prononcer quelques noms. C'est déjà incroyable, mais ce n'est que la première étape. Bientôt, nous atteindrons un autre niveau, l'enfant commence à faire des phrases. Au lieu de dire que c'est un chat sur la photo, comme nous l'a dit la petite fille tout à l'heure. Pour apprendre à l'ordinateur à générer des phrases à partir d'une photo, le mariage entre les données et l'algorithme d'apprentissage doit franchir une autre étape. L'ordinateur doit apprendre à partir des photos, en utilisant des phrases en langage naturel générée par l'être humain. Tout comme le cerveau combine vision et langage, notre modèle connecte les parties de choses visuelles, des petits bouts visuels, avec des mots ou groupes de mots, pour en faire des phrases. Il y a environ 4 mois, nous avons enfin réussi à créer l'un des premiers modèles de vision artificielle capagle de générer une phrase comme un être humain qui découvre une image. Aujourd'hui, je suis prête à vous montrer ce que dit l'ordinateur quand il voit la photo que la petite fille voyait tout à l'heure. (Vidéo) L'ordinateur : Un homme est debout à coté d'un éléphant. Un grand avion est assis sur une piste d'aéroport. FFL : Bien sûr, il y a encore beaucoup de travail sur les algorithmes, l'ordinateur a encore beaucoup à apprendre, (Applaudissements) et il fait encore des erreurs. (Vidéo) Ordinateur : un chat est couché sur un lit dans une couverture. FFL : Bien sûr, s'il voit trop de chats, il pense que tout est peut-être un chat. (Vidéo) Ordinateur : un garçon tient une batte de base-ball. (Rires) FFL : Ou alors, s'il n'a jamais vu de brosse à dents, elle devient une batte. (Vidéo) Ordinateur : Un homme se promène à cheval près d'un bâtiment. (Rires) Nous n'avons pas enseigné l'histoire de l'art à l'ordinateur. (Vidéo) L'ordinateur : Un zèbre se trouve dans un pré. FFL : Et il ne sait pas apprécier la beauté de la nature comme vous et moi. Ça a donc été un long voyage. Aller de 0 à 3 ans a été difficile. Le vrai défi est d'aller de 3 à 13 et bien au-delà. Revoici l'image du garçon avec le gâteau. Jusque là, nous avons appris à l'ordinateur à voir des objets ou à créer une petite histoire d'après une photo. (Vidéo) L'ordinateur : Une personne assise à une table avec un gâteau. FFL : Mais il y a beaucoup plus qu'une personne et un gâteau. Ce que l'ordinateur ne voit pas est que c'est un gâteau italien spécial servi uniquement à Pâques. Le garçon porte son t-shirt préféré, celui que lui a offert son père après un voyage à Sydney, et vous et moi voyons bien à quel point il est heureux et ce qu'il pense à ce moment. C'est mon fils Léo. Au cours de ma quête de l'intelligence visuelle, Léo était constamment dans mes pensées ainsi que le monde dans lequel il vivra. Quand les machines pourront voir, les médecins et infirmières auront une paire d'yeux infatigables en plus pour les aider au diagnostic et au soin des patients. Les voitures seront plus intelligentes et plus sûres. Des robots, pas seulement des humains, nous aideront à sauver des vies dans des zones sinistrées. Nous découvrirons de nouvelles espèces, de meilleurs matériaux, nous explorerons d'autres frontières, avec l'aide des machines. Petit à petit, nous donnons la vue aux machines. D'abord nous leur apprenons à voir. Puis c'est elles qui nous aident à mieux voir. Pour la première fois, les yeux humains ne seront pas les seuls à questionner et explorer notre monde. En plus d'utiliser les machines pour leur intelligence, nous collaborerons avec elles de manière inédite. C'est ma quête : donner aux ordinateurs l'intelligence visuelle et créer un meilleur avenir pour Léo et pour le monde. Merci. (Applaudissements)