Passer au contenu

Demain les intelligences artificielles comprendront peut-être ce qu’elles voient

Des chercheurs ont mis au point un nouveau format de test visuel pour savoir si les intelligences artificielles seront capables non seulement de voir ce qu’il y a dans une image mais également de la comprendre. Une nouvelle étape primordiale.

Grâce aux réseaux neuronaux convolutionnels et au Deep Learning, les intelligences artificielles progressent très rapidement dans le domaine de l’analyse visuelle. Elles sont désormais capables de reconnaître une personne ou même de dire si un animal ou un objet se trouve dans un cliché. Ces progrès impliquent que les outils et procédures utilisés pour définir leur capacité sont quelque peu dépassés.

Un besoin de corser le tout

Un groupe de chercheurs américains a ainsi déclaré qu’identifier un objet dans une photo est non seulement devenu trop facile pour les intelligences artificielles mais qu’en plus ce n’est pas très utile en tant qu’objectif final. Car ce que les intelligences artificielles doivent viser désormais, c’est la compréhension de ce que qui se passe dans un cliché.
Pour juger de cette capacité des IA a bien interpréter le contenu d’une image, Stuart Geman, professeur de mathématiques appliqués à l’université de Brown, et trois autres chercheurs, en partenariat avec la DARPA, ont mis en place un cadre standardisé visant à tester les intelligences artificielles.

Leur méthode consiste dans un premier temps à demander à des sujets humains de répondre à des questions. Par exemple, dire s’il y a une personne dans une zone déterminée d’une image, de préciser si cet individu porte quelque chose ou interagit avec un tiers. Une fois les réponses humaines enregistrées, les mêmes questions seraient alors soumises à une intelligence artificielle, sans les réponses, bien entendu.

Vers un sens commun artificiel

Au départ les questions seraient rudimentaires, précisent les chercheurs. On demanderait à l’IA s’il y a une personne dans telle zone du cliché, et peu à peu, les interrogations se compliqueraient jusqu’à demander quel type d’interaction a lieu entre deux personnes. L’objectif final étant d’arriver à faire en sorte que l’intelligence artificielle aboutisse à une forme de sens commun, que chaque humain possède. Une capacité à tirer des conséquences logiques et directes. Par exemple, une intelligence artificielle voyant dans une même image un homme marcher et un piano tomber au dessus de lui devrait pouvoir répondre à la question : « que va-t-il se passer ensuite ? ». Le document ne dit pas si « Le piano aura besoin d’être réaccordé » figurera parmi les réponses acceptables…

Un test pour le long terme

Pour l’instant, les intelligences artificielles sont loin d’être capables d’une telle réponse, reconnaît Stuart Geman. Même les questions les plus rudimentaires de son test ne pourraient ne pas obtenir de réponse. Le chercheur n’est même pas sûr que les intelligences artificielles soient un jour capable d’y arriver. Son nouveau test visuel de Turing est donc autant un objectif lointain à atteindre que le témoin d’une époque où les espoirs de progrès sont permis. La preuve que le domaine a besoin de nouveaux défis pour continuer d’avancer sur la « route embrumée » qu’est l’intelligence artificielle selon les propos de Yann LeCun, ponte indiscutable des réseaux neuronaux convolutionnels.

A lire aussi :
Une intelligence artificielle de Google plus forte que l’homme à Space Invaders ! – 26/02/2015

Sources :
Visual Turing test for computer vision systems (PDF) via IEEE.org

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Pierre Fontaine