Deux IA viennent de battre les êtres humains à un célèbre test de lecture

C’est une drôle de compétition virtuelle qui se déroule depuis 2016. Plusieurs universités et sociétés high-tech comme Google ou IBM se mesurent régulièrement au test de lecture de Stanford (Stanford Question Answering Dataset ou SQuAD) qui permet d’évaluer les capacités de compréhension des machines. Mais deux compétiteurs viennent de sortir du lot pour la première fois. Le premier est Alibaba. Son système a obtenu le score de 82,44 au début du mois de janvier, battant ainsi de justesse les humains rivaux qui ont atteint 82,304 points avec la même série de questions-réponses.

Le second, c’est Microsoft, qui a réalisé la même prouesse via son laboratoire de recherche basé en Asie. On notera au passage que Samsung ne parvient qu’à 14ème place de ce classement temporaire et Facebook à la 16ème, comme on peut le voir dans le tweet ci-dessous :

3/ It’s super close (exact match, F1 scores):
Humans: 82.3, 91.2
Baidu: 82.4, 88.6
Microsoft: 82.6, 88.5

Current leaderboard: pic.twitter.com/A8P152PddX

— Frank Chen (@withfries2) January 15, 2018

Les géants de la tech soumettent très régulièrement leurs intelligences artificielles à des questionnaires, mais le SQuAD est devenu l’un des plus réputés. Il comprend 100 000 questions générées à partir de plus de 500 articles aux sujets extrêmement variés, tirés eux-mêmes de Wikipedia. Tout cela afin de tester la capacité des machines à traiter de grandes quantités d’informations et fournir des réponses précises aux requêtes.

Les machines auront-elles réponse à tout ?

Ces progrès en matière de lecture automatique signifient qu’il sera possible à terme que des machines absorbent des quantités phénoménales de textes pour en faire un résumé ou en extraire une information en particulier. Et pourquoi pas imaginer un jour que les assistants intelligents soient capables de fournir des réponses très précises à n’importe quelle question, en allant tout simplement puiser les réponses sur le web ?

Dans l’immédiat, les applications seront multiples mais plus modestes : apporter un service client en ligne automatique, résumer les modes d’emploi des appareils ou encore fournir le texte des audioguides de certains musées. On pense, de notre côté, à un nouveau genre de robots journalistes, capables de traiter des informations plus complexes que de simples statistiques comme c’est le cas actuellement. On peut même s’attendre à ce que les étudiants se dispensent à l’avenir de lire intégralement certains manuels pour laisser les machines en tirer les données substantielles. Ou que l’on demande à son enceinte intelligente de constituer une revue de presse chaque matin sans avoir à mettre le nez dans les journaux. «Cela pourrait réduire sans précédent le besoin d’intervention humaine », a déclaré dans un communiqué repris par China Daily Luo Si, qui dirige les recherches sur le traitement du langage naturel d’Alibaba.

De son côté Microsoft pense faciliter les tâches des avocats et des médecins qui passeraient moins de temps à lire de volumineux documents pour se consacrer davantage au traitement des patients ou sur la stratégie de leurs clients. Le moteur de recherche Bing profite déjà de nombreuses avancées en matière de lecture automatique. Microsoft travaille aussi toujours sur le système SyNet dont le projet est de permettre à une machine d’apprendre à lire à une autre.

Si les intelligences artificielles d’Alibaba et Microsoft ont atteint des résultats encore jamais vus, les capacités de lecture des humains restent dans l’ensemble supérieures à celles des machines qui rencontrent encore des difficultés à saisir la complexité et les nuances du langage. « Le traitement du langage naturel reste un domaine plein de défis. Nous devons tous continuer à progresser », a tempéré Ming Zhou, le directeur général adjoint de Microsoft Research Asia.