Fuite chez Meta : l’alternative à ChatGPT a été partagée sur un forum

Dans le sillage de Google et Microsoft, Meta s’est également lancé dans la course à l’intelligence artificielle. Le groupe de Mark Zuckerberg a annoncé un modèle de langage baptisé LLaMA, pour Large Language Model Meta AI. Conçu comme une alternative à GPT, le modèle linguistique derrière ChatGPT, LLaMA est capable de générer du texte en réponse à son interlocuteur.

Dans un premier temps, Meta réserve son intelligence artificielle générative aux chercheurs agréés par ses soins. Pour tester l’IA, ceux-ci doivent déposer une demande. Meta accorde un accès « au cas par cas aux chercheurs universitaires, à ceux qui sont affiliés à des organisations du gouvernement, de la société civile et du milieu universitaire, et aux laboratoires de recherche de l’industrie du monde entier ». Pour déposer une demande, le chercheur doit expliquer ce qu’il compte faire avec LLaMA et fournir des exemples d’études réalisées par ses soins.

Pour le moment, l’accès au modèle linguistique est donc très limité. Il n’est pas encore prévu que tous les internautes puissent échanger avec LLaMA, comme c’est actuellement le cas avec ChatGPT ou Prometheus, le chatbot de Bing.

À lire aussi : Meta prévoit une nouvelle vague de licenciements

L’IA de Meta finit sur 4chan

Malheureusement pour Meta, son modèle de langage a été mis en ligne à son insu. Le jeudi 2 mars 2023, le modèle linguistique est en effet apparu sur le forum 4chan, rapportent nos confrères de Vice. Un internaute a partagé un fichier torrent permettant d’installer LLaMA sur un ordinateur.

Grâce à ce fichier, certains internautes affirment avoir installé le modèle sur leur PC. Plusieurs témoignages abondent dans ce sens. Interrogés par The Verge, plusieurs experts de l’IA expliquent avoir lancé le modèle sur une machine à l’aide du torrent. D’après eux, les fichiers correspondent bien aux documents fournis par Meta aux chercheurs universitaires acceptés dans le programme.

Contacté par Vice, Meta confirme à demi-mots la fuite de LLaMA. L’entreprise de Menlo Park reste évasive, mais laisse entendre qu’un individu a contourné le système mis en place pour déterminer quels chercheurs peuvent obtenir un accès à l’IA :

« LLaMA a été partagé à des fins de recherche, conformément à la façon dont nous avons partagé les grands modèles linguistiques précédents. Bien que le modèle ne soit pas accessible à tous, et que certains aient essayé de contourner le processus d’approbation, nous pensons que la stratégie de publication actuelle nous permet d’équilibrer responsabilité et ouverture ».

À ce stade, nous n’en savons pas plus sur la fuite. Sur Reddit, certains internautes prétendent que les fichiers ont été mis en ligne par un chercheur ayant obtenu l’approbation de Meta. C’est en tout cas ce que laisse penser le code d’identification unique, fourni par Meta aux chercheurs agréés. Avant de mettre les fichiers en ligne, l’internaute a oublié d’enlever le code. En théorie, Meta a donc pu remonter jusqu’à l’origine de la fuite en consultant simplement les fichiers torrent.

Consultés par 01Net, les fichiers contiennent toutes les versions du modèle linguistique. La firme a en effet conçu quatre versions du modèle, allant de 7 milliards de paramètres à 65 milliards de paramètres. La version cantonnée à sept milliards réclame moins de puissance de calcul. C’est pourquoi elle peut tourner sur un simple ordinateur. Les internautes de 4chan ont pu lancer le modèle sur un PC avec une RTX 3060 ou un processeur Ryzen 7900X. Notez qu’il faut tout de même un peu d’expertise technique pour tirer parti de la fuite.

Une grande première

C’est la toute première fois qu’un modèle linguistique propriétaire est divulgué publiquement par le biais d’une fuite. Jusqu’ici, les entreprises engagées dans la course à l’IA, comme OpenAI ou Google, sont parvenues à cadenasser l’utilisation de leurs outils pour éviter les dérives. Par exemple, OpenAI n’accorde l’accès à son chatbot que par le biais d’une interface pour le grand public, c’est-à-dire son site web, ou une API pour les entreprises. De cette manière, la start-up américaine est toujours capable d’encadrer l’usage de son robot, avec ses règles et ses lignes directrices.

https://twitter.com/ClementDelangue/status/1632948540245671936?s=20

Sans surprise, Meta fait son possible pour empêcher son modèle linguistique de se propager sur la toile. Le groupe californien a sommé plusieurs sites web de retirer les fichiers d’installation. Ceux-ci s’étaient par exemple retrouvés sur la plate-forme open source Hugging Face, focalisée sur la conception d’apps basées sur l’apprentissage automatique. Meta a demandé à la plate-forme de supprimer les fichiers, assurant qu’il s’agit d’une « distribution non autorisée » qui « constitue une violation du droit d’auteur ou une utilisation inappropriée ». Malgré l’acharnement de Meta, de nombreuses copies des fichiers LLaMA se sont retrouvées en ligne, notamment sur GitHub et Reddit.