170 000 livres piratés : voici ce que Meta et d'autres entreprises auraient utilisé pour entraîner leur IA

Une base de données secrète et piratée, des livres d’illustres auteurs comme Stephen King et Margaret Atwood, et un silence opaque : voici comment résumer les investigations d’Alex Reisner. Cet informaticien et écrivain, qui relate son enquête dans les colonnes de The Atlantic le 19 août dernier, s’est plongé dans les bases de données d’entraînements des grands modèles de langage. Car si les auteurs se plaignent depuis des mois de voir leurs œuvres servir de données d’entraînements des systèmes d’IA générative comme ChatGPT, Bard ou DALL-E sans leur consentement, ils n’avaient jusqu’à présent pas le moindre accès à ces données. Les entreprises qui développent les outils d’IA générative permettant de générer du texte, des images ou du code, ne sont pour l’instant pas soumises à des obligations de transparence en la matière. Et lorsqu’on les interroge sur le contenu de ces données de formation de leur système, elles restent souvent évasives.

Alex Reisner explique ainsi être parti d’un constat : pour produire les réponses à des prompts, les systèmes d’IA ont dû ingurgiter des milliards de données en accès libre sur le Web, mais pas seulement. Ils ont dû aussi s’entraîner sur bon nombre de « données plus qualitatives » : des livres, protégés par des droits d’auteur, dont la moindre utilisation devrait nécessiter un consentement de leurs ayants droit. Si l’existence de bibliothèque pirate est relativement connue, son contenu l’est moins. Et c’est justement ce point qu’a tenté d’éclaircir The Atlantic.

Books3, « la seule façon de répliquer des modèles comme ChatGPT »

Alex Reisner explique ainsi avoir passé du temps sur les plateformes GitHub et Hugging Face, épluchant des discussions de développeurs universitaires et d’amateurs. Il aurait ensuite téléchargé un cache massif de textes d’entraînement créé par EleutherAI — une organisation à but non lucratif — qui contient l’ensemble de données Books3.

Books3 a été mise en ligne par Shawn Presser, un chercheur qui milite pour l’open source, en 2020. Pour ce dernier, cette base de données est « la seule façon de répliquer des modèles comme ChatGPT ». Sans ce jeu de data, seules des sociétés « d’un milliard de dollars » comme OpenAI auraient suffisamment de ressources pour créer des outils d’IA générative, explique-t-il à nos confrères de Gizmodo. Cette dernière comprendrait près de 196 640 références au format plain.txt, selon un de ses tweets relayés par Torrent Freak.

170 000 livres publiés ces 20 dernières années

Cette base aurait été utilisée par Meta pour entraîner son LLaMA pour Large Language Model Meta AI, un modèle open source qui se présente comme une alternative au GPT d’OpenAI, comme l’entreprise l’a elle-même écrit dans un papier de recherche. Cette utilisation est d’ailleurs au cœur d’un procès initié en juillet dernier aux États-Unis, qui oppose l’humoriste américaine Sarah Silverman et deux autres auteurs à Meta et à OpenAI.

Et que contient cette base ? Selon nos confrères, elle comporte bon nombre de livres piratés (près de 170 000) dont la majorité a été publiée ces 20 dernières années, ainsi que d’autres données plus surprenantes comme les sous-titres de vidéos sur YouTube, les documents et transcriptions du Parlement européen, Wikipédia en anglais, les courriels envoyés et reçus par les employés d’Enron Corporation avant son effondrement en 2001.

À lire aussi : Un grand « pillage numérique » : quand l’IA générative défie le droit d’auteur

Meta n’a pas souhaité commenter cette affaire

Thrillers, documentaires, travaux de chercheurs, les livres concernés représenteraient pour un tiers de la fiction, et pour deux tiers des documentaires, provenant de grands et petits éditeurs, dont Penguin Random House, l’une des plus grandes maisons d’édition américaine. Des livres écrits par Stephen King, Margaret Atwood, Haruki Murakami et bien d’autres auraient donc servi de données d’entraînements pour des programmes d’IA générative comme le BloombergGPT de Bloomberg, le EleutherAI’s GPT-J — un modèle open-source populaire, en plus du LLaMA de Meta.

Books3 était jusqu’à peu disponible sur la plateforme The Eye. Mais en juillet dernier, cette dernière a décidé de la retirer pour éviter des poursuites judiciaires, après avoir reçu une demande de Rights Alliance, une organisation représentant une centaine d’ayants droit danois. Il serait toutefois toujours possible de la trouver sur d’autres plateformes.

Interrogé par nos confrères, le groupe de Mark Zuckerberg n’a pas souhaité commenter cette affaire. Bloomberg a confirmé que Books3 avait été utilisé pour entraîner le modèle initial de BloombergGPT, mais a déclaré qu’il ne serait plus utilisé pour les versions ultérieures. Juridiquement, les entreprises qui développent des IA génératives ne sont pas obligées de lister précisément quelles données elles utilisent pour former leur outil. Mais en Europe, le futur règlement sur l’IA devrait pallier ce vide et contraindre les géants du secteur à faire preuve de transparence.