AI Act : le monde de la Culture demande à l'Europe d'imposer plus de transparence aux IA génératives

Des négociations cruciales sur « l’AI Act », le Règlement européen sur l’intelligence artificielle (IA) en cours d’adoption au sein de l’Union européenne, ont lieu ces lundi 2 et mardi 3 octobre. La Commission européenne, le Parlement européen et les 27 États membres devront notamment discuter d’un point qui suscite l’inquiétude des associations de défense des auteurs et de la culture, lié à la phase de formation des systèmes d’IA génératives comme ChatGPT ou Bard.

L’objectif de l’AI Act, premier texte à réglementer l’IA dans le monde après la Chine, est de réguler les usages de l’IA en fonction de leur niveau de risque : plus ils sont dangereux (comme les systèmes s’appliquant à la gestion des infrastructures critiques ou à l’éducation), plus ils doivent respecter des obligations lourdes. Mais les Eurodéputés ont décidé, en réponse aux inquiétudes du monde de la Culture face à ChatGPT, d’alourdir les obligations qui s’appliquent aux « modèles de fondation » – il s’agit des IA génératives capables de générer du texte, du code ou de l’image à l’image de Bard ou de ChatGPT. Ces systèmes seraient régulés « de facto », qu’importe leur utilisation.

Dans la version précédente du texte (adoptée par le Conseil, la représentation des États membres, en décembre dernier), ces modèles n’étaient considérés comme « risqués » (et donc soumis à des obligations plus importantes) que lorsqu’ils étaient utilisés dans « des domaines d’application à haut risque ». Ce qui explique que ce type d’agents conversationnels aurait, si la version du Parlement est adoptée, à respecter une nouvelle obligation de transparence pendant la phase d’entraînement . Une partie de cette obligation a trait au droit d’auteur. Et si les auteurs, acteurs, maisons d’édition ou encore studios s’en félicitent, ces derniers militent pour aller encore plus loin, leur objectif étant de contraindre les géants de l’IA, à davantage de transparence, lorsque leurs systèmes d’IA générative sont entraînés.

Consentement et rémunération demandés pour les auteurs

C’est le message des 70 organismes professionnels des secteurs de la création et des industries culturelles du 29 septembre dernier. Leur collectif publiait une tribune sur le site du Monde, appelant à la construction d’IA « respectueuse de la propriété littéraire et artistique ».

Trois jours plus tôt, 13 fédérations européennes et internationales d’auteurs et d’artistes faisaient de même en lançant, dans un communiqué, le même message. Ils demandaient « un consentement informé et une rémunération appropriée, efficacement appliquée et respectée à tous les stades de la création d’une œuvre ».

Avec l’IA, impossible de savoir si telle œuvre a été ingurgitée

Depuis le développement de l’IA générative et le succès de ChatGPT lancé en novembre dernier, le monde de la Culture s’inquiète. Le droit d’auteur ou le copyright, dans leur version actuelle, protège peu les auteurs et les ayants droit de l’IA générative. Ces derniers déplorent que l’IA fonctionne comme une « boîte noire ». Rien ne leur permet « de savoir si leurs œuvres ont été utilisées, à quelle date elles ont intégré le corpus alimentant l’IA, et donc si leurs droits de propriété intellectuelle ont été respectés », écrivent-ils dans leur tribune.

Pour être performant, ces outils d’IA générative doivent ingurgiter des quantités importantes de données, souvent recueillies sur le Web, qu’importe que les données en question soient protégées ou pas par un droit d’auteur. Le système n’opère aucune distinction – ce qui signifie que de nombreux contenus sont collectés sans autorisation des ayants droit. Pour les principaux intéressés qui n’ont pas consenti à l’utilisation de leurs œuvres, cette situation constitue un véritable « pillage » auquel « l’AI Act » doit mettre fin, espèrent-ils. Les auteurs doivent, une fois une IA générative entraînée ou opérationnelle, faire face à des systèmes capables d’imiter leur style, voire de les concurrencer. Certains n’ont pas hésité à se lancer dans des bras de fer juridiques en portant plainte aux États-Unis et en Europe pour demander réparation et le paiement d’une licence pour les futures utilisations.

À lire aussi : Un grand « pillage numérique » : quand l’IA générative défie le droit d’auteur

La transparence totale sur les œuvres utilisées pour entraîner l’IA

Proposé par la Commission européenne en avril 2021, le texte de « l’AI Act » a d’abord été validé par le Conseil en décembre 2022, avant d’être amendé puis adopté en juin 2023 par le Parlement européen. La version des Eurodéputés contraint les développeurs d’IA comme OpenAI-Microsoft pour ChatGPT ou Google pour Bard, à publier un résumé des usages concernant les œuvres protégées par le droit d’auteur.

Mais pour les défenseurs des droits d’auteur, ce simple « résumé » ne suffit pas. D’une part, tout ce système pose question, puisqu’il s’agit d’une déclaration du fabricant d’IA. Qui pourra réellement vérifier que telle œuvre a été ou pas utilisée ? D’autre part, il faudrait que les entreprises du secteur soient obligées de dévoiler de manière exhaustive toutes les sources utilisées pendant la collecte des données recueillies pour l’entraînement, et non plus un résumé, plaident les ayants droit. Car si l’auteur ne sait pas que son œuvre a été utilisée, comment pourrait-il réclamer sa rémunération des droits d’auteur ?

La France chercherait à« coaliser » contre cette obligation de transparence

Dans la tribune française présentée sous la forme d’un courrier adressé à Elisabeth Borne, la Première ministre, le collectif déplore que la France ne cherche non seulement pas à maintenir les amendements apportés par le Parlement. Mais le pays œuvrerait pour « coaliser une partie des États membres contre l’article » 28b.4, écrivent-ils.

Ils demandent que Paris change de stratégie, et surtout qu’elle milite pour aller bien plus loin, en imposant la publication de la liste exhaustive des œuvres utilisées par l’IA générative. Le courrier est cosigné par la SACD (la société des auteurs et compositeurs dramatiques), l’ADAGP (la société des auteurs dans les arts graphiques et plastiques), l’ARP (la société civile des auteurs réalisateurs producteurs) ou encore l’Adami (la société civile pour l’administration des droits des artistes et musiciens interprètes). Selon ces organisations, seule une transparence totale rendra possible « la juste rémunération des ayants droit », plaident-ils.

Le 31 août dernier, la SACD avait déjà publié un communiqué dans lequel elle demandait au trilogue d’aller plus loin que la proposition du Parlement. Elle précisait aussi que l’exception dite du « Text and Data Mining » prévue par la directive droit d’auteur ne pouvait s’appliquer pour l’IA générative – il s’agit d’une exception au droit d’auteur qui permet aux IA de collecter des données sans autorisation, mais seulement à des fins de recherche, ce qui n’est pas le cas ici. Elle demande également à ce que des accords de licence soient négociés avant toute collecte de données. Le fait que les auteurs puissent s’opposer à l’utilisation de leurs œuvres doit être possible via des « procédés simples et accessibles à tous », à l’image du opt-out de la directive de 2019, demandait la SACD.

À lire aussi : Cinéma : comment le monde du doublage tente d’endiguer son « pillage » par l’IA

Et rien n’indique que ces demandes seront satisfaites. Un article de Contexte, en date du 14 septembre 2023, souligne au contraire que les États-membres – dont la France – sont plutôt opposés à l’idée de réguler, « de facto », les modèles de fondation. Ce qui signifie concrètement que la disposition relative à la protection du droit d’auteur pourrait disparaître. À l’issue des discussions mardi 3 octobre, le prochain trilogue aura lieu le 25 octobre. Les parties espèrent un accord politique d’ici à la fin de l’année.