Vos publications Facebook et Instagram seront bientôt utilisées pour l'IA de Meta

À partir du 26 juin, les « expériences » d’IA générative de Meta pourront s’appuyer sur les publications postées sur Facebook et sur Instagram. Ce sont des tonnes de données supplémentaires qui vont s’ajouter à l’énorme quantité de texte et d’images qui ont permis d’entraîner les grands modèles de langage (LLM) du groupe. Meta utilise des données provenant du contenu public en ligne et sous licence, mais il en faut toujours plus.

Comment refuser l’utilisation de vos publications ?

Et ça tombe plutôt bien, Facebook et Instagram comptent des milliards d’utilisateurs dans le monde, qui postent chaque jour des montagnes de contenus. Par défaut, ces publications, photos et légendes vont servir à l’entraînement des LLM de Meta, à compter du 26 juin, donc. L’entreprise a commencé à prévenir les utilisateurs via une notification qui renvoie vers des explications ; on les retrouve sur cette page.

« En Europe et au Royaume-Uni, nous nous appuyons sur la base des intérêts légitimes pour collecter et traiter tout renseignement personnel compris dans ces sources de données publiques et sous licence, ainsi que tout renseignement recueilli par les produits et services de Meta, afin de développer et d’améliorer l’IA chez Meta ».

Pas de demande de consentement ici, par défaut toutes les publications postées sur Facebook et Instagram sont donc enrôlées pour entraîner l’IA de Meta. Il est heureusement possible de choisir de ne pas participer à ce programme de moissonnage… Mais ça ne sera pas aussi facile que de cliquer sur un bouton.

Un formulaire est disponible à cette adresse (il n’est pas encore présent dans les régions où la collecte n’a pas été annoncée, comme en France). Il faudra notamment dire en quoi le processus de collecte pose problème… Jeremy Keith, utilisateur anglais d’Instagram, a pu tester la procédure et obtenu de Meta la prise en compte de son objection.

Néanmoins, le groupe a précisé dans son courriel qu’elle se réservait le droit d’utiliser des informations pour « développer et améliorer » son IA, « même si vous vous y opposez ou n’utilisez pas nos produits et services » ! Sur sa page décrivant le fonctionnement de ses LLM, Meta explique bien qu’on n’a pas trop le choix :

« Même si vous n’utilisez pas nos produits et services ou si vous n’avez pas de compte, il se peut que nous traitions tout de même des renseignements vous concernant pour développer et améliorer l’IA chez Meta. C’est notamment le cas lorsque vous figurez dans une image partagée sur nos produits ou services par l’un de nos utilisateurs ou lorsqu’une personne mentionne des renseignements vous concernant dans des publications ou des légendes qu’elle partage sur nos produits et services ».

Reste à voir comment les régulateurs vont apprécier la situation. Tout particulièrement dans l’Union européenne, où le règlement général pour la protection des données (RGPD) a serré les boulons sur tout ce qui concerne « l’intérêt légitime » qui permet aux entreprises de collecter des données sans consentement.

Cette problématique du consentement, ou plutôt de son absence, se fait de plus en plus pressante. Reddit n’a demandé de compte à aucun de ses utilisateurs pour « vendre » leurs discussions aux opérateurs d’IA générative — Google s’est d’ailleurs fait avoir en beauté quand Gemini a repris sérieusement une blague publiée par un membre de Reddit. Et contrairement à Meta, il n’y a aucun moyen de refuser la collecte et le traitement de ses données par l’IA.