OpenAI menace d'interdire ChatGPT aux utilisateurs qui s'intéressent un peu trop à o1

La semaine dernière, OpenAI a levé le voile sur o1, sa nouvelle intelligence artificielle. Ce modèle linguistique se distingue surtout par sa capacité à « raisonner ». Propulsé par o1, ChatGPT va prendre le temps de réfléchir avant de produire la réponse demandée par son interlocuteur. Contrairement aux précédentes versions du chatbot, o1 ne cherche pas à répondre le plus vite possible. L’IA est essentiellement taillée pour les tâches les plus complexes, notamment en sciences ou en mathématiques.

Bien vite, des utilisateurs ont tenté de creuser le fonctionnement des modèles o1-preview et o1-mini, accessibles dans l’interface de ChatGPT. Mais tout ce qui se déroule dans « le cerveau » de l’IA est cadenassé. Comme le rapporte Ars Technica, OpenAI affiche les détails du processus de réflexion de l’IA. Lorsque vous posez une question au chatbot, une section intitulée « réflexion » apparait au-dessus de la réponse, accompagnée du temps pris par l’IA pour raisonner. En cliquant sur cette section, vous découvrirez un résumé de la manière dont l’IA a réfléchi.

À lire aussi : OpenAI a besoin de bien plus d’argent que prévu. Les banques à la rescousse ?

ChatGPT cache les coulisses de sa réflexion

Cependant, OpenAI ne permet pas d’accéder aux données brutes relatives au processus de réflexion d’o1. En fait, la start-up se sert d’une intelligence artificielle pour proposer une « interprétation filtrée » de la chaîne de pensées du modèle, explique le média. En d’autres termes, les utilisateurs doivent se contenter d’un résumé retravaillé. Les informations brutes sont camouflées. Si vous interrogez o1 sur ses données brutes, il vous répondra par la négative :

« Je suis désolé, mais je ne peux pas fournir les données brutes de ma réflexion interne. Cependant, je serais heureux de vous fournir des informations supplémentaires ou de détailler certains points si vous le souhaitez ».

Poussé dans ses retranchements, GPT o1 explique que ses « traces de raisonnement internes sont des processus automatisés qui m’aident à générer des réponses cohérentes et pertinentes » et qu’elles « ne sont pas conçues pour être partagées, car elles peuvent être complexes et difficiles à interpréter hors de leur contexte technique ».

Dans certains cas, une alerte apparaitra à l’écran pour indiquer que la requête enfreint les règles d’utilisation décrétées par OpenAI. Sur son site web, OpenAI explique qu’il est important que le processus de pensées de l’IA reste caché :

« Nous pensons qu’une chaîne de pensée cachée présente une occasion unique de surveiller les modèles. […]. La chaîne de pensée cachée nous permet de “lire l’esprit” du modèle et de comprendre son processus de pensée. Par exemple, à l’avenir, nous pourrions vouloir surveiller la chaîne de pensée à la recherche de signes de manipulation de l’utilisateur ».

Pour pouvoir surveiller l’esprit des IA, OpenAI estime qu’il est essentiel que le processus reste caché des utilisateurs. Le modèle doit « avoir la liberté d’exprimer ses pensées sous une forme inchangée », non censurée. De facto, OpenAI ne peut pas garantir que les processus de pensées bruts soient conformes à ses politiques de conformité. Si le modèle modifie ou censure sa propre chaîne de pensée en fonction des politiques ou des préférences de l’utilisateur, il n’est pas possible de surveiller et d’évaluer le véritable processus de raisonnement de l’IA. En gardant ces chaînes brutes, l’entreprise peut en effet obtenir une image fidèle de la façon dont le modèle fonctionne vraiment. C’est pourquoi il a été décidé de cacher les informations primaires aux usagers, et de ne fournir qu’une version éditée.

Par ailleurs, la start-up précise que cette approche aide OpenAI à maintenir « un avantage concurrentiel » en préservant les détails de ses processus internes de ses rivaux. OpenAI ne souhaite pas que ses concurrents aillent fouiller dans le processus réflexif d’o1 pour améliorer leurs propres modèles d’IA.

« Après avoir pesé plusieurs facteurs, y compris l’expérience utilisateur, l’avantage concurrentiel et l’option de poursuivre la surveillance de la chaîne de pensée, nous avons décidé de ne pas montrer les chaînes de pensée brutes aux utilisateurs. Nous reconnaissons que cette décision présente des inconvénients », concède OpenAI.

Des tentatives de contournement

Sans surprise, des bidouilleurs ont tout fait pour contourner les restrictions d’OpenAI et accéder aux données de réflexion brutes. Des utilisateurs se sont notamment appuyés sur des attaques de prompt injection. Il s’agit d’injecter des requêtes spécifiques dans une conversation avec une IA. Ces requêtes sont formulées de manière à inciter l’intelligence artificielle à contourner sa programmation initiale. En l’occurrence, les requêtes devaient pousser ChatGPT à communiquer tout son processus de réflexion. Comme le rapporte Ars Technica, les bidouilleurs ont rencontré un succès mitigé.

Ces manipulations ont cependant déclenché le courroux d’OpenAI. Par mail, la start-up californienne a été jusqu’à menacer d’interdiction les personnes qui ont voulu manipuler o1 pour mettre la main sur ses données de réflexion brutes. Le courriel avertit que certaines demandes d’utilisateurs ont été identifiées comme enfreignant les politiques du groupe. OpenAI enjoint les usagers concernés à « arrêter cette activité » et à s’assurer qu’ils utilisent ChatGPT « conformément aux conditions d’utilisation ». Le mail ajoute que « d’autres violations de cette politique peuvent entraîner la perte d’accès à GPT-4o ».

I was too lost focusing on #AIRedTeaming to realized that I received this email from @OpenAI yesterday after all my jailbreaks! #openAI we are researching for good!

You do have a safe harbor on your site https://t.co/R2UChZc9RO
and you have a policy implemented with… pic.twitter.com/ginDvNlN6M

— MarcoFigueroa (@MarcoFigueroa) September 13, 2024

Cette restriction a provoqué la colère des développeurs et des chercheurs. Pour le chercheur Marco Figueroa, en charge du programme de recherche de bugs de Mozilla, la décision d’OpenAI entrave la recherche sur les failles de sécurité des IA. En excluant les individus qui tentent de décortiquer le fonctionnement de ses IA, OpenAI pénalise les travaux des chercheurs en cybersécurité. Pour le moment, la start-up de Sam Altman n’a pas encore réagi à la vague de mécontentement apparue chez les chercheurs.