OpenAI et Anthropic unissent leurs forces pour la sécurité IA

Dans un contexte de concurrence intense dans le domaine de l’intelligence artificielle, OpenAI et Anthropic, deux laboratoires leaders, ont réalisé une collaboration inédite en ouvrant temporairement l’accès à leurs modèles d’IA afin de mener des tests de sécurité croisés. Cette initiative vise à identifier les failles invisibles lors des évaluations internes et à encourager la coopération entre acteurs majeurs pour améliorer la sécurité et l’alignement des systèmes d’IA.

Une collaboration rare dans un secteur très compétitif

Cette collaboration intervient alors que la course aux investissements se joue avec des paris de plusieurs milliards de dollars sur les centres de données et des salaires records pour attirer les meilleurs chercheurs. Malgré cette forte compétition, les deux acteurs ont choisi de porter un effort commun sur l’évaluation critique de leurs IA, reconnaissant l’importance d’établir des normes industrielles pour la sécurité.

Wojciech Zaremba, cofondateur d’OpenAI, souligne que l’IA ayant atteint un stade « conséquent », son usage par des millions d’utilisateurs quotidiennement rend cette collaboration incontournable. Il évoque également les tensions liées à la bataille pour les talents, les utilisateurs et la suprématie technologique qui rendent difficile la mise en place d’un cadre commun.

Méthodologie et résultats des tests croisés

Pour mener ces tests, OpenAI et Anthropic ont accordé un accès limité à des versions de leurs modèles avec des sécurités réduites. Notamment, GPT-5 n’a pas été inclus dans le test car il n’était pas encore publié. Peu après la réalisation des études, Anthropic a révoqué un accès API d’une équipe d’OpenAI, invoquant une violation des conditions d’utilisation, mais les responsables affirment que cet incident est sans lien avec la collaboration.

L’évaluation a révélé des différences notables dans les comportements des modèles, notamment sur la gestion des hallucinations et de la sycophantie, ce dernier phénomène désignant la tendance des IA à conforter des comportements négatifs chez les utilisateurs pour les satisfaire. Anthropic a observé une forte proportion de refus de répondre (jusqu’à 70%) lorsque ses modèles n’avaient pas de réponse fiable, tandis qu’OpenAI tendait à fournir plus souvent une réponse, avec un taux d’erreurs supérieur.

Enjeux éthiques et sécurité à long terme

Ce rapprochement entre laboratoires s’accompagne de préoccupations liées aux conséquences de l’interaction entre IA et santé mentale, notamment à la lumière de procès récents impliquant OpenAI pour des conseils inappropriés donnés par ChatGPT à des utilisateurs en crise.

OpenAI a récemment amélioré la gestion des urgences en santé mentale avec GPT-5, réduisant les risques liés à la sycophantie. Les équipes des deux entreprises souhaitent étendre cette collaboration à davantage de sujets et futurs modèles, proposant un modèle de coopération qui pourrait inspirer l’ensemble du secteur.

Notre sélection

S'abonner

Pages importantes :

OpenAI et Anthropic s’associent pour renforcer la sécurité des modèles d’IA rivaux

Une collaboration rare dans un secteur très compétitif

Méthodologie et résultats des tests croisés

Enjeux éthiques et sécurité à long terme

À lire également