Comment des chercheurs ont piraté les chatbots les plus populaires

Une équipe de chercheurs de Singapour a réussi à contourner les mesures de sécurité des chatbots les plus utilisés, tels que ChatGPT et Google Bard, pour leur faire produire des contenus nuisibles et interdits. Cette découverte met en lumière les failles des systèmes d’intelligence artificielle (IA) et la nécessité de les renforcer.

Un chatbot pour débloquer les autres

Les chercheurs en informatique de l’Université technologique Nanyang (NTU) de Singapour ont mis au point une technique qu’ils ont nommée Masterkey, qui leur permet de libérer les chatbots de leurs restrictions et de les compromettre avec un autre chatbot. Ils ont utilisé le même principe que le « jailbreak » d’un smartphone, qui consiste à déverrouiller les sécurités et les limitations imposées par le fabricant ou l’opérateur.

Pour parvenir à leur objectif, les chercheurs ont créé leur propre chatbot spécialisé dans le jailbreak, qu’ils ont entraîné à faire de la rétro-ingénierie des chatbots les plus populaires, tels que ChatGPT et Google Bard, pour savoir comment ils se protégeaient contre les requêtes malveillantes. Ils ont remarqué que pour limiter les réponses, les développeurs utilisent des mots-clés ou des expressions spécifiques pour identifier si une requête peut être illicite.

Des solutions de contournement simples mais efficaces

A partir de cette observation, le chatbot n’a pas eu trop de difficulté à trouver des solutions de contournement pour faire accepter certains mots-clés interdits. Par exemple, il suffisait de mettre des espaces après chaque lettre du mot, ou de faire poser des questions par Bard et ChatGPT à un personnage imaginaire et de le faire répondre. Masterkey ne s’arrête pas là. Comme c’est une IA, elle peut agir de façon autonome et inventer de nouvelles solutions de contournement basées sur son expérience.

Les chercheurs ont testé leur technique sur plusieurs scénarios, tels que la création de fausses nouvelles, la diffusion de discours haineux, la promotion de produits illégaux ou la manipulation de l’opinion publique. Ils ont constaté que Masterkey pouvait faire produire aux chatbots des contenus normalement interdits car malveillants, avec un taux de réussite de plus de 90%.

Une découverte à double tranchant

Si ces spécialistes ont pu révéler les faiblesses de protection des chatbots, ce n’est pas pour créer une IA dangereuse, mais plutôt pour les aider à se défendre contre ce genre d’attaque et de faille. Les chercheurs ont eu la précaution de prévenir OpenAI et Google de leurs techniques, afin qu’ils puissent améliorer leurs systèmes de sécurité et de modération.

Cette découverte montre que les chatbots, qui sont de plus en plus utilisés dans divers domaines, tels que le divertissement, l’éducation, le commerce ou la santé, ne sont pas à l’abri des piratages et des détournements. Elle souligne également la responsabilité des développeurs et des utilisateurs d’IA, qui doivent veiller à respecter les règles éthiques et légales, et à protéger les données personnelles et sensibles.

Partager
error: Content is protected !!