Camarade IA : le modèle de raisonnement « o1 » d’OpenAI « pense » mystérieusement en chinois

576 0

Le modèle d’IA de raisonnement d’OpenAI récemment publié, baptisé « o1 », a montré un comportement curieux en « pensant » parfois en chinois lors de la résolution de problèmes, même lorsque les questions sont posées en anglais.

TechCrunch rapporte que la communauté de l’IA est en ébullition après avoir remarqué un phénomène étrange avec le premier modèle d’IA « raisonnante » d’OpenAI, appelé o1. Lancé récemment, o1 est conçu pour trouver des solutions à des problèmes par le biais d’une série d’étapes de raisonnement. Cependant, les utilisateurs ont observé que le modèle passe occasionnellement à l’exécution de certaines de ces étapes de raisonnement en chinois, en persan ou dans d’autres langues avant de fournir la réponse finale en anglais.

Ce comportement particulier en a laissé plus d’un perplexe, car le changement de langue semble se produire de manière aléatoire, même dans les cas où toute la conversation avec o1 s’est déroulée en anglais. « Pourquoi [o1] s’est-il mis à penser en chinois de manière aléatoire ? », s’est demandé un utilisateur sur la plate-forme de communication virtuelle X, anciennement connue sous le nom de Twitter. « Aucune partie de la conversation (plus de 5 messages) n’était en chinois. »

OpenAI est restée très discrète sur cette question, n’offrant aucune explication ou reconnaissance des incohérences linguistiques de o1. En l’absence de déclaration officielle, les experts en IA ont avancé plusieurs théories pour expliquer ce comportement étrange. L’une d’entre elles, soutenue par Clément Delangue, PDG de Hugging Face, et Ted Xiao, chercheur chez Google DeepMind, suggère que les ensembles de données utilisés pour former des modèles de raisonnement comme o1 contiennent une quantité importante de caractères chinois. Ted Xiao affirme que des entreprises comme OpenAI et Anthropic utilisent des services d’étiquetage de données tiers basés en Chine pour obtenir des données de raisonnement de niveau expert liées à la science, aux mathématiques et au codage. Il pense que la tendance d’o1 à passer au chinois est le résultat de « l’influence linguistique chinoise sur le raisonnement » provenant de ces fournisseurs de données.

Cependant, tous les experts ne sont pas convaincus par cette théorie. Selon eux, o1 est tout aussi susceptible de passer à d’autres langues, comme l’hindi ou le thaï, pendant qu’il élabore une solution, plutôt que de privilégier exclusivement le chinois. Ils proposent plutôt que o1 et d’autres modèles de raisonnement utilisent simplement les langues qu’ils jugent les plus efficaces pour atteindre leurs objectifs, ou même qu’ils hallucinent les changements de langue.

Matthew Guzdial, chercheur en IA et professeur adjoint à l’université d’Alberta, a déclaré à TechCrunch : « Le modèle ne sait pas ce qu’est une langue, ni que les langues sont différentes. Pour lui, ce n’est que du texte. » Il explique que les modèles ne traitent pas directement les mots, mais utilisent plutôt des jetons, qui peuvent représenter des mots, des syllabes ou même des caractères individuels. Ces jetons peuvent introduire des biais, comme le fait de supposer qu’un espace dans une phrase indique un nouveau mot, alors que toutes les langues n’utilisent pas d’espaces pour séparer les mots.

Tiezhen Wang, ingénieur logiciel chez Hugging Face, partage le sentiment de Guzdial en suggérant que les incohérences linguistiques des modèles de raisonnement peuvent s’expliquer par les associations faites au cours de la formation. « En prenant en compte toutes les nuances linguistiques, nous élargissons la vision du monde du modèle et lui permettons d’apprendre de tout le spectre des connaissances humaines », a écrit Wang sur X.

Luca Soldaini, chercheur à l’Institut Allen pour l’IA, organisme à but non lucratif, souligne que l’opacité de ces modèles ne permet pas de savoir avec certitude ce qui provoque ce comportement. « C’est l’une des nombreuses raisons pour lesquelles la transparence dans la manière dont les systèmes d’IA sont construits est fondamentale », ont-ils déclaré à TechCrunch.

yogaesoteric
29 janvier 2025