Étude : Les moteurs de recherche utilisant l’IA citent des sources incorrectes à un taux de 60%

433 0

Une nouvelle étude du Tow Center for Digital Journalism de la Columbia Journalism Review a mis en évidence de graves problèmes de précision avec les modèles d’IA générative utilisés pour la recherche d’informations. Selon l’étude, les moteurs de recherche à base d’IA ont un taux d’erreur surprenant de 60 % lorsqu’ils sont interrogés sur l’actualité.

Ars Technica rapporte que l’étude a testé huit outils de recherche pilotés par l’IA et dotés d’une fonctionnalité de recherche en direct, et a découvert que les modèles d’IA répondaient de manière incorrecte à plus de 60 % des requêtes portant sur des sources d’information. Cette constatation est d’autant plus préoccupante qu’environ un Américain sur quatre utilise désormais des modèles d’IA comme alternatives aux moteurs de recherche traditionnels, selon le rapport des chercheurs Klaudia Jaźwińska et Aisvarya Chandrasekar.

Les taux d’erreur varient considérablement d’une plateforme à l’autre. Perplexity a fourni des informations incorrectes dans 37 % des requêtes, tandis que ChatGPT Search s’est trompé dans 67 % des cas. Grok 3 d’Elon Musk a enregistré le taux d’erreur le plus élevé (94 %). Pour l’étude, les chercheurs ont alimenté les modèles d’IA en extraits directs d’articles de presse réels et ont demandé à chacun d’entre eux d’identifier le titre, l’éditeur original, la date de publication et l’URL. Au total, 1.600 requêtes ont été effectuées sur les huit outils de recherche générative.

L’étude a révélé qu’au lieu de refuser de répondre lorsqu’ils ne disposaient pas d’informations fiables, les modèles d’IA fournissaient souvent des « confabulations », c’est-à-dire des réponses plausibles mais incorrectes ou spéculatives. Ce comportement a été observé pour tous les modèles testés. Il est surprenant de constater que les versions premium payantes telles que Perplexity Pro (20 $/mois) et Grok 3 premium (40 $/mois) ont fourni en toute confiance des réponses incorrectes encore plus fréquemment que les versions gratuites, bien qu’elles aient répondu correctement à un plus grand nombre d’invites totales.

Il est également apparu que certains outils d’intelligence artificielle ignoraient les paramètres du protocole d’exclusion des robots mis en place par les éditeurs pour empêcher tout accès non autorisé. Par exemple, la version gratuite de Perplexity a correctement identifié les 10 extraits du contenu payant du National Geographic, bien que l’éditeur ait explicitement bloqué les robots d’exploration du web de Perplexity.

Même lorsque les outils de recherche d’IA fournissaient des citations, ils dirigeaient souvent les utilisateurs vers des versions syndiquées sur des plateformes telles que Yahoo News plutôt que vers les sites des éditeurs originaux – même dans les cas où les éditeurs avaient conclu des accords de licence formels avec les entreprises d’IA. La fabrication d’URL est un autre problème majeur, plus de la moitié des citations de Gemini et Grok 3 de Google conduisant à des URL fabriquées ou cassées qui aboutissent à des pages d’erreur. 154 des 200 citations de Grok 3 testées ont donné lieu à des liens brisés.

Ces problèmes posent des questions difficiles aux éditeurs. Bloquer les robots d’IA pourrait conduire à une perte totale d’attribution, mais les autoriser permet une réutilisation généralisée du contenu sans renvoyer le trafic vers les sites des éditeurs. Mark Howard, directeur de l’exploitation du magazine Time, a déclaré qu’il souhaitait plus de transparence et de contrôle sur la manière dont le contenu de Time apparaît dans les recherches générées par l’IA. Il estime toutefois qu’il est possible de procéder à des améliorations itératives, déclarant que « le produit est aujourd’hui le plus mauvais qu’il sera jamais » et soulignant les investissements substantiels réalisés pour affiner les outils. Howard a également laissé entendre que les consommateurs étaient fautifs s’ils faisaient entièrement confiance aux outils d’IA gratuits, déclarant : « Si quelqu’un, en tant que consommateur, croit aujourd’hui que l’un de ces produits gratuits sera précis à 100 %, qu’il ait honte ».

Les déclarations d’OpenAI et de Microsoft ont accusé réception des conclusions de l’étude, mais n’ont pas abordé directement les questions spécifiques soulevées. OpenAI a fait part de son engagement à soutenir les éditeurs par des résumés, des citations, des liens clairs et des attributions qui génèrent du trafic. Microsoft a déclaré qu’elle adhérait aux protocoles d’exclusion des robots et aux directives des éditeurs.

Ce dernier rapport s’appuie sur les conclusions du Tow Center de novembre 2024, qui avait identifié des problèmes d’exactitude similaires dans la manière dont ChatGPT traitait les contenus d’actualité. Le rapport détaillé de CJR fournit plus de détails sur cette question importante et évolutive à l’intersection de l’IA et du journalisme en ligne.

yogaesoteric
27 mars 2025