Des algorithmes d’intelligence artificielle tels que ChatGPT produisent rapidement des écrits souvent bien élaborés. Des chercheurs créent des outils de détection des textes générés par IA, mais une nouvelle étude révèle certaines limitations de ces logiciels.
Textes générés par l’IA ou l’humain ? Les logiciels de reconnaissance peinent à faire la distinction
Des chercheurs de l’université américaine de Stanford ont récemment mené une étude sur les outils de détection des textes générés par IA. Pour évaluer leur efficacité, sept de ces logiciels ont été mis à l’épreuve en analysant 91 essais rédigés par des non-natifs anglophones passant le test Toefl (Test of English as a Foreign Language). Les résultats ont révélé que ces logiciels ont failli dans leur mission, identifiant à tort des contenus rédactionnels comme étant produits par des intelligences artificielles plutôt que par des êtres humains. De manière surprenante, l’un de ces programmes a même prétendu que 98 % des écrits étaient des textes générés par IA.
Les outils de détection face au défi de la diversité linguistique
Les outils de détection, objet d’une étude parue dans la revue Patterns, démontrent une remarquable performance en identifiant avec précision les essais d’élèves américains en quatrième année. Selon les chercheurs, ces logiciels ont atteint un taux de réussite impressionnant de 90 % pour la reconnaissance des contenus issus d’un générateur automatique. Cependant, le constat est tout autre lorsqu’il s’agit d’essais rédigés par des non-natifs anglophones passant le test Toefl, car ces programmes ont eu tendance à déterminer les contenus éditoriaux incorrectement comme étant des textes générés par l’IA plutôt que par des rédacteurs humains. Cette disparité d’efficacité soulève des interrogations quant à l’adaptabilité de ces outils face à différentes catégories d’articles.
ChatGPT et consorts : une parfaite maitrise de langue, mais pas des sujets
Les résultats de l’étude mettent en évidence le style distinct des intelligences artificielles, notamment de ChatGPT et d’autres logiciels génératifs. Les textes générés par ces IA sont réputés pour leur qualité éditoriale quasi parfaite, exempts de fautes d’orthographe ou de grammaire. Cependant, le contenu du texte reste relativement basique, dépourvu de constructions grammaticales complexes ou de mots rares tels que des termes soutenus ou argotiques. Selon Melissa Heikkilä, une journaliste spécialisée en intelligence artificielle, ces textes générés par IA donnent l’illusion de l’exactitude, car ils utilisent les mots appropriés dans l’ordre adéquat. Elle souligne toutefois que ces technologies ne comprennent pas le sens réel des phrases qu’elles produisent. En réalité, ces modèles de langage se contentent de prédire le mot le plus probable à suivre dans une phrase, sans véritable compréhension du sens ou du contexte.
Rédiger du contenu avec l’intelligence artificielle : l’importance de la complexité du langage
Les outils de détection spécialisés dans l’identification des textes générés par IA exploitent des algorithmes sophistiqués qui analysent la complexité des écrits. Leur fonctionnement repose sur l’évaluation minutieuse des mots utilisés, du champ lexical et des tournures de phrases employées par l’intelligence artificielle. Selon James Zou, professeur adjoint à l’université de Stanford et auteur principal de l’étude, si le texte présente un langage rudimentaire avec des mots anglais courants, les détecteurs attribueront un faible score de complexité, le désignant alors comme produit par une intelligence artificielle. En revanche, si l’auteur utilise des termes plus complexes, les algorithmes auront davantage tendance à considérer le texte comme étant l’œuvre d’un humain.
Quid donc des limites et des risques de ces algorithmes ?
Les avertissements émis par James Zou et son équipe mettent en garde contre une utilisation trop hâtive et sans réserve des algorithmes d’analyse des textes générés par IA, surtout dans des environnements scolaires ou professionnels. En effet, ces programmes d’intelligence artificielle ne sont pas infaillibles à 100 % et se montrent particulièrement vulnérables face à de légers ajustements, tels que le remplacement de quelques mots ou tournures de phrases. Cette fragilité souligne la nécessité d’une approche prudente lors de l’évaluation de la paternité d’un texte, car les conséquences d’une identification erronée pourraient être préjudiciables.
Avec ETX / DailyUp