Vérification de textes générés par l’Ia: Des outils émergent mais avec des limites

La détection de texte généré par l’Ia est possible mais elle a des limites que les concepteurs tentent d’améliorer

Bien qu’il soit impossible de détecter de manière fiable tout le texte écrit par l’Ia, des outils suffisamment entrainés aident progressivement à faire la distinction entre le contenu généré par un robot et celui produit par l’humain. En voici quelques-uns et leurs limites.

Par Fulbert ADJIMEHOSSOU, le 21 juil. 2023 à 07h38 Durée 2 min.

#TVF

Des détecteurs de textes générés par des robots, c’est ce qui manque désormais le moins. Depuis janvier 2023, OpenAI, le créateur de ChatGpt, a mis à la disposition du public son propre outil de détection, AI Classifier. « Nous rendons ce classificateur accessible au public pour obtenir des commentaires sur l’utilité d’outils imparfaits comme celui-ci. Notre travail sur la détection de texte généré par l’Ia se poursuivra, et nous espérons partager des méthodes améliorées à l’avenir », souligne OpenAI.

Les textes générés par des robots peuvent être utilisés à des fins malveillantes. Des arnaqueurs peuvent les utiliser, par exemple, pour rédiger du contenu d’hameçonnage, tout comme ils peuvent être à l’origine de fausses nouvelles. Pour utiliser cet outil, il suffit de coller le texte à vérifier dans l’espace indiqué par la plateforme. Le texte est ensuite caractérisé par la suite de termes tels que «très improbable», «improbable», «incertain s’il est», «possiblement» ou «probablement» généré par l’Ia.

GptZeroZ est également un outil de détection de texte généré par une intelligence artificielle. Ce site, développé par l’étudiant en informatique Edward Tian, évalue si la «perplexité» est élevée, alors le texte a plus de chances d’avoir été généré par un humain. À cela, s’ajoute la «sporadicité» («burstiness» en anglais) qui mesure à quel point cette perplexité varie au cours du texte : la longueur des phrases générées par l’Ia ne va pas beaucoup varier tout au long du texte, tandis que les phrases humaines seront plus aléatoires.

Avertissements !

OpenAI est lui-même conscient des limites de son outil de détection. La plateforme nécessite un minimum de 1 000 caractères, soit environ 150 à 250 mots. Le classificateur n’est pas toujours précis et peut mal étiqueter le texte généré par l’Ia et celui écrit par l’homme, ce que les scientifiques appellent des faux positifs.

Le classificateur est également susceptible de se tromper sur les textes qui ne sont pas en anglais. « Dans nos évaluations sur un «ensemble de défis» de textes anglais, notre classificateur identifie correctement 26 % du texte écrit par l’Ia (vrais positifs) comme «probablement écrit par l’Ia», tout en étiquetant incorrectement le texte écrit par l’homme comme étant écrit par l’Ia dans 9 % des cas (faux positifs). La fiabilité de notre classificateur s’améliore généralement à mesure que la longueur du texte d’entrée augmente », avertit OpenAI.

GptZeroZ n’est pas non plus capable de détecter à 100 % tout le contenu artificiel. De nombreux sites web proposent également la détection de texte artificiel pour aider les médias et autres créateurs. C’est le cas de writer.com et copyleaks.com. Tous présentent leurs atouts et leurs limites.

Vérification de textes générés par l’Ia: Des outils émergent mais avec des limites

Bien qu’il soit impossible de détecter de manière fiable tout le texte écrit par l’Ia, des outils suffisamment entrainés aident progressivement à faire la distinction entre le contenu généré par un robot et celui produit par l’humain. En voici quelques-uns et leurs limites.

Par Fulbert ADJIMEHOSSOU, le 21 juil. 2023 à 07h38 Durée 2 min.

Articles Similaires

Inscrivez-vous à notre newsletter