Google, dans un message sur X, vient d'annoncer que son outil SynthID était maintenant open source. Il s'agit d'une technologie qui permet de détecter les textes générés par une intelligence artificielle. C'est une bonne nouvelle, mais elle doit être prise pour ce qu'elle est : un outil supplémentaire pour ceux qui veulent détecter un texte généré par IA. En effet, SynthID, de l'aveu même de Google, n'est pas parfait.
Le premier point à prendre en compte, c'est que SynthID ne détecte pas réellement les textes générés par IA, mais permet en réalité d'intégrer un filigrane invisible au moment de la génération, qui peut être ensuite récupéré. Il faut donc que le programme de génération emploie SynthID au départ, et c'est probablement la raison pour laquelle Google propose sa solution en open source. Si l'IA n'a pas intégré le filigrane, SynthID ne peut pas le détecter.
Le fonctionnement exact est compliqué mais voici les bases : les IA génératives travaillent en assemblant des token (un mot, une phrase, etc.) de manière statistique pour former des phrases cohérentes. Pour continuer la phrase « Ma couleur préférée est le… », il y a des choix plus probables (rouge, bleu, etc.) que d'autres (violet, zinzolin, cuisse de nymphe) et le principe de base des IA est de choisir le plus probable en fonction du contexte (de façon extrêmement schématique). Dans le cas du filigrane SynthID, l'idée est de modifier légèrement les choix, ce qui peut ensuite être détecté. Google indique que le résultat demeure toujours aussi fiable et que le texte généré devient détectable par les bons outils.
Il n'est pas parfait, car il ne fonctionne tout simplement pas dans plusieurs cas. Le plus évident est celui d'une réponse factuelle à une question : les réponses ne peuvent pas être altérées. Le second problème vient de la réécriture d'un texte généré par IA, ou d'une traduction (simple ou double pour revenir à la langue d'origine) : ces deux voies cassent la détection du filigrane. Enfin, le message de Google1 parle explicitement de la version dédiée aux textes de SynthID, et pas de celle pensée pour les images par exemple.
SynthID : un filigrane de Google pour détecter les images générées par IA
Si l'idée de Google de rendre son outil open source est bonne, il faudra attendre de voir si les sociétés qui s'occupent des générateurs de textes suivront et intégreront SynthID.
-
Un tweet, sur X qui est anciennement Twitter, vous le saviez ? ↩︎