La technique de watermarking pour les modèles linguistiques de grande taille (LLM) intègre des signaux subtils et détectables dans les textes générés par IA pour identifier leur origine, et ainsi limiter les risques d’usurpation d’identité, de rédaction fantôme et de fausses nouvelles. Cependant, le domaine rencontre des défis dû à la complexité des algorithmes et à la diversité des méthodes d’évaluation.
Des chercheurs de plusieurs universités ont développé MARKLLM, un outil open source pour le watermarking des LLM, offrant une structure unifiée et extensible pour l’implémentation d’algorithmes. MARKLLM simplifie le chargement des algorithmes, le watermarking des textes, la détection et la visualisation des données, et propose 12 outils d’évaluation et deux pipelines automatisés pour tester la détection, la robustesse et l’impact sur la qualité des textes.
Les algorithmes de watermarking de LLM se divisent en deux familles principales : KGW et Christ. KGW modifie les préférences de token des modèles pour créer des textes identifiables par un seuil statistique, tandis que Christ utilise des séquences pseudo-aléatoires pour guider l’échantillonnage des tokens.
MARKLLM permet l’évaluation de neuf algorithmes sur divers jeux de données et utilise des modèles linguistiques comme OPT-1.3b et Starcoder. Les évaluations montrent une précision élevée et des résultats variés selon les métriques et les attaques.
En conclusion, MARKLLM offre une solution flexible et extensible pour le watermarking des LLM, même si des contributions futures seront nécessaires pour couvrir les approches récentes et diversifier les visualisations. Les chercheurs et développeurs sont invités à enrichir cet outil.