Des chercheurs de l’Université du Maryland présentent un cadre de privatisation automatique des textes en ajustant un grand modèle de langage grâce à l’apprentissage par renforcement

La confidentialité des utilisateurs dans les communautés en ligne est cruciale. C’est pourquoi des plateformes comme Reddit permettent aux utilisateurs de publier sous des pseudonymes. Bien que l’anonymat puisse parfois encourager des comportements abusifs, il existe des preuves solides que révéler l’identité d’un utilisateur en ligne peut être préjudiciable, surtout pour les groupes vulnérables.

Cependant, même les publications anonymes peuvent présenter des éléments stylistiques permettant d’identifier l’auteur. La stylométrie, étude du style linguistique, révèle que ces indices peuvent être utilisés pour reconnaître des auteurs à travers plusieurs textes et plateformes, posant ainsi un grave problème de confidentialité.

Pour protéger la vie privée en ligne, des techniques d’obfuscation d’auteur réécrivent automatiquement les textes afin de dissimuler l’identité de l’auteur initial. Cependant, les méthodes traditionnelles dans le domaine du Traitement Automatique du Langage Naturel (TALN) se sont souvent limitées à des modifications de surface, produisant des écrits incohérents.

Une équipe de l’Université du Maryland a développé un cadre de privatisation automatique du texte qui ajuste un grand modèle de langage pour produire des réécritures équilibrant cohérence, sens et confidentialité. En utilisant un apprentissage par renforcement, ce modèle parvient à un équilibre entre protection de la vie privée et préservation de la naturalité du texte.

L’équipe a évalué cette méthode en utilisant un vaste ensemble de données de publications en anglais sur Reddit, comprenant des textes de 68 000 auteurs. Les résultats montrent que cette approche maintient une bonne qualité de texte tout en déjouant plusieurs attaques automatisées de détection d’auteur, garantissant ainsi la fiabilité de la confidentialité des utilisateurs.

Cette avancée représente une amélioration significative par rapport aux méthodes antérieures, offrant un moyen plus avancé et pratique de masquer l’identité des auteurs, permettant ainsi aux individus de communiquer ouvertement et en toute sécurité en ligne sans compromettre leur confidentialité.

Des chercheurs de l’Université du Maryland présentent un cadre de privatisation automatique des textes en ajustant un grand modèle de langage grâce à l’apprentissage par renforcement

Articles

LesSET-GitHub: Un Jeu de Données Massif pour l’Amélioration de la Démonstration Automatique de Théorèmes

DVC.ai présente DataChain : une bibliothèque Python révolutionnaire en open source pour le traitement et la gestion de données non structurées à grande échelle

Yandex Lance TabReD : Une Nouvelle Référence pour l’Apprentissage Automatique Tabulaire