Le désapprentissage machinal, un domaine innovant de l’intelligence artificielle, vise à effacer efficacement l’influence de données spécifiques d’un modèle entraîné. Ce champ répond à d’importantes préoccupations légales, de confidentialité et de sécurité liées aux grands modèles dépendants des données, souvent porteurs d’informations nuisibles, incorrectes ou obsolètes. Le défi réside dans l’effacement spécifique sans recourir à un retrain coûteux, surtout avec les réseaux neuronaux profonds.
Le problème principal est de retirer ces données sans les coûts élevés associés à l’entraînement initial, compliqué en raison de la nature non convexe des pertes des réseaux neuronaux. Des approches approximatives tentent d’équilibrer qualité d’oubli, utilité du modèle et efficacité computationnelle. Tradicionalement, l’entraînement à partir de zéro est onéreux, d’où la nécessité de nouvelles algorithmes plus efficaces.
Lors de la récente compétition NeurIPS, des chercheurs ont proposé des algorithmes innovants pour effacer les données d’utilisateurs sur les modèles d’images faciales. Près de 1 200 équipes issues de 72 pays ont participé, introduisant des méthodes variées, telles la réinitialisation de couches ou l’application de bruit gaussien. Par exemple, les méthodes des équipes « Amnesiacs » et « Sun » ont réinitialisé les couches par heuristique, tandis que « Forget » et « Sebastian » ont opéré avec des sélections basées sur la norme des paramètres. La méthode « Fanchuan » a suivi deux phases : rapprocher les prédictions uniformément et maximiser la perte contrastive entre données retenues et oubliées.
Le cadre d’évaluation a mesuré la qualité d’oubli, l’utilité du modèle et l’efficacité computationnelle. Les meilleures algorithmes, comme « Sebastian » qui a élagué 99% des poids du modèle, ont montré des résultats impressionnants. Ces algorithmes ont été évalués en comparant les sorties de modèles désappris et réentraînés, avec des tests de hypothèse et des mesures comme le test Kolmogorov-Smirnov.
La compétition a révélé des avancées significatives en désapprentissage machinal, équilibrant efficacité et coût computationnel. Les résultats soulignent l’importance continue du développement de frameworks d’évaluation et d’algorithmes pour répondre à cette problématique complexe, tout en garantissant une utilisation éthique et pratique de l’intelligence artificielle.