Les modèles de langage de grande taille (LLMs) tels que ChatGPT et GPT-4 ont réalisé des progrès significatifs en recherche IA, surpassant les méthodes de pointe précédentes dans divers domaines. Ils montrent un potentiel énorme dans le domaine de la santé, en offrant des outils avancés capables d’améliorer l’efficacité grâce à la compréhension et à la réponse en langage naturel. Cependant, leur intégration dans des applications biomédicales et sanitaires pose un défi majeur : leur vulnérabilité à la manipulation malveillante.

Même les LLMs disponibles commercialement, dotés de protections, peuvent être trompés pour générer des réponses nuisibles. Cette susceptibilité présente des risques considérables, notamment dans les environnements médicaux où les enjeux sont élevés. Le problème est encore aggravé par la possibilité d’empoisonnement des données lors du réglage fin des modèles, entraînant des altérations subtiles du comportement des LLMs difficiles à détecter dans des conditions normales mais se manifestant lors de certaines entrées spécifiques.

Des recherches antérieures ont exploré la manipulation des LLMs dans des domaines généraux, prouvant la possibilité d’influencer les sorties des modèles pour favoriser des termes ou recommandations spécifiques. Ces études se sont concentrées sur des scénarios simples impliquant des mots déclencheurs uniques, entraînant des modifications cohérentes de la réponse des modèles. Cependant, ces approches simplifient souvent excessivement les conditions réelles, particulièrement dans les environnements médicaux complexes.

Les chercheurs du National Center for Biotechnology Information (NCBI), de la National Library of Medicine (NLM) et de l’Université du Maryland à College Park visent à étudier deux modes d’attaques adversariales à travers trois tâches médicales, en se concentrant sur les méthodes de réglage fin et d’attaque basée sur des invites pour les LLMs. En utilisant des données patients réelles des bases de données MIMIC-III et PMC-Patients, l’étude génère des réponses standard et adversariales. Les tâches comprennent les conseils de vaccination contre le COVID-19, la prescription de médicaments et les recommandations de tests diagnostics.

Les résultats expérimentaux révèlent des vulnérabilités significatives des LLMs aux attaques adversariales, à la fois par manipulation des invites et par l’empoisonnement des données de formation. Par exemple, les recommandations de vaccination chutent dramatiquement de 74.13% à 2.49% sous attaques basées sur des invites. Des tendances similaires sont observées pour les prescriptions de combinaisons de médicaments dangereux et des tests diagnostiques inutiles.

Les modèles réglés finement ont montré des vulnérabilités comparables, avec des changements notables vers un comportement malveillant lorsqu’ils sont formés sur des données adversariales. L’étude démontre aussi la transférabilité de ces attaques entre différentes sources de données. Notamment, GPT-3.5-turbo a montré plus de résilience comparé à Llama2-7b, possiblement en raison de sa vaste base de connaissances.

Cette recherche offre une analyse complète des vulnérabilités des LLMs dans des contextes médicaux, indiquant que tant les modèles open-source que commerciaux sont susceptibles. Bien que les données adversariales n’affectent pas significativement la performance globale des modèles dans les tâches médicales, les scénarios complexes nécessitent une concentration plus élevée d’échantillons adversariales pour atteindre la saturation d’attaque comparée aux tâches génériques.

Ces découvertes soulignent le besoin crucial de protocoles de sécurité avancés pour le déploiement des LLMs, spécialement dans les processus d’automatisation de la santé, où les conséquences des sorties manipulées peuvent être graves.