L’intelligence artificielle (IA) en santé progresse rapidement, avec des modèles linguistiques de grande taille (LLM) devenant des outils puissants pour transformer divers aspects de la pratique clinique. Ces modèles, capables de comprendre et de générer du langage humain, sont particulièrement prometteurs pour répondre à des questions médicales complexes, améliorer la communication avec les patients et soutenir la prise de décision clinique. Cependant, leur application en santé reste difficile en raison des exigences de connaissances spécifiques au domaine, de précision et de respect des normes éthiques. C’est ici que des modèles spécialisés, tels que la suite Med42-v2 de LLM cliniques, entrent en jeu.

Un défi majeur réside dans le fait que la plupart des modèles linguistiques génériques manquent de profondeur de compréhension pour être réellement efficaces dans les milieux cliniques. Ces modèles ont souvent des difficultés avec la terminologie médicale complexe et le raisonnement nuancé requis pour naviguer dans des scénarios cliniques complexes. De plus, ils peuvent introduire des erreurs, des biais et des préoccupations éthiques, compromettant leur utilité dans les applications médicales. Résoudre ces lacunes est crucial pour intégrer avec succès l’IA dans les systèmes de santé.

Les LLM génériques, tels que GPT-4, ont été utilisés dans diverses industries, y compris la santé. Cependant, ces modèles sont insuffisants dans les environnements cliniques où la précision et la fiabilité sont primordiales. Les limites des modèles génériques deviennent particulièrement évidentes dans les situations à haut risque où des informations incorrectes ou biaisées peuvent avoir des conséquences graves. Par conséquent, le développement de LLM adaptés spécifiquement au domaine de la santé est devenu une priorité pour les chercheurs visant à améliorer la sécurité et l’efficacité de l’IA en médecine.

Les chercheurs de M42 Abu Dhabi, aux Émirats Arabes Unis, ont présenté le Med42-v2, une suite de modèles LLM cliniques basé sur l’architecture avancée Llama3. Ces modèles, méticuleusement affinés à l’aide de jeux de données cliniques spécialisés, sont particulièrement aptes à traiter des requêtes médicales. Contrairement aux modèles génériques, souvent alignés pour éviter de répondre aux questions cliniques, Med42-v2 est spécialement formé pour engager de telles requêtes, garantissant des informations pertinentes et précises aux cliniciens, aux patients, et autres parties prenantes.

Le développement de Med42-v2 s’est déroulé en deux étapes pour optimiser les modèles à des fins cliniques. La première étape a impliqué le perfectionnement des modèles Llama3 en utilisant un ensemble de données comprenant des informations médicales et biomédicales, du raisonnement en chaîne et des exemples conversationnels. La deuxième étape s’est concentrée sur l’alignement des préférences, garantissant que les sorties des modèles respectent les attentes humaines et les normes éthiques en utilisant des ensembles de données tels que UltraFeedback et Snorkel-DPO.

Les performances des modèles Med42-v2 ont été rigoureusement testées sur divers critères de référence médicaux, démontrant leur supériorité par rapport à leurs prédécesseurs Llama3 et autres modèles de pointe comme GPT-4. Par exemple, dans les évaluations zéro-shot sur des critères de référence clés tels que l’USMLE, MedMCQA et PubmedQA, la configuration à 70 milliards de paramètres de Med42-v2 a constamment surpassé les autres modèles, atteignant des scores allant jusqu’à 94,5 % sur certaines tâches.

En conclusion, la suite Med42-v2 offre une solution adaptée aux besoins de santé en surmontant les limites des modèles génériques. Ses performances supérieures à travers divers critères de référence soulignent son potentiel à révolutionner la prise de décision clinique, les soins aux patients et la recherche médicale. Grâce à un développement continu et des tests rigoureux, Med42-v2 est prêt à devenir un élément central du futur de la santé, apportant un soutien essentiel dans des environnements à haut risque où la précision et la fiabilité sont impératives.