Les modèles vision-langage (VLM), capables de traiter des images et du texte, ont gagné en popularité grâce à leur polyvalence pour résoudre une variété de tâches. Toutefois, leur développement a été freiné par un manque de compréhension des choix de conception critiques affectant leur performance. Pour combler cette lacune, des chercheurs de Hugging Face et de Sorbonne Université ont mené des expériences approfondies pour identifier les facteurs les plus importants dans la construction de VLM, notamment en matière d’architecture et de procédures de formation multimodales.

Les VLM actuels exploitent généralement des modèles unimodaux pré-entraînés comme les grands modèles de langage et les encodeurs d’images. Cependant, des décisions de conception souvent non justifiées créent de la confusion quant à leur impact sur la performance. Les chercheurs ont comparé différentes architectures, comme l’attention croisée et les architectures entièrement autoregressives, ainsi que l’impact de figer ou non les bases pré-entraînées pendant l’entraînement.

Ils ont exploré des stratégies de formation multimodale, comme le regroupement appris pour réduire le nombre de tokens visuels, le maintien du rapport d’aspect et de la résolution d’image d’origine, et la division des images pour échanger la puissance de calcul contre la performance. Ils ont également formé Idefics2, un modèle open-source de 8 milliards de paramètres, visant à obtenir des performances de pointe tout en maintenant l’efficacité informatique.

Une découverte clé a montré que la qualité du modèle de langage affecte plus la performance finale que celle de l’encodeur de vision. L’architecture autoregressive a surpassé l’attention croisée lorsque les bases pré-entraînées pouvaient s’adapter. Pour optimiser l’efficacité, des techniques comme le regroupement appris et l’adaptation des encodeurs ont été employées.

Les performances de ces méthodes ont été évaluées sur divers jeux de données de référence, montrant des résultats exceptionnels, notamment sur TextVQA et MathVista. Idefics2 a même égalé des modèles fermés plus grands comme Gemini 1.5 Pro.

Ces résultats illustrent l’efficacité des choix de conception informés pour construire des VLM puissants et efficients. Les chercheurs ont ouvert les sources de leur travail pour encourager la collaboration et l’innovation future dans ce domaine.