À mesure que les modèles de langage (LLMs) deviennent plus complexes, leur processus d’inférence se révèle coûteux en termes de calcul et de temps. Des applications comme la traduction en temps réel ou les systèmes de dialogue nécessitent des réponses rapides, mais l’inférence lente augmente les coûts opérationnels.
Des chercheurs de l’Université de Technologie de Dalian, en Chine, ont relevé le défi de la latence élevée des LLMs due à la nature séquentielle de leur décodage autorégressif. Bien que des méthodes comme le décodage spéculatif aient été proposées, leur potentiel n’est pas pleinement exploité à cause de la tête de brouillon monocouche utilisée qui a des performances limitées.
Ils introduisent KOALA (K-layer Optimized Adversarial Learning Architecture), qui optimise la tête de brouillon en la transformant en architecture multicouche et en ajoutant un apprentissage adversarial, permettant d’améliorer la précision des prédictions. KOALA a été évalué avec succès, démontrant une augmentation de vitesse de 10,57%-14,09% dans différents modèles Vicuna.
En conclusion, KOALA représente une avancée importante pour améliorer l’efficacité des LLMs grâce à sa capacité à accélérer le processus d’inférence.