La modélisation linguistique en intelligence artificielle se focalise sur le développement de systèmes capables de comprendre, interpréter et générer le langage humain. Ce domaine couvre diverses applications comme la traduction automatique, le résumé de texte et les agents conversationnels. Les chercheurs visent à créer des modèles qui imitent les capacités linguistiques humaines, facilitant ainsi l’interaction fluide entre les humains et les machines. Les progrès dans ce domaine ont conduit à la création de modèles de plus en plus complexes et volumineux nécessitant des ressources computationnelles importantes.

L’augmentation de la complexité et de la taille des grands modèles linguistiques (LLMs) entraîne des coûts importants de formation et d’inférence. Ces coûts résultent de la nécessité de coder d’énormes quantités de connaissances dans les paramètres du modèle, ce qui est exigeant tant en termes de ressources que de calculs. La gestion de ces coûts est cruciale pour le développement durable des technologies de modélisation du langage.

Les méthodes actuelles pour atténuer ces coûts incluent l’optimisation de divers aspects des LLMs, comme leur architecture, la qualité des données et la parallélisation. Les modèles de génération augmentée par récupération (RAG) utilisent des bases de connaissances externes pour réduire la charge sur les paramètres du modèle. Cependant, ces modèles dépendent encore fortement de la taille importante des paramètres, ce qui limite leur efficacité. D’autres approches incluent l’amélioration de la qualité des données et l’utilisation de matériel avancé, mais ces solutions ne résolvent que partiellement le problème des coûts computationnels élevés.

Des chercheurs de l’Institut de Recherche sur les Algorithmes Avancés de Shanghai, Moqi Inc. et le Centre de Recherche sur l’Apprentissage Automatique de l’Université de Pékin ont introduit le modèle Memory3. Cette approche novatrice intègre une mémoire explicite dans les LLMs, externalisant une partie importante des connaissances et permettant au modèle de maintenir une taille de paramètres plus réduite. L’introduction de la mémoire explicite représente un changement de paradigme dans la manière dont les modèles linguistiques stockent et récupèrent les connaissances.

Memory3 utilise des mémoires explicites, moins coûteuses à stocker et à rappeler que les paramètres traditionnels des modèles. Cette conception inclut un mécanisme de raréfaction de la mémoire et un schéma de pré-entrainement en deux phases pour faciliter la formation efficace de la mémoire. Le modèle convertit les textes en mémoires explicites, qui peuvent être récupérées lors de l’inférence, réduisant ainsi les coûts computationnels globaux. L’architecture de Memory3 est conçue pour être compatible avec les LLMs existants basés sur le Transformer, nécessitant un ajustement minimal. La base de connaissances comprend 1,1 × 108 fragments de texte, chacun d’une longueur allant jusqu’à 128 tokens, et est stockée et traitée de manière efficace.

Le modèle Memory3, avec 2,4 milliards de paramètres non-embarqués, a surpassé les LLMs plus grands et les modèles RAG. Il a obtenu de meilleures performances de référence, démontrant une efficacité et une précision supérieures. Spécifiquement, Memory3 a montré une vitesse de décodage supérieure aux modèles RAG, car il ne dépendait pas de processus de récupération de texte extensif. En outre, la performance sur des tâches professionnelles, impliquant une récupération fréquente de mémoires explicites, a montré la robustesse et l’adaptabilité du modèle à diverses applications. L’intégration de mémoires explicites a considérablement réduit la charge computationnelle, permettant un traitement plus rapide et plus efficace.

Le modèle Memory3 a montré des résultats impressionnants avec une augmentation de 2,51% des scores moyens grâce à la mémoire explicite par rapport aux modèles sans cette caractéristique. Dans des tâches spécifiques, le modèle Memory3 a obtenu un score de 83,3 sur HellaSwag et 80,4 sur BoolQ, surpassant un modèle de 9,1 milliards de paramètres, qui avait des scores de 70,6 et 70,7 respectivement. La vitesse de décodage du modèle était 35,2% plus lente sans l’utilisation de la mémoire, indiquant une utilisation efficace de la mémoire. De plus, le mécanisme de mémoire explicite a réduit les besoins totaux en stockage de mémoire de 7,17PB à 45,9TB, rendant son utilisation plus pratique pour des applications à grande échelle.

En conclusion, le modèle Memory3 représente une avancée significative dans la réduction du coût et de la complexité de la formation et de l’exploitation des grands modèles linguistiques. Les chercheurs offrent une solution plus efficace et évolutive qui maintient des performances et une précision élevées en externalisant certaines connaissances dans des mémoires explicites. Cette approche innovante répond à la question cruciale des coûts computationnels dans la modélisation linguistique, ouvrant la voie à des technologies d’IA plus durables et accessibles.