Les grands modèles de langage (LLM) se sont avérés efficaces pour répondre à des questions génériques. Ils peuvent être ajustés avec des documents propres à une entreprise pour répondre à des besoins spécifiques, bien que ce processus soit coûteux en calcul et présente des limites, comme la malédiction de la réversion, qui diminue la capacité du modèle à généraliser de nouvelles connaissances.
La génération augmentée par récupération (RAG) offre une méthode plus adaptable et évolutive. RAG se compose d’un LLM, d’une base de données de documents et d’un modèle d’incorporation, préservant les informations sémantiques via l’intégration de segments de documents.
Une équipe de chercheurs a introduit le cadre Golden Retriever, ciblant la consultation plus efficace des connaissances industrielles. Il améliore le processus de questionnement grâce à une phase d’amélioration basée sur la réflexion avant la récupération des documents, rectifiant l’utilisation du jargon et des acronymes.
Golden Retriever a montré des résultats prometteurs dans des tests avec trois LLM open-source, surpassant les techniques traditionnelles pour extraire des informations pertinentes des vastes bases de données. Cette approche améliore significativement la précision des informations récupérées en assurant une compréhension claire du contexte et du jargon spécifique au domaine.