Les applications créatives et la gestion des modèles de langue pré-entraînés ont considérablement amélioré la qualité de la recherche d’information (IR). Ces modèles sont souvent formés avec des ensembles de données volumineux comprenant des millions de requêtes et de jugements de pertinence, ce qui permet de généraliser à de nouveaux sujets rares.
Cependant, l’utilité et la nécessité de ces vastes ensembles de données pour l’optimisation des modèles de langue sont remises en question. En particulier, il n’est pas certain que ces données massives soient indispensables, et il n’est pas évident comment former des modèles IR pour des langues ou des domaines avec peu ou pas de données IR étiquetées.
Des chercheurs de l’Université de Waterloo, de Stanford et d’IBM Research AI ont proposé une technique pour former de petits modèles de recherche d’information neuronale avec seulement dix étiquettes de pertinence, nommée PATH. Cette méthode crée des requêtes fictives via un modèle de langue qui optimise automatiquement les invites, garantissant une qualité de formation optimale.
Utilisant le benchmark BIRCO, l’équipe a montré que ce procédé améliore grandement les performances, surpassant des modèles bien plus grands comme RankZephyr et rivalisant avec RankLLama, tout en utilisant minimale de données étiquetées.
Ces résultats prouvent qu’avec des ajustements appropriés, des modèles plus petits peuvent surpasser des modèles bien plus grands, démontrant l’efficacité de l’optimisation automatique des prompts pour créer des ensembles de données de qualité supérieure.