Apprendre en simulation et appliquer la politique apprise dans le monde réel est une approche potentielle pour permettre aux robots généralistes de résoudre des tâches de prise de décision complexes. Cependant, l’un des défis est de combler les écarts entre la simulation et la réalité (sim-to-real). De plus, une grande quantité de données est nécessaire pour apprendre à résoudre ces tâches, ce qui augmente la charge de collecte de données en temps réel avec des robots physiques. Il devient donc crucial de transférer et de déployer sans heurts les politiques de contrôle des robots dans le matériel du monde réel en utilisant l’apprentissage par renforcement (RL).
Les simulations basées sur la physique sont utilisées comme moteur pour développer des compétences robotiques malgré les lacunes persistantes. Une approche actuelle consiste à inclure l’identification du système, la randomisation du domaine, l’adaptation au monde réel et l’augmentation du simulateur pour les écarts sim-to-real. Le transfert réussi sim-to-real inclut la locomotion et la manipulation non préhensile, parmi d’autres performances variées.
Les chercheurs de l’Université de Stanford ont proposé TRANSIC, une méthode basée sur les données pour permettre le transfert sim-to-real des politiques en utilisant un cadre humain-dans-la-boucle. TRANSIC permet aux humains d’améliorer les politiques de simulation pour combler plusieurs écarts non modélisés sim-to-real par le biais d’interventions et de corrections en ligne. Les corrections humaines aident à apprendre des politiques résiduelles intégrées aux politiques de simulation pour une auto-exécution. TRANSIC a montré une réussite notable dans les tâches de manipulation complexes, atteignant un taux de succès moyen de 77% pour différents paires simulation-réalité.
Les résultats de TRANSIC incluent l’apprentissage de compétences réutilisables, l’opération en autonomie complète une fois le mécanisme de séparation appris, et la gestion des observations partielles et des données de correction. Il surpasse également IWR, la meilleure méthode de référence, en termes d’évolutivité des données humaines.
En conclusion, TRANSIC, développé par les chercheurs de Stanford, utilise une méthode humaine-dans-la-boucle pour traiter les transferts de politique sim-to-real dans les tâches de manipulation. Toutefois, des limitations existent, notamment l’exclusivité aux scénarios sur table et la nécessité d’un opérateur humain pendant la collecte des données de correction.