Une équipe de recherche de Google a mis au point en février dernier un procédé révolutionnaire pour l’apprentissage des systèmes robotisés. Nommée XIRL pour Inverse Reinforcement Learning, cette méthode d’enseignement permet aux robots d’apprendre en visionnant des vidéos.
L’apprentissage par imitation, un écueil pour la robotique
Les roboticiens enseignent généralement aux robots en leur demandant d’effectuer une tâche à distance. Le robot répète ensuite la démonstration jusqu’à ce qu’il soit tout à fait autonome.
Si cette méthode d’enseignement des robots se montre efficace, elle limite aussi la démonstration à des paramètres de laboratoire ; en d’autres termes, seuls les programmeurs et les roboticiens sont en mesure de faire les démonstrations. C’est pourquoi le département de robotique de Google a développé une nouvelle façon d’apprendre pour les robots.
Si les humains apprennent par la vision et l’imitation, la tâche n’est pas des plus aisées pour les robots. La difficulté réside notamment dans les différences entre leur morphologie et la nôtre. Par exemple, un robot à pinces ne sera guère avancé sur la façon de tenir un stylo en regardant un humain le faire de ses cinq doigts.
Avec XIRL, Google développe une méthode révolutionnaire
Pour résoudre cet sempiternel problème de la robotique, l’équipe de Google a introduit une méthode auto supervisée pour l’apprentissage. Une méthode d’enseignement dite par Inverse Reinforcement Learning (XIRL). Sa finalité : enseigner aux robots des tâches de haut niveau à partir du visionnement de contenus vidéos. Ainsi, au lieu d’appliquer des demandes humaines individuelles, le robot doit déterminer de lui-même son objectif final.
Il fait ensuite la synthèse de ces informations sous la forme d’une fonction de récompense invariante aux différences physiques telles que la forme, les actions et la dynamique des effecteurs finaux. En utilisant les récompenses apprises et l’apprentissage par renforcement, l’équipe de recherche a appris aux robots comment manipuler des objets par “trial and error”. Selon l’étude, la méthode conduisait à un apprentissage par renforcement de deux à quatre fois plus efficace que l’apprentissage en laboratoire.
X-MAGICAL, un programme open source
C’est dans ce cadre qu’a été développé X-MAGICAL, un programme destiné à évaluer les performances de la méthode XIRL. Le programme vient challenger un ensemble de robot, disposant de formes et d’effecteurs différents, en vue d’effectuer une tâche. Les agents exécutent alors les tâches de différentes manières et à des vitesses différentes.
L’équipe a également testé sa méthode d’enseignement dans le monde réel. Cette dernière a permis d’entraîner un bras Sawyer simulé à pousser une rondelle dans une zone cible. A cette occasion, la méthode XIRL a de nouveau surpassé les méthodes de base.
L’équipe à l’origine de ce programme open source est composé du département de recherche en robotique de Google en collaboration avec un chercheur de l’Université de Stanford. De la méthode SR3 au XIRL, le géant numérique reste décidément au top de l’innovation robotique.
© Google.