Google PaLM-E, une IA capable de comprendre le langage et la vision

Google (filiale de Alphabet) vient de dévoiler son dernier modèle d’intelligence artificielle, baptisé PaLM-E (Pathways Language Model – Embodied). Il s’agit d’un cerveau pour robots qui combine le langage et la vision pour interagir avec les humains et réaliser des tâches variées.

Google PaLM-E, le ChatGPT de la robotique

Google a présenté le 6 mars son nouveau modèle d’intelligence artificielle multimodale, baptisé PaLM-E. Il s’agit d’un cerveau robotique généraliste qui combine la vision et le langage pour générer des actions appropriées en fonction du contexte et des besoins de l’utilisateur.

PaLM-E est basé sur PaLM, un modèle de langage pré-entraîné avec 562 milliards de paramètres provenant du web et capable de prédire le prochain mot ou la prochaine phrase à partir d’un texte donné. PaLM est similaire à la technologie derrière ChatGPT, un modèle de dialogue développé par Microsoft.

PaLM-E se distingue de PaLM par le fait qu’il intègre également des informations visuelles et qu’il peut contrôler différents robots dans des environnements simulés ou réels. Il dispose aussi d’une mémoire externe qui lui permet de stocker et de récupérer des informations pertinentes au fil du temps.

Une IA déjà en cours de test en Allemagne

Les chercheurs de Google et de l’université technique de Berlin (TU Berlin) ont testé les performances de PaLM-E sur plusieurs tâches impliquant la vision et le langage, comme la génération automatique de légendes pour des images, la réponse à des questions visuelles ou la manipulation d’objets avec un bras robotique.

Ils ont montré que PaLM-E était capable d’apprendre continuellement à partir de ses expériences et d’adapter son comportement en fonction du contexte. Par exemple, il pouvait comprendre des commandes naturelles comme “prends le cube rouge” ou “donne-moi l’objet le plus proche” et les exécuter correctement avec le robot.

PaLM-E a également démontré sa capacité à raisonner en chaîne sur plusieurs étapes pour accomplir une tâche complexe. Par exemple, il pouvait répondre à une question comme “quelle est la couleur du cube qui se trouve sous le triangle bleu ?” en analysant l’image et en inférant les relations spatiales entre les objets.

PaLM-E à la pointe de l’IA ?

Les chercheurs ont comparé PaLM-E à d’autres modèles multimodaux existants et ont constaté qu’il surpassait tous ses concurrents sur les tâches visuelles et linguistiques. Ils ont également souligné que PaLM-E était plus généraliste et plus flexible que les modèles spécialisés pour une seule tâche ou un seul type de robot.

PaLM-E représente donc une avancée majeure dans le domaine de l’intelligence artificielle incarnée, qui vise à doter les machines d’une compréhension globale du monde physique et social. Il ouvre la voie à des applications variées dans les domaines de la robotique, du divertissement ou de l’éducation.

Etude en source de cet article : palm-e.github.io

Partagez cet article
Panier
Retour en haut