Découvrez comment une étude révolutionnaire d’Apple transforme les robots en imitateurs des humains !

Une nouvelle étude d’Apple révèle comment les robots apprennent à agir en observant les humains. En utilisant l’intelligence artificielle, cette recherche révolutionnaire pourrait transformer l’interaction homme-machine, en rendant les robots plus intuitifs. Apple continue de jouer un rôle clé dans l’innovation technologique et la robotique moderne.

Apprentissage des robots par observation humaine

Dans une récente étude intitulée « Humanoid Policy ∼ Human Policy« , des chercheurs d’Apple présentent une méthode innovante de formation pour les robots humanoïdes, qui implique l’utilisation des lunettes Apple Vision Pro.

Le principe « Robot voit, Robot fait »

Ce projet, une collaboration entre Apple, le MIT, Carnegie Mellon, l’Université de Washington et l’UC San Diego, examine comment les séquences vidéo des utilisateurs manipulant des objets peuvent servir à former des modèles de robots polyvalents. Grâce à cette approche, les chercheurs ont collecté plus de 25 000 démonstrations humaines et 1 500 démonstrations de robots, créant un ensemble de données qu’ils ont baptisé PH2D. Ces données ont été intégrées dans une politique AI unifiée capable de contrôler un robot humanoïde dans le monde physique.

Les auteurs de l’étude soulignent que :

La formation de politiques de manipulation pour les robots humanoïdes, à partir de données diverses, améliore leur robustesse et leur généralisation à travers différentes tâches et plateformes. Cependant, l’apprentissage uniquement à partir des démonstrations de robots est laborieux et nécessite une collecte de données télé-opérées coûteuse, difficile à échelonner.

Ce document explore une source de données plus évolutive : les démonstrations humaines égocentriques, qui servent de données d’entraînement croisées pour l’apprentissage des robots.

La solution? Laisser les humains montrer la voie.

Formation plus rapide et moins coûteuse

Pour recueillir les données d’entraînement, l’équipe a développé une application pour Apple Vision Pro qui capture des vidéos à partir de la caméra située en bas à gauche de l’appareil et utilise ARKit d’Apple pour suivre les mouvements 3D de la tête et des mains. Par ailleurs, dans un souci d’économie, ils ont également imprimé en 3D un support pour attacher une caméra stéréo ZED Mini à d’autres casques, comme le Meta Quest 3, permettant un suivi de mouvement 3D similaire à moindre coût.

Matériel de l'étude Apple

Ce dispositif a permis d’enregistrer des démonstrations de haute qualité en quelques secondes, représentant une amélioration significative par rapport aux méthodes traditionnelles de téléopération, qui sont plus lentes, plus coûteuses et plus difficiles à échelonner. De plus, étant donné que les mouvements humains sont beaucoup plus rapides que ceux des robots, les chercheurs ont ralenti les démonstrations humaines par un facteur de quatre pendant l’entraînement, juste assez pour permettre au robot de suivre sans nécessiter d’ajustements supplémentaires.

Le Human Action Transformer (HAT)

Le cœur de cette étude réside dans le modèle HAT, qui est formé à partir des démonstrations humaines et robotiques dans un format partagé. Plutôt que de séparer les données par source (humains vs. robots), le HAT apprend une politique unique qui se généralise à travers les deux types de corps, rendant le système plus flexible et efficace en termes de données.

Lors de certains tests, cette approche de formation partagée a permis au robot de gérer des tâches plus complexes, y compris celles qu’il n’avait jamais rencontrées auparavant, par rapport à des méthodes plus traditionnelles.

Comparaison des méthodes
Taille du dataset PH2D comparée aux méthodes traditionnelles

Globalement, cette étude offre des perspectives fascinantes sur l’apprentissage des robots, et mérite d’être explorée davantage, notamment sur des sites d’autorité comme [MIT Technology Review](https://www.technologyreview.com/).

Quels sont les principaux objectifs de l’étude sur les robots humanoïdes ?

L’étude vise à utiliser des démonstrations humaines pour entraîner des modèles de robots humanoïdes, en améliorant leur robustesse et leur capacité à généraliser à travers différentes tâches et plateformes.

Comment les données d’entraînement ont-elles été collectées ?

Les chercheurs ont développé une application Apple Vision Pro pour capturer des vidéos et utiliser ARKit pour suivre les mouvements en 3D de la tête et des mains. Ils ont également créé un support pour une caméra ZED Mini afin de réduire les coûts tout en maintenant un suivi de mouvement 3D de qualité.

Qu’est-ce que le Human Action Transformer (HAT) ?

Le HAT est un modèle qui apprend à partir de démonstrations humaines et robotiques dans un format partagé, permettant une politique unique qui généralise à travers les deux types de corps, rendant le système plus flexible et efficace en termes de données.

Quelle est l’importance de la vitesse des démonstrations humaines pour l’entraînement des robots ?

Les chercheurs ont ralenti les démonstrations humaines par un facteur de quatre pour permettre aux robots de suivre sans nécessiter d’ajustements supplémentaires, car les humains se déplacent beaucoup plus vite que les robots.

Add a comment

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Keep Up to Date with the Most Important News

By pressing the Subscribe button, you confirm that you have read and are agreeing to our Privacy Policy and Terms of Use