La Robotique est en train de devenir l’œuvre la plus ressemblante de son créateur : L’HOMME. Nous poussons toujours plus loin ses capacité en l’optimisant par des éléments présents dans la nature que ce soit en reproduisant le mouvement des méduses ou en la dotant d’une sensibilité plus « humaine ».

Aujourd’hui ce n’est (techniquement) pas matériellement que nous faisons évoluer la robotique mais au niveau l’Intelligence Artificielle « son esprit » afin que celle-ci soit toujours plus efficace et qu’un jour (car il arrivera) que les robots soient plus évolués que les hommes, leurs créateurs.

Nous ne savons pas ce que tout cela va donner mais je pense qu’il n’y a qu’une chose sur laquelle la machine n’égalera jamais l’homme et c’est la créativité puisqu’aucun algorithme aussi puissants soient ils ne peuvent égaler le cerveau humain à ce niveau. Les robots pourront produire, reproduire, accomplir diverses tâches mais au final, l’homme aura toujours un avantage indéniable qui sera celui de cette spontanéité et de sa créativité.

Depuis les premières décennies de l’intelligence artificielle, les robots humanoïdes sont un élément incontournable des livres, films et dessins animés de science-fiction. Pourtant, après des décennies de recherche et de développement dans le domaine de l’intelligence artificielle, nous n’avons toujours rien qui se rapproche de Rosey le Robot des Jetsons.
Cela s’explique par le fait que bon nombre de nos capacités intuitives de planification et de motricité – des choses que nous considérons comme acquises – sont beaucoup plus compliquées que nous ne le pensons. Naviguer dans des zones inconnues, trouver et ramasser des objets, choisir des itinéraires et planifier des tâches sont des prouesses complexes que nous n’apprécions que lorsque nous essayons de les transformer en programmes informatiques.

Le développement de robots capables de percevoir physiquement le monde et d’interagir avec leur environnement est le domaine de l’intelligence artificielle incarnée, l’un des objectifs recherchés depuis longtemps par les spécialistes de l’IA. Et bien que les progrès dans ce domaine soient encore loin des capacités des humains et des animaux, les réalisations n’en sont pas moins remarquables.

Dans le cadre d’un développement récent de l’IA incarnée, des scientifiques d’IBM, du Massachusetts Institute of Technology et de l’université de Stanford ont mis au point un nouveau défi qui permettra d’évaluer la capacité des agents d’IA à trouver des chemins, à interagir avec des objets et à planifier des tâches de manière efficace. Intitulé « ThreeDWorld Transport Challenge », le test est un environnement virtuel qui sera présenté à l’Embodied AI Workshop lors de la Conference on Computer Vision and Pattern Recognition, qui se tiendra en ligne en juin.

Aucune technique d’IA actuelle n’est en mesure de résoudre le TDW Transport Challenge. Mais les résultats du concours peuvent aider à trouver de nouvelles orientations pour l’avenir de la recherche sur l’IA et la robotique incarnées.

Apprentissage par renforcement dans les environnements virtuels

L’apprentissage par renforcement, une branche de l’apprentissage automatique basée sur les actions, les états et les récompenses, est au cœur de la plupart des applications robotiques. Un agent d’apprentissage par renforcement reçoit un ensemble d’actions qu’il peut appliquer à son environnement pour obtenir des récompenses ou atteindre un certain objectif. Ces actions modifient l’état de l’agent et de l’environnement. L’agent RL reçoit des récompenses en fonction de la façon dont ses actions le rapprochent de son objectif.

Les agents RL commencent généralement par ne rien savoir de leur environnement et par choisir des actions aléatoires. Au fur et à mesure qu’ils reçoivent des informations en retour de leur environnement, ils apprennent des séquences d’actions qui peuvent maximiser leurs récompenses.

Ce schéma est utilisé non seulement en robotique, mais aussi dans de nombreuses autres applications telles que les voitures à conduite autonome et la recommandation de contenu. L’apprentissage par renforcement a également aidé les chercheurs à maîtriser des jeux complexes comme le go, StarCraft 2 et DOTA.

La création de modèles d’apprentissage par renforcement présente plusieurs défis. L’un d’entre eux consiste à concevoir le bon ensemble d’états, de récompenses et d’actions, ce qui peut s’avérer très difficile dans des applications telles que la robotique, où les agents sont confrontés à un environnement continu qui est affecté par des facteurs complexes tels que la gravité, le vent et les interactions physiques avec d’autres objets (en revanche, les environnements tels que les échecs et le go ont des états et des actions très discrets).

La collecte de données d’entraînement constitue un autre défi. Les agents d’apprentissage par renforcement doivent s’entraîner sur des données provenant de millions d’épisodes d’interactions avec leurs environnements. Cette contrainte peut ralentir les applications robotiques car elles doivent recueillir leurs données dans le monde physique, contrairement aux jeux vidéo et de société, qui peuvent être joués en succession rapide sur plusieurs ordinateurs.

Pour surmonter cet obstacle, les chercheurs en IA ont tenté de créer des environnements simulés pour les applications d’apprentissage par renforcement. Aujourd’hui, les voitures à conduite autonome et la robotique utilisent souvent des environnements simulés comme une partie importante de leur régime de formation.

« La formation de modèles à l’aide de robots réels peut être coûteuse et implique parfois des considérations de sécurité », a déclaré à TechTalks Chuang Gan, membre principal du personnel de recherche au MIT-IBM Watson AI Lab. « Par conséquent, la tendance est à l’intégration de simulateurs, comme ce que propose le TDW-Transport Challenge, pour former et évaluer les algorithmes d’IA. »

Mais reproduire la dynamique exacte du monde physique est extrêmement difficile, et la plupart des environnements simulés sont une approximation grossière de ce à quoi un agent d’apprentissage par renforcement serait confronté dans le monde réel. Pour remédier à cette limitation, l’équipe du TDW Transport Challenge s’est donné beaucoup de mal pour rendre l’environnement de test aussi réaliste que possible.

L’environnement est construit sur la plateforme ThreeDWorld, que les auteurs décrivent comme « une plateforme de simulation de monde virtuel à usage général prenant en charge à la fois le rendu d’images quasi réalistes, le rendu de sons basés sur la physique et les interactions physiques réalistes entre les objets et les agents ».

« Nous voulions utiliser un simulateur d’environnement virtuel physique plus avancé pour définir une nouvelle tâche d’IA incorporée exigeant qu’un agent modifie les états de plusieurs objets sous des contraintes physiques réalistes », écrivent les chercheurs dans un document d’accompagnement.

Planification des tâches et des mouvements

Les tests d’apprentissage par renforcement présentent différents degrés de difficulté. La plupart des tests actuels portent sur des tâches de navigation, où un agent d’apprentissage par renforcement doit trouver son chemin dans un environnement virtuel sur la base d’entrées visuelles et sonores.

Le TDW Transport Challenge, quant à lui, confronte les agents d’apprentissage par renforcement à des problèmes de « planification des tâches et des mouvements » (TAMP). Le TAMP exige que l’agent ne se contente pas de trouver des chemins de déplacement optimaux, mais qu’il modifie également l’état des objets pour atteindre son objectif.

Le défi se déroule dans une maison à plusieurs pièces, agrémentée de meubles, d’objets et de conteneurs. L’agent d’apprentissage par renforcement voit l’environnement d’un point de vue à la première personne et doit trouver un ou plusieurs objets dans les pièces et les rassembler à une destination donnée. L’agent est un robot à deux bras, il ne peut donc transporter que deux objets à la fois. En revanche, il peut utiliser un conteneur pour transporter plusieurs objets et réduire le nombre de déplacements qu’il doit effectuer.

À chaque étape, l’agent RL peut choisir une action parmi plusieurs, comme tourner, avancer ou ramasser un objet. L’agent reçoit une récompense s’il accomplit la tâche de transfert dans un nombre limité d’étapes.

Bien que cela semble être le genre de problème qu’un enfant pourrait résoudre sans beaucoup d’entraînement, il s’agit en fait d’une tâche compliquée pour les systèmes d’IA actuels. Le programme d’apprentissage par renforcement doit trouver le bon équilibre entre l’exploration des pièces, la recherche de chemins optimaux vers la destination, le choix entre le transport d’objets seuls ou dans des conteneurs, et la réalisation de tout cela dans le budget d’étapes désigné.

« Grâce au TDW-Transport Challenge, nous proposons un nouveau défi d’IA incarnée », a déclaré M. Gan. « Plus précisément, un agent robotique doit prendre des mesures pour déplacer et modifier l’état d’un grand nombre d’objets dans un environnement virtuel photo- et physiquement réaliste, ce qui reste un objectif complexe en robotique. »

Défis d’abstraction pour les agents d’IA

Bien que TDW soit un environnement simulé très complexe, les concepteurs ont tout de même fait abstraction de certains des défis auxquels les robots seraient confrontés dans le monde réel. L’agent robotique virtuel, baptisé Magnebot, possède deux bras avec neuf degrés de liberté et des articulations à l’épaule, au coude et au poignet. Cependant, les mains du robot sont des aimants et peuvent ramasser n’importe quel objet sans avoir besoin de le manipuler avec les doigts, ce qui est en soi une tâche très difficile.

L’agent perçoit également l’environnement de trois manières différentes : un cadre de couleurs RVB, une carte de profondeur et une carte de segmentation qui montre chaque objet séparément en couleurs dures. Les cartes de profondeur et de segmentation permettent à l’agent d’IA de lire plus facilement les dimensions de la scène et de distinguer les objets lorsqu’ils sont vus sous des angles bizarres.

Afin d’éviter toute confusion, les problèmes sont posés selon une structure simple (par exemple, « vase:2, bol:2, cruche:1 ; lit »), par opposition à des commandes en langage courant (par exemple, « Prenez deux bols, deux vases et la cruche dans la chambre à coucher, et mettez-les tous sur le lit »).

Et pour simplifier l’espace d’état et d’action, les chercheurs ont limité la navigation du Magnebot à des mouvements de 25 centimètres et des rotations de 15 degrés.

Ces simplifications permettent aux développeurs de se concentrer sur les problèmes de navigation et de planification des tâches que les agents d’IA doivent surmonter dans l’environnement TDW.

Gan a expliqué aux TechTalks que malgré les niveaux d’abstraction introduits dans TDW, le robot doit encore relever les défis suivants :

La synergie entre la navigation et l’interaction : L’agent ne peut pas se déplacer pour saisir un objet si cet objet n’est pas dans sa vue égocentrique ou si le chemin direct vers celui-ci est obstrué.
Interaction tenant compte de la physique : la saisie peut échouer si le bras de l’agent ne peut atteindre un objet.
Navigation tenant compte de la physique : la collision avec des obstacles peut faire tomber des objets et nuire considérablement à l’efficacité du transport.
Cela permet d’apprécier la complexité de la vision et de l’agencement humains. La prochaine fois que vous irez au supermarché, réfléchissez à la facilité avec laquelle vous pouvez vous frayer un chemin dans les allées, faire la différence entre différents produits, attraper et prendre différents articles, les placer dans votre panier ou votre chariot, et choisir votre chemin de manière efficace. Et vous faites tout cela sans avoir accès à la segmentation et aux cartes de profondeur et en lisant les articles d’une note manuscrite froissée dans votre poche.

L’apprentissage par renforcement profond pur ne suffit pas

Le TDW-Transport Challenge est en train d’accepter les soumissions. Entre-temps, les auteurs de l’article ont déjà testé l’environnement avec plusieurs techniques d’apprentissage par renforcement connues. Leurs résultats montrent que l’apprentissage par renforcement pur est très peu efficace pour résoudre les problèmes de planification des tâches et des mouvements. Une approche d’apprentissage par renforcement pur exige que l’agent IA développe son comportement à partir de zéro, en commençant par des actions aléatoires et en affinant progressivement sa politique pour atteindre les objectifs dans le nombre d’étapes spécifié.

Selon les expériences des chercheurs, les approches d’apprentissage par renforcement pur ont à peine réussi à dépasser les 10 % de réussite aux tests TDW.

« Nous pensons que cela reflète la complexité de l’interaction physique et le vaste espace de recherche d’exploration de notre référence », écrivent les chercheurs. « Par rapport aux tâches précédentes de navigation par points et de navigation sémantique, où l’agent doit seulement naviguer vers des coordonnées ou des objets spécifiques dans la scène, le défi de transport ThreeDWorld exige que les agents se déplacent et modifient l’état physique des objets dans l’environnement (c’est-à-dire la planification des tâches et des mouvements), ce que les modèles de bout en bout pourraient ne pas réussir. »

Lorsque les chercheurs ont essayé des modèles d’IA hybrides, où un agent d’apprentissage par renforcement était associé à un planificateur de haut niveau basé sur des règles, ils ont constaté une augmentation considérable des performances du système.

« Cet environnement peut être utilisé pour former des modèles d’IA qui échouent dans ce type de tâches et qui nécessitent des capacités de raisonnement et de planification explicites », a déclaré Gan. « Grâce au TDW-Transport Challenge, nous espérons démontrer qu’un modèle hybride neuro-symbolique peut améliorer ce problème et démontrer une performance plus forte. »

Le problème, cependant, reste largement non résolu, et même les systèmes hybrides les plus performants avaient un taux de réussite d’environ 50 %. « La tâche que nous proposons est très difficile et pourrait servir de référence pour suivre les progrès de l’IA incarnée dans des scènes physiquement réalistes », ont écrit les chercheurs.

Les robots mobiles sont en train de devenir un domaine de recherche et d’applications très en vogue. Selon M. Gan, plusieurs usines de fabrication et usines intelligentes ont déjà exprimé leur intérêt pour l’utilisation de l’environnement TDW dans leurs applications réelles. Il sera intéressant de voir si le TDW Transport Challenge permettra d’introduire de nouvelles innovations dans ce domaine.

« Nous espérons que le TDW-Transport Challenge contribuera à faire avancer la recherche sur les agents robotiques d’assistance dans les entrepôts et à domicile », a déclaré M. Gan.

Quentin CLAUDEL

« Ceci est un article « presslib » et sans droit voisin, c’est-à-dire libre de reproduction en tout ou en partie à condition que le présent alinéa soit reproduit à sa suite. Larobolution.com est le site sur lequel vous retrouverez toute l’actualité des métaux précieux. Merci de visiter mon site. Vous pouvez vous abonner gratuitement à la lettre d’information quotidienne sur https://larobolution.com/. »

Source The Next Web

Pin It on Pinterest