Pour rappel avant de lire ce passionnant article l’anthropomorphisme est relatif à ce qui possède la forme et l’apparence humaine tel que des réactions. L’homme a toujours eu une tendance à attribuer des caractéristiques humaines aux animaux et aux dieux depuis aussi longtemps qu’ils existent.

Lorsque nous décrivons le comportement des systèmes robotiques, nous avons tendance à nous appuyer sur des anthropomorphismes. Les caméras « voient », les algorithmes de décision « pensent » et les systèmes de classification « reconnaissent ». Mais l’utilisation de ces termes peut nous conduire à l’échec, car ils créent des attentes et des hypothèses qui souvent ne tiennent pas, en particulier dans l’esprit des personnes qui n’ont pas été formées aux technologies sous-jacentes concernées. C’est particulièrement problématique parce que bon nombre des tâches que nous envisageons pour les technologies robotiques sont généralement des tâches que les humains effectuent actuellement (ou pourraient effectuer) en partie. La tendance naturelle est de décrire ces tâches comme le ferait un humain en utilisant les « compétences » dont il dispose, ce qui peut être très différent de la façon dont un robot exécute la tâche. Si la spécification de la tâche repose uniquement sur des spécifications « humaines », sans préciser les différences entre les compétences « robotiques » et « humaines », le risque de décalage entre la description humaine de la tâche et ce que fait réellement le robot augmente.

La conception, l’acquisition et l’évaluation de systèmes d’IA et de robotique qui sont sûrs, efficaces et se comportent de manière prévisible représentent un défi central de l’intelligence artificielle contemporaine. L’utilisation d’une approche systématique dans le choix du langage qui décrit ces systèmes est la première étape vers l’atténuation des risques associés aux hypothèses non vérifiées sur les capacités de l’IA et de la robotique. Plus précisément, les actions que nous considérons comme simples doivent être décomposées et leurs composants soigneusement mis en correspondance avec leurs équivalents algorithmiques et sensoriels, tout en évitant les pièges du langage anthropomorphique. Cette démarche a deux objectifs. Premièrement, cela permet de révéler les hypothèses et les préjugés sous-jacents en définissant plus clairement la fonctionnalité. Ensuite, elle aide les experts non techniques à mieux comprendre les limites et les capacités de la technologie sous-jacente, afin qu’ils puissent mieux juger si elle répond aux besoins de leurs applications.

Demandez à un robot de ramasser une pomme

Prenons l’exemple d’un expert du domaine qui a été chargé de trouver une solution robotique ou d’IA à un problème spécifique au domaine, à savoir ramasser des pommes sur une table et les mettre dans un panier. L’expert du domaine utilise des termes de tâches spécifiques à l’homme (« voir », « ramasser », « placer ») pour définir ce que le robot doit faire (le processus d’acquisition). L’expert du domaine peut également fournir des spécifications de test et d’évaluation : le robot doit ramasser au moins 80 % des pommes sans les meurtrir.

Une utilisation incorrecte du langage à ce stade peut entraîner un décalage important entre les spécifications souhaitées et ce qui est réellement mis en œuvre, car la compréhension des termes peut différer entre l’acheteur et le développeur. Pour l’expert du domaine, « voir une pomme » se traduit par « identifier les pixels rouges », « ramasser » plus « ne pas meurtrir » implique « ne pas laisser tomber », mais pas pour le développeur. Ce décalage peut être encore exacerbé lorsque le système est transmis aux opérateurs qui mettent en œuvre les parties de bas niveau du système robotique. Ils peuvent avoir une autre compréhension de la façon dont le robot devrait fonctionner, sur la base de la description de la tâche humaine. Comme la mise en œuvre sous-jacente ne correspond pas à la description (humaine) du système, les opérateurs sont incapables de prédire avec précision le comportement du système. Cela peut conduire à des défaillances catastrophiques, par exemple lorsque l’opérateur suppose que le système peut faire quelque chose qu’il ne peut pas faire, ou lorsque le système fait quelque chose d’inattendu, par exemple lorsqu’il suppose que l’image d’une montgolfière sur un t-shirt est une pomme.

Malheureusement, ces anthropomorphismes sont attrayants, car ils fournissent un langage commun entre des personnes de spécialités différentes. Nous pourrions éviter les problèmes si le cahier des charges précisait les détails techniques : « une valeur de pixel de (232, 3, 3) », mais cela n’est pas possible sans que l’agent d’approvisionnement ait une connaissance technique détaillée du système. Il est plus facile de dire « rouge », puisque tout le monde sait ce que c’est. Cependant, à un moment donné, il faut le préciser pour pouvoir le mettre en œuvre. Au cours de ce processus de mise en œuvre, le système résultant peut finir par s’éloigner considérablement de l’intention du terme anthropomorphique. Cette situation s’aggrave à mesure que les concepts deviennent plus subtils. Si « rouge » est un concept glissant, « détecter une personne » est bien pire.

Nous pouvons illustrer cette défaillance par un exemple simple. Disons que le responsable du programme demande un système robotique capable de voir une pomme et de la ramasser. L’implémentation réelle est une caméra qui détecte les pixels rouges qui forment un cercle grossier. Le robot utilise deux images consécutives pour estimer l’emplacement de la pomme, exécute une trajectoire qui déplace la pince vers la pomme, puis ferme les doigts de la pince et soulève. Lorsqu’il est déployé, le robot se trompe sur l’image d’une montgolfière sur une chemise et essaie de faire passer la pince à travers la personne pour tenter de la ramasser. Cet échec n’est pas du tout une surprise compte tenu de la description de la mise en œuvre, mais il serait un choc pour la personne à qui l’on a seulement dit que le robot pouvait « voir des pommes et les ramasser ». De nombreux échecs qui semblent accabler les robots et les systèmes d’IA sont parfaitement clairs lorsqu’ils sont décrits en termes de détails de mise en œuvre, mais semblent inconcevablement stupides lorsqu’ils sont décrits dans un langage anthropomorphique.

Le démontage de la boîte noire

Un langage clair et non anthropomorphique est essentiel pour démonter les idées fausses sur l’IA en tant que boîte noire. Le système d’IA ou de robotique moyen est encore bien moins complexe que la bactérie moyenne, alors pourquoi la personne moyenne a-t-elle du mal à raisonner sur ce que ces systèmes peuvent (et ne peuvent pas) faire ? Cette difficulté est due principalement au langage, et plus précisément à l’utilisation d’un langage qui véhicule des attentes et des hypothèses centrées sur l’homme.

On pourrait dire que les deux énoncés « Le robot voit une pomme » et « Le robot détecte un objet qui a l’apparence d’une pomme » sont à peu près identiques, mais qu’ils sont très différents dans leurs hypothèses sur les capacités cognitives. « Voir » entraîne avec lui une foule de modèles internes et d’hypothèses : Les pommes sont rouges ou vertes, tiennent dans la main, sentent la pomme, craquent quand on les mord, se trouvent sur les arbres et dans les coupes à fruits, etc. Nous avons l’habitude de voir des pommes dans une grande variété de conditions d’éclairage et de points de vue – et nous avons une certaine idée du contexte dans lequel elles sont susceptibles d’apparaître. Nous pouvons distinguer les images de pommes des peintures ou des dessins animés. Nous pouvons reconnaître d’autres objets dans une scène qui nous indiquent si quelque chose est susceptible d’être une pomme ou un autre objet rouge. En d’autres termes, nous avons une représentation interne complète de ce qu’est une pomme lorsque nous regardons une image – nous ne voyons pas seulement les pixels. Le terme « détecter », en revanche, évoque moins de suppositions internes et évoque plutôt l’image de quelqu’un qui pointe un capteur sur une pomme et la fait « dinguer ». Cela ressemble davantage à la façon dont un robot « voit » et dont il se représente intérieurement une pomme. Un capteur (la caméra) est pointé sur la pomme et la distribution numérique des valeurs des pixels est examinée. Si les valeurs des pixels « correspondent » (numériquement) aux exemples précédemment appris de distributions de pixels pour des images étiquetées « pommes », l’algorithme renvoie le symbole « pomme ». Comment l’algorithme obtient-il cet ensemble d’exemples de distributions de pixels ? Pas en courant partout et en ramassant des objets pour voir s’ils ont l’odeur et le goût de la pomme, mais à partir de millions d’images étiquetées (merci, Flickr). Ces images sont en grande partie prises avec un bon éclairage et à partir de points de vue standard, ce qui signifie que l’algorithme a du mal à détecter une pomme dans un mauvais éclairage et à partir d’angles bizarres, et qu’il ne sait pas non plus comment distinguer une image qui correspond à ses critères de pomme mais qui n’en est pas une. Il est donc plus exact de dire que le robot a détecté un objet qui a l’apparence d’une pomme.

La formulation du problème de la prise d’une pomme à l’aide de mots tels que « détecter », « déplacer » et « saisir » révèle immédiatement les questions clés auxquelles il faut répondre : Quel matériel est utilisé pour effectuer la détection ? Quelles sont ses défaillances connues ? Quels algorithmes sont utilisés ? Au lieu de cela, ces problèmes peuvent être abordés selon une approche à deux volets : 1) Fournir des spécifications détaillées qui délimitent clairement (en termes simples) les représentations informatiques sous-jacentes ainsi que les cas de défaillance connus et les hypothèses. 2) Choisir des termes de langage qui sont mécanistes et non centrés sur l’homme, et être très pédant dans la description de la fonctionnalité du système. Définir explicitement les noms, adjectifs et verbes en utilisant leur représentation numérique réduirait considérablement la tendance des opérateurs à supposer que le logiciel possède leur représentation interne « humaine » de ces termes. Les résumés des fiches techniques des cas de défaillance connus amélioreraient également la capacité de l’opérateur à raisonner sur le moment et la raison pour lesquels le système pourrait échouer dans sa tâche. L’utilisation d’un langage pédant et mécaniste peut renforcer le fait que ces systèmes n’utilisent pas les compétences humaines (implicites) pour accomplir leurs tâches. Du côté de l’approvisionnement – et en travaillant avec les développeurs pour concevoir des procédures de test et d’évaluation – ces spécifications détaillées et ce langage pédant peuvent aider à découvrir des hypothèses cachées et à identifier où (et dans quelle mesure) des tests spécifiques sont nécessaires. Cela peut se faire au niveau de l’ensemble de données/du capteur (par exemple, avez-vous testé les conditions de faible éclairage ?) ou à un niveau plus élevé (par exemple, comment savez-vous que le robot a réussi à ramasser la pomme ?)

Les critiques pourraient qualifier cet exemple de « simple » et se demander où est l’intelligence artificielle. En réalité, il s’agit de l’une des tâches les plus difficiles à réaliser pour un système robotique (c’est juste facile pour nous), et l’IA est intégrée tout au long du processus, du logiciel d’apprentissage automatique qui détecte la pomme à la planification de la trajectoire qui amène la pince à la pomme. Il n’existe pas de « boîte noire » de l’IA qui « fait » ce que vous voulez. Au contraire, tout système complexe est construit à partir de composants plus petits qui peuvent chacun être largement caractérisés, testés et évalués. L’utilisation correcte d’un langage mécaniste et pédant est un outil puissant pour révéler ces composants et mettre correctement leurs capacités entre parenthèses.

Quentin CLAUDEL

« Ceci est un article « presslib » et sans droit voisin, c’est-à-dire libre de reproduction en tout ou en partie à condition que le présent alinéa soit reproduit à sa suite. Larobolution.com est le site sur lequel vous retrouverez toute l’actualité des métaux précieux. Merci de visiter mon site. Vous pouvez vous abonner gratuitement à la lettre d’information quotidienne sur https://larobolution.com/. »

Source Brookings

Pin It on Pinterest