Comment les robots construisent leur monde

Asso - Frederic Kaplan

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

9 pages

Français

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

A propos
Informations
Extrait

Description

Sujets

Photo ECAL / Milo Keller, Design : ECAL / Singal Mösch et Francis Chabloz Comment les robots construisent leur monde par Frédéric Kaplan et Pierre-Yves Oudeyer Pourrait-on apprendre à un robot le nom des p r o t o t y p e s . objets qui l’entourent ? Ne suffirait-il pas de le Pour prédire le programmer pour qu’il associe les caractéris- mot associé à tiques des images qu’il perçoit avec des une nouvelle séquences sonores particulières ? La forme situation, le arrondie d’une balle avec le son du mot « bal- robot en com- le ». Une gamme de couleurs particulière as- p a r a i t l e s sociée au mot « rouge ». Peut-être qu’en ac- c a r a c t é r i s- cumulant les exemples, le robot finirait par tiques à celles prédire les contextes dans lesquelles chacun rencontrées dans de ces mots s’appliquent ? Est-ce aussi sim- le passé et choisissait le mot qui avait été ple que cela d’apprendre à parler ? utilisé dans la situation la plus similaire (voir encadré 1). Le robot a pu par cette méthode Telles étaient les questions que nous posions maîtriser l’usage d’une dizaine de mots asso- en 1999 avant de débuter une longue série ciés à des objets facilement distinguables par d’expériences destinées à explorer la leur couleur et leur forme. Les performances manière dont une machine pouvait apprendre obtenues dans ces conditions étaient satis- ses premiers mots. Tous les matins, nous faisantes (entre 70% et 80% de réussite) prenions une demi-heure pour montrer au mais elles devenait rapidement médiocres robot des objets de couleur et de formes sitôt que nous tentions d’introduire des objets différentes. Nous changions d’environnement supplémentaires. L’approche n’était pas gé- chaque jour (pièces très éclairées, zone néralisable. sombres) de manière à ce que le robot puisse percevoir chaque objet dans les condi- Une analyse plus fine de la base d’exemples tions les plus variées possible. qui contenait toutes les informations (images et sons) que le robot avait accumulées durant Nous avions utilisé un système d’apprentis- ces expériences fut riche d’enseignements. sage simple et efficace : l’apprentissage par Dans un certain nombre de ces exemples, 11 / Comment un robot peut-il apprendre? Tout un ensemble de techniques permettent aujourd’hui à une machine d’apprendre à faire des prédictions à partir d’exemples. Par exemple, on peut donner quelques images de balles et de chaises associées aux étiquettes « balle » et « chaise », et la machine peut ensuite deviner, quand on lui donne une nouvelle image qu’elle n’a jamais vue, si c’est une balle ou un chaise. La tâche de prédiction peut être aussi temporelle : par exemple, la machine observe un cer- tain nombre de trajectoires d’une balle qu’on lance de di- verses manières, et ensuite est capable de prédire où cette balle va atterrir dès les premières millisecondes d’un nou- veau lancé. Il est possible de résumer ces différents contex- tes de prédiction en disant que la machine essaie d’appren- dre à chaque fois à faire correspondre les points d’un es- pace A (e.g. images ou début de trajectoire) à des points dans un espace B (e.g. étiquettes ou fin de trajectoire), à partir d’un nombre limité d’exemples. Cette formulation cor- respond à ce qu’on appelle en mathématiques le problème de la régression, c’est-à-dire l’essai de reconstruction d’une fonction dans son ensemble à partir de quelques points. L’idée est souvent de présupposer certaines propriétés de cette fonction à reconstruire, par exemple qu’elle peut être représentée par un polynôme où une combinaison linéaire de tangentes, et de chercher dans ce sous-ensemble paramétrable de fonctions candidates quelles sont celles qui approximent le mieux les points donnés en exemple. Il existe tout un arsenal d’outils pour représenter ces fonctions can- didates : réseaux de neurones, réseaux bayésiens, chaines de markov, …. Il existe également une approche alternative pour résoudre le problème de l’apprentissage, que l’on appelle non-paramétrique, et qui bien que plus simple se montre souvent tout aussi efficace : c’est l’apprentissage par prototypes. Il s’agit dans ce cas pour la machine de garder en mémoire les ex- emples qu’elle a obtenu, chaque exemple étant une association entre un point de l’espace A et un point de l’espace B. Quand elle a une prédiction à faire, étant donnée par exemple une image a, alors la machine utilise une mesure de similarité pour calculer quels sont les images de sa base d’exemples qui sont les plus proches. La prédiction fournie est donc dans ce cas une étiquette qui est calculée en combinant les étiquettes des exemples les plus proches (par exemple par un vote à la majorité). Quelle que soit la méthode d’apprentissage utilisée, elle impose toujours des contraintes, ou biais d’apprentissage, sur la forme de la fonction reconstruite : une méthode donnée ne peut jamais ap- proximer toutes les fonctions avec précision et efficacité. Autrement dit, pour une méthode donnée, certaines fonctions seront faciles à deviner, et d’autres difficiles voir impossibles. En outre, chaque méthode utilise des biais différents, donc ce qui est facile pour l’une peut être difficile pour l’autre et vice versa. utilisés dans les situations d’erreurs, l’objet mentateur quand ce dernier prononçait un qui était le sujet de l’interaction n’apparaissait mot : l’attention de l’homme et de la machine tout simplement pas dans le champ de vision n’était pas partagée … de la machine. Il s’agissait par exemple de L’attention est cette capacité qu’ont la plupart situations où quand nous disions le mot « bal- des animaux de se concentrer sélectivement le », le robot regardait en fait ailleurs. Il sur certains aspects d’une situation à l’exclu-mémorisait ainsi un grand nombre d’expéri- sion des autres. Lorsque nous marchons, ences dans lesquelles ce mot semblait être lorsque nous montons un escalier, lorsque associé à la moquette, au tapis ou à une om- nous escaladons une montagne, nous bre sur le sol. Difficile d’apprendre dans ces prêtons attention à certains aspects de notre conditions. monde perceptif, mais pas à d’autres. Le comportement attentionnel peut donc s’inter-Ce qui limitait les performances du robot, ce préter dans le contexte d’une action motivée, qui l’empêchait d’apprendre à bien à parler, dirigée vers un but. ce n’était pas tant les techniques d’apprentis- sage automatique (voir encadré 1). Si on Dans notre exemple, rien ne poussait le robot donnait à l’algorithme d’apprentissage des à s’intéresser à la balle que nous lui présen- données pré-formatées, c’est-à-dire qu’on lui tions. Nous aurions pu bien sûr lui program- donnait manuellement les bonnes images mer un « détecteur de balle » et un compor- associées aux bons sons, il se débrouillait tement de recherche associé aux caractéris- plutôt bien. Le facteur limitant résidait plutôt tiques visuelles correspondantes. Dans ce dans les difficultés à faire que le robot se cas il aurait été facile de lui apprendre un mot concentre sur la même chose que l’expéri- pour cet objet. Mais le problème se serait 2reposé à l’identique pour un nouvel objet. possible de doter le robot d’une forme de Comment un robot pourrait-il apprendre à curiosité qui le pousserait à explorer des reconnaître les caractéristiques d’un objet situations qu’il ne connaît pas encore ? qu’il ne connaîtrait pas à l’avance ? Comment Avant tout chose, il convient de préciser ce ferions-nous pour diriger son attention vers que serait un « savoir-faire » pour un robot ? cet objet ? Un robot peut apprendre à anticiper les Imaginons un salon dans conséquences percep- lequel se trouve une table, tives de ces actions. Le quatre chaises, un can- même type d’algorithme apé, un tabouret, un se- que ceux employés pour crétaire et une biblio- associer les caractéris- thèque murale (voir les tiques d’une image à un illustrations de Jakob von son peut alors être util- Uexküll, Mondes animaux isé. A partir de la mémo- et monde humain, Denoël, risation des expériences 1965). Au plafond il y a un passées, la machine luminaire. Quatre assi- p e u t p r é d i r e l e s ettes sont posées sur la conséquences futures table. Un chien dans ce d’une action entreprise. salon voit les choses Cette capacité d’antici- quelque peu diffé- pation est à la base des remment. Pour lui il y a savoir faire potentiels les objets sur lesquels il qu’il pourra développer peut monter pour se re- (voir encadré 1). poser : le canapé et les Quelle action le robot chaises, mais sans doute choisira-t-il ? La plupart pas le tabouret. Ce der- des robots sélectionnent nier, comme le secrétaire les actions qu’ils vont et la bibliothèque, fait par- effectuer à partir d’un tie des obstacles, système de valeurs éléments qui ne sont as- défini par ses program-sociés à aucune action meurs. Ce système de particulière si ce n’est valeurs définit ce que la celle de gêner les machine cherche à ob-déplacements. Imaginons tenir et ce qu’elle cher-maintenant le même sa- che à éviter. Il peut par lon vu par une mouche. exemple s’agir de re-Pour cet insecte, seule la chercher des stimula-lumière et peut-être le tions tactiles de la part reste de nourriture dans de son propriétaire ou les assiettes constituent tout simplement des des éléments significatifs. signes de sa présence Ce que nous reconnais- (son de la voix, détec- sons dans les objets, ce tion de son visage). A sont les actions poten- l’inverse des chocs trop tielles qui leur sont associées. Pour la même importants peuvent être associés à des va- raison développer de nouveaux savoir-faire leurs négatives. Ces principes déterminent revient à élargir sa perception. Le monde de tout le comportement de la machine, et sont certains insectes reste simple parce que leurs souvent implémentés sous la forme d’un différents moyens d’actions n’évoluent pas. système de récompenses positives ou néga- Au contraire,