Sujet: Robotique collective et apprentissage en ligne
_
Nous disposons d'une arène de 2.5m sur 2.5m, dans laquelle se déplacent une trentaine de robots à roue Thymio Ces robots font 12cm de coté, et sont dotés de deux roues motrices. Ils perçoivent leur environnement par des senseurs de proximités et à l'aide d'une caméra. Chaque robot est contrôlé par une carte Raspberry PI 3. La programmation se fait en Python, en utilisant la librairie OpenCV pour le traitement d'image. Ce dispositif expérimental permet d'étudier des comportements collectifs (déplacement en groupe, recherche d'objet dans l'environnement).
_
L'objectif de ce stage est d'implémenter un algorithme d'apprentissage en ligne et distribué sur l'essaim de robots. Chaque robot est contrôlé par une architecture de comportement, donc les paramètres peuvent être échangé avec les autres robots en fonction de la performance, selon le modèle décrit dans [1]. A chaque instant, un robot donné peut envoyer, avec une certaine probabilité, son jeu de paramètres aux autres robots. Cette probabilité est modulée en fonction de la performance dudit robot, selon un algorithme dit PGTA [2]. A titre de comparaison, on implémentera aussi un algorithme d'apprentissage pour robot seul tiré de [3], que l'on dupliquera sur l'ensemble des robots -- dans ce cas, l'algorithme d'apprentissage présent sur chaque robot agit indépendamment des autres robots, ce qui n'exclue a priori pas les interactions entre robots si il existe un bénéfice mutuel (ie. chaque robot a intérêt à collaborer).
_
On s'intéressera dans ce projet à deux tâches, dont la réalisation sera faite directement sur les robots réels: une tâche de suivi de lumière et une tâche de transport collectif. Pour cette dernière, on étudiera la possibilité soit d'automatiser la mesure de performance, soit de la laisser au superviseur (on parle alors d'évaluation interactive, faîte par l'expert). Deux extensions seront possibles si le temps le permet (1) on explorera la possibilité d'apprendre d'autres tâches en interaction avec l'utilisateur et (2) en collaboration avec un autre stagiaire spécialisé image, on évaluera l'impact d'une communication locale (plutôt que globale) dans l'exécution de l'apprentissage.
_
Le stage aura lieu à l'ISIR sous la direction de Nicolas Bredeche. Nous utiliserons l'arène de robotique collective en place dans les salles expérimentales de l'ISIR (arène, robots, caméras).
_
[1] J-M. Montanier, S. Carrignon, N. Bredeche (2016) Behavioural Specialisation in Embodied Evolutionary Robotics: Why so Difficult? Frontiers in Robotics and AI, Volume 3, number 38.
[2] N. Bredeche, E. Haasdijk, A.E. Eiben. On-line, On-board Evolution of Robot Controllers. Proceedings of the 9th international conference on Artificial Evolution (Evolution Artificielle - EA'09), Strasbourg, october 2009. Published in Lecture Notes on Computer Science (LNCS) 5975, p.110-121, EA, P. Collet et al. (Eds.), Springer (2010).
[3] N. Bredeche, E. Haasdijk, A.E. Eiben. On-line, On-board Evolution of Robot Controllers. Proceedings of the 9th international conference on Artificial Evolution (Evolution Artificielle - EA'09), Strasbourg, october 2009. Published in Lecture Notes on Computer Science (LNCS) 5975, p.110-121, EA, P. Collet et al. (Eds.), Springer (2010).
_
Encadrant
Nicolas Bredeche
Nombre d'étudiants
2
Attribué
Oui
Obsolète
Non
Tags