Les algorithms d'apprentissage par renforcement visent à trouver une politique permettant de déterminer l'action à appliquer dans un état donné pour maximiser une récompense sur un certain horizon. La robotique cumule plusieurs défis pour ces algorithmes. Les espaces d'états comme les espace d'action sont continus, les récompenses sont rares, les fonctions de transition peuvent être bruitées, etc. Une solution à ces défis consiste à définir des politiques paramétrées et à explorer l'espace de ces paramètres en testant les politiques correspondantes et en mesurant la récompense obtenue. Cette approche nécessite un grand nombre de tests, aussi elle n'est pas mise en oeuvre directement sur un robot réel, mais plutôt sur une simulation, qui est plus rapide et moins couteuse. Cette approche introduit cependant un problème: une politique apprise en simulation peut échouer sur le robot réel si elle exploite des caractéristiques non réalistes de la simulation. On parle alors de "reality gap" ou de "simulation bias".
L'objectif de ce projet est de développer plusieurs environnements de simulation respectant l'interface de openAI Gym pour des robots à roues sur la base de bibliothèques de simulation existantes. Il s'agit de mettre en évidence les problèmes de transfert de politiques apprises entre différents simulateurs. Le premier environnement de simulation s'appuira sur la bibliothèque de simulation rapide libfastsim. Une interface avec openAI Gym existe déjà, il s'agira de le repackager pour faciliter son utilisation. Le deuxième environnement sera plus réaliste et s'appuiera sur la bibliothèque pybullet. Les comportements des politiques apprises avec différents algorithmes d'apprentissage de type évolutionniste seront comparés sur le simulateur basé sur fastsim et sur le simulateur basé sur pybullet pour mettre en évidence ce "reality gap", quantifier les performances des algorithmes considérés et faire une étude de sensibilité à leurs paramètres.