Etude de l'environnement Swimmer

L'évaluation d'algorithmes d'apprentissage par renforcement profond à actions continues repose sur l'utilisation de benchmarks standards qui consistent souvent en la simulation d'un système physique plus ou moins complexe qu'il faut contrôler. Parmi ces nombreux benchmarks (Half-Cheetah, Ant, Humanoid, etc.), Swimmer est un cas particulier. La comparaison de nombreux algorithmes d'apprentissage par renforcement profond et méthodes évolutionnaires, voire des combinaisons des deux ont montré que, plus un algorithme fait appel à des méthodes d'apprentissage par renforcement profond sophistiquées, moins il est performant sur Swimmer. A l'inverse, les méthodes évolutionnaires se comportent bien dans cet environnement.

L'objet de ce projet est de comprendre en détail les mécanismes qui expliquent ces résultats. On soupçonne un phénomène de "deceptive gradient" : suivre le gradient de la performance comme le font les algorithmes d'apprentissage par renforcement profond conduit à détériorer le contrôleur plutôt qu'à l'améliorer.

Le projet supposera dans un premier temps de mettre en oeuvre des algorithmes d'apprentissage par renforcement profond et évolutionnaires dans l'environnement Swimmer sous l'interface standard OpenAI gym, puis de produire des outils permettant d'analyser en profondeur les résultats pour les interpréter de façon indiscutable.

Encadrant: 
Olivier Sigaud
Nombre d'étudiants: 
3
Attribué: 
Yes
Deprecated: 
No

User login