L’apprentissage par renforcement est une méthode d’apprentissage automatique qui permet à un agent d’améliorer progressivement sa performance au cours de ses interactions avec son environnement. Des méthodes d’apprentissage par renforcement profond sont apparues récemment et permettent de traiter le cas où les observations de l’agent sont dans un espace continu de très grande taille, et où les actions elles-mêmes sont continues. L’un des algorithmes de référence, DDPG, a été implémenté et évalué à l’ISIR dans le cadre d’un stage de M2, ce qui a permis de faire ressortir un certain nombre de limites.
L’objet de ce projet est d’intégrer à la version de DDPG développée à l’ISIR des améliorations proposées dans la littérature ces derniers mois et de tester le logiciel résultant sur divers benchmarks.
Le codage s’effectuera en tensorflow et python et les évaluations se feront sur la plateforme OpenAI gym.
Références :
L’algorithme DDPG : https://arxiv.org/pdf/1509.02971.pdf
Open AI gym : https://gym.openai.com/
Tensorflow : https://www.tensorflow.org/