AgeNts Distribues, Robotique, Recherche Opérationnelle, Interaction, DEcision
AgeNts Distribues, Robotique, Recherche Opérationnelle, Interaction, DEcision
Un projet P-ANDROIDE réalisé en 2019 a permis de démontrer la faisabilité d'utiliser différents algorithmes d'apprentissage par renforcement pour apprendre à piloter une voiture sur circuit, en utilisant l'environnement de simulation TORCS:
https://github.com/WissamAKRETCHE/DDPG-Keras-TORCS
L'objectif du projet de cette année est de s'intéresser au compromis entre l'interprétabilité et la performance des contrôleurs appris.
On commencera par utiliser un algorithme d'apprentissage par renforcement de l'état de l'art (probablement Soft Actor Critic) pour obtenir le contrôleur le plus performant possible:
https://github.com/pranz24/pytorch-soft-actor-critic
Puis on "dégradera" ce contrôleur en "binarisant" les sorties de la première couche, avant de regrouper entre elles les features qui évoluent conjointement en étudiant leurs corrélations. La première couche réalisera alors une "catégorisation" de l'environnement que l'on s'efforcera d'intrepréter sous forme de règles lisibles par un opérateur humain. Conjointement, on examinera l'impact sur la performance de cette binarisation.
Par ailleurs, on réalisera l'apprentissage d'un contrôleur avec un réseau de neurone à une seule couche, correspondant à un contrôleur linéaire, pour estimer à quel point la performance est dégradée et travailler l'interprétabilité d'un contrôleur linéaire.
Une bonne maîtrise de python et un intérêt marqué pour l'apprentissage par renforcement sont nécessaires pour mener à bien ce projet