Apprentissage par Renforcement Profond pour la Conduite Autonome

deep learning machine learning

“De nos jours, l’intelligence artificielle (IA) fait partie de notre quotidien grâce aux progrès, à la recherche et aux innovations techniques en informatique et en mathématiques. L’IA est notamment utilisée dans le développement des véhicules autonomes. Cette automatisation des véhicules permettra d’améliorer la sécurité routière, la mobilité, et réduira les émissions de gaz à effet de serre et l’encombrement de la circulation. Grâce à de nombreux capteurs pour découvrir leur environnement, les véhicules tentent de reproduire la conduite d’un humain normal. Pour cela, plusieurs méthodes dites d’apprentissage sont utilisées, telles que l’apprentissage automatique (Machine Learning : ML), l’apprentissage profond (Deep learning : DL) et l’apprentissage par renforcement (Reinforcement Learning : RL), qui sont détaillées dans ce rapport.

Tout d’abord, définissons brièvement ces 3 méthodes :

L’apprentissage automatique est l’étude des algorithmes informatiques qui apprennent par eux-mêmes, c’est-à-dire que la machine peut s’améliorer automatiquement grâce à l’utilisation des données et de ses expériences précédentes.
L’apprentissage profond est une façon d’utiliser l’apprentissage automatique. Il se base sur un réseau de neurones artificiels, une bio-mimétique du cerveau. Le système va reconnaître des caractéristiques sur une photo ou un texte grâce à plusieurs couches de ces neurones qui interprètent les informations reçues de la couche précédente.
L’apprentissage par renforcement est un paradigme de l’apprentissage automatique qui se concentre sur la façon dont les agents intelligents doivent entreprendre des actions dans un environnement afin de maximiser la notion de récompense cumulative. L’apprentissage par renforcement profond reprend donc le principe de l’apprentissage par renforcement avec la notion de couche d’apprentissage profond. L’apprentissage profond et l’apprentissage par renforcement sont intégrés au ML.

La complexité de la conduite autonome est d’avoir, grâce à ces apprentissages, des algorithmes suffisamment performants pour pouvoir répondre aux objectifs cités précédemment.

Il existe aujourd’hui deux approches de la conduite autonome. La première consiste en un système d’approche modulaire pour résoudre des sous-problèmes isolés. Un exemple de système peut être composé de la reconnaissance avec CNN en apprentissage supervisé, la prédiction avec RNN, et le contrôle avec RL. Cependant, cela peut créer des problèmes plus difficiles car, par exemple, la reconnaissance n’est pas nécessaire pour tous les éléments d’une image pendant la conduite. Ce problème d’attention ne peut pas être résolu dans un système isolé. C’est pourquoi la deuxième approche, l’apprentissage de bout en bout pour la conduite autonome a été explorée depuis les années 80 constituant une bonne base d’avancement sur le sujet. D’autres techniques sont explorées dans la conduite autonome comme l’apprentissage par imitation. Il s’agit d’une méthode d’apprentissage supervisé qui utilise les données d’un super agent qu’il doit imiter. Les progrès dans ces domaines sont réalisés grâce à l’augmentation des données. Cependant, cette méthode est assez limitée aux données d’entraînement. Ainsi, l’expérience d’apprentissage ne peut pas prendre en compte les situations rares. En revanche, étant donné un mécanisme de récompense raisonnable, la politique apprise par RL est capable de bien se comporter avec les états jamais observés pendant l’apprentissage. Pour entraîner des agents, de nombreuses heures d’expérience de conduite sont nécessaires. Par conséquent, l’apprentissage dans le monde réel avec un véhicule physique peut être très coûteux. Comme il s’agit d’une phase d’apprentissage, le risque pris peut être élevé s’il ne s’agit pas d’un cadre contraignant qui limite la formation. C’est pourquoi la plupart des environnements d’entrainements sont virtuels. Grâce aux jeux vidéo, la simulation est proche de la réalité et peut être appliquée ultérieurement dans le monde réel. Les simulateurs CARLA et SUMO utilisés durant ce projet sont utilisés pour former les agents plus efficacement. Cette formation dans le monde virtuel peut ensuite être partiellement transférée dans le monde réel, toujours par le biais d’ANN , mais il s’agit toujours d’un domaine de recherche actif.

Dans un premier temps, nous détaillons les techniques d’apprentissage profond et les bases des réseaux de neurones artificiels. Puis nous présentons les éléments des tâches d’apprentissage par renforcement et l’évolution vers le RL profond. Ensuite, nous nous concentrons particulièrement sur leur application à la conduite autonome avec un état de l’art et une comparaison entre les solutions d’apprentissage par renforcement et les autres méthodes. La dernière partie de ce rapport se portera sur une expérimentation de la conduite autonome dans les simulateurs SUMO et CARLA.”