Analyse de données génomiques concernant la résistance aux antibiotiques

deep learning réseaux de neurones santé

“La tuberculose est une maladie très contagieuse qui est une cause majeure de mauvaise santé et l’une des principales causes de décès dans le monde. En 2021, on estime à près de 1,6 millions le nombre de décès dus à cette maladie. Pour lutter contre cette maladie bactérienne causée par Mycobacterium tuberculosis, de nombreux antibiotiques ont été conçus. Cependant, l’utilisation non contrôlée et exagérée de ces antibiotiques a conduit à l’apparition des souches résistantes de M. tuberculosis.

Le nombre de souches résistantes ne cesse d’augmenter et la situation devient inquiétante. D’après les statistiques de l’OMS, on estime à 450 000 le nombre de cas de résistances multi médicaments ou de résistance à l’antibiotique rifampicin (multidrug-resistant or rifampicin-resistant tuberculosis, MDR/RR-TB en anglais).

Des études ont été menées dans le cadre du séquençage du génome entier de M. tuberculosis. Ces dernières ont permis de comprendre la base moléculaire de la multirésistance en identiﬁant les mutations spéciﬁques dans les gènes à l’origine de la résistance. L’utilisation des méthodes statistiques et d’apprentissage automatique a ensuite permis de faire de grandes avancées dans l’identiﬁcation de ces mutations et ainsi de mieux comprendre la multirésistance de la tuberculose .

Cependant, la généralisation et l’adoption clinique ont été limitées en partie par un manque d’interprétabilité et de vériﬁabilité, surtout pour les méthodes de Deep Learning. C’est dans ce cadre que ce sujet nous a été proposé.

L’objectif de ce dernier est d’étudier dans un premier temps, un modèle de réseau de neurones convolutif profond (CNN) utilisé dans les travaux de Anna G. Green et al. pour prédire les phénotypes de résistance de la tuberculose puis, dans un second temps, d’y appliquer l’approche de la prédiction conformelle qui nous permettra de garantir dans une certaine mesure la ﬁabilité des prédictions faites par le modèle.

Les données utilisées pour notre étude sont donc celles utilisées par Anna G. Green et al. dans la leur. Elles sont constituées de 23 049 isolats de M. tuberculosis pour lesquels les données de la séquence du génome entier et du phénotype de résistance aux antibiotiques sont connues.

Notre étude se structure en 3 chapitres : le premier présente le cadre conceptuel et méthodologique de l’étude, le deuxième aborde les principaux résultats obtenus à partir des modèles de réseau de neurones convolutifs profond et le dernier concerne les résultats obtenus suite à l’application de la prédiction conformelle.”