« Identifier et déterminer de manière aussi fiable que possible les propriétés structurales des substances chimiques, quelle que soit leur utilisation finale, représente une étape initiale importante, d’une part pour comprendre les mécanismes d’interaction, d’autre part pour développer des nouvelles molécules optimisées dans le domaine pharmaceutique ou biologique. Pour cela, des études ont été menées dans le sens de comprendre la relation structure activité (RSA) des molécules.
La RSA représente le lien entre la structure moléculaire d’une substance et son activité (ou son effet) biologique. Son hypothèse de base est que les molécules similaires ont des activités similaires. Pour succéder à l’approche expérimentale, l’utilisation des méthodes de relation quantitative structure activité/propriété (QSAR/QSPR) sont devenues d’un grand intérêt. Les méthodes QSAR/QSPR reposent sur l’hypothèse que l’activité ou la propriété, comme la liaison d’un médicament à l’ADN ou l’effet toxique, d’un certain composé chimique peut être lié à sa structure par une relation mathématique. La propriété ou l’activité biologique sera liée à la structure moléculaire d’un composé chimique. Ensuite, cette relation peut être utilisée dans la prédiction, l’interprétation et l’évaluation de nouveaux composés avec des activités/propriétés souhaitées, tout en réduisant et en rationalisant le temps, les efforts et le coût de la synthèse et du développement de nouveaux produits.
C’est dans ce but que BioSTM « Biostatistique, Traitement et Modélisation des données biologiques » a proposé ce sujet afin de comparer des méthodes d’apprentissage supervisées appliquées au QSAR quant à leur performance à prédire l’activité biologique d’une molécule sur une enzyme donnée.
Les données utilisées proviennent d’une base de données en accès libre, ExCAPE-DB, qui contient 350000 molécules dont leur statut peut être actif ou inactif quant à l’inhibition d’une enzyme. Cette inhibition est quantifiée par la constante Ki. Elle est codée dans la base comme pXC50 et définie par −log10(C50) où C50 est la concentration de la molécule qui réduit de 50% l’activité de l’enzyme. Plus C50 est faible (et donc pXC50 élevé) plus efficace est la molécule pour inhiber l’enzyme. Dans cette présente étude, nous nous limiterons sur les molécules actives.
Dans une première étape un prétraitement des données est nécessaire pour supprimer les descripteurs non-calculables sur certaines molécules, ainsi que les descripteurs constants ou quasi-constants, des descripteurs hautement corrélés et des descripteurs qui sont des combinaisons linéaires exactes d’autres descripteurs. Ensuite, des modèles de régression multivariée (sur composantes principales (PCR), PLS, forêts aléatoires) seront ajustés sur les données et leurs performances comparées. Une attention particulière sera portée sur la validation des modèles pour éviter le surajustement.
Notre étude se découpe en quatre phases. La première concerne le cadre conceptuel et méthodologie de l’étude. Il s’agit principalement de définir quelques concepts clés concernant notre étude, une brève présentation de revue de littérature ainsi que l’approche méthodologique utilisée. La deuxième étape est la description des données de l’étude. La troisième phase fait l’objet de la mise en oeuvre des méthodes supervisées appliquées au QSAR. Enfin, il sera question, dans une dernière partie, de comparer les méthodes utilisées. »