« Un transcriptome représente l’ensemble des ARN (Acide RiboNucléique) présents dans une cellule à un moment donné. Pour étudier le transcriptome d’une cellule, on peut isoler des cellules individuelles et analyser chaque cellule séparément en utilisant une technique appelée « single cell RNA-Seq ». Cette technique consiste à diviser les cellules en suspension en gouttelettes individuelles qui sont ensuite analysées une par une. L’ARN de chaque gouttelette est converti en ADN et amplifié, puis séquencé pour identifier les transcrits spécifiques de chaque cellule.
Cependant, toutes les gouttelettes ne contiennent pas une cellule individuelle et certaines peuvent contenir des débris cellulaires ou même deux cellules différentes, ce qui peut fausser les résultats. Par conséquent, avant d’analyser les résultats, il est nécessaire de filtrer les gouttelettes pour ne garder que celles contenant une seule cellule en bon état. Ce filtrage se fait généralement en utilisant des seuils arbitraires basés sur le pourcentage de transcrits provenant de gènes mitochondriaux et le nombre total de transcrits détectés.
Ce projet vise ainsi à utiliser un modèle de mélange pour sélectionner les gouttelettes à analyser lors de la collecte de données. Le modèle de mélange suppose que le nombre total de transcrits par gouttelette suit une distribution qui est le résultat de différentes sources : le nombre de transcrits dans les gouttelettes vides, le nombre de transcrits dans les cellules « type », et le nombre de transcrits dans les gouttelettes contenant deux cellules.
Ces sources peuvent être modélisées par des lois de probabilité différentes, comme la loi de Poisson ou la loi Normale.
Pour répondre à ce sujet, nous allons donc commencer par étudier les données à notre disposition et en faire une approche exploratoire. Cela nous permettra de poser un cadre plus clair pour la construction du modèle de mélange. Enfin, une fois le modèle de mélange construit, il nous sera possible de vérifier que les hypothèses du modèle sur les lois de probabilité permettent de décrire la réalité de nos données. »