« Les trois premières phases d’un essai clinique réalisées sur un nouveau médicament permettent de mesurer sa toxicité et son efficacité. Si les résultats de ces phases sont concluants, le médicament obtient son autorisation de mise sur le marché (AMM). Le médicament est alors utilisé à grande échelle et des effets secondaires non identifiés lors des essais cliniques peuvent survenir en considérant des effectifs plus importants (ex. 1% de la population française). Dès lors, les équipes de pharmacovigilance (des laboratoires à l’origine du développement du médicament mais également celles des autorités sanitaires) analysent les retours d’expérience des patients qui sont soit remontés par les professionnels (médecins ou pharmaciens) soit, de plus en plus souvent, directement décrits via les réseaux sociaux.
Dans un monde de plus en plus numérique, les patients ont tendance à exprimer leurs retours d’expérience sur les médicaments, et notamment l’apparition d’effets indésirables, directement sur les réseaux sociaux (Twitter, Facebook, etc.). Il devient donc primordial pour les équipes de pharmacovigilance d’être capable de répertorier et d’analyser les effets secondaires des médicaments exprimés sur Twitter, au risque sinon de passer à côté de certains effets indésirables et de voir leur AMM retirée s’ils passaient à côté d’enjeux sanitaires majeurs. Notre projet s’inscrit dans cet objectif.
Dans un premier temps, il s’agit de réaliser une classification binaire afin de détecter la présence ou non d’un effet secondaire dans un tweet contenant le nom d’un médicament à surveiller. Ensuite, une analyse des tweets pour lesquels la présence d’un effet secondaire est détectée sera réalisée en utilisant une base de données d’effets secondaires, avec pour objectif de récupérer l’effet secondaire mentionné et l’associer à une catégorie plus générale.
Ce rapport présentera d’abord les bases de données utilisées, puis les étapes de traitement du langage mises en place pour nettoyer et traiter ces données, avant de décrire les différentes méthodes de classification binaire mises en oeuvre pour identifier les tweets présentant un effet secondaire et les résultats obtenus. Enfin, une dernière partie sera consacrée à la catégorisation des effets indésirables présent dans ces derniers ».