Recherche
Premier semestre

Publication de données respectueuse de la vie privée

Objectifs

« Les données personnelles sont le nouveau pétrole d’Internet et la nouvelle monnaie du monde numérique » a déclaré M. Kouneva, commissaire européen à la protection des consommateurs en mars 2009. La valeur de l’analyse massive des données personnelles pour les industriels, les scientifiques et la société en général est largement reconnue aujourd’hui. Cependant, leur caractère personnel et potentiellement sensible est un obstacle majeur à leur partage à grande échelle. L’objectif des modèles et algorithmes de publication de données respectueuse de la vie privée est précisément d’offrir des garanties fortes de respect de la vie privée tout en autorisant un partage de qualité à des fins d’analyse. La tâche est loin d’être triviale comme l’ont démontré plusieurs scandales de ré-identification. L’objectif de ce cours est de présenter aux étudiants les principaux paradigmes et techniques de publication de données respectueuse de la vie privée.

L’accent sera particulièrement mis sur un modèle proéminent aujourd’hui : la differential privacy.

Plan

Introduction : motivation, défis, survol
Paradigmes : non-informatif, differential privacy
Publication interactive: modèles type differential privacy, mécanismes principaux de perturbation intéractive (e.g., Laplace)
Perturbation locale : le mécanismes des réponses randomisés pour satisfaire la differential privacy
Publication centralisée : mécanismes de génération de données synthétiques satisfaisant la differential privacy, survol des modèles basés sur le partitionnement (e.g., k-anonymat, l-diversité) et des mécanismes principaux pour les satisfaire (e.g., algorithme de Mondrian)
Conclusion : les pratiques « dans le monde réel », questions ouvertes

Prérequis

Non indiqué