Semantic address matching and parsing

parsing statistique publique

“L’un des projets phares que mène actuellement l’Insee est le projet GAIA (Géoréférencement à partir d’Informations locAlisantes) qui devrait être opérationnel dès 2025. Il vise à créer puis mettre à la disposition de l’Insee et du SSP (Service Statistique Publique) un système d’information ou répertoires d’adresses à usage statistique qui soit géocodé, grâce à la mobilisation de toutes les informations localisantes disponibles et provenant de diverses sources.

Il s’agit entre autre de l’adresse, des données cadastrales ou de l’emprise du bâti. Notons par ailleurs que ce projet a un partenariat très étroit avec le programme RéSIL (Répertoires Statistiques d’Individus et de Logements) dont l’objectif est de construire un système d’information statistique sur les logements, ménages et individus qui soit géocodé “à la source” grâce notamment au moteur d’identification de lieux géographiques qui sera développé à terme par GAIA.

Les informations de géocodage des unités statistiques sus-évoquées sont, pour le projet, issus de la BD TOPO produite par l’IGN (Institut national de l’information géographique et forestière) qui représente plus précisément la modélisation 2D et 3D du territoire.

L’Insee dispose de bases de données contenant les adresses des unités statistiques d’intérêts qu’elle suit et qui proviennent généralement de ses partenaires (CAF, CNAM, DGFiP, etc.) ou d’enquêtes (recensement de la population…).

L’Institut souhaite parvenir à apparier ces adresses, aux adresses correspondantes de la BD TOPO pour les enrichir d’un géocodage notamment. Le présent travail vise à proposer une réponse à cette problématique d’appariement.

Un autre enjeu du présent document est de faciliter les travaux de parsing d’adresses. À ce jour, ce travail se réalise à l’Insee manuellement pour la reprise des adresses des unités statistiques non enquêtées. Le parsing des adresses permet de subdiviser l’adresse en plusieurs entités que sont le numéro de la voie, le nom de la voie, l’adresse postale, le nom de la commune et le complément d’adresse. Cette étape facilite la phase de matching en comparant les différentes entités extraites à celle présente dans la BD TOPO.

Notre objectif dans ce travail est donc premièrement de proposer à l’Insee une approche qui puisse être en mesure d’automatiser le parsing. Deuxièmement, il s’agit aussi de proposer à l’Insee un algorithme qui permettra de procéder au matching sus-évoqué sans forcément passer par un parsing. Pour atteindre ces objectifs, notre travail est subdivisé en deux grandes parties. Dans la première, nous présentons nos données ainsi que notre approche méthodologique pour adresser les problématiques de matching et de parsing. Dans la seconde partie, nous présentons les résultats saillants obtenus à partir de l’implémentation de notre méthodologie.”