Perfectionner ses méthodes et innover

Pour répondre à une demande sociale croissante sur des sujets variés et complexes, l’institut mène d’importants travaux méthodologiques et expérimente l’apport de nouvelles données, en collaboration étroite avec les services statistiques ministériels.

En 2019, plusieurs travaux innovants de méthodologie statistique ont été réalisés par les statisticiens de l’Insee. Ceux sur le secret statistique pour la diffusion de statistiques spatiales ont même reçu un prix international au colloque de l’International Statistical Institute à Kuala Lumpur en août 2019 ; ils ont été conçus et implémentés à l’occasion de la diffusion de données carroyées de revenus en 2019.

Du côté des enquêtes auprès des ménages, l’avenir est au « multimode », combinaison de face à face, téléphone et Internet. La plateforme Coleman mise en service en septembre 2019 remplit plusieurs fonctions : collecte des données sur le Web ; promotion et explications de l’enquête ; authentification des enquêtés. C’est à partir de cette plateforme que les ménages peuvent répondre en ligne à toutes les enquêtes du système statistique public qui proposent ce mode de réponse. La réponse par internet concernera également l’enquête Emploi à partir de 2021, après un pilote réalisé tout au long de l’année 2020.

Autre évolution méthodologique d’importance : la préparation de la prise en compte des données de caisses dans le calcul de l’indice des prix à la consommation.

Garantir le secret statistique pour la diffusion des données carroyées

La diffusion de données carroyées de revenus par l’Insee en 2019 a nécessité des investissements méthodologiques importants pour garantir le secret statistique.

Pour gérer le secret statistique primaire qui s’applique aux données directement diffusées, la méthode retenue est celle des grilles superposées. Elle consiste à créer des carreaux de taille différente de sorte qu’ils comportent chacun au moins 11 ménages. Afin de diffuser l’information au niveau le plus fin sur tout le territoire, à savoir des carreaux de 200 mètres de côté, les carreaux comportant moins de 11 ménages ne contiennent pas les informations collectées mais une information recalculée (les statisticiens disent « imputée »), cohérente à un niveau plus agrégé (1 km, 2 km, etc.). Ainsi, les utilisateurs ont-ils à leur disposition deux jeux de données, cohérents entre eux : l’un avec un maillage de carreaux de tailles différentes, donnant l’information agrégée telle que collectée ; l’autre, proposant des carreaux de 200 mètres mais dont 80 % des carreaux contiennent une information imputée. Quoique très nombreux, ces carreaux correspondent à seulement 20 % de la population.

Pour le secret statistique secondaire dont les données peuvent être reconstituées ou déduites par les utilisateurs, c’est la méthodologie de détection des problèmes de différenciation géographique qui est utilisée. Elle vise à empêcher le croisement des données carroyées avec celles diffusées selon un autre découpage territorial, comme les communes, afin d’en déduire des informations sur moins de 11 ménages. Une des principales difficultés réside dans le nombre très important de calculs à effectuer pour détecter les ménages à risque. Une solution générale à ce problème a été trouvée. Elle réduit drastiquement le nombre de calculs, et permet de trouver rapidement et exhaustivement les ménages « à risque ». Cette méthode a reçu un prix international lors de sa présentation au colloque de l’International Statistical Institute à Kuala Lumpur en août 2019.

Vers une exploitation agile des données administratives en constante évolution

En complément des informations recueillies par enquêtes auprès des ménages et des entreprises, l’Insee établit des statistiques sur l’emploi et les salaires à partir de différentes déclarations administratives. L’évolution des sources administratives oblige l’Insee à s’y adapter. Ainsi, la mise en place de la déclaration sociale nominative qui remplace la déclaration annuelle des données sociales n’a pas simplement consisté à fusionner les déclarations administratives existantes. Elle a également conduit à rationaliser et simplifier les données d’une part, et d’autre part à définir rigoureusement le cadre dans lequel s’effectuent les échanges d’informations entre les entreprises et les organismes destinataires de la DSN.
L’institut a dès lors mené une refonte de grande ampleur de son système d’information pour traiter chaque mois environ 2 millions de fichiers.
Pour éviter de procéder à une opération d’une telle ampleur à chaque changement de sources de données administratives, l’Insee a développé une application baptisée ARC pour Accueil, Recueil, Contrôle.
ARC permet de transcrire en « langage statistique » les données contenues dans un fichier administratif avant de les intégrer dans le modèle de son choix pour réaliser tel ou tel traitement statistique. Cette opération concerne une centaine de variables et permet aux phases ultérieures du processus de ne jamais faire appel aux données sources mais uniquement à ces nouvelles variables.
ARC permet à un statisticien de décrire le modèle de données dont il a besoin pour réaliser son analyse puis de définir les règles d’intégration des données collectées à ce modèle. L’application permet ainsi une exploitation souple et agile de toutes les données collectées.

Les données de caisses : une nouvelle source pour le calcul de l’indice des prix à la consommation

Depuis janvier 2020, l’indice des prix à la consommation (IPC) est calculé en utilisant les données de caisses des enseignes de la grande distribution. Collectées en continu au moment où le consommateur passe à la caisse du magasin et centralisées quotidiennement, les données de caisses apportent des informations sur les prix payés et les produits achetés.  Depuis un arrêté du 13 avril 2017, leur transmission à l’Insee est obligatoire pour les supermarchés et les hypermarchés. Beaucoup plus détaillées et volumineuses que les données mobilisées jusqu’à présent, elles constituent une réelle plus-value pour le calcul de statistiques des prix. L’Insee reçoit ainsi 1,7 milliard d’enregistrements chaque mois et utilise les données de caisses pour le calcul de l’IPC pour les produits alimentaires industriels et les produits d’entretien, d’hygiène et de beauté. Près de 80 millions de ces produits issus des données de caisses remplacent désormais 32 000 relevés effectués auparavant par les enquêteurs de l’Insee.

Pour les autres produits et pour la consommation dans les formes de vente autres que super et hypermarché, la collecte des prix traditionnelle demeure.

Que change cette nouvelle source de données sur la mesure de l’inflation ? Le choix a été fait de conserver les concepts de l’IPC : un panier fixe de biens et services, représentatif de la consommation des ménages, continue à être suivi mensuellement afin de mesurer des évolutions de prix à qualité et à structure de la consommation constantes. Par ailleurs, tout au long de l’année 2019, l’Insee a réalisé un double calcul de l’IPC avec et sans les données de caisses : les écarts sur l’indice d’ensemble s’avèrent faibles (moins de 0,1 point). Ils sont surtout dus à une amélioration des statistiques de prix qui sont plus précises, couvrent mieux le champ de la consommation et permettent de mieux appréhender les prix pratiqués par les enseignes (notamment les promotions).

En utilisant cette nouvelle source de données, l’Insee rejoint le club restreint des pays européens qui exploitaient déjà les données de caisses pour le calcul de leur indice des prix à la consommation, sous l’égide d’Eurostat, l’Office statistique de l’Union européenne.

Outil interactif « simulateur d’indice des prix »

Le simulateur d’indice des prix présente sur une courbe l’évolution mensuelle de l’indice des prix à la consommation (IPC) de l’Insee depuis janvier 2000. Il permet de calculer un indice personnalisé et d’en visualiser l’évolution, ainsi que d’afficher les évolutions des indices des prix des grands groupes de produits, le loyer par exemple…

 

Optimiser les modes de réponse pour les enquêtes ménages

Depuis le début des années 2010, l’institut a mené plusieurs expérimentations d’enquêtes ménages en ligne, en parallèle de la collecte habituelle en face-à- face. Dans le même temps, la collecte en ligne s’est considérablement développée pour le recensement de la population et les enquêtes auprès des entreprises.

Une nouvelle étape sera franchie en 2021, avec l’intégration de la réponse par Internet dans l’enquête Emploi.

L’enjeu pour l’Insee est de tirer au mieux parti des différents modes de collecte d’informations pour mettre en place des enquêtes recourant aux différentes solutions, des enquêtes « multimode ».

« La plateforme Coleman remplit plusieurs fonctions permettant de collecter des données sur le Web dans le cadre des enquêtes ménages. »

François BECK
Responsable du programme pour le développement des enquêtes ménage en multimode

À lire aussi dans la version intégrale du rapport d’activité :

  • 62e congrès de l’International Statistical Institute
  • Amélioration de l’identification de l’employeur dans le recensement
  • Mesurer la population présente et les mobilités à l’aide des TIC (MobiTIC)
Partagez cette page