OpenData et libération des données : quelle amélioration réelle de l’accès aux données pour les non experts ?

De plus en plus de données fines disponibles, au carreau par exemple, mais nécessitant un matériel puissant et une expertise en Système d'Information Géographique (SIG), des données passées en OpenData en format brut (Sirene: répertoire des entreprises) se traduisant par l'arrêt de la production du fichier normé Insee, aisé d'utilisation.

Mais également des données "disparues", comme celles postes (salariés) au lieu de travail, dont la dernière publication date de 2009. Issu du transfert automatisé et normé à l'URSSAF des déclarations annuelles des entreprises sur leurs salariés, l'amélioration et la modification de forme de la déclaration expliquerait sa non publication ??

Au final, avec mes outils personnels, j'ai moins accès aux données qu'il y a 6 ans ou 10 ans. Il me faut a minima mon équipement professionnel pour profiter de la "libération" des données, mais pas de toutes !

Dernière publication en date, les données carroyées. Qu’est-ce que ce "machin"?

Des données correspondantes à des carreaux de 200m par 200m, la carte des carreaux ayant été publiée par l’Insee et mise à disposition : https://www.insee.fr/fr/statistiques/4192935?sommaire=4176305&q=carreau#documentation, et données : https://www.insee.fr/fr/statistiques/4176290?sommaire=4176305&q=carreau. Les carreaux permettent une vision très fine, notamment en milieu urbain. Ils reflètent une norme internationale et européenne. Sauf que …

Regarder une carte fixe au carreau rend la quantité d’informations sur la carte difficile à appréhender : où se situe tel carreau, comment se repérer. Cet aléa est certes également valable pour des cartes fixes à la maille Iris (Un Iris (Îlots Regroupés pour l’Information Statistique) désigne un quartier d’environ 2 à 3 000 habitants. Ce découpage permet la comparaison des données statistiques qui s’y rattachent. La dernière mise à jour de la géographie des Iris date de 2015) ou communale, mais amplifié par l’impossibilité de reconnaître des formes de maille connues par ailleurs. Avec un peu d’effort, sur une carte régionale, on arrive à retrouver Lyon via sa forme spécifique par exemple.

Admettons que l’on puisse consulter le nom ou la position de tel ou tel carreau, que dire de leur découpage ? Issu d’un travail de géographie complexe, certains carreaux vont englober un immeuble peuplé de personnes à faible revenu, le séparant de son quartier vécu, et occultant de fait la problématique du revenu, sur ce carreau et sur d’autres carreaux adjacents. La consultation seule des données carroyées ne peut donc pas se faire sans des compléments de regard, en milieu urbain, à la maille Iris, bien plus proche de quartiers de vie, malgré quelques exceptions.

Autre question, de quel matériel faut-il disposer pour utiliser ces carreaux ? Un ordinateur puissant et un logiciel SIG. Et quand je dis puissant, travaillant des données à longueur de journée, je veux dire vraiment puissant. En tentant de travailler sur les carreaux, j’ai failli « cramer » mon ordinateur de bureau, sensé être adapté à des traitements lourds de données.

Donc des données complexes à comprendre et visualiser, demandant un équipement puissant et une capacité à utiliser un logiciel SIG.

Deuxième exemple: les données Sirene (répertoire des entreprises)

Jusqu’à il y a peu, l’Insee publiait chaque année un fichier normé à partir de la source Sirene, pas très lourd à télécharger et aisé d’utilisation, toutes les agrégations NA17, voir plus, étant disponibles.

Le fichier Sirene est désormais disponible en OpenData, pour l’ensemble de la France, avec différentes sources du fichier géocodé. L’Insee a, de fait, arrêté la publication du fichier normé.

Il faut donc maintenant être en capacité de télécharger un fichier très lourd, de corriger les erreurs de géocodage les plus flagrantes, puis de refaire les agrégats pour obtenir un fichier NA17 (catégorie de regroupement des activités des entreprises en 17 catégories) à l’échelle IRIS. Un travail très gratifiant, à forte valeur ajoutée et bien sûr accessible à tous !!

Enfin, parlons des postes salariés au lieu de travail, données qui ne sont plus publiées depuis 2009

La réforme de la déclaration en ligne des postes ayant soi-disant induit un doute sur la localisation des établissements. Le Sirene est public et géocodé, mais la géolocalisation des établissements pose problème ???

Écrire un commentaire

Quelle est la deuxième lettre du mot djkwml ? :