Lieux d'émigration,  tools,  ancêtres italiens

Les Italiens de France au prisme des naturalisations (I)

En octobre dernier, un article publié sur le carnet de recherche Hypothèses des Archives Nationales montrait comment les données de naturalisation pouvaient être utilisées pour étudier l’immigration des Polonais dans les Hauts-de-France. En le lisant, je m’étais dit qu’il serait intéressant de faire la même chose pour les Italiens (monomaniaque, moi ?).
J’avais ensuite remisé cette idée dans un coin de ma mémoire, mais elle s’est rappelée à mon bon souvenir au moment du confinement national dû à un maudit virus. Pourquoi ne pas profiter de ce temps imposé en intérieur pour essayer ?”. Chose dite, chose faite…

Les ingrédients utilisés

Les données et outils sont ceux décrits dans l’article Exploiter les données de Natnum : les Polonais naturalisés dans les Hauts-de-France pendant les années 20, écrit par Thomas Lebée et publié en octobre 2019.

La méthode

Pour ce premier essai, j’ai suivi la démarche présentée par Thomas Lebée.

Export des données de naturalisation

La salle des inventaires virtuelle des Archives nationales propose un accès aux données de naturalisation pour la période 1883-1930.

Les fichiers de naturalisation dans la SIV

En allant sur l’onglet “Détail du contenu”, on a accès au téléchargement des fichiers enregistrés par année de naturalisation. Ils peuvent être exportés en XML.
Pour faire un premier essai, j’ai exporté uniquement les fichiers des années 1883 à 1890, soit 8 années de naturalisations.

Analyse et curation des données

Les fichiers XML comportent des éléments qui m’intéressent peu (numéros de documents, cotes, …) et ceux qui m’intéressent possèdent parfois une structure délicate à interpréter par un programme tiers.

Extrait d’un fichier XML

Par exemple dans l’extrait ci-dessus, on voit que la date de naissance, le lieu de résidence et la profession sont trois informations marquées avec des balises de paragraphe < p > au sein d’un bloc < scopecontent >. Je souhaite avoir plutôt des balises différentes et signifiantes, de type < date_ naissance >, < résidence > et < profession  >.
Autre constatation : d’une année à une autre les données n’ont pas exactement la même structure. Dans certains cas, cette structure change au sein du même fichier, sans doute parce que ce fichier rassemble des informations venant de différentes sources (naturalisation, réintégration, admission à domicile).

Mon objectif étant de concaténer dans un même fichier les données des huit années exportées, il me faut unifier et clarifier la structuration. Je me suis donc lancée dans des opérations de type “rechercher/remplacer” avec Notepad++, en m’aidant d’expressions rationnelles/régulières (regex pour les intimes).
Ça a l’air simple écrit comme ça, mais je mentirais si je disais que je ne me suis pas un peu arraché les cheveux. Ce n’est qu’après un certain nombre d’essais et de retours en arrière que j’ai fini par obtenir ce que je souhaitais. J’en ai profité pour tester la fonction “macro” de Notepad++, ça fonctionne mais j’ai eu des surprises à cause de la structuration inconstante des fichiers.

Tri et sélection

Après uniformisation des XML, j’ai importé les fichiers dans OpenRefine pour avoir de “beaux” tableaux. J’aurais pu rester dans OpenRefine pour la suite, mais comme je ne suis pas encore très familière avec cet outil, je suis passée par Calc.
Puisque je cherchais à identifier les naturalisés nés en Italie, j’ai “trituré” la colonne “date et lieu de naissance” jusqu’à isoler le pays. Sur les 35044 lignes, j’ai ainsi repéré 3553 naturalisations de personnes nées en Italie.
Pour les lieux d’installation, je me suis intéressée uniquement à la France métropolitaine actuelle et j’ai donc écarté de mon analyse les Italiens naturalisés partis s’installer en Algérie, Maroc et Tunisie. J’ai aussi éliminé les lignes où manquait le lieu de résidence.
Dans un premier temps, j’ai tenté de rester au niveau des communes (de naissance et de résidence en France) mais la carte obtenue comportait trop de points et était peu lisible. J’ai donc ramené toutes les communes italiennes d’une même province sous l’identification du “chef-lieu” de la province, et toutes les communes françaises d’un département sous l’identification de la préfecture. Seule exception la Corse, géolocalisée à Corte, car parfois le fichier mentionnait uniquement Corse et je ne savais pas quel était le département.
L’orthographe des communes figurant dans les fichiers de naturalisation comporte parfois des erreurs, en particulier pour les communes italiennes. J’ai pu retrouver la forme correcte pour un certain nombre, en m’aidant parfois des arbres publiés sur généanet, mais j’ai dû ignorer certaines lignes, faute de pouvoir identifier le lieu.
Au final, le fichier utilisé pour réaliser la carte de la période 1884-1890 comprend 1845 lignes.

Géolocalisation des lieux

Qui dit carte dit coordonnées, en l’occurrence coordonnées géographiques. C’est à ce stade que la puissance d’OpenRefine m’a été utile. OpenRefine est en effet capable de générer de nouvelles cellules en allant chercher de l’information auprès d’un service tiers, appelé via son URL ou son API.
J’ai donc importé dans OpenRefine mon fichier précédemment constitué, puis j’ai demandé à l’outil d’analyser le contenu des cellules présentant un lieu pour ramener ses coordonnées géographiques (latitude,longitude).

En me fondant sur des travaux publiés précédemment, j’ai essayé d’interroger les services open.mapquestapi.com et maps.googleapis.com. Dans les deux cas, je me suis heurtée à l’obligation de disposer d’une clé API. Avant de chercher comment obtenir cette fameuse clé, j’ai fait une dernière tentative avec OpenStreetMap, et eurêka pas besoin de clé API !

La géolocalisation automatique a bien fonctionné, mais une vérification des coordonnées générées est toujours nécessaire à cause des homonymies dans les toponymes. Dans mon fichier, la ville de Siena avait par exemple été géolocalisée en Chine ! Après quelques traitements sur les données générées par OpenStreetMap, à coups de scission de colonnes et de rechercher/remplacer, j’ai finalement abouti au sésame : le couple (latitude,longitude) des provinces italiennes et des départements de France métropolitaine, pour chaque ligne de mon fichier.

Extrait des données dans OpenRefine

Visualisation dans Palladio

Palladio est un outil en ligne conçu par l’université de Standford. Il permet d’importer des données en divers formats (csv, tab, tsv) pour les visualiser sous forme de carte, de graphe, de liste ou de galerie.

La carte que je cherche à réaliser avec Palladio doit montrer les liens “province de naissance en Italie -> département de résidence en France”, en donnant aux nœuds (localités) une taille proportionnelle à leur fréquence dans le fichier. Autrement dit :

  • plus une ville (chef lieu de province) italienne est représentée par un cercle de grand diamètre, plus ladite province a fourni d’Italiens qui ont demandé la nationalité française dans la période considérée
  • plus une ville (préfecture de département) française est représentée par un cercle de grand diamètre, plus ledit département a vu s’établir de personnes d’origine italienne naturalisées françaises dans la période considérée
Migration des Italiens naturalisés français

La carte globale fournie par Palladio est assez peu lisible, du fait de la superficie de la zone géographique concernée et du nombre de liens. Néanmoins elle permet de constater :

  • que les Italiens sont venus de quasiment tout le territoire, avec une forte composante originaire de Naples, de Rome mais surtout de Lombardie, du Piémont et de Ligurie
  • qu’ils se sont établis essentiellement dans la moitié est de la France (nord et sud), Paris et Marseille étant des points d’attraction très forts.
  • que les Italiens originaire de Lombardie, Piémont, Val d’Aoste sont plutôt allés dans la région parisienne
  • que les Italiens originaires de Ligurie et du sud (Campanie, Latium, Calabre, Sicile) ont plutôt privilégié la côte méditerranéenne française

Le système de “layers” de Palladio permet également de visualiser la distribution de l’une ou l’autre des catégories de nœuds, comme sur l’exemple ci-dessous.

En rouges les provinces d’origine, en bleu les départements de résidence

La création de facettes permet de visualiser les données sous un angle précis, par exemple les lieux d’implantation en France des Italiens originaires d’une région ou d’une province donnée.

Facette montrant les départements d’implantation en France des Ligures

Il est également possible d’afficher des facettes temporelles (ligne de temps et période) mais je n’en ai pas vraiment réussi à dompter cet affichage, peut-être parce que mes données sont regroupées sur une courte période (8 années).
Il est enfin possible de coupler les facettes.

Premières conclusions

Cette étude me semble intéressante et je souhaite la compléter en ajoutant les données des décennies que je n’ai pas encore traitées (1891 à 1930). Maintenant que j’ai plus ou moins défini les modalités de passage du XML des Archives Nationales à un csv avec données géolocalisées, je pense (du moins j’espère) que j’irai plus vite pour traiter ces données à ajouter.

Palladio m’a fourni des cartes assez esthétiques, mais je regrette de ne pas pouvoir les exporter autrement que sous forme statique en faisant des copies d’écran. J’aimerais pouvoir les intégrer à mon blog sous forme dynamique ou fournir le lien de visualisation qui permettrait à chacun de créer des facettes et de jouer avec la visualisation. Avec Palladio, si je veux partager mon travail, je dois fournir le fichier json exporté de Palladio à quelqu’un qui l’importera à son tour dans l’outil.
Les possibilités de personnalisation de l’aspect des nœuds et des liens me semblent limitées. Je n’ai par exemple pas réussi à obtenir une couleur différente pour les deux types de lieux sur la vue “point to point” qui affiche les liens “province de départ ->département de résidence”. Je n’ai pas non plus pu attribuer une épaisseur différente aux liens, selon leur fréquence d’enregistrement dans les données.

En résumé, la démarche de récupération/nettoyage des données me convient mais je voudrais explorer d’autres outils de visualisation et partage en ligne de cartographies. Je pense à Gephi, que j’ai utilisé voilà plusieurs années, mais il y a visiblement eu des nouveautés dans le domaine, comme Tableau Public. Si des spécialistes de la “dataviz” passent par là : que me conseillez-vous ? Il va sans dire que je cherche plutôt des outils non payants…

Webographie

Voici une liste des sites et articles trouvés sur internet et qui m’ont aidée à mener à bien cet essai.

15 Comments

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.