Image par mohamed Hassan de Pixabay
outils

Le grand ménage

Traditionnellement, c’est au printemps qu’on se lance dans les travaux de nettoyage et pourtant j’ai décidé de commencer 2021 en initiant enfin un projet que j’avais sans cesse repoussé : donner un grand coup de balai dans ma généalogie pour rationaliser la gestion de mes bases.

Voilà environ 12 ans que j’ai commencé à saisir mes ancêtres avec Généatique, en créant une base nommée “famille Vedovotto-Guadagnin”. Quelques années plus tard, je me suis lancée dans le dépouillement systématique des registres paroissiaux de Borso del Grappa, la paroisse de mes grands-parents. Pour y voir plus clair et ne pas tout mélanger, j’ai créé à cette occasion une seconde base avec Généatique, nommée “Borso del Grappa”, avec l’objectif de dupliquer les compléments concernant les branches de mes ancêtres vers la première base.

C’était le tableau idéal de départ, mais bien évidemment cette méthode m’a amenée 10 ans plus tard à me retrouver à devoir gérer deux bases comportant une intersection conséquente en nombre d’individus mais, j’en suis certaine, de nombreuses incohérences au niveau des données… car il est impossible de toujours penser à tout dupliquer de l’une à l’autre.

État schématisé de mes bases avant la fusion

Il y a bien longtemps que je sais que cette manière de travailler n’est pas rationnelle, que l’hétérogénéité ne peut que s’aggraver avec le temps et que plus j’attends pour faire le ménage plus ça va être lourd à gérer. Mais j’ai toujours repoussé cette tâche car je butais face à une problématique fondamentale à mes yeux : “si je fusionne mes deux bases, comment vais-je pouvoir ensuite faire des exports gedcom différentiés, pour alimenter d’une part l’arbre de mes ancêtres et d’autre part l’arbre des familles de Borso del Grappa ?”

Des exports (trop) sophistiqués ?

Avec Généatique, je sais exporter une branche (l’individu X et tous ses ancêtres, sa fratrie, ses enfants, …) ou exporter des personnes sur une combinaison de critères (tous les individus nommés Y et nés après 1854, …). Mais dans une base fusionnée, pour faire un export me permettant d’alimenter l’arbre des familles de Borso il me faudrait identifier :

– tous les individus nés, baptisés, mariés ou décédés dans la paroisse
plus
– les conjoints de ces individus et les parents de ces conjoints
plus
-les frères et sœurs de ces individus, leurs conjoints et les parents de ces conjoints
plus
– tous les descendants de ces individus, les conjoints de ces descendants, les parents de ces conjoints

La première partie de l’équation ne me pose pas de problème, mais comment formuler les critères suivants qui s’appuient sur le résultat de cette première partie ? Et comment trouver un processus que je pourrais répéter simplement à chaque besoin de mise à jour de mes arbres en ligne ?
Après avoir tenté divers essais j’ai fini par poser la question aux experts, sur le forum de Généatique et leur réponse m’a convaincue de ce que j’avais déjà pressenti : c’est impossible à modéliser.

La solution simpliste : des tags

Une fois la piste des exports sophistiqués écartée j’ai pu commencer à penser différemment, ce qui m’a amenée à imaginer une autre solution, beaucoup plus simpliste : ajouter un marquage spécifique aux individus de chacun des deux arbres avant de réaliser la fusion puis utiliser ce marquage pour faire les exports une fois la fusion achevée.
Généatique offre en effet la possibilité de créer des champs personnalisés.
A l’aide du menu “préférences pour cette généalogie”, j’ai donc créé des champs de type “booléen” pour taguer les personnes à exporter : “EXPORT_BO” pour les individus de l’arbre de Borso et “EXPORT_VG” pour les individus de l’arbre de mes ancêtres.

Création des champs “EXPORT-VG” et “EXPORT_BO” dans Généatique

Il me fallait ensuite positionner sur “vrai” la valeur de “EXPORT_BO” pour tous les individus de la généalogie de Borso del Grappa, et positionner sur “vrai” la valeur de “EXPORT_VG” pour tous les individus de mes ancêtres.
Pour ne pas à avoir à le faire manuellement sur chacune des fiches, j’ai utilisé le dictionnaire des données et positionné à “Oui” cette donnée, pour toutes les fiches de chacune des généalogies.

Vue de l’écran “Dictionnaire des données de Généatique”

Dans l’écran du dictionnaire de données illustré ci-dessus, j’ai donc sélectionné la rubrique, puis dans l’onglet “Liste et Remplacement” j’ai choisi “Oui” dans “Remplacer” et coché “Création de la rubrique ou Remplacement Systématique”.

Pour mieux visualiser le résultat, et pour pouvoir modifier le choix au besoin par la suite, j’ai ajouté ces champs “EXPORT_BO” et “EXPORT_VG” à mon écran de saisie, avec le menu “Paramétrage de l’écran de saisie”.

Affichage des champs à cocher/décocher dans l’écran de saisie de Généatique

La fusion n’est qu’un début

Après cette étape, j’avais à ma disposition :

  • une base de 30.655 individus pour lesquels la valeur de “EXPORT_BO” était positionnée sur vrai
  • une base de 13.222 individus pour lesquels la valeur de “EXPORT_VG” était positionnée sur vrai

Pour ne pas tout perdre en cas de fausse manœuvre, j’ai commencé par dupliquer la première puis j’ai ajouté à cette copie toutes les fiches de la seconde. Le résultat : une base fusionnée de 43.977 individus, soit 100 de plus que la somme des deux ! J’ai en effet constaté par la suite que certaines fiches avaient été dupliquées, sans que je comprenne pourquoi.

Et c’est là qu’a commencé un travail de fourmi : détecter les doublons et fusionner les fiches correspondantes, en conservant toutes les informations pertinentes provenant de l’un ou l’autre des fichiers de départ.

Généatique dispose d’une fonction de recherche de doublons, que l’on peut paramétrer assez finement.

Écran de paramétrage de la recherche de doublons dans Généatique

Mais sur un fichier de plus de 40.000 individus, mon PC semble avoir du mal à suivre… Certains doublons ont été détectés automatiquement mais j’en ai découvert bien d’autres, grâce à l’une des nouveautés de la version de Généatique.
Destinée à l’origine à mettre en évidence les jumeaux en affichant des liens de type “queue de cerise”, cette fonctionnalité s’est avérée également parfaite pour révéler les doublons !

Mise en évidence des doublons, grâce à la fonction d’affichage des jumeaux

Ce travail de fusion m’a pris plusieurs heures, réparties sur quelques journées. Mais il m’a permis de mesurer à quel point mes deux bases étaient à la fois redondantes et divergentes et a fini de me convaincre de l’utilité de ce grand ménage.
Au final, j’aboutis à un ensemble d’un peu plus de 33.800 individus, ce qui signifie que j’ai supprimé plus de 10.000 doublons !

Une fois cette fusion/vérification achevée, je suis en mesure d’exporter l’un ou l’autre des sous ensembles, en filtrant l’export sur le critère “EXPORT_VG” égal à O” (O pour oui) (ou EXPORT_BO égale à O).

Et comme disait l’autre dans une pub de mon enfance : “et c’est tant mieux car je referais pas ça tous les jours !”.

42 commentaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.