L’un des piliers de l’analyse de données performante dans Power BI, c’est la qualité des données. Et l’un des problèmes les plus fréquents qu’on rencontre en entreprise, ce sont… les doublons. Qu’ils soient dus à une erreur de saisie, à une fusion de fichiers ou à des exports successifs non nettoyés, les doublons peuvent fausser les indicateurs et engendrer de mauvaises décisions.
Dans cet article, nous allons vous montrer comment identifier, analyser et traiter les doublons dans Power Query de manière efficace et méthodique.
Présentation des données utilisées
Dans notre exemple, nous travaillons sur une requête appelée exportation_RH, issue de la consolidation de quatre fichiers mensuels au format Excel (novembre à février). Ces fichiers contiennent les données de gestion du personnel d’une entreprise.
Chaque salarié y est identifié par un code agent (équivalent du matricule), qui doit être unique dans un fichier donné. C’est cet identifiant que nous allons utiliser pour repérer les doublons.
Création de la requête d’analyse des doublons
Nous commençons par dupliquer la requête principale. Cette copie sera renommée verification_duplicata.
Dans cette requête, nous allons utiliser la fonction « Regrouper par », en mode Avancé, pour croiser la date de mise à jour et le code agent. Nous créons une colonne « Occurrences » via l’option « Compter les lignes ».
Cela nous permet de voir combien de fois un même salarié est présent pour une même date.
Pour ne conserver que les cas problématiques, nous appliquons un filtre numérique sur la colonne « Occurrences » pour n’afficher que les lignes dont la valeur est supérieure à 1.
Ensuite, pour mieux visualiser les anomalies, nous trions les colonnes « date_maj » et « code_agent » par ordre croissant.
Exemples :
Le code agent se terminant par 712 apparaît deux fois dans chacun des fichiers.
Celui finissant par 716 n’apparaît en double que dans le fichier de janvier 2024.
Investigation des doublons dans la requête source
Une fois ces cas identifiés, l’étape suivante consiste à déterminer si ces doublons sont réels (copie exacte d’une ligne) ou faux (différences mineures comme une faute de frappe ou une modification de champ).
Voici la méthode :
Copier un code_agent repéré dans
verification_duplicata.Revenir dans la requête
exportation_RH.Appliquer un filtre textuel dans la colonne code_agent : « est égal à », puis coller le code.
Filtrer également sur la date_maj pour n’afficher qu’un seul fichier.
Ensuite, pour comparer facilement les doublons :
Rétrogradez les en-têtes.
Transposez la requête.
Vous obtenez une visualisation horizontale, ligne par ligne.
Pour faciliter l’analyse, nous créons une colonne conditionnelle : si les valeurs de la ligne 2 et de la ligne 3 sont identiques, alors c’est un vrai doublon ; sinon, la ligne nécessite une vérification manuelle.
Cette méthode permet de détecter automatiquement la majorité des doublons, tout en laissant à l’utilisateur le soin d’investiguer les cas ambigus.
Suppression des vrais doublons
Une fois les doublons confirmés, nous retournons dans la requête principale exportation_RH. Pour les supprimer, on procède comme suit :
Sélectionner les colonnes :
date_majcode_agentUne troisième colonne discriminante (ici, nous utilisons par exemple la date d’embauche, qui différait dans certains cas).
Clic droit > Supprimer les doublons.
Vérification du nettoyage
Avant nettoyage : 12 186 lignes
Après suppression : 12 177 lignes
9 doublons réels ont été supprimés, ce qui correspond à :
1 doublon présent dans chaque fichier (réduit de 8 lignes à 4)
1 doublon isolé supprimé
D’autres doublons identifiés mais non supprimés car ils n’étaient pas exacts
Conclusion
Grâce à cette méthode structurée, vous gagnez en fiabilité de vos rapports et vous évitez les biais d’analyse liés aux doublons.
Astuce : cette technique est réutilisable dans n’importe quelle requête Power Query où vous devez valider l’unicité d’un identifiant.