La restructuration de données
Cette étape consiste à homogénéiser
les champs qui composent la base de données, en supprimant
les éléments « parasites » susceptibles
de nuire à la fois à la qualité des adresses
et à la déduplication.
Tout outil de déduplication, aussi puissant soit-il,
ne peut comparer que sur le « fonds » des données
qu’il aura à comparer. L’opération
de restructuration permet d’harmoniser la « forme
»
Les méthodes de restructuration :
L’opération de
« restructuration » intègre des traitements
sur :
La globalité des champs
- Suppression des caracteres superflus
(N’importe quelle position dans la chaîne)
- Reconversion des doubles « espaces » en espace
simple
- Localisation et suppression des caractères non imprimables
- Identification et suppression des séparateurs mal
placés
- Constitution de nouvelles colonnes calculées avec
les données de la fiche (avec des fonctions pour la
récupération des sub-chaînes à
gauche, à droite, au milieu ou en fonction d’un
séparateur)
Traitement sur des groupes de données :
- Traitement des noms – prénoms – civilités
:
Formatage des prénoms multiples
Eclatement Civilité – Nom - Prénom (avec
utilisation des tables des prénoms)
Harmonisation des champs selon leur format standars
et leurs caractéristiques.
Qualification de la civilité en fonction du prénom
Génération de nouvelles fiches dans le cas de
civilités multiples (Ex. M et MME Dupont)
Gestion de la casse (MAJUSCULE, minuscule, première
lettre de chaque mot en Majuscule)
- Restructuration de l’adresse
Vérification de la correspondance entre le code postal
et la ville
Vérification de la cohérence du code postal
Formatage des lignes « adresses » avec détection
des zones industrielles, zones agricoles, boîtes
postales ...
Vérification si le code postal est contenu dans le
champ ville et l’inverse
- Normalisation du téléphone et du fax
Correspondance préfixe internationale – code
pays
Correspondance préfixe interne – code département
Vérification de la structure du numéro
Suppression des caractères non numériques et
interprétation du « + » et des parenthèses
Identification des numéros de téléphone
portable
- Vérification des emails
Récupération des émails
mal écrits (avec par exemple la transformation
des « ; » en « . »)
Identification des adresses http dans le champ email
Vérification de la syntaxe du champ email
|