Passer au contenu principal
Les règles de nettoyage des données normalisent et enrichissent les valeurs brutes lors de l’ingestion — en supprimant les espaces, en normalisant la casse, en extrayant les valeurs avec des motifs et en enrichissant les attributs (par exemple la taxonomie de couleurs) avant que les données n’arrivent dans la couche silver.

Types de règles

Les opérations de nettoyage viennent dans quelques familles :
  • Standard — transformations de texte directes.
  • Booléen regex — dériver un vrai/faux d’une correspondance de motif.
  • Cross-table — enrichir en utilisant une autre table.
  • Enrichissement de taxonomie de couleurs — mapper les couleurs brutes à la taxonomie.
Les outils de texte typiques incluent le remplacement/extraction/correspondance regex / remplacement conditionnel, capitalisation des mots, suppression des espaces, normalisation de l’espace blanc, majuscules, minuscules et prendre-tant-que-motif.

Travailler avec le nettoyage des données

1

Ouvrir le nettoyage des données

Allez à Plateforme de données → Configuration → Nettoyage des données.
2

Créer une règle

Choisissez le type d’opération et l’outil, configurez le motif/les paramètres et ciblez une colonne.
3

Le valider de manière sûre

Testez l’effet sur un fichier dans le bac à sable avant de le faire fonctionner en production.