Parser
L’objetparser sélectionne un lecteur (type) et le configure.
type | Pour |
|---|---|
csv | CSV / texte délimité |
excel | Classeurs Excel |
polaris_sav | Archives de dump SQL Polaris .sav |
Options communes
| Champ | Signification |
|---|---|
header_row | Ligne indexée à 0 contenant les noms de colonnes (par défaut 0). |
skip_rows | Lignes à ignorer avant l’en-tête. |
max_rows | Limite sur les lignes analysées (null = pas de limite). |
strip_columns | Colonnes à supprimer (par tableau d’index, ou true pour toutes). |
supports_reparse | Indique si le fichier peut être ré-analysé après l’ingestion initiale. |
Options CSV
encoding (ex. utf-8, iso-8859-1), delimiter (,, ;, \t, |…), has_header.
Options Excel
sheet_names (tableau, ou null pour toutes les feuilles), plus section_context pour les fichiers où les données sont groupées sous des en-têtes de sections :
Options SAV (Polaris)
sql_filename (chemin vers le dump SQL dans l’archive, ex. 0-full.sql), tables (noms de table à extraire), extract_media (extraire les ressources binaires).
Mapping de colonnes
mapping.columns mappe chaque colonne source à un champ cible et un type Spark SQL :
type est n’importe quel type Spark SQL (une chaîne libre, pas un enum figé). Valeurs
courantes : STRING, INT, LONG, DOUBLE, TIMESTAMP.
Champs supplémentaires
Les colonnes non mappées sont traitées parextra_fields.mode :
| Mode | Comportement |
|---|---|
ignore | Supprimer les colonnes non mappées. |
passthrough | Les conserver telles quelles. |
collect | Les rassembler dans une liste dans target_column. |
store_json | Les stocker en tant qu’objet JSON dans target_column. |
Validation
Garde-fous appliqués après l’analyse :required_columns— doivent être présentes et non nulles.min_rows— nombre de lignes minimum.
Les colonnes analysées s’écoulent ensuite dans le pipeline de promotion,
où elles sont transformées et écrites dans silver/gold.

