Connecteur Excel/CSV & Génération de Data Products
Role details
Job location
Tech stack
Job description
Dans le cadre d?un programme de transformation data, une équipe Data Connect doit mettre en place un module d?ingestion de données sources au format Excel (.xlsx, .xls) et CSV. Ce module assure le dépôt des fichiers dans la couche RAW d?un Data Lake (Azure ADLS Gen2 / AWS S3), à destination d?équipes produits en charge de construire les Data Products finaux.
La solution cible s?articule en trois couches : ? Front-End : Interface applicative permettant à l?utilisateur de déposer ses fichiers et configurer la destination. ? Middleware : Génération automatique d?un Data Contract Source via Pydantic, validation générique du schéma, orchestration via services IA et agents intelligents. ? Back-End : Traitement et stockage multi-cloud, gestion des droits d?accès (IAM), versioning, logique Upsert/Overwrite.
La mission est initialement portée par une plateforme data transverse et a vocation à être étendue en produit enterprise. Le prestataire s?intégrera dans un écosystème existant de frameworks d?ingestion et interagira avec plusieurs équipes disposant déjà d?approches d?ingestion hétérogènes (SharePoint, scripts Python custom, outils de copie cloud).
Environnement techniquePlateforme digitale d?entreprise
Azure Data Lake Storage Gen2 (couche RAW principale)
AWS S3 (cible secondaire selon les équipes)
Databricks (orchestration et traitement)
Middleware IA / Agents IA
Frameworks d?ingestion existants à benchmarker
Outils de transfert de données internes
Pydantic (génération de Data Contracts)
Outil de gouvernance data type Collibra
Entra ID / Azure Key Vault / IAM AWS (sécurité et droits)
Note à l?attention des candidatsCe module est au croisement de l?ingénierie de données, de la gouvernance et de l?IA. La compétence clé différenciante est la maîtrise de Pydantic pour la génération de Data Contracts ainsi que la robustesse du parsing Python sur des fichiers Excel/CSV hétérogènes, davantage que l?expertise Big Data distribuée. Une expérience dans des environnements data enterprise complexes constitue un atout.
Objectifs et livrables1. Ingestion de fichiers sources Excel / CSV? Développer le connecteur d?ingestion de fichiers .xlsx, .xls et .csv vers la couche RAW (ADLS Gen2 / S3). ? Assurer la robustesse du parsing (gestion des encodages, formats de dates, feuilles multiples, colonnes variables). ? Implémenter la logique de dépôt : Upsert, Overwrite, versioning des fichiers ingérés. ? Gérer les droits d?accès et la sécurité (IAM Azure / AWS, Key Vault).
-
Data Contract & Gouvernance? Générer automatiquement un Data Contract Source via Pydantic lors de l?ingestion (schéma, types, fréquence, règles de qualité). ? Implémenter la validation générique du schéma avant hébergement en couche RAW. ? Assurer la traçabilité et la qualité des données tout au long du cycle d?ingestion. ? Interagir avec les équipes de gouvernance pour le référencement des sources.
-
Middleware & Orchestration? Intégrer la solution dans l?écosystème IA et agents intelligents de l?entreprise. ? Développer les API ou services Python constituant la couche middleware du module. ? Benchmarker l?existant afin d?assurer la cohérence et réutiliser les artefacts disponibles.
-
Cycle produit & Collaboration? Intervenir sur l?ensemble du cycle de vie : Discovery, Build, Run, Monitoring. ? Travailler en méthodologie Agile avec le Product Owner et les Tech Leads des équipes concernées. ? Participer aux revues de code et contribuer à la documentation technique.
Requirements
Do you have experience in SharePoint?, Compétences demandéesAWS : Avancé
Data Governance : Élémentaire
Programmation Python : Confirmé
API : Avancé
Pydantic : Confirmé
Databricks : Avancé
IA générative : Avancé
Microsoft Azure : Avancé
Profil candidat: Compétences demandéesAWS : Avancé
Data Governance : Élémentaire
Programmation Python : Confirmé
API : Avancé
Pydantic : Confirmé
Databricks : Avancé
IA générative : Avancé
Microsoft Azure : Avancé