Connecteur Excel/CSV & Génération de Data Products

Craftman data
Paris, France
yesterday

Role details

Contract type
Permanent contract
Employment type
Full-time (> 32 hours)
Working hours
Regular working hours
Languages
French

Job location

Paris, France

Tech stack

Microsoft Excel
API
Agile Methodologies
Amazon Web Services (AWS)
Amazon Web Services (AWS)
Azure
Big Data
Cloud Computing
Code Review
Encodings
Data Transmissions
Information Engineering
Data Governance
Middleware
Identity and Access Management
Python
Key Management
Azure
SharePoint
Management of Software Versions
Generative AI
Backend
Data Lake
Collibra
Front End Software Development
Key Vault
Databricks

Job description

Dans le cadre d?un programme de transformation data, une équipe Data Connect doit mettre en place un module d?ingestion de données sources au format Excel (.xlsx, .xls) et CSV. Ce module assure le dépôt des fichiers dans la couche RAW d?un Data Lake (Azure ADLS Gen2 / AWS S3), à destination d?équipes produits en charge de construire les Data Products finaux.

La solution cible s?articule en trois couches : ? Front-End : Interface applicative permettant à l?utilisateur de déposer ses fichiers et configurer la destination. ? Middleware : Génération automatique d?un Data Contract Source via Pydantic, validation générique du schéma, orchestration via services IA et agents intelligents. ? Back-End : Traitement et stockage multi-cloud, gestion des droits d?accès (IAM), versioning, logique Upsert/Overwrite.

La mission est initialement portée par une plateforme data transverse et a vocation à être étendue en produit enterprise. Le prestataire s?intégrera dans un écosystème existant de frameworks d?ingestion et interagira avec plusieurs équipes disposant déjà d?approches d?ingestion hétérogènes (SharePoint, scripts Python custom, outils de copie cloud).

Environnement techniquePlateforme digitale d?entreprise

Azure Data Lake Storage Gen2 (couche RAW principale)

AWS S3 (cible secondaire selon les équipes)

Databricks (orchestration et traitement)

Middleware IA / Agents IA

Frameworks d?ingestion existants à benchmarker

Outils de transfert de données internes

Pydantic (génération de Data Contracts)

Outil de gouvernance data type Collibra

Entra ID / Azure Key Vault / IAM AWS (sécurité et droits)

Note à l?attention des candidatsCe module est au croisement de l?ingénierie de données, de la gouvernance et de l?IA. La compétence clé différenciante est la maîtrise de Pydantic pour la génération de Data Contracts ainsi que la robustesse du parsing Python sur des fichiers Excel/CSV hétérogènes, davantage que l?expertise Big Data distribuée. Une expérience dans des environnements data enterprise complexes constitue un atout.

Objectifs et livrables1. Ingestion de fichiers sources Excel / CSV? Développer le connecteur d?ingestion de fichiers .xlsx, .xls et .csv vers la couche RAW (ADLS Gen2 / S3). ? Assurer la robustesse du parsing (gestion des encodages, formats de dates, feuilles multiples, colonnes variables). ? Implémenter la logique de dépôt : Upsert, Overwrite, versioning des fichiers ingérés. ? Gérer les droits d?accès et la sécurité (IAM Azure / AWS, Key Vault).

  1. Data Contract & Gouvernance? Générer automatiquement un Data Contract Source via Pydantic lors de l?ingestion (schéma, types, fréquence, règles de qualité). ? Implémenter la validation générique du schéma avant hébergement en couche RAW. ? Assurer la traçabilité et la qualité des données tout au long du cycle d?ingestion. ? Interagir avec les équipes de gouvernance pour le référencement des sources.

  2. Middleware & Orchestration? Intégrer la solution dans l?écosystème IA et agents intelligents de l?entreprise. ? Développer les API ou services Python constituant la couche middleware du module. ? Benchmarker l?existant afin d?assurer la cohérence et réutiliser les artefacts disponibles.

  3. Cycle produit & Collaboration? Intervenir sur l?ensemble du cycle de vie : Discovery, Build, Run, Monitoring. ? Travailler en méthodologie Agile avec le Product Owner et les Tech Leads des équipes concernées. ? Participer aux revues de code et contribuer à la documentation technique.

Requirements

Do you have experience in SharePoint?, Compétences demandéesAWS : Avancé

Data Governance : Élémentaire

Programmation Python : Confirmé

API : Avancé

Pydantic : Confirmé

Databricks : Avancé

IA générative : Avancé

Microsoft Azure : Avancé

Profil candidat: Compétences demandéesAWS : Avancé

Data Governance : Élémentaire

Programmation Python : Confirmé

API : Avancé

Pydantic : Confirmé

Databricks : Avancé

IA générative : Avancé

Microsoft Azure : Avancé

Apply for this position