Connecteur Excel/CSV & Génération de Data Products

Craftman data

Paris, France

yesterday

Role details

Contract type

Permanent contract

Employment type

Full-time (> 32 hours)

Working hours

Regular working hours

Languages

French

Job location

Paris, France

Tech stack

Microsoft Excel

API

Agile Methodologies

Amazon Web Services (AWS)

Azure

Big Data

Cloud Computing

Code Review

Encodings

Data Transmissions

Information Engineering

Data Governance

Middleware

Identity and Access Management

Python

Key Management

Azure

SharePoint

Management of Software Versions

Generative AI

Backend

Data Lake

Collibra

Front End Software Development

Key Vault

Databricks

Job description

Dans le cadre d?un programme de transformation data, une équipe Data Connect doit mettre en place un module d?ingestion de données sources au format Excel (.xlsx, .xls) et CSV. Ce module assure le dépôt des fichiers dans la couche RAW d?un Data Lake (Azure ADLS Gen2 / AWS S3), à destination d?équipes produits en charge de construire les Data Products finaux.

La solution cible s?articule en trois couches : ? Front-End : Interface applicative permettant à l?utilisateur de déposer ses fichiers et configurer la destination. ? Middleware : Génération automatique d?un Data Contract Source via Pydantic, validation générique du schéma, orchestration via services IA et agents intelligents. ? Back-End : Traitement et stockage multi-cloud, gestion des droits d?accès (IAM), versioning, logique Upsert/Overwrite.

La mission est initialement portée par une plateforme data transverse et a vocation à être étendue en produit enterprise. Le prestataire s?intégrera dans un écosystème existant de frameworks d?ingestion et interagira avec plusieurs équipes disposant déjà d?approches d?ingestion hétérogènes (SharePoint, scripts Python custom, outils de copie cloud).

Environnement techniquePlateforme digitale d?entreprise

Azure Data Lake Storage Gen2 (couche RAW principale)

AWS S3 (cible secondaire selon les équipes)

Databricks (orchestration et traitement)

Middleware IA / Agents IA

Frameworks d?ingestion existants à benchmarker

Outils de transfert de données internes

Pydantic (génération de Data Contracts)

Outil de gouvernance data type Collibra

Entra ID / Azure Key Vault / IAM AWS (sécurité et droits)

Note à l?attention des candidatsCe module est au croisement de l?ingénierie de données, de la gouvernance et de l?IA. La compétence clé différenciante est la maîtrise de Pydantic pour la génération de Data Contracts ainsi que la robustesse du parsing Python sur des fichiers Excel/CSV hétérogènes, davantage que l?expertise Big Data distribuée. Une expérience dans des environnements data enterprise complexes constitue un atout.

Objectifs et livrables1. Ingestion de fichiers sources Excel / CSV? Développer le connecteur d?ingestion de fichiers .xlsx, .xls et .csv vers la couche RAW (ADLS Gen2 / S3). ? Assurer la robustesse du parsing (gestion des encodages, formats de dates, feuilles multiples, colonnes variables). ? Implémenter la logique de dépôt : Upsert, Overwrite, versioning des fichiers ingérés. ? Gérer les droits d?accès et la sécurité (IAM Azure / AWS, Key Vault).

Data Contract & Gouvernance? Générer automatiquement un Data Contract Source via Pydantic lors de l?ingestion (schéma, types, fréquence, règles de qualité). ? Implémenter la validation générique du schéma avant hébergement en couche RAW. ? Assurer la traçabilité et la qualité des données tout au long du cycle d?ingestion. ? Interagir avec les équipes de gouvernance pour le référencement des sources.
Middleware & Orchestration? Intégrer la solution dans l?écosystème IA et agents intelligents de l?entreprise. ? Développer les API ou services Python constituant la couche middleware du module. ? Benchmarker l?existant afin d?assurer la cohérence et réutiliser les artefacts disponibles.
Cycle produit & Collaboration? Intervenir sur l?ensemble du cycle de vie : Discovery, Build, Run, Monitoring. ? Travailler en méthodologie Agile avec le Product Owner et les Tech Leads des équipes concernées. ? Participer aux revues de code et contribuer à la documentation technique.

Requirements

Do you have experience in SharePoint?, Compétences demandéesAWS : Avancé

Data Governance : Élémentaire

Programmation Python : Confirmé

API : Avancé

Pydantic : Confirmé

Databricks : Avancé

IA générative : Avancé

Microsoft Azure : Avancé

Profil candidat: Compétences demandéesAWS : Avancé