Mise en place d'un data lake et industrialisation de pipelines de données F/H

EDF
Canton de Évry, France
2 days ago

Role details

Contract type
Permanent contract
Employment type
Full-time (> 32 hours)
Working hours
Shift work
Languages
French
Experience level
Junior

Job location

Remote
Canton de Évry, France

Tech stack

Amazon Web Services (AWS)
Software Quality
Data Visualization
Make (Software)
Python
Matlab
NumPy
Raw Data
SQL Databases
Data Processing
Gitlab
GIT
Pandas
Data Lake
Plotly

Job description

Au sein de la R&D d'EDF, le Département SYSTEME contribue à la préparation de l'avenir du Groupe EDF dans le domaine des réseaux électriques. En particulier, le département s'intéresse à l'impact sur le réseau électrique de l'augmentation massive et locale de consommation d'énergie liée à la croissance du marché des véhicules électriques (VE).

Dans ce contexte, l'équipe manipule des données hétérogènes liées à la mobilité, aux territoires et aux véhicules électriques. Aujourd'hui, ces données et les scripts de traitement associés sont dispersés entre différents espaces de stockage, notebooks Python, scripts MATLAB et fichiers locaux. Cette organisation limite la valorisation, la traçabilité et la reproductibilité des analyses.

L'objectif du stage est de contribuer à la mise en place d'un data lake permettant de centraliser ces données, de structurer les traitements existants et de faciliter leur exploitation pour des analyses liées à la mobilité électrique.

DEROULEMENT DU STAGE

Le ou la stagiaire réalisera d'abord un état des lieux des données et traitements existants, afin d'identifier les sources, les formats utilisés et les besoins de l'équipe.

Il ou elle proposera ensuite une organisation simple et robuste du data lake, par exemple autour de zones raw, processed et éventuellement curated, en séparant clairement les données brutes, les données transformées et les jeux de données prêts pour l'analyse.

Les principales missions du stage seront :

  • Structurer le stockage des données dans notre datalake et définir des conventions simples (organisation, nommage, format, mettre en place un catalogue de données avec versionnage).
  • Aller chercher des données en opendata complémentaire à celle qu'on a déjà et le mettre en forme pour nos études
  • Réaliser des analyses exploratoires et visualisations pour suivre la qualité des données et appuyer les études sur la mobilité électrique.
  • Mettre en place des pipelines d'extraction et de transformation pour rendre les traitements reproductibles, avec une première logique d'orchestration, par exemple Makefile, Diagnostic d'accessibilité

Sélectionnez vos contraintes pour obtenir une analyse rapide de compatibilité.

Mobilite Physique

Station debout prolongée impossible Port de charges lourdes impossible Besoin d'un accès PMR Périmètre de marche limité

Requirements

Stage de niveau Bac +3 à Bac +5

Profil : étudiant ou étudiante curieux, rigoureux et intéressé par la manipulation de données, la programmation et les problématiques liées à la mobilité électrique., * Connaissances solides en conception de datalake et manipulation de gros volume de données.

  • Python : bases solides attendues, notamment pour manipuler des fichiers et des tableaux de données avec Pandas / NumPy / Plotly.

  • Git / GitLab : connaissance nécessaire pour le suivi des modifications du code et le travail collaboratif

  • Intérêt pour la qualité du code, la documentation et la reproductibilité des traitements.

  • Des connaissances en visualisation de données, en SQL, en MinIO/S3, en MATLAB ou en outils de pipeline sont un plus, mais ne sont pas indispensables., Environnement & Sensoriel

Sensibilité au bruit Sensibilité à la lumiere forte Besoin d'une forte luminosité Déplacements professionnels impossibles

Communication & Cognitif

Besoin de consignes claires et structurées Préférence pour les échanges écrits Environnement à faible pression temporelle Autre précision (optionnel)

Benefits & conditions

Durée : 2-3 mois à partir de mi-juillet 2026

Le stage est rémunéré selon la convention EDF

Prise en charge des transports en commun : 50%

Télétravail : 1 à 2 jours par semaine, Rythme & Organisation

Besoin de télétravail partiel ou total Besoin d'horaires décalés ou flexibles Travail de nuit impossible Besoin de pauses régulières

About the company

Handicap-job fête ses 20 ans : 2 millions d'opportunités partagées depuis 2006 !, La R&D du groupe EDF, intervient sur l'ensemble des métiers et activités du secteur de l'énergie. Elle soutient les différentes entités du groupe avec une double mission : optimiser les performances des activités actuelles et préparer l'avenir grâce à des technologies de rupture.

Apply for this position