Data Ingénieur Python ELK

CHARLI GROUP
Paris, France
28 days ago

Role details

Contract type
Permanent contract
Employment type
Full-time (> 32 hours)
Working hours
Regular working hours
Languages
French

Job location

Paris, France

Tech stack

Airflow
Apache HTTP Server
Code Coverage
Continuous Integration
ETL
DevOps
Elasticsearch
Hadoop Distributed File System
Python
Linux System Administration
Logstash
Ansible
Prometheus
Parquet
Data Processing
Pytest
Data Lake
Apache Flink
Kafka
Kibana
Terraform
Dynatrace

Job description

  • Conception et construction des pipelines de données scalables pour le traitement batch et temps réel

  • Dévelopement et maintenance des workflows avec Apache Airflow (orchestration) et Apache Flink (traitement de flux)

  • Mise en place et opération des clusters Apache Kafka pour le streaming d'événements à haut débit

  • Déployement et administration la stack ELK (Elasticsearch, Logstash, Kibana) pour l'ingestion de logs, l'indexation, la recherche et l'observabilité

  • Écriture du code Python propre, efficacité et test pour la logique ETL/ELT et les outils internes

  • Garantie de la qualité des données, la fiabilité des pipelines et la résilience de l'infrastructure

  • Collaboration avec les équipes DevOps sur la planification de capacité et les opérations cluster

  • Accompagnement et augmentation en compétences des ingénieurs moins expérimentés, * Maîtrise des paradigmes avancés : décorateurs, générateurs, contexte managers, métaclasses, typage statique avec mypy

  • Conception de packages Python structurés et réutilisables, gestion de dépendances

  • Écriture de tests robustes : pytest, mocking, fixtures, tests paramétrés, couverture de code

  • Développement de clients Kafka en Python (confluent-kafka, kafka-python) : producteurs, consommateurs, gestion des offsets et des erreurs

  • Expérience avec les clients Elasticsearch en Python (elasticsearch-py) pour l'indexation et la recherche

  • Développement d'opérateurs et de hooks Airflow custom en Python

  • Manipulation de données avec pandas et PyArrow pour les formats colonnaires (Parquet, ORC)

  • Maîtrise des outils de qualité de code : black, ruff, pylint, pre-commit

Requirements

Expérience Python indispensable

  • Expert Python en contexte professionnel et en production, * Bonne connaissance de la programmation asynchrone (asyncio, aiohttp) pour les pipelines I/O-bound

  • Maitrise kubernetes et CI/CD (gitops, etc )

Stack data indispensable:

  • Expérience avancée d'Apache Flink pour le traitement de flux en temps réel

  • Exploitation d'Apache Kafka en production (brokers, topics, groupes de consommateurs, réplication, rétention)

  • Maîtrise de la stack ELK ? administration Elasticsearch, pipelines Logstash, dashboards Kibana, alerting

  • Solides compétences modélisation de données

  • Aisance dans un environnement entièrement on-premise et autogéré

  • Bonnes bases en administration Linux, réseau et stockage

Apprécié

  • Expérience avec dbt pour la transformation de données

  • Connaissance des formats lakehouse (Delta Lake, Apache Iceberg) sur HDFS/MinIO

  • Familiarité avec les agents Beats (Filebeat, Metricbeat)

  • Expérience avec Ansible ou Terraform

  • Expérience avec Dynatrace ou Prometheus pour le monitoring

About the company

ngénieurie Data expérimenté pour conception, construction et maintenance d' une infrastructure de données robuste et performance dans un environnement entièrement on-premise. Étroite collaboration avec les équipes Data pour garantir des pipelines fiables et de haute qualité sur notre infrastructure autogérée.

Apply for this position