Data Ingénieur Python ELK

CHARLI GROUP

Paris, France

28 days ago

Role details

Contract type

Permanent contract

Employment type

Full-time (> 32 hours)

Working hours

Regular working hours

Languages

French

Job location

Paris, France

Tech stack

Airflow

Apache HTTP Server

Code Coverage

Continuous Integration

ETL

DevOps

Elasticsearch

Hadoop Distributed File System

Python

Linux System Administration

Logstash

Ansible

Prometheus

Parquet

Data Processing

Pytest

Data Lake

Apache Flink

Kafka

Kibana

Terraform

Dynatrace

Job description

Conception et construction des pipelines de données scalables pour le traitement batch et temps réel
Dévelopement et maintenance des workflows avec Apache Airflow (orchestration) et Apache Flink (traitement de flux)
Mise en place et opération des clusters Apache Kafka pour le streaming d'événements à haut débit
Déployement et administration la stack ELK (Elasticsearch, Logstash, Kibana) pour l'ingestion de logs, l'indexation, la recherche et l'observabilité
Écriture du code Python propre, efficacité et test pour la logique ETL/ELT et les outils internes
Garantie de la qualité des données, la fiabilité des pipelines et la résilience de l'infrastructure
Collaboration avec les équipes DevOps sur la planification de capacité et les opérations cluster
Accompagnement et augmentation en compétences des ingénieurs moins expérimentés, * Maîtrise des paradigmes avancés : décorateurs, générateurs, contexte managers, métaclasses, typage statique avec mypy
Conception de packages Python structurés et réutilisables, gestion de dépendances
Écriture de tests robustes : pytest, mocking, fixtures, tests paramétrés, couverture de code
Développement de clients Kafka en Python (confluent-kafka, kafka-python) : producteurs, consommateurs, gestion des offsets et des erreurs
Expérience avec les clients Elasticsearch en Python (elasticsearch-py) pour l'indexation et la recherche
Développement d'opérateurs et de hooks Airflow custom en Python
Manipulation de données avec pandas et PyArrow pour les formats colonnaires (Parquet, ORC)
Maîtrise des outils de qualité de code : black, ruff, pylint, pre-commit

Requirements

Expérience Python indispensable

Expert Python en contexte professionnel et en production, * Bonne connaissance de la programmation asynchrone (asyncio, aiohttp) pour les pipelines I/O-bound
Maitrise kubernetes et CI/CD (gitops, etc )

Stack data indispensable:

Expérience avancée d'Apache Flink pour le traitement de flux en temps réel
Exploitation d'Apache Kafka en production (brokers, topics, groupes de consommateurs, réplication, rétention)
Maîtrise de la stack ELK ? administration Elasticsearch, pipelines Logstash, dashboards Kibana, alerting
Solides compétences modélisation de données
Aisance dans un environnement entièrement on-premise et autogéré
Bonnes bases en administration Linux, réseau et stockage

Apprécié

Expérience avec dbt pour la transformation de données
Connaissance des formats lakehouse (Delta Lake, Apache Iceberg) sur HDFS/MinIO
Familiarité avec les agents Beats (Filebeat, Metricbeat)
Expérience avec Ansible ou Terraform
Expérience avec Dynatrace ou Prometheus pour le monitoring

About the company

ngénieurie Data expérimenté pour conception, construction et maintenance d' une infrastructure de données robuste et performance dans un environnement entièrement on-premise. Étroite collaboration avec les équipes Data pour garantir des pipelines fiables et de haute qualité sur notre infrastructure autogérée.

Role details

Job location

Tech stack

Job description

Requirements

About the company

Apply for this position

Good distractions

Moments

Videos View all