Data Ingénieur Python ELK
Role details
Job location
Tech stack
Job description
-
Conception et construction des pipelines de données scalables pour le traitement batch et temps réel
-
Dévelopement et maintenance des workflows avec Apache Airflow (orchestration) et Apache Flink (traitement de flux)
-
Mise en place et opération des clusters Apache Kafka pour le streaming d'événements à haut débit
-
Déployement et administration la stack ELK (Elasticsearch, Logstash, Kibana) pour l'ingestion de logs, l'indexation, la recherche et l'observabilité
-
Écriture du code Python propre, efficacité et test pour la logique ETL/ELT et les outils internes
-
Garantie de la qualité des données, la fiabilité des pipelines et la résilience de l'infrastructure
-
Collaboration avec les équipes DevOps sur la planification de capacité et les opérations cluster
-
Accompagnement et augmentation en compétences des ingénieurs moins expérimentés, * Maîtrise des paradigmes avancés : décorateurs, générateurs, contexte managers, métaclasses, typage statique avec mypy
-
Conception de packages Python structurés et réutilisables, gestion de dépendances
-
Écriture de tests robustes : pytest, mocking, fixtures, tests paramétrés, couverture de code
-
Développement de clients Kafka en Python (confluent-kafka, kafka-python) : producteurs, consommateurs, gestion des offsets et des erreurs
-
Expérience avec les clients Elasticsearch en Python (elasticsearch-py) pour l'indexation et la recherche
-
Développement d'opérateurs et de hooks Airflow custom en Python
-
Manipulation de données avec pandas et PyArrow pour les formats colonnaires (Parquet, ORC)
-
Maîtrise des outils de qualité de code : black, ruff, pylint, pre-commit
Requirements
Expérience Python indispensable
-
Expert Python en contexte professionnel et en production, * Bonne connaissance de la programmation asynchrone (asyncio, aiohttp) pour les pipelines I/O-bound
-
Maitrise kubernetes et CI/CD (gitops, etc )
Stack data indispensable:
-
Expérience avancée d'Apache Flink pour le traitement de flux en temps réel
-
Exploitation d'Apache Kafka en production (brokers, topics, groupes de consommateurs, réplication, rétention)
-
Maîtrise de la stack ELK ? administration Elasticsearch, pipelines Logstash, dashboards Kibana, alerting
-
Solides compétences modélisation de données
-
Aisance dans un environnement entièrement on-premise et autogéré
-
Bonnes bases en administration Linux, réseau et stockage
Apprécié
-
Expérience avec dbt pour la transformation de données
-
Connaissance des formats lakehouse (Delta Lake, Apache Iceberg) sur HDFS/MinIO
-
Familiarité avec les agents Beats (Filebeat, Metricbeat)
-
Expérience avec Ansible ou Terraform
-
Expérience avec Dynatrace ou Prometheus pour le monitoring