Data Engineer / MLOps

NOVAIA SASU
Canton de Marseille-12, France
1 month ago

Role details

Contract type
Permanent contract
Employment type
Full-time (> 32 hours)
Working hours
Regular working hours
Languages
French
Compensation
€ 50K

Job location

Canton de Marseille-12, France

Tech stack

API
Airflow
Amazon Web Services (AWS)
Azure
Bash
Cloud Computing
Continuous Integration
Data Architecture
ETL
Relational Databases
DevOps
Github
Python
PostgreSQL
MongoDB
MySQL
NoSQL
Open Source Technology
Redis
Prometheus
SQL Databases
Management of Software Versions
Grafana
Spark
FastAPI
Kubernetes
Deployment Automation
Kafka
Data Management
Machine Learning Operations
Docker
ELK

Job description

Vous rejoindrez une équipe dynamique qui développe un callbot IA francophone de nouvelle génération, capable de comprendre, traiter et répondre aux appels en temps réel.

Votre rôle sera essentiel : concevoir et maintenir des pipelines de données et de modèles IA performants, assurer la scalabilité du système et garantir des temps de réponse ultra-rapides pour des milliers d'appels simultanés.

Responsabilités

  • Concevoir et mettre en œuvre des architectures de données robustes et évolutives pour les flux audio, texte et logs d'appels.
  • Développer et maintenir des pipelines ETL et ML pour l'intégration, la transformation et la mise à jour des données (appels, transcriptions, intentions, etc.).
  • Travailler sur des bases de données relationnelles (PostgreSQL, MySQL) et NoSQL (MongoDB, Redis, VectorDB - ChromaDB/FAISS).
  • Mettre en place des pipelines de déploiement automatisés (CI/CD) pour les modèles IA (STT * NLP * TTS) avec Docker, Kubernetes, MLflow, Airflow.
  • Gérer les environnements cloud (AWS / GCP / Azure) et optimiser les coûts GPU/CPU.
  • Développer des API de service pour les modèles IA via FastAPI.
  • Superviser la qualité et la latence des données et des modèles (Grafana, Prometheus).
  • Collaborer étroitement avec les équipes Data Science et DevOps pour industrialiser les modèles open source (CamemBERT, Mistral, LLaMA, Whisper, Coqui).
  • Garantir la sécurité, la fiabilité et la reproductibilité de l'ensemble du pipeline IA.

Requirements

  • Vous avez une expérience solide en Data Engineering et/ou MLOps, idéalement dans un environnement IA ou NLP.
  • Vous maîtrisez Python, SQL, et des outils de traitement distribués comme Apache Spark ou Kafka.
  • Vous avez déjà travaillé avec des outils de conteneurisation et orchestration (Docker, Kubernetes).
  • Vous connaissez les bonnes pratiques de CI/CD, versioning de modèles, monitoring et déploiement.
  • Vous êtes familier avec les modèles de langage open source (CamemBERT, Mistral, LLaMA, Falcon…) et savez les intégrer dans des environnements de production.
  • Vous êtes rigoureux(se), autonome, et aimez optimiser la performance des systèmes complexes.
  • Vous appréciez travailler dans une équipe à taille humaine sur un projet IA ambitieux et concret.

Environnement technique

  • Langages : Python, SQL, Bash
  • Outils : Airflow, MLflow, FastAPI, Docker, GitHub Actions
  • Cloud : AWS / GCP / Azure
  • Bases : PostgreSQL, MongoDB, Redis, ChromaDB, FAISS
  • Monitoring : Grafana, Prometheus, ELK Stack

Apply for this position