H/F)

Umantic Technologies
Paris, France
1 month ago

Role details

Contract type
Permanent contract
Employment type
Full-time (> 32 hours)
Working hours
Regular working hours
Languages
French
Experience level
Intermediate

Job location

Paris, France

Tech stack

PHP
API
Command-Line Interface
Continuous Integration
ETL
Data Mapping
Debian Linux
Linux
JSON
Python
PostgreSQL
Metadata
Data Processing
Flask
Large Language Models
FastAPI
Machine Learning Operations
GPT
Docker

Job description

Organisation européenne de référence dans le domaine des normes techniques et de la veille scientifique (secteur réglementaire / phytosanitaire), nous lançons un projet d'exploration IA. L'objectif : concevoir un Proof of Concept (POC) de chatbot conversationnel s'appuyant sur nos ressources internes (bases de données, corpus normatifs, documents techniques, littérature scientifique) afin d'accélérer la recherche d'information, le contrôle qualité documentaire et l'aide à la décision. À court terme, ce POC doit démontrer la valeur pour un déploiement à l'échelle internationale et contribuer à la mobilisation de financements.

Missions

  • Cartographier & préparer les données
  • Identifier les sources internes (BDD visibles et non exposées), corpus normatifs internationaux et documents non structurés.
  • Définir la stratégie d'ingestion, de normalisation et de gouvernance (qualité, traçabilité, métadonnées, RGPD).
  • Concevoir le POC de chatbot conversationnel
  • Évaluer des approches LLM (RAG, fine-tuning léger, réécriture de requêtes) adaptées aux cas d'usage.
  • Prototyper une interface (CLI/terminal et/ou web minimaliste) avec recherche sémantique, citations et vérifiabilité.
  • Proposer l'architecture cible
  • Définir l'architecture technique (orchestration, vector store, pipelines ETL/ELT, observabilité, sécurité).
  • Établir les prérequis d'industrialisation (coûts, MLOps, monitoring qualité, lifecycles des modèles).
  • Développer "GPT métier"
  • Concevoir un outil en ligne de commande (IAmétier") pour retrouver rapidement les occurrences historiques d'événements similaires à des phénomènes actuels, en interrogeant directement les données structurées (PostgreSQL et BDD internes) et non structurées (normes internationales, PDF, docs).
  • Contrôle qualité assisté par IA
  • Mettre en place des vérifications automatiques (cohérence, complétude, détection d'anomalies textuelles ou de champs).
  • Génération de résumés factuels et analyses automatiques dans les workflows de recherche.
  • Transfert de compétences & accompagnement
  • Documenter, former, et co-construire avec des équipes non spécialistes IA (best practices, runbooks).
  • Préparer le pitch techno-fonctionnel pour sponsors et pays membres (démonstrateur, métriques, feuille de route).

Livrables attendus

  • Cartographie des données + plan de remédiation qualité.
  • Prototype fonctionnel (chatbot + CLI "GPT métier") avec journal de sources et évaluation.
  • Dossier d'architecture (schémas, choix techno, sécurité, coûts) + plan d'industrialisation.
  • Kit de présentation (démo, métriques, ROI attendu) pour parties prenantes.

Environnement technique

  • OS & Infra : Linux Debian, Docker (containers, compose), CI/CD basique.
  • Données : PostgreSQL, formats hétérogènes (CSV/JSON/PDF), index vectoriels.
  • Langages : Python, PHP (pour intégrations existantes).
  • IA/NLP : pipelines d'ingestion, embeddings, RAG, évaluation de réponses (faithfulness, grounding).
  • ️ L'environnement reste adaptable en fonction des besoins et des choix du/de la développeur·se.

Requirements

  • 4-6+ ans en développement IA/NLP (ou expérience équivalente démontrable par projets/références).
  • À l'aise avec données structurées et non structurées, extraction depuis PDF/normes, indexation & recherche sémantique.
  • Maîtrise de Python (FastAPI/Flask, tooling data), conteneurisation Docker, PostgreSQL (SQL avancé).
  • Pratique des LLM (hébergés ou API), embeddings, RAG, évaluation et observabilité (logs, traces, métriques).
  • Culture MLOps (environnements, reproductibilité, gestion des versions de données et modèles).
  • Autonomie, sens produit, pédagogie pour l'accompagnement d'équipes non expertes.

Bonus appréciés

  • Expérience secteur réglementaire/scientifique ou open data.
  • Sécurité & conformité (contrôle d'accès, PII, RGPD, politiques de rétention).
  • Traitement de documents longs (chunking avancé, tables/figures), OCR.
  • Mise en place de benchmarks internes (Groundedness, Answer Relevancy, Latency/cost).

Indicateurs de succès du POC

  • Pertinence & vérifiabilité : réponses sourcées, taux de grounding élevé.
  • Couverture des principales sources (structurées/non structurées) et latence acceptable.
  • Transférabilité : architecture claire, coûts maîtrisés, plan d'industrialisation réaliste.

Benefits & conditions

  • Adoption : démonstration convaincante pour sponsors et pays membres.

About the company

Umantic Technologies est une société dédiée au support des infrastructures télécom et IT. Nous intervenons en ingénierie et management de projet, en mode projet ou assistance technique, chez nos clients opérateur et constructeurs. Depuis plus de 10 ans nous compagnons les grands comptes sur les projets innovants de la transformation numérique de l'économie.

Apply for this position