H/F)
Role details
Job location
Tech stack
Job description
Organisation européenne de référence dans le domaine des normes techniques et de la veille scientifique (secteur réglementaire / phytosanitaire), nous lançons un projet d'exploration IA. L'objectif : concevoir un Proof of Concept (POC) de chatbot conversationnel s'appuyant sur nos ressources internes (bases de données, corpus normatifs, documents techniques, littérature scientifique) afin d'accélérer la recherche d'information, le contrôle qualité documentaire et l'aide à la décision. À court terme, ce POC doit démontrer la valeur pour un déploiement à l'échelle internationale et contribuer à la mobilisation de financements.
Missions
- Cartographier & préparer les données
- Identifier les sources internes (BDD visibles et non exposées), corpus normatifs internationaux et documents non structurés.
- Définir la stratégie d'ingestion, de normalisation et de gouvernance (qualité, traçabilité, métadonnées, RGPD).
- Concevoir le POC de chatbot conversationnel
- Évaluer des approches LLM (RAG, fine-tuning léger, réécriture de requêtes) adaptées aux cas d'usage.
- Prototyper une interface (CLI/terminal et/ou web minimaliste) avec recherche sémantique, citations et vérifiabilité.
- Proposer l'architecture cible
- Définir l'architecture technique (orchestration, vector store, pipelines ETL/ELT, observabilité, sécurité).
- Établir les prérequis d'industrialisation (coûts, MLOps, monitoring qualité, lifecycles des modèles).
- Développer "GPT métier"
- Concevoir un outil en ligne de commande (IAmétier") pour retrouver rapidement les occurrences historiques d'événements similaires à des phénomènes actuels, en interrogeant directement les données structurées (PostgreSQL et BDD internes) et non structurées (normes internationales, PDF, docs).
- Contrôle qualité assisté par IA
- Mettre en place des vérifications automatiques (cohérence, complétude, détection d'anomalies textuelles ou de champs).
- Génération de résumés factuels et analyses automatiques dans les workflows de recherche.
- Transfert de compétences & accompagnement
- Documenter, former, et co-construire avec des équipes non spécialistes IA (best practices, runbooks).
- Préparer le pitch techno-fonctionnel pour sponsors et pays membres (démonstrateur, métriques, feuille de route).
Livrables attendus
- Cartographie des données + plan de remédiation qualité.
- Prototype fonctionnel (chatbot + CLI "GPT métier") avec journal de sources et évaluation.
- Dossier d'architecture (schémas, choix techno, sécurité, coûts) + plan d'industrialisation.
- Kit de présentation (démo, métriques, ROI attendu) pour parties prenantes.
Environnement technique
- OS & Infra : Linux Debian, Docker (containers, compose), CI/CD basique.
- Données : PostgreSQL, formats hétérogènes (CSV/JSON/PDF), index vectoriels.
- Langages : Python, PHP (pour intégrations existantes).
- IA/NLP : pipelines d'ingestion, embeddings, RAG, évaluation de réponses (faithfulness, grounding).
- ️ L'environnement reste adaptable en fonction des besoins et des choix du/de la développeur·se.
Requirements
- 4-6+ ans en développement IA/NLP (ou expérience équivalente démontrable par projets/références).
- À l'aise avec données structurées et non structurées, extraction depuis PDF/normes, indexation & recherche sémantique.
- Maîtrise de Python (FastAPI/Flask, tooling data), conteneurisation Docker, PostgreSQL (SQL avancé).
- Pratique des LLM (hébergés ou API), embeddings, RAG, évaluation et observabilité (logs, traces, métriques).
- Culture MLOps (environnements, reproductibilité, gestion des versions de données et modèles).
- Autonomie, sens produit, pédagogie pour l'accompagnement d'équipes non expertes.
Bonus appréciés
- Expérience secteur réglementaire/scientifique ou open data.
- Sécurité & conformité (contrôle d'accès, PII, RGPD, politiques de rétention).
- Traitement de documents longs (chunking avancé, tables/figures), OCR.
- Mise en place de benchmarks internes (Groundedness, Answer Relevancy, Latency/cost).
Indicateurs de succès du POC
- Pertinence & vérifiabilité : réponses sourcées, taux de grounding élevé.
- Couverture des principales sources (structurées/non structurées) et latence acceptable.
- Transférabilité : architecture claire, coûts maîtrisés, plan d'industrialisation réaliste.
Benefits & conditions
- Adoption : démonstration convaincante pour sponsors et pays membres.