Ingénieur - Data Science / IA
Role details
Job location
Tech stack
Job description
Le·la stagiaire prendra une part active au développement et à la validation de ce système de contrôle de cohérence. Les missions principales sont :
-
Pipeline : Conception et implémentation du pipeline
-
ingestion et vectorisation de documents (PDF, DOCX, XML) ; indexation dans une base vectorielle (Chroma, Qdrant ou Weaviate) ; orchestration des requêtes via LangChain / LlamaIndex.
-
Détection : Développement du module de détection d'incohérences
-
définition d'une taxonomie d'incohérences (valeurs numériques, terminologie, statuts réglementaires, références croisées) ; conception de prompts de comparaison multi-documents ; scoring de confiance.
-
Validation : Création d'un jeu de données de test
-
génération de documents tests avec incohérences intentionnelles (niveaux I0-I4) ; évaluation des performances (précision, rappel, F1) sur corpus réel ONDRAF.
-
Livrable final : Rapport technique et recommandations pour le déploiement en production., * Un projet concret à fort impact dans un organisme public d'utilité nationale.
-
Encadrement expert en IA appliquée, RAG et gestion des connaissances.
-
Accès à un corpus documentaire unique et à des cas d'usage réels en sûreté nucléaire.
-
Environnement de travail hybride (Bruxelles) et équipe pluridisciplinaire.
L'ONDRAF est responsable de la gestion sûre de l'ensemble des déchets radioactifs en Belgique. Nous pouvons également assurer l'assainissement et le démantèlement d'installations nucléaires mises hors service.
Nous investissons dans des programmes de recherche afin d'optimiser nos activités actuelles et de développer des solutions sûres à long terme. Nous formulons des propositions de politique stratégique au gouvernement. Nous engageons le dialogue avec la société afin de créer une adhésion autour de nos solutions.
Enfin, nous veillons à la bonne gestion financière conformément au principe du «pollueur-payeur. »
Requirements
-
Python (pandas, langchain, transformers)
-
LLM API : Claude / OpenAI / Mistral
-
Bases vectorielles (RAG)
-
NLP & traitement documentaire
-
Git, Jupyter, environnements cloud
Atouts appréciés
-
Intérêt pour la gestion documentaire en secteur régulé
-
Rigueur et souci de la qualité des données
-
Autonomie et esprit d'analyse
-
Connaissance de domaines techniques (nucléaire, droit, compliance) - un plus
-
Bonne communication écrite (FR/EN)