LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications

Loria - Laboratoire Lorrain

Canton de Nancy-2, France

5 days ago

Role details

Contract type

Permanent contract

Employment type

Full-time (> 32 hours)

Working hours

Regular working hours

Languages

French, English

Job location

Canton de Nancy-2, France

Tech stack

Information Retrieval

Python

Natural Language Processing

Large Language Models

Information Technology

Text Analysis

Job description

Établissement : Université de Lorraine École doctorale : IAEM - INFORMATIQUE - AUTOMATIQUE - ELECTRONIQUE - ELECTROTECHNIQUE - MATHEMATIQUES Laboratoire de recherche : LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications Direction de la thèse : Karen FORT ORCID 0000000207238850, Dans ce contexte, il faudra constituer un corpus de publications scientifiques. extraire des énoncés des résumés d'articles - en particulier les affirmations -, les aligner avec des énoncés décrivant le même contenu dans le texte intégral et analyser en détail les liens entre eux. L'extraction et l'alignement s'appuieront sur des travaux antérieurs: Bleuze et al. (2024) permettent l'identification automatique des affirmations et peuvent être utilisés pour extraire des énoncés pertinents des résumés et des textes intégraux afin de les apparier. Des mesures de similarité de phrases peuvent également être utilisées pour faciliter l'appariement des phrases des résumés et des textes intégraux. Le doctorant analysera ensuite automatiquement les relations sémantiques entre les phrases des résumés et leurs équivalents les plus «similaires» dans les textes intégraux, et évaluera si les affirmations présentes dans les textes intégraux figurent également dans les résumés. L'étude explorera la cohérence du contenu entre les résumés et les textes intégraux, ainsi que la sélection du contenu opérée par les résumés à partir du contenu intégral d'un article.

Inadequate reporting is an understudied cause of bias in research [Boutron et al. 2010, Macleod et Al. 2014]. Problems include, but are not limited to, non-reporting or delayed reporting of studies, omissions from or misinterpretation of results in abstracts, distorted reporting and interpretation of study results to convince the reader of benefits not supported by the main findings. These issues have been studied in biomedical research with publication guidelines being proposed to improve the quality of reporting [Ghimire et al. 2014]. There is much at stake here, as inadequate reporting can negatively impact the trust of the research community and society in scientific research. Risks also include poor decision-making due to distorted results, such as deployment of systems that are not accurate enough for their intended usage because benefits have been over-estimated and drawbacks minimized or even not considered at all [Buolamwini et al. 2018]. Natural Language processing can contribute further interventions through the development of automatic text analysis to identify scientific claims and contrast them with research results [Koroleva et al. 2020, Bleuze, 2024]. Building on this recent work, there is a need to advance the automatic characterization of claims and results by leveraging content from both the abstracts and full text scientific publications as well as other types of sources such as figures, and tables.

The objective of this project is to analyze a corpus of scientific publications for entailment between statements in the abstracts vs. full text, including information retrieval models, dense vector representations.

The PhD student will build a corpus of scientific publications in the biomedical domain. They will extract statements from an article abstract - in particular, claims -, align them with statements describing the same content in the article full text and further analyze the entailement between them. The extraction and alignment will build on previous work: Bleuze et al (2024) supports the automatic identification of claims and can be used to extract statements of interest from abstracts and full text to pair them. Sentence similarity measures can also be used to support the pairing of sentences from abstract and full text. The PhD student will analyze the semantic relationships between abstract sentences and their most «similar» counterpart in full text, and assess whether claims made in the full text are present in abstracts. The study will explore the consistency of content in abstracts vs. full text as well as the content selection operationalized by abstracts from the full content of an article.

Requirements

anglais courant- Master en TAL- intérêt démontré pour la création de corpsu et les questions éthiques- Maîtrise de Python- Utilisation de LLM ","identifier":{"@type":"PropertyValue","name":"Université de Lorraine","value":"4f7e8e413a6cd384d11b801b4c3b1a40"},"url":"https://www.hellowork.com/fr-fr/emplois/77212759.html","datePosted":"2026-03-24T20:36:09Z","directApply":false,"educationRequirements":{"@type":"EducationalOccupationalCredential","credentialCategory":"postgraduate degree"},"employmentType":["TEMPORARY","FULL_TIME"],"experienceRequirements":"no requirements","hiringOrganization":{"@type":"Organization","name":"Université de Lorraine"},"industry":"Service public d'état","jobLocation":{"@type":"Place","address":{"@type":"PostalAddress","addressCountry":"FR","addressRegion":"Champagne-Ardenne"}},"occupationalCategory":"Chimie","qualifications":"- anglais courant

Master en TAL
intérêt démontré pour la création de corpsu et les questions éthiques
Maîtrise de Python
Utilisation de

Benefits & conditions

Début de la thèse : 2026-10-01 Date limite de candidature : 2026-04-24T23:59:59

About the company

{"@context":"https://schema.org","@type":"JobPosting","title":"Thèse Enact Analyse Automatique des Biais dans les Publications Scientifiques H/F","description":", Le rendu faussé des résultats est une cause de biais en recherche encore peu étudiée [Boutron et al., 2010]. Les problèmes rencontrés incluent la non-publication ou la publication tardive d'études, les omissions ou les interprétations erronées des résultats dans les résumés, ainsi que la présentation et l'interprétation biaisées des résultats visant à convaincre le lecteur de bénéfices non étayés par les principaux résultats. L'enjeu est de taille, car une publication faussée peut nuire à la confiance de la communauté scientifique et de la société envers la recherche. Parmi les risques figurent également le déploiement de systèmes insuffisamment précis pour l'usage prévu, car les bénéfices ont été surestimés et les inconvénients minimisés, voire ignorés [Buolamwini et al., 2018]. Le traitement automatique des langues peut permettre d'identifier ces problèmes grâce au développement de l'analyse automatique de textes permettant d'identifier les affirmations scientifiques et de les confronter aux résultats de la recherche [Koroleva et al., 2020 ; Bleuze, 2024]. S'appuyant sur ces travaux récents, il est nécessaire de perfectionner la caractérisation automatique des affirmations et des résultats en exploitant le contenu des résumés et des textes intégraux des publications scientifiques, ainsi que d'autres types de sources telles que les figures et les tableaux. L'objectif de cette thèse est l'analyse des biais dans les publications scientifiques. Les méthodes d'identification automatique des liens de causalité entre les énoncés dans les articles peuvent être utilisées à cette fin. L'un des résultats attendus est la constitution d'un corpus de liens de causalité entre les énoncés présents dans les résumés et les textes intégraux de publications scientifiques en anglais. Par exemple, dans (Lu et al. 2022), nous pouvons considérer des énoncés du résumé et des résultats décrivant le même aspect du travail: Résumé: «Les expériences menées sur l'ensemble de données DAIC-WOZ montrent que les performances de l'algorithme se sont considérablement améliorées, avec une erreur absolue moyenne (MAE) de 4,48 et une erreur quadratique moyenne (RMSE) de 5,37.» Résultats: «Le résultat expérimental de la MAE s'est rapidement amélioré, passant de 4,96 à 4,48 après l'ajout du module Transformer Encoder.» On constate que l'amélioration «considérable» correspond à 0,48 point pour la MAE, tandis que la RMSE, mentionnée dans le résumé, n'est pas décrite dans les résultats. Nous nous concentrerons sur deux sous-domaines scientifiques différents, pour lesquels nous avons déjà de l'expérience et des corpus disponibles: le domaine biomédical et le traitement automatique des langues.