Skip to main content

French BookNLP

By 15 février 2022avril 8th, 2024projet 2021

French BookNLP

Porteur du projet :
Thierry Poibeau (Lattice, CNRS & ENS/PSL & Université Sorbonne nouvelle)

Le projet BookNLP vise à développer une chaîne logicielle pour l’analyse de grands corpus littéraires, en lien avec le projet Multilingual Book NLP de David Bamman. Multilingual Book NLP vise à développer des chaînes de traitement pour plusieurs langues, mais le français n’est pas inclus. C’est ce manque que ce projet vise à combler.

Présentation

L’idée est d’éviter autant que possible de concevoir des traitements spécifiques (sans se l’interdire non plus, si nécessaire), mais de réutiliser au maximum des outils existants. Les outils de traitement automatique des langues fonctionnant généralement par apprentissage, une grosse partie du travail consiste à développer les corpus nécessaires à l’entraînement (c’est-à-dire à la mise au point) des systèmes d’annotation visés. Pour le français, on compte repartir du corpus Democrat, développé dans le cadre du projet ANR du même nom (ou, également, ici pour les ressources).

Pour appréhender les expressions référentielles et les chaînes de référence, la démarche suivie dans le cadre de Democrat a été une combinaison des méthodes issues de la linguistique, du traitement automatique des langues et de l’analyse statistique de données textuelles. Une fois les phénomènes définis sous la forme de choix de « marquables » (éléments de base devant être annotés) et d’un schéma d’annotation défini en fonction de celui de Berkeley, il s’agira d’annoter manuellement un ensemble de textes répartis selon les périodes et les genres retenus. Les annotations du projet Democrat seront « recyclées » pour correspondre au schéma Multilingual BookNLP. Les premières expérimentations ont montré que les deux schémas (Democrat et BookNLP) étaient largement compatibles, même si l’annotation Democrat devra être complétée. Les marquables devront en particulier être « typés » et d’autres ajouts spécifiques sont aussi à prévoir (comme l’annotation des séquences de dialogue, tâche qui pourra probablement être automatisée en partie).

Le corpus Democrat est disponible librement, avec une licence Creative Commons. Le corpus français BookNLP et les outils liés seront aussi mis à disposition et réutilisables librement.

État du projet

L’annotation manuelle a été réalisée pour l’essentiel en 2021 (annotation en entités, chaînes de référence et événements). Le projet porte actuellement sur l’entraînement de modèles afin de permettre la mise au point d’outils de traitement automatique (à base d’apprentissage artificiel) reproduisant aussi finement que possible l’analyse humaine. Une tâche complémentaire consiste à utiliser ces outils dès à présent pour vérifier leurs performances et leur adéquation à la tâche visée sur des œuvres littéraires du 19e siècle. 

Menu Général