Le projet ANR DIVITAL vise à accroître la vitalité et la visibilité de plusieurs langues de France : l’alsacien, le corse, l’occitan et le poitevin-saintongeais. Il se positionne à la croisée de la linguistique descriptive et de la linguistique de corpus. Son but principal est la constitution de ressources, en particulier de corpus bruts et annotés, avec plusieurs objectifs :

  • Construire (i) des corpus monolingues dans des genres proches ou transcrivant la langue orale, par exemple des pièces de théâtre ou des ethnotextes narratifs, et (ii) des corpus parallèles (à partir de traductions) ;
  • Développer des corpus annotés dans le cadre des “Universal Dependencies” ;
  • Produire des descriptions complètes et actualisées et des formalisations linguistiques à partir des corpus ;
  • Sensibiliser la communauté du TAL (Traitement Automatique des Langues) aux problématiques des langues non standardisées et à la nécessité de prendre en compte la variation dans les systèmes de TAL ;
  • Partager et transférer les expériences et les outils entre les langues du projet et explorer les méthodes de transfert technologique

Le projet est porté par Delphine Bernhard (laboratoire LiLPa) et se développe en collaboration avec plusieurs partenaires, notamment les laboratoires CLEE à Toulouse, FoReLLIS à Poitiers et LISA à Corte.

Plus de détails :

Vous pouvez également consulter le site du projet dans les langues pour lesquelles le projet développe des ressources :  corse, alsacien, occitan et poitevin-saintongeais.

De façon plus générale, le développement de ressources pour les langues de France est une des aires d'expertise majeures de notre département. En plus de DIVITAL, un précédent projet (ANR RESTAURE) abordait déjà ce domaine.