Linguistique de corpus
Master Traduction et interprétationParcours Technologies des langues - Traitement automatique des langues, informatique et traduction
Description
Cet enseignement aborde le traitement des documents numériques (définition, formats divers, encodage et manipulation), la définition et les critères de constitution d'un corpus, les sources (bases textuelles, corpus disponibles sur Internet, Factiva). Dans ce cours seront présentés les outils d'exploration de corpus (concordanciers) disponibles en ligne (Frantext, FrWaC, SketchEngine), mais également indépendants (AntConc, TXM). Les mesures statistiques utilisées par les outils d'exploration de corpus seront abordés (information mutuelle, Loglikelihood). Une dernière partie du cours présente des outils d'exploitation des corpus étiquetés (TXM) et annotés en dépendances (la plateforme Grew-Match).
Compétences visées
- savoir créer un corpus selon des critères bien définis
- extraire des données à partir de corpus à l’aide des expressions regulières
- maîtriser les outils de type concordancier (AntConc, SketchEngine) et de textométrie (TXM)
- connaître le langage CQL
Disciplines
- Sciences du langage
- Informatique
Informations complémentaires
Responsable pédagogique : Amalia Todirascu
Email : todiras@unistra.f