Pour un corpus de textes latins en ligne

urotisad - Aaa

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

14 pages

Français

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

A propos
Informations
Extrait

Description

Pour un corpus de textes latins en ligne

Sujets

Arts

Informations

Publié par	urotisad
Nombre de lectures	78
Langue	Français

Extrait

Pour un corpus de textes latins en ligne Projekt : ein Korpus lateinischer Texte open access on line

L'histoire ancienne et médiévale ne peuvent se renouveler sans mettre sur pied des méthodes spécifiques nouvelles pour faire naître une sémantique historique débarrassée des présupposés du sens commun qui obstruent la connaissance de ces époques. Ces nouvelles méthodes sont en grande partie fondées sur l'emploi ad hoc de procédures statistiques, adaptées à la forme non-standard des distributions lexicales. Ces méthodes n'ont de sens que si elles peuvent s'appliquer à des « textes » en quantité suffisante, et en format numérique. Le rassemblement de corpus importants est donc un passage obligé. C'est aux possibilités et aux problèmes liées à ce rassemblement qu'est consacré le présent papier. On prendra garde à ne pas oublier cette perspective, qui seule donne son sens à une telle entreprise. Toutes les manipulations formalisées potentiellement utilisables (statistiques classiques ou text mining notamment) nécessitent que le texte revête une certaine forme et, le cas échéant, inclue des indications particulières ; pour obtenir cette forme, on procède à ce que l'on appelle un prétraitement. De ce point de vue, des progrès significatifs ont été réalisés : le groupe de latinistes baptisé OMNIA a mené à bonne fin la constitution des outils nécessaires à la tokenisation, au postagging et à la lemmatisation du latin (principalement Bruno Bon, Renaud Alexandre, Anita Guerreau-Jalabert [IRHT-CNRS], Eliana Magnani, Marie-José Gasse-Grandjean, Nicolas Perreaux [ARTEHIS-CNRS], Olivier Canteaut, Frédéric Glorieux [École des Chartes] et moi-même [CRH-CNRS]). Il est donc bien temps de se préoccuper de la disponibilité d'un corpus approprié à la recherche.

1. Préalables Le contexte Le droit d'auteur 2. Ressources Les ressources en open access Les CDROMS L'OCR propre et le dirty OCR Les lacunes 3. Méthodes L'indexation Remarque brève sur la non-fixation des textes Quelques considérations sur l'organisation pratique d'une base de données textuelles latines Conclusion