Traitement automatique du contenu textuel
227 pages
Français

Traitement automatique du contenu textuel

-

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus
227 pages
Français
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

Description

L'abondance de textes sur support électronique crée de nouveaux besoins en matière d'analyse de l'information. Les enjeux concernent désormais la capacité des systèmes à aborder le contenu même des textes, c'est-à-dire le niveau sémantique au delà des simples mots-clés.
L'ouvrage Traitement automatique du contenu textuel présente des travaux récents en matière de traitement automatique des langues. Des applications variées exigeant une compréhension minimale du texte sont étudiées (annotation sémantique, extraction d'information, modélisation de textes techniques, résumé automatique multi-documents).
Elles mettent en œuvre des techniques d'analyse originales qui sont décrites et évaluées sur des données réelles. Cet examen permet une réflexion sur la plasticité de la langue, l'infinie variété des productions linguistiques et les difficultés qui en résultent.
Introduction. Chapitre 1. Une linguistique fondée sur l'usage. Chapitre 2. L'annotation sémantique. Chapitre 3. Rôles sémantiques et relations entre entités. Chapitre 4. Modélisation des connaissances pour l'analyse des textes. Chapitre 5. Conclusion. Remerciements. Annexe. Glossaire. Bibliographie. Index.

Sujets

Informations

Publié par
Date de parution 14 avril 2011
Nombre de lectures 9
EAN13 9782746241701
Langue Français
Poids de l'ouvrage 2 Mo

Informations légales : prix de location à la page 0,0382€. Cette information est donnée uniquement à titre indicatif conformément à la législation en vigueur.

Exrait

Traitement automatique du contenu textuel
Le chapitre 3 de cet ouvrage a été écrit en collaboration avec Cédric Messiant et le chapitre 4 avec Amanda Bouffier et Aurélien Bossard.
© LAVOISIER, Paris, 2011 LAVOISIER 11, rue Lavoisier 75008 Paris www.hermes-science.com www.lavoisier.fr ISBN 978-2-7462-3191-7 Le Code de la propriété intellectuelle n’autorisant, aux termes de l’article L. 122-5, d’une part, que les "copies ou reproductions strictement réservées à l’usage privé du copiste et non destinées à une utilisation collective" et, d’autre part, que les analyses et les courtes citations dans un but d’exemple et d’illustration, "toute représentation ou reproduction intégrale, ou partielle, faite sans le consentement de l’auteur ou de ses ayants droit ou ayants cause, est illicite" (article L. 122-4). Cette représentation ou reproduction, par quelque procédé que ce soit, constituerait donc une contrefaçon sanctionnée par les articles L. 335-2 et suivants du Code de la propriété intellectuelle. Tous les noms de sociétés ou de produits cités dans cet ouvrage sont utilisés à des fins d’identification et sont des marques de leurs détenteurs respectifs. Printed and bound in England by Antony Rowe Ltd, Chippenham, April 2011.
Traitement automatique du contenu textuelThierry Poibeau en collaboration avec Amanda Bouffier Aurélien Bossard Cédric Messiant
Table des matières
Introduction13. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I.1. La compréhension automatique de texte . . . . . . . . . . . . . . . . 14 I.2. La quête du sens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 I.3. Du corpus au modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 I.4. Vers une sémantique applicative et automatique . . . . . . . . . . . 19 I.5. Contenu de l’ouvrage . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Chapitre 1.Une linguistique fondée sur l’usage. . . . . . . . . . . . . . 23 1.1. Une linguistique sans théorie ? . . . . . . . . . . . . . . . . . . . . . . 23 1.2. Le sens, c’est l’usage ! La grammaire du sens selon Wittgenstein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 1.3. Héritage philosophique et tradition linguistique anglo-saxonne . 31 1.3.1. Firth et la notion de collocation . . . . . . . . . . . . . . . . . . 32 1.3.2. Le CLRU et la notion de primitive sémantique . . . . . . . . 34 1.3.3. Harris et les sous-langages . . . . . . . . . . . . . . . . . . . . . 36 1.3.4. Remarque sur les méthodes probabilistes en linguistique . . 38 1.4. Retour à l’analyse linguistique . . . . . . . . . . . . . . . . . . . . . . 40 1.4.1. La question de la référence . . . . . . . . . . . . . . . . . . . . . 41 1.4.2. Eléments pour l’analyse . . . . . . . . . . . . . . . . . . . . . . . 43 1.4.2.1. Le texte comme point de départ et point d’arrivée . . . 43 1.4.2.2. L’interprétation pour donner du sens . . . . . . . . . . . 44 1.4.2.3. Le corpus, représentatif d’une pratique . . . . . . . . . . 45
6 Traitement automatique du contenu textuel 1.4.2.4. Les connaissances sur le monde, pour dépasser les limites du corpus. . . . . . . . . . . . . . . . . . . . . . . . . . . 45 1.4.2.5. Les différents paliers d’analyse . . . . . . . . . . . . . . . 47 1.5. Limites des réalisations applicatives . . . . . . . . . . . . . . . . . . 48 1.5.1. Questionner les modèles . . . . . . . . . . . . . . . . . . . . . . 48 1.5.2. Reconsidérer les catégories traditionnelles . . . . . . . . . . . 49
Chapitre 2.L’annotation sémantique. . . . . . . . . . . . . . . . . . . . . 532.1. Des atomes de sens ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 2.1.1. Une normalisation nécessaire pour la compréhension automatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 2.1.2. L’annotation sémantique et le web . . . . . . . . . . . . . . . . 55 2.2. Les entités nommées comme éléments atomiques de sens . . . . . 57 2.2.1. La notion d’entité nommée . . . . . . . . . . . . . . . . . . . . . 58 2.2.2. Systèmes de repérage et de catégorisation des entités nommées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 2.2.2.1. Hiérarchies de types d’entités . . . . . . . . . . . . . . . . 61 2.2.2.2. Repérage et classification des entités nommées. . . . . 63 2.3. TAGEN, un système de repérage des entités nommées . . . . . . . 64 2.3.1. Principes généraux . . . . . . . . . . . . . . . . . . . . . . . . . . 64 2.3.1.1. Aspects logiciels . . . . . . . . . . . . . . . . . . . . . . . . 64 2.3.1.2. Ressources . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 2.3.1.3. Augmentation de la couverture par acquisition à partir de corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 2.3.2. Evaluation et participation à des campagnes d’évaluation . 68 2.3.3. Modules multilingues . . . . . . . . . . . . . . . . . . . . . . . . 70 2.3.4. Désambiguïsation des entités. . . . . . . . . . . . . . . . . . . . 71 2.4. Difficultés et limites de la catégorisation . . . . . . . . . . . . . . . 72 2.4.1. Instabilité référentielle des entités nommées en contexte . . 72 2.4.2. Entités et contenu sémantique . . . . . . . . . . . . . . . . . . . 74 2.4.3. Analyse automatique de la métonymie . . . . . . . . . . . . . 75 2.4.3.1. Description de la tâche . . . . . . . . . . . . . . . . . . . . 75 2.4.3.2. Corpus disponibles . . . . . . . . . . . . . . . . . . . . . . . 76 2.4.3.3. Système développé et performances . . . . . . . . . . . . 77 2.4.4. Commentaires sur les expériences . . . . . . . . . . . . . . . . 80 2.5. Perspectives. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
Table des matières 7
Chapitre 3.Rôles sémantiques et relations entre entités . . . . . . . . 833.1. Sur la notion de prédicat . . . . . . . . . . . . . . . . . . . . . . . . . . 84 3.1.1. Considérations générales . . . . . . . . . . . . . . . . . . . . . . 84 3.1.2. Stratégie d’acquisition automatique à partir de corpus . . . . 86 3.2. Acquisition de schémas de sous-catégorisation . . . . . . . . . . . 87 3.2.1. Etat de l’art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 3.2.2. La sous-catégorisation, une notion floue . . . . . . . . . . . . 90 3.2.3. Acquisition automatique de schémas de sous-catégorisation : le système ASSCi . . . . . . . . . . . . . . . 93 3.2.3.1. Architecture générale d’ASSCi . . . . . . . . . . . . . . . 93 3.2.3.2. Prétraitements . . . . . . . . . . . . . . . . . . . . . . . . . . 94 3.2.3.3. Extracteur de pré-schémas de sous-catégorisation locaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 3.2.3.4. Constructeur de schémas de sous-catégorisation candidats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 3.2.3.5. Filtre des schémas non pertinents. . . . . . . . . . . . . . 100 3.2.4. Expérience : acquisition de LEXSCHEM102. . . . . . . . . . . . . 3.2.4.1. Le corpus LM10 . . . . . . . . . . . . . . . . . . . . . . . . 102 3.2.4.2. LEXSCHEM103. . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.5. Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 3.2.5.1. Evaluation quantitative : comparaison avec d’autres ressources . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 3.2.5.2. Application à un nouveau corpus : analyse du corpus EUROPARL . . . . . . . . . . . . . . . . . . . . . 110 3.2.5.3. Typologie des erreurs du système ASSCi . . . . . . . . 111 3.3. Acquisition semi-automatique de familles sémantiques . . . . . . 113 3.3.1. Acquisition automatique de classes sémantiques par apprentissage symbolique interactif . . . . . . . . . . . . . . . . . . . 113 3.3.2. Utilisation d’une ressource linguistique générale : le réseau sémantique de MEMODATA. . . . . . . . . . . . . . . . . . . 115 3.3.3. Evaluation et comparaison des deux approches . . . . . . . . 116 3.3.4. Définition d’une méthode hybride . . . . . . . . . . . . . . . . 117 3.4. Discussion et perspectives. . . . . . . . . . . . . . . . . . . . . . . . . 118
8 Traitement automatique du contenu textuel Chapitre 4.Modélisation des connaissances pour l’analyse textuelle121. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1. Analyse et typologies de documents procéduraux . . . . . . . . . . 122 4.1.1. Modélisation d’un genre de textes particulier : les Guides de bonnes pratiques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 4.1.1.1. La notion d’architecture textuelle . . . . . . . . . . . . . 124 4.1.1.2. Présentation du corpus . . . . . . . . . . . . . . . . . . . . 125 4.1.1.3. La segmentation des guides, un problème de portée . . 126 4.1.1.4. Stratégie d’analyse . . . . . . . . . . . . . . . . . . . . . . . 129 4.1.1.5. Architecture et implémentation . . . . . . . . . . . . . . . 131 4.1.1.6. Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 4.1.2. Extension de l’analyse à d’autres types de textes . . . . . . . 134 4.1.2.1. Qu’est-ce qu’un texte ? . . . . . . . . . . . . . . . . . . . . 134 4.1.2.2. Traitements automatiques et genres textuels . . . . . . . 136 4.1.2.3. Elargir l’étude à d’autres types de textes procéduraux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 4.1.3. Repérage de séquences procédurales au-delà des GBP . . . 140 4.1.3.1. Genre, type et fonction discursive . . . . . . . . . . . . . 142 4.1.3.2. Etude manuelle du corpus : variations sur la procéduralité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 4.1.3.3. Discussion et perspectives : vers un repérage automatique ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 4.2. Analyse textuelle pour le résumé automatique . . . . . . . . . . . . 145 4.2.1. Travaux antérieurs . . . . . . . . . . . . . . . . . . . . . . . . . . 146 4.2.2. Concevoir un système de résumé générique . . . . . . . . . . 149 4.2.2.1. Préparation des documents . . . . . . . . . . . . . . . . . . 150 4.2.2.2. Représentation des phrases. . . . . . . . . . . . . . . . . . 151 4.2.2.3. Calculs des similarités entre phrases . . . . . . . . . . . . 151 4.2.2.4. Classification des phrases en classes sémantiques . . . 152 4.2.2.5. Sélection des phrases . . . . . . . . . . . . . . . . . . . . . 153 4.2.2.6. Ordonnancement des phrases dans résumé . . . . . . . . 154 4.2.3. Mises en œuvre applicatives . . . . . . . . . . . . . . . . . . . . 154 4.2.3.1. Visualisation de fonds documentaires . . . . . . . . . . . 154 4.2.3.2. Résumé de « mise à jour » . . . . . . . . . . . . . . . . . . 156 4.2.3.3. Résumé d’opinion . . . . . . . . . . . . . . . . . . . . . . . 162 4.3. Discussion et perspectives. . . . . . . . . . . . . . . . . . . . . . . . . 170
  • Accueil Accueil
  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • BD BD
  • Documents Documents