La lecture en ligne est gratuite
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Partagez cette publication

Violaine Prince 19/01/05
Introduction
 Les outils
Cours sur le traitement  Analyseurs
automatique des langues  Bases de connaissance
 Les applications
Violaine Prince  Ingénierie linguistique
Université de Montpellier 2  Aux autres domaines de
LIRMM-CNRS l ’informatique
 Aide à la recherche linguistique
Application aux autresIngénierie domaines delinguistique : l’ informatique
 Aide à la traduction automatique  Moteurs de recherche
d ’information Correcteurs grammaticaux et
orthographiques  Interrogation de bases de données
 Dictionnaires  Tuteurs intelligents
 Alignement de corpus multilingues  Informatique documentaire
 Résumés automatiques  Reconnaissance de la parole
continue
Cours sur le traitement automatique des
langues 1
 Violaine Prince 19/01/05
Aide à la recherche
linguistique Thématiques et
domaines
 Recherche de fréquences  Les différents types de « TAL »
 Informatique linguistique Aide à l ’analyse de textes
 Algorithmique et info théorique Typage de données textuelles
 Intelligence Artificielle
 Systèmes à base d ’agents
 Linguistique informatique
 Statistiques
 Logique
Analyse
Éléments traités automatique
 Analyse automatique  Dimensions d ’analyse
 Modèles et outils  Morphologique
 Terminologie  Syntaxique
 Sémantique Présentation des options
 Pragmatique
Cours sur le traitement automatique des
langues 2Violaine Prince 19/01/05
Analyse Exemplemorphologique
 Objectif :  Ajouter du texte
 Reconnaissance de mots dans un
Reconnaissance de la frontière des unitéstexte
lexicales (ul)
de la ponctuation
Reconnaissance de l ’ul
AJOUTER  Affectation d ’une catégorie comme « motif» présent dans
grammaticale au mot un thésaurus : catégorie
« verbe» , forme « infinitif » S ’appelle LEMMATISATION ou
ETIQUETAGE Lettre majuscule A : reconnaissance du
début du texte
La multiplicité desQuelques difficultés signes
 J ’ajoute du texte  Les signes spéciaux :
 Qui interviennent dans une unité
lexicale :
Reconnaître une forme de « je» pronom
 - , exemple : porte-manteaupersonnel
 ‘ , exemple : aujourd’hui
 qui marquent la contraction :Reconnaître une forme du motif « ajouter»
ou le reconnaître comme motif : catégorie  ‘ , exemple : j ’arrive
« verbe» , forme « première personne du
 Qui marquent un début ou une fin
singulier» . d ’unité composée :
 « », ( ), majuscule et point, — —.
Cours sur le traitement automatique des
langues 3
 
     
   
   
       
   Violaine Prince 19/01/05
L’ambiguï té Les signes de ponctuation :
 , : ;
 Les signes d ’énumération :  Des signes :
 1) nombre suivi d ’une parenthèse  l ’apostrophe, le tiret, la parenthèse
fermante fermante
 —, -,*
 Des catégories affectables à une
 Le symbole du dialogue ul :
 _  une texture ferme adjectif
 Les signes d ’annotation (*), (1)  je ferme la porte verbe
nom la ferme de Jean Les signes arithmétiques et les
nombres inclus dans un texte
Le côté « multiplicatif»
de l’ ambiguïté de
 De la majuscule : début de texte catégorie
ou emphase
 Je ferme la porte ambiguïté de forme précise
 je ferme la porte
 ferme VERBE
• catégorie : VERBE
PRONOM
• forme : 1ere personne du singulier
(FORME FLECHIE) NOM ARTICLE
ADJECTIF
 Il ferme la porte
 ferme
• catégorie : VERBE
• forme : 3ème personne du singulier
Cours sur le traitement automatique des
langues 4
 
   
 Violaine Prince 19/01/05
La combinatoire Les différentes
théorique techniques
 pronom verbe pronom verbe d’analyse
verbe article verbe morphologique
 pronom verbe pronom nom
verbe article nom  Soit une ul U dans un texte T
 pronom nom pronom verbe
 Etiquetage
nom article verbe
 affectation d ’une catégorie
 pronom nom pronom nomLA BONNE grammaticale et/ou d ’une forme à
nom article nomCOMBINAISON U
 pronom adjectif pronom verbe
 Lemmatisation
 etc. soit 12 combinaisons alors qu ’il n ’y en
 étiquetage et reconnaissance de Ua qu ’une seule de bonne...
comme élément de dictionnaire
 Etiquetage tri-gramme
Exemples  (« U »,C , F )
U U
 où F est la forme prise par U Je ferme la porte
(forme fléchie)
 Etiquetage :
 Lemmatisation avec étiquetage tri-
 (« je », pronom personnel ),
gramme(« ferme », verbe),(« la »
article),(« porte »,nom)  (« U »,C , F , LEXEME)U U
 étiquetage en bi-grammes
 Un lexème est une unité lexicale
• (« U »,C )U signifiante.
 Lemmatisation
 Exemples : FERMER, JE, LA,
 Etiquetage plus
PORTE, PORTER...
 (« ferme », verbe : FERMER)
• (« U »,C , LEXEME)U
Cours sur le traitement automatique des
langues 5Violaine Prince 19/01/05
Quelques éléments
de terminologie Exemples
 Entrée lexicale :  Il existe trois entrées lexicales pour
 Unité lexicale qui sert d’entrée du l ’ul « ferme »
dictionnaire. Elle est généralement • (« ferme », FERMER,verbe,{ 1ère
personne du singulier, 3èmereprésentée par :
personne du singulier})• la chaîne de caractères Χ qui la
• (« ferme », FERME, nom commun,définit
féminin singulier)
• le lexème L auquel elle est associée
• (« ferme »,FERME, adjectif
• la catégorie grammaticale associée qualificatif, {masculin singulier,
• la ou les forme(s) fléchie(s) du lexème féminin singulier})
catégorisé prise par la chaîne de
 Remarque : les lexèmes peuventcaractères.
 (Χ, L, C, {F }) être ambigus.Χ
 Dictionnaires sémantiques de
Les dictionnaires formes fléchies:
 on ajoute le sens du mot pour
augmenter la discrimination
 Dictionnaires de lexèmes
• (« ferme », FERMER,verbe,{ 1ère
uniquement : thesaurii personne du singulier, 3ème
personne du singulier}, *FERMER)lexicographiques
– ici, on met un pointeur sur la
 FERMER : verbe forme infinitive fermer, qui va elle,
 FERME-1 : nom commun porter le ou les sens.
• (« ferme », FERME-1, nom commun, FERME-2 ; adjectif qualificatif
féminin singulier, bâtiment agricole)
 Dictionnaires de formes fléchies : • (« ferme », FERME-1b, nom
commun,féminin singulier, poutre detoutes les entrées lexicales de type
toit)(Χ, L, C, {F })
Χ • etc.
Cours sur le traitement automatique des
langues 6Violaine Prince 19/01/05
Comment réaliser la Qualité de la
lemmatisation lemmatisation
 Pour chaque ul U d ’un texte T  La qualité de la lemmatisation est
l ’adéquation réelle entre ce que Si on a un dictionnaire de forme
doit valoir U dans le texte T et lafléchies de type ( , L, C, {F })
Χ
sous-liste (L, C, {F })alors Χ
sélectionnée. apparier U et Χ
 A priori, plus il existe de listes Récupérer toutes les sous-listes
différentes avec la même tête de(L, C, {F }) correspondantes.Χ
liste, plus la qualité de la
lemmatisation est mauvaise. Il faut
donc désambiguiser.
DésambiguisationTechiques de par l’analysedésambiguisation syntaxique
 Par l ’analyse syntaxique  Tous types d ’analyse depuis
l ’adjonction de quelques règles de
 Par apprentissage sur un corpus
syntaxe jusqu ’à l ’analyse
 On reste dans l ’hypothèse d ’un complète.
dictionnaire de formes fléchies
 Présentation de règles
d ’interdictionJe ferme la porte
• un article ne peut pas être suivi d’un
verbe
– pronom verbe article verbe
à supprimer – pronom nom article verbe
–adjectif article verbe
Cours sur le traitement automatique des
langues 7
 
ΧViolaine Prince 19/01/05
 Règles de composition autorisées Utilisation des
(et ce qui n ’est pas autorisé est Grammairesinterdit)
• Pronom verbe
à garder
• Article nom  (0)proposition -> groupe sujet
• Article adjectif groupe verbal
– pronom verbe pronom verbe
 (1)groupe sujet -> groupe nominal
– pronom verbe article verbe
 (2)groupe nominal -> pronom– pronom verbe pronom nom
à supprimer – pronom verbe article nom  (3)groupe nominal -> article nom
– pronom nom pronom verbe
 (4)groupe verbal -> verbe
– pronom nom article verbe
 (5)groupe verbal -> verbe groupe– pronom nom pronom nom
nominal– pronom nom article nom
– pronom adjectif pronom verbe
– pronom adjectif pronom nom
–article verbe
– pronom adjectif nom
(0)
Les problèmes
(4)
(5)(1)
 Le langage naturel n ’est pas
indépendant du contexte sur le
(3)(3) plan grammatical(4)(2)
(2)  Les grammaires de la langue ne
sont pas complètes
la porte
je ferme
 Les textes peuvent être a-
grammaticaux
Arbre d’analyse syntaxique (descendant)
Cours sur le traitement automatique des
langues 8Violaine Prince 19/01/05
L’apprentissage sur Rappel et bruitcorpus
 Soit n le nombre d ’éléments du
corpus d ’origine C.
 Analyse de corpus
 Soit m le nombre d ’éléments du
 Un corpus est un ensemble de corpus analysé CA.
données (texte).
 Soit t le nombre d ’éléments de
l ’intersection de C et CA.Analyseur
classique Corpus analysé  Rappel : t/n
Corpus
 Bruit : m-t/n
 La qualité d’une analyse dépend deComparaison
ces deux variables.
ModificationTechnique itérative ded’apprentissage l’analyseur
 On part d ’un analyseur qui
Ana-possède un dictionnaire D et des
lyseurAna-règles R. Corpus Cp1 Corpus A2lyseur C1
 On teste sur un corpus C1 et on C2A0
C1-Cp1produit Cp1. Si le rappel r1<1, on
C2-Cp2fait :
Ana
 R {C1-Cp1} Cp2lyseur
 D {Ui ∈ {C1-Cp1}} A1
C1-Cp1
Cours sur le traitement automatique des
langues 9


   Violaine Prince 19/01/05
Problèmes et Eléments de
limites solution
 Problèmes
 Problèmes
 Vérifications manuelles
 Compatibilité des ajouts ? (PennTree), réduction de
 Non redondance ? l ’absurdité
 redondance par génération ou Mécanismes d ’abstraction non
identité : suppressiondirectement prévus
 Mécanismes d ’abstraction: Données incomplètes en
« raisonnement »lemmatisation
 Etiquetage plutôt que
 Limites lemmatisation.
 Le bruit n ’est pas géré.
A voir en option
 Analyseur lexical de Pitrat
 Un thésaurus et des règles de
conjugaison
 Etiqueteurs
 dictionnaires des formes fléchies
simplifiés
 A apprentissage sur corpus
d ’entraînement : Brill, PennTree
 Grammaticaux simples
(markoviens, ATN, automates,etc.)
 Analyseurs morphosyntaxiques
Cours sur le traitement automatique des
langues 10