premier-cours-tal
10 pages
Français
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres
10 pages
Français
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Description

Violaine Prince 19/01/05Introduction Les outilsCours sur le traitement  Analyseursautomatique des langues  Bases de connaissance Les applicationsViolaine Prince  Ingénierie linguistiqueUniversité de Montpellier 2  Aux autres domaines deLIRMM-CNRS l ’informatique Aide à la recherche linguistiqueApplication aux autresIngénierie domaines delinguistique : l’ informatique Aide à la traduction automatique  Moteurs de recherched ’information Correcteurs grammaticaux etorthographiques  Interrogation de bases de données Dictionnaires  Tuteurs intelligents Alignement de corpus multilingues  Informatique documentaire Résumés automatiques  Reconnaissance de la parolecontinueCours sur le traitement automatique deslangues 1 Violaine Prince 19/01/05Aide à la recherchelinguistique Thématiques etdomaines Recherche de fréquences  Les différents types de « TAL » Informatique linguistique Aide à l ’analyse de textes Algorithmique et info théorique Typage de données textuelles Intelligence Artificielle Systèmes à base d ’agents Linguistique informatique Statistiques LogiqueAnalyseÉléments traités automatique Analyse automatique  Dimensions d ’analyse Modèles et outils  Morphologique Terminologie  Syntaxique Sémantique Présentation des options PragmatiqueCours sur le traitement automatique deslangues 2Violaine Prince 19/01/05Analyse Exemplemorphologique Objectif :  Ajouter du texte Reconnaissance de mots dans ...

Informations

Publié par
Nombre de lectures 136
Langue Français

Extrait

Violaine Prince 19/01/05
Introduction
 Les outils
Cours sur le traitement  Analyseurs
automatique des langues  Bases de connaissance
 Les applications
Violaine Prince  Ingénierie linguistique
Université de Montpellier 2  Aux autres domaines de
LIRMM-CNRS l ’informatique
 Aide à la recherche linguistique
Application aux autresIngénierie domaines delinguistique : l’ informatique
 Aide à la traduction automatique  Moteurs de recherche
d ’information Correcteurs grammaticaux et
orthographiques  Interrogation de bases de données
 Dictionnaires  Tuteurs intelligents
 Alignement de corpus multilingues  Informatique documentaire
 Résumés automatiques  Reconnaissance de la parole
continue
Cours sur le traitement automatique des
langues 1
 Violaine Prince 19/01/05
Aide à la recherche
linguistique Thématiques et
domaines
 Recherche de fréquences  Les différents types de « TAL »
 Informatique linguistique Aide à l ’analyse de textes
 Algorithmique et info théorique Typage de données textuelles
 Intelligence Artificielle
 Systèmes à base d ’agents
 Linguistique informatique
 Statistiques
 Logique
Analyse
Éléments traités automatique
 Analyse automatique  Dimensions d ’analyse
 Modèles et outils  Morphologique
 Terminologie  Syntaxique
 Sémantique Présentation des options
 Pragmatique
Cours sur le traitement automatique des
langues 2Violaine Prince 19/01/05
Analyse Exemplemorphologique
 Objectif :  Ajouter du texte
 Reconnaissance de mots dans un
Reconnaissance de la frontière des unitéstexte
lexicales (ul)
de la ponctuation
Reconnaissance de l ’ul
AJOUTER  Affectation d ’une catégorie comme « motif» présent dans
grammaticale au mot un thésaurus : catégorie
« verbe» , forme « infinitif » S ’appelle LEMMATISATION ou
ETIQUETAGE Lettre majuscule A : reconnaissance du
début du texte
La multiplicité desQuelques difficultés signes
 J ’ajoute du texte  Les signes spéciaux :
 Qui interviennent dans une unité
lexicale :
Reconnaître une forme de « je» pronom
 - , exemple : porte-manteaupersonnel
 ‘ , exemple : aujourd’hui
 qui marquent la contraction :Reconnaître une forme du motif « ajouter»
ou le reconnaître comme motif : catégorie  ‘ , exemple : j ’arrive
« verbe» , forme « première personne du
 Qui marquent un début ou une fin
singulier» . d ’unité composée :
 « », ( ), majuscule et point, — —.
Cours sur le traitement automatique des
langues 3
 
     
   
   
       
   Violaine Prince 19/01/05
L’ambiguï té Les signes de ponctuation :
 , : ;
 Les signes d ’énumération :  Des signes :
 1) nombre suivi d ’une parenthèse  l ’apostrophe, le tiret, la parenthèse
fermante fermante
 —, -,*
 Des catégories affectables à une
 Le symbole du dialogue ul :
 _  une texture ferme adjectif
 Les signes d ’annotation (*), (1)  je ferme la porte verbe
nom la ferme de Jean Les signes arithmétiques et les
nombres inclus dans un texte
Le côté « multiplicatif»
de l’ ambiguïté de
 De la majuscule : début de texte catégorie
ou emphase
 Je ferme la porte ambiguïté de forme précise
 je ferme la porte
 ferme VERBE
• catégorie : VERBE
PRONOM
• forme : 1ere personne du singulier
(FORME FLECHIE) NOM ARTICLE
ADJECTIF
 Il ferme la porte
 ferme
• catégorie : VERBE
• forme : 3ème personne du singulier
Cours sur le traitement automatique des
langues 4
 
   
 Violaine Prince 19/01/05
La combinatoire Les différentes
théorique techniques
 pronom verbe pronom verbe d’analyse
verbe article verbe morphologique
 pronom verbe pronom nom
verbe article nom  Soit une ul U dans un texte T
 pronom nom pronom verbe
 Etiquetage
nom article verbe
 affectation d ’une catégorie
 pronom nom pronom nomLA BONNE grammaticale et/ou d ’une forme à
nom article nomCOMBINAISON U
 pronom adjectif pronom verbe
 Lemmatisation
 etc. soit 12 combinaisons alors qu ’il n ’y en
 étiquetage et reconnaissance de Ua qu ’une seule de bonne...
comme élément de dictionnaire
 Etiquetage tri-gramme
Exemples  (« U »,C , F )
U U
 où F est la forme prise par U Je ferme la porte
(forme fléchie)
 Etiquetage :
 Lemmatisation avec étiquetage tri-
 (« je », pronom personnel ),
gramme(« ferme », verbe),(« la »
article),(« porte »,nom)  (« U »,C , F , LEXEME)U U
 étiquetage en bi-grammes
 Un lexème est une unité lexicale
• (« U »,C )U signifiante.
 Lemmatisation
 Exemples : FERMER, JE, LA,
 Etiquetage plus
PORTE, PORTER...
 (« ferme », verbe : FERMER)
• (« U »,C , LEXEME)U
Cours sur le traitement automatique des
langues 5Violaine Prince 19/01/05
Quelques éléments
de terminologie Exemples
 Entrée lexicale :  Il existe trois entrées lexicales pour
 Unité lexicale qui sert d’entrée du l ’ul « ferme »
dictionnaire. Elle est généralement • (« ferme », FERMER,verbe,{ 1ère
personne du singulier, 3èmereprésentée par :
personne du singulier})• la chaîne de caractères Χ qui la
• (« ferme », FERME, nom commun,définit
féminin singulier)
• le lexème L auquel elle est associée
• (« ferme »,FERME, adjectif
• la catégorie grammaticale associée qualificatif, {masculin singulier,
• la ou les forme(s) fléchie(s) du lexème féminin singulier})
catégorisé prise par la chaîne de
 Remarque : les lexèmes peuventcaractères.
 (Χ, L, C, {F }) être ambigus.Χ
 Dictionnaires sémantiques de
Les dictionnaires formes fléchies:
 on ajoute le sens du mot pour
augmenter la discrimination
 Dictionnaires de lexèmes
• (« ferme », FERMER,verbe,{ 1ère
uniquement : thesaurii personne du singulier, 3ème
personne du singulier}, *FERMER)lexicographiques
– ici, on met un pointeur sur la
 FERMER : verbe forme infinitive fermer, qui va elle,
 FERME-1 : nom commun porter le ou les sens.
• (« ferme », FERME-1, nom commun, FERME-2 ; adjectif qualificatif
féminin singulier, bâtiment agricole)
 Dictionnaires de formes fléchies : • (« ferme », FERME-1b, nom
commun,féminin singulier, poutre detoutes les entrées lexicales de type
toit)(Χ, L, C, {F })
Χ • etc.
Cours sur le traitement automatique des
langues 6Violaine Prince 19/01/05
Comment réaliser la Qualité de la
lemmatisation lemmatisation
 Pour chaque ul U d ’un texte T  La qualité de la lemmatisation est
l ’adéquation réelle entre ce que Si on a un dictionnaire de forme
doit valoir U dans le texte T et lafléchies de type ( , L, C, {F })
Χ
sous-liste (L, C, {F })alors Χ
sélectionnée. apparier U et Χ
 A priori, plus il existe de listes Récupérer toutes les sous-listes
différentes avec la même tête de(L, C, {F }) correspondantes.Χ
liste, plus la qualité de la
lemmatisation est mauvaise. Il faut
donc désambiguiser.
DésambiguisationTechiques de par l’analysedésambiguisation syntaxique
 Par l ’analyse syntaxique  Tous types d ’analyse depuis
l ’adjonction de quelques règles de
 Par apprentissage sur un corpus
syntaxe jusqu ’à l ’analyse
 On reste dans l ’hypothèse d ’un complète.
dictionnaire de formes fléchies
 Présentation de règles
d ’interdictionJe ferme la porte
• un article ne peut pas être suivi d’un
verbe
– pronom verbe article verbe
à supprimer – pronom nom article verbe
–adjectif article verbe
Cours sur le traitement automatique des
langues 7
 
ΧViolaine Prince 19/01/05
 Règles de composition autorisées Utilisation des
(et ce qui n ’est pas autorisé est Grammairesinterdit)
• Pronom verbe
à garder
• Article nom  (0)proposition -> groupe sujet
• Article adjectif groupe verbal
– pronom verbe pronom verbe
 (1)groupe sujet -> groupe nominal
– pronom verbe article verbe
 (2)groupe nominal -> pronom– pronom verbe pronom nom
à supprimer – pronom verbe article nom  (3)groupe nominal -> article nom
– pronom nom pronom verbe
 (4)groupe verbal -> verbe
– pronom nom article verbe
 (5)groupe verbal -> verbe groupe– pronom nom pronom nom
nominal– pronom nom article nom
– pronom adject

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents