Modèles de langage, comment ça se fabrique ?

Modèles de langage, comment ça se fabrique ?

-

Documents
48 pages
Lire
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Description

Mod`eles de langage, comment ca¸ se fabrique ?Brigitte BigiCLIPS - Equipe GEODITC - Avril 2006Brigitte Bigi (CLIPS - Equipe GEOD) Mod`eles de langage, comment ca¸ se fabrique ? ITC - Avril 2006 1 / 48Plan1 Introduction2 Du texte brut au corpus3 Du corpus au Mod`ele de Langage4 Interpolation de Mod`eles de Langage5 Autres outils bien pratiquesBrigitte Bigi (CLIPS - Equipe GEOD) Mod`eles de langage, comment ¸ca se fabrique ? ITC - Avril 2006 2 / 48Introduction1 Introduction2 Du texte brut au corpus3 Du corpus au Mod`ele de Langage4 Interpolation de Mod`eles de Langage5 Autres outils bien pratiquesBrigitte Bigi (CLIPS - Equipe GEOD) Mod`eles de langage, comment ¸ca se fabrique ? ITC - Avril 2006 3 / 48IntroductionIntroductionUn mod`ele statistique du langage est une distributionde probabilit´es sur des mots ou suites de motsIl permet de classer les mots ou les phrases selon leurprobabilit´e d’apparitionIl faut estimer la probabilit´e P(W) d’un mot oud’une suite de mots W = w w ...w1 2 nPar exemple, estimer P(”une suite de cinq mots”)Brigitte Bigi (CLIPS - Equipe GEOD) Mod`eles de langage, comment ¸ca se fabrique ? ITC - Avril 2006 4 / 48IntroductionRappelOn fait l’hypoth`ese que chaque mot ne d´epend que des (n-1) motsqui le pr´ec`edentTrigrammen = 3un mot d´epend des 2 mots qui le pr´ec`edentOn apprend la distribution de probabilit´e des n-grams`a partir d’un ensemble de textes que l’on appelle corpusBrigitte Bigi (CLIPS - Equipe GEOD) ...

Sujets

Informations

Publié par
Nombre de visites sur la page 45
Langue Français
Signaler un problème
igttBir(iLCBegiuiEqS-IP)MODGEpedsele`doegagnalec¸safebac,moemtnC-Avril2riqueIT
Brigitte Bigi
ITC - Avril 2006
CLIPS - Equipe GEOD
Mod`elesdelangage,commentc¸asefabrique?
160084/
rBgitietoM)DOEGeedsele`dLI(CgiBiipqu-EPSafrbacesICTqieuage,langent¸comm
3
DucorpusauMod`eledeLangage
5
Autres outils bien pratiques
InterpolationdeMode`lesdeLangage
4
2
Du texte brut au corpus
1
Introduction
/260
Plan
84rvA-02li
eGipD)EOd`Moeselaledgagnoc,enemmBrigitetiBigC(ILSPE-uq
DucorpusauMod`eledeLangage
3
Du texte brut au corpus
2
Introduction
1
Autres outils bien pratiques
5
4
InterpolationdeMod`elesdeLangage
euIrbqiesaf¸tac3/482006vrilTC-AniotcudortnI
Il permet de classer les mots ou les phrases selon leur probabilit´edapparition
Ilfautestimerlaprobabilite´P(W) d’un mot ou d’une suite de motsW=w1w2...wn Par exemple, estimerP(”une suite de cinq mot”) s
8
Introduction
Unmode`lestatistiquedulangageestunedistribution deprobabilit´essurdesmotsousuitesdemots
64/4l200uipeGEODCLIPS-EqdslenaagM)doe`el¸cntefas,cgemeom-CTIirvAirbaeuqoductionIntrtteBigi(Brigi
Iortntcudnio-ATCIue0620ilvrac¸tnemmqirbafes
Rappel
Onapprendladistributiondeprobabilite´desn-grams a partir d’un ensemble de textes que l’on appelle corpus `
Onfaitlhypoth`esequechaquemotned´ependquedes(n-1)mots quileprece`dent ´ Trigramme n= 3 unmotde´penddes2motsquilepr´ec`edent
/584itigBite(CgiPSLIrBelesdelangage,coE-uqpiGeOE)DoM`d
ontiucodtrIn8
Proce´de´
Cre´erunmod`elestatistiquedulangagepeutsere´sumeren3 operations : ´ 1Collecter des textes 2Transformer les textes en corpus 3tsirubitnoedrpboabilit´esrTemrofsnapuorecrldinenuse Enpratique,cesoperationssontloinsdeˆtretriviales ´
002l4/66-CTIirvAriabequ¸cntefasmoemegc,naagdsle`ele)ModGEODuipeqE-SPILC(igiBettgiriB
igeBCLi(riBttgigageelanlesdod`eDOM)epEGqEiuPI-Sl2riAvC-ITequribafesac¸tnemmoc,67008/4
Collecter des textes
O`utrouverdestextes?Etcommentlesrecuperer? ´ ´ CD/ROM de journaux transcriptions manuelles de documents de parole Web Lestextesdoiventˆetreenad´equationaveclapplicationvise´e ˆdomaiethe´matique meme n meˆmestyledelangage meme epoque ˆ ´ Lestextesdoiventˆetreenquantite´susante
rontInioctdu
8
Lestextesdoiventsuivredesre`glesde´criture,comme contenirunephraseparligneavecdesbalisesdede´butetndephrase ˆetr´ritsseulementenminuscule e ec avoirlecaract`ereespacecommes´eparateurdemot respecterunvocabulairepre´d´eni ...
68/4l200AvriTI-Cuqebairsafeagnac,egemmoc¸tnODGEod)Mle`eelsdgi(iLCPI-SqEiuepBrigitteBntIioctdurorofsarTnetselremencoxtesrpus
InnortdocuitDOM)epEGqEiuPI-Sgageelanlesdod`eCLi(igeBttgiriB
Quel toolkit ? 1-grams, 2-grams, 3-grams, 4-grams, 5-grams, ... ? Quelleestlaquantit´edecorpusutile/pertinente? Quelle valeur de cut-off ? Quelleme´thodedesmoothing?
Transformer le corpus en une distribution de probabilit´s e
00964/8sac¸bafemoc,tnemAvC-l2riquriITe
docuitnoIntr8
Exemple de texte d’origine
Des´eclairciesfugacessannoncentenmi-journeepresdesfrontie`resdu ´ ` nord-estmaislecielsecouvrepeua`peuparunvoiledenuagesqui s´epaissitparlouest.Lapluiese´tendenjournee`alamajeurepartiedu ´ paysene´vitanttemporairementlextreˆmenord-estetlextrˆemesud-estdu pays,maislespre´cipitationsfaiblissentprogressivementlapr`es-midiet deviennentpluseparses,alorsquequelquestroue´esensoleille´esse ´ montrent temporairement sur le nord-ouest. Les flancs ouest du relief gardent des pluies continues. Leventdouestsouemode´r´ementsurlescˆotesatlantique.Ilsouede sud-ouestsurlescˆotesdelaMancheenserenforcant,atteignant60a`70 km/hensoire´e.Pr`esdelaM´editerrane´e,ilatteint70`a80km/henrafales, maispermetdes´eclaircies,pluslargesenProvence-CˆotedAzur,ilse calme en s i ´ .” o ree
200610/4cat¸fasecoe,enmmA-CTlirvqirbIeuEOD)ipeG-EquLIPSgngaedalleseoM`dC(igiBettigirB
)MODGEpesdle`eodLC(igiBeiuqE-SPIefab¸caseITriquageglenaemtnc,mo
<s>ed´scealriicseufgacessannoncentneimojru´neerpe`sdesfronti`eres dunord-estmaislecielsecouvrepeu`apeuparunvoiledenuagesquis´epaissitparlouest< /s> <s>tavintyspa´eenrn´ee`alendenjouaptreiudmajaueerpllaet´esui temporairementlextrˆemenord-estetlextreˆmesud-estdupaysmaisles pre´cipitationsfaiblissentprogressivementlapr`es-midietdeviennentplus ´lorsquequelquestrou´eesensoleille´essemontrenttemporairement eparses a sur le nord-ouest< /s> <s>flancs ouest du relief gardent des pluies continuesles < /s> <s>qieualtnesatcˆotrlesntsueme´re´domeuostesoudntvele< /s> <s>eedsluouoseus-dlesctsursdelˆoteeehcnamaofneresntanrci atteignantsoixante`asoixantedixkmhensoir´ee< /s> <s>ntedoixaintsattenitgerv-uqtaxia`nhekmpse`ralededm´eritn´railee rafalesmaispermetdese´clairciespluslargesenprovencecˆotedazurilse calmeensoire´e< /s>
Exemple de texte propre
vA-C2lir160084/1irBttigudoroitcnInt