es JADT 2006 : 8 Journées internationales d’Analyse statistique des Données Textuelles
Productivité quantitative du procédé morphologique suffixal -abledans un corpus journalistique du français
1 Natalia Grabar (natalia.grabar@spim.jussieu.fr) , 2 GeorgetteDal(georgette.dal@univ-lille3.fr), 3 Bernard Fradin (bernard.fradin@linguist.jussieu.fr) , 4 NabilHathout(nabil.hathout@univ-tlse2.fr), 5 Stéphanie Lignon (stephanie.lignon@uha.fr) , 6 FiammettaNamer(Fiammetta.Namer@univ-nancy2.fr), 3 Clément Plancq (clement.plancq@linguist.jussieu.fr) , 3 Delphine Tribout (dtribout@linguist.jussieu.fr) , 7 François Yvon (francois.yvon@inf.enst.fr) , 1,8 Pierre Zweigenbaum (pz@biomath.jussieu.fr)
1 Université Paris Descartes, Faculté de Médecine ; Inserm, U729 ; SPIM, Paris, 75006 2 France ; MDC, UMR 8528 SILEX, CNRS, Université de Lille 3 ; 3 4 UMR 7110 LLF, CNRS, Université Paris 7 ; CR1, UMR 5610 ERSS, CNRS et Université 5 6 Toulouse 2 ; MDC, Université de Mulhouse ; MDC, ATILF, CNRS, Université de Nancy 2 ; 7 8 MDC,ENSTParis;INaLCO/Paris,DSI,AP-HP
Abstract In this paper, we present our work on quantitative productivity of morphological units of contemporary French. We study especially the suffixa-lbeas it occurs in the journalistic corpusLe Mondeduring 1995. We combine the usage of automatic tools and of human analysis and we point out their complementarity, especially when working on textual data. We assess as well the importance ofa prioridecisions on the material. We discuss the differences observed with this suffix in different studied corpora and bring out its productive and improductive zones inLe Mondearticles during 1995.
Résumé Dans cet article, nous présentons les travaux effectués autour de l’étude quantitative de la productivité des procédés morphologiques du français contemporain. Nous nous consacrons en particulier au procédé suffixalea-lbtel qu’il apparaît dans le corpus journalistiqueLe Mondede l’année 1995. Dans ce travail, nous combinons les approches automatique et manuelle et nous montrons leur complémentarité, car chacune a un rôle à assurer dans le travail avec des données textuelles. Nous montrons également l’influence effectuée par les décisionsa priorisur le matériel. Nous discutons les différences de comportement du suffixeble-aselon les corpus et dégageons ses zones de productivité et d’improductivité dans les articles duMondeen 1995.
Keywords:Productivité quantitative, morphologie, corpus journalistique
1. Introduction
Nous présentons dans ce papier les premiers résultats quantitatifs portant productivité morphologique mené par l’action 1 du GdR 2220 du CNRS «
sur le travail sur la Description et mo-