Rapport de stage de fin d'études

fowyong - Nguyen Hong San

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

69 pages

Français

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

A propos
Informations
Extrait

Description

rapport de stage - matière potentielle : fin d' études

intégration des outils d'analyse linguistique
outil informatique pour la construction automatique des corpus
crawl
analyse syntaxique en dépendance
villes pionnières de l'informatique
irit
outils linguistique
outils linguistiques
outil linguistique
moteurs de recherches
moteurs de recherche
moteur de recherche
pages
page

Sujets

Institut de recherche en informatique de Toulouse

Université Toulouse II-Le Mirail

Institut de la Francophonie pour l'Informatique

Rapport de stage de fin d'études
MODULE D'EXTRACTION FOCALISE ET
ANALYSE AUTOMATIQUE
LINGUISTIQUE DU WEB

NGUYEN Hong San

Janvier 2007

Lieu de stage : Institut de Recherche en
Informatique de Toulouse (IRIT)
Période de stage : du 15/03/2006 au 30/09/2006
Tuteur de stage : Bruno GAUME Remerciements
Je tiens à remercier tout particulièrement Monsieur Bruno GAUME, tuteur de
stage et professeur de l'Université Paul Sabatier, qui m'a accueilli de faire ce stage dans
l'IRIT et m'a dirigé mon travail de recherche. Il m'a aussi donné des conseils dans le
domaine de recherche et ainsi ceux dans la vie quotidienne.
Je remercie aussi Franck SAJOUS, ingénieur de l'Équipe de Recherche en
Syntaxe et Sémantique pour son soutien technique pendant mon stage.
Je tiens également à exprimer toute ma sympathie à Alain MONIER pour ses
aides précieuses dans la démarche de mon séjour à Toulouse.
J’adresse en fin mes reconnaissances aux professeurs de l’Institut de la
Francophonie pour l’Informatique, pour m’avoir aidé à effectuer ce stage.
ii
Résumé
Ce stage se déroule dans un cadre d'une collaboration entre l'Institut de Recherche en
Informatique de Toulouse (IRIT) et l' Équipe de Recherche en Syntaxe et Sémantique
(ERSS). Notre objectif est de développer un outil informatique pour la construction
automatique des corpus à partir du web en utilisant les outils analyse linguistique
existés. Il s'agit de la construction d'un crawl focalisé du web et de l'intégration des
outils d'analyse linguistique pour analyser les pages Web. Dans un premier temps,
nous présentons un modèle de crawl focalisé qui parcourait le Web pour télécharger
les pages concernées à un sujet spécifique. Le crawl doit faire sortie deux résultats
importants: les contenus textuelle des pages Web et le graphe des hyperliens des pages
Web. Dans un deuxième temps, nous faisons une études sur les outils d'analyse
linguistique TreeTagger, Syntex et Upery et les intégrons dans le système pour
l'analyse des pages Web. Nous effectuons aussi le prétraitement des textes récupérés
par le crawl avant de les passer à des outils linguistique. Le résultat final est des corpus
analysés qui parlent d'un sujet spécifique.
Abstract
This internship proceeds within a collaboration between the IRIT and ERSS. Our
objective is to develop a tool for the automatic construction of the corpus from the
Web by using the existed tools of linguistic analysis. It is about construction of a
focused crawler of the Web and integration of the linguistic tools to analyze the Web
pages. Initially, we present a focused crawler model which traversed the Web to
download the pages concerned on a specific topic. The crawler must give two
important results: contents textual of Web pages and graph of hyperlinks of Web
pages. In the implementation of crawler, we pay attention at all the technical
problems: constitution of the starting germ, parallelism, strategies of crawl, politeness
and spider trap. In the second time, we study the tools for linguistic analysis
TreeTagger, Syntex and Upery and integrate them in the system for the analysis of the
Web pages. We carry out also the pretreatment of the texts recovered by the crawl
before passing to linguistics tools. The final result is analyzed corpus which speaks
about a specific topic.
iii
Table des matières
Introduction.................................................................................................. 1
1. Environnement de stage................................................................... 1
1.1. IRIT............................................................................................ 1
1.2. ERSS........................................................................................... 2
2. Problématique .................................................................................... 2
2.1. Crawl focalisé ............................................................................ 2
2.2. Graphes du Web....................................................................... 4
2.3. Analyse linguistique.................................................................. 4
3. Objectif du stage................................................................................ 5
4. Organisation du rapport................................................................... 7
Crawl du Web............................................................................................... 8
1. Introduction ....................................................................................... 8
2. Définitions.......................................................................................... 8
3. Architecture générale ........................................................................ 9
3.1. Architecture de 2-modules.................................................... 10
3.2. Architecture de 4-modules.................................................... 10
3.3. Algorithme de crawl............................................................... 12
4. Stratégies de crawl ........................................................................... 12
5. Respect de la politesse .................................................................... 15
Construction du crawl focalisé ................................................................ 17
1. Suppositions et notations............................................................... 17
1.1. Page Web................................................................................. 17
1.2. Germe de départ..................................................................... 18
1.3. Graphes.................................................................................... 19
2. Constitution du germe de départ .................................................. 20
iv
3. Architecture...................................................................................... 21
3.1. Composantes........................................................................... 21
3.2. Base de données ..................................................................... 33
3.3. Interface d'utilisateur.............................................................. 34
4. Environnement de programmation et dépendances ................. 35
Analyse linguitique des pages Web ......................................................... 37
1. Outils d'analyse linguistique........................................................... 37
1.1. TreeTagger............................................................................... 37
1.2. Syntex ....................................................................................... 38
1.3. Analyse syntaxique en dépendance...................................... 38
1.4. Construction du réseau de syntagmes................................. 46
1.5. Upery........................................................................................ 48
2. Intégration ........................................................................................ 52
Conclusion .................................................................................................. 54
1. Résultat obtenu ................................................................................ 54
2. Conclusion........................................................................................ 54
Bibliographie............................................................................................... 56
Annexe......................................................................................................... 58

v
Liste des figures
Figure 1: Diagramme des modules du stage................................................................ 6
Figure 2: Architecture de 2-modules .......................................................................... 10
Figure 3: Architecture de 4-modules .......................................................................... 11
Figure 4: Architecture du crawl ................................................................................... 22
ième Figure 5: Queue de deux niveaux: S1, S2,... sont les sites Web et Px.y est la y
page de site x....................................................................................................... 23
Figure 6: Parallélisme..................................................................................................... 24
Figure 7: Liens dans le frameset .................................................................................. 28
Figure 8: Liens dans les images mappées................................................................... 28
Figure 9: Exemple du calcul de la profondeur.......................................................... 33
Figure 10: Interface d'utilisateur 1...................................................................