Gestion de flux d information : Collecte et Indexation
50 pages
Français

Gestion de flux d'information : Collecte et Indexation

-

YouScribe est heureux de vous offrir cette publication
50 pages
Français
YouScribe est heureux de vous offrir cette publication

Description

Master ASIC 2013/2014 MEMOIRE DE STAGE Gestion deflux d’information: Collecte et Indexation Stage de 5 mois effectué au sein del’Institut deRecherche enInformatique deToulouse Mémoire soutenu à l’Université Toulouse 1 Capitole le 09 Septembre 2014 Présenté par : Nawfal Akadiri Encadrante : Josiane Mothe Tutrice : Faten Atigui Gestion de flux d’information : Collecte et Indexation Stage de 5 mois effectué au sein de l’Institut deRecherche enInformatique deToulouse Mémoire soutenu à l’Université Toulouse 1 Capitole le 09 Septembre 2014 Encadrante : Josiane Mothe Master ASIC 2013/2014 MEMOIRE DE STAGE Présenté par : Nawfal Akadiri Tutrice : Faten Atigui Remerciements Mes remerciementss’adressent en toutlieu à mes parents pour leur soutien premier indéfectible. Mes remerciementsvont aussi à l’endroit de la structure d’accueil à traversM. Daydé, directeur de l’IRIT et Mme Mothe, responsable de l’équipe SIG qui a étépar ailleurs mon encadrante. Enfin, je remercie tous ceux qui de près ou de loin ont contribué à l’élaboration de ce mémoire. Table des matières Introduction…………………………………………………………………………………………………………………………………………..……….……….

Informations

Publié par
Publié le 03 février 2015
Nombre de lectures 258
Langue Français
Poids de l'ouvrage 2 Mo

Extrait

Master ASIC 2013/2014
MEMOIRE DE STAGE
Gestion deflux d’information: Collecte et IndexationStage de 5 mois effectué au sein del’Institut deRecherche enInformatique deToulouse Mémoire soutenu à l’Université Toulouse 1 Capitole le 09 Septembre 2014
Présenté par : Nawfal Akadiri
Encadrante : Josiane Mothe
Tutrice : Faten Atigui
Gestion de flux d’information : Collecte et IndexationStage de 5 mois effectué au sein de l’Institut deRecherche enInformatique deToulouse Mémoire soutenu à l’Université Toulouse 1 Capitole le 09 Septembre 2014
Encadrante : Josiane Mothe
Master ASIC 2013/2014
MEMOIRE DE STAGE
Présenté par : Nawfal Akadiri
Tutrice : Faten Atigui
Remerciements
Mes remerciementss’adressent en toutlieu à mes parents pour leur soutien premier
indéfectible.
Mes remerciementsvont aussi à l’endroit de lastructure d’accueil à traversM. Daydé,
directeur de l’IRIT et Mme Mothe, responsable de l’équipe SIG qui a étépar ailleurs
mon encadrante.
Enfin, je remercie tous ceux qui de près ou de loin ont contribué à l’élaboration de ce
mémoire.
Table des matières
Introduction…………………………………………………………………………………………………………………………………………..……….………. 7
Partie 1 : Synthèse des travaux…………………………………………………………………………………………………………………………………81. Contexte………………………………………………………………………………………………………………………………………………………………..81.1 Présentation de l’organisme……………………………………………………………………………………………………………………………81.2. Définition du sujet…………………………………………………………………………………………………………………………………………82. Gestion de projet et démarche d’ingénierie…………………………………………………………………………………………………………..92.1. Cycle de vie……………………………………………………………………………………………………………………………………………………92.2. Planification…………………………………………………………………………………………………………………………………………………10
3. Environnement technique……………………………………………………………………………………………………………………………………113.1. Flux de données………………………………………………………………………………………………………………………………………….113.2. Environnement AGILE………………………………………………………………………………………………………………………………….123.3. NoSQL………………………………………………………………………………………………………………………………………………………….133.4. Indexation……………………………………………………………………………………………………………………………………………………15
4. Réalisation & mise en œuvre……………………………………………………………………………………………………………………………….174.1. Format de stockage……………………………………………………………………………………………………………………………………..174.2. Synthèse des travaux…………………………………………………………………………………………………………………………………..194.3. Algorithme………………………………………………………………………………………………………………………………………………….21
Partie 2 : Sujet de réflexion…………………………………………………………………………………………………………………………………….221. Contexte………………………………………………………………………………………………………………………………………………………………221.1. Historique…………………………………………………………………………………………………………………………………………………..221.2. Objectifs de l'analyse du site de l'IRIT………………………………………………………………………………………………………….231.3. Fonctionnement des moteurs de recherche………………………………………………………………………………………………..242. Le référencement naturel…………………………………………………………………………………………………………………………………….242.1. Mots clés…………………………………………………………………………………………………………………………………………………….252.2. Propreté des liens………………………………………………………………………………………………………………………………………..262.3. Sitemap……………………………………………………………………………………………………………………………………………………….273. Le positionnement……………………………………………………………………………………………………………………………………………….283.1. Liens brisés………………………………………………………………………………………………………………………………………………….293.2. PageRank…………………………………………………………………………………………………………………………………………………….303.3. Optimisation pour les médias sociaux………………………………………………………………………………………………………..334. La synthèse………………………………………………………………………………………………………………………………………………………….37
Partie 3 : Bilan………………………………………………………………………………………………………….. 391 .Bilan technique…………………………………………………………………………………………………………………. 392. Bilan professionnel……………………………………………………………………………………………………………... 393. Bilan personnel…………………………………………………………………………………………………………………. 41
Conclusion………………………………………………………………………………………………………………. 43
Références………………………………………………………………………………………………………………. 44
Annexes………………………………………………………………………………………………………………………………………………………………….47
Table des figures Figure 1: Planning prévisionnel......................................................................................10 Figure 2: Planning réel.................................................................................................11 Figure 3: Format minimal d’un flux RSS 2.0...................................................................2.1.Figure 4 : Architecture Grails .........................................................................................13 Figure 5 : Instruction Groovy .........................................................................................13 Figure 6 : Les familles de NoSQL ....................................................................................14 Figure 7 : Architecture SolR...........................................................................................17 Figure 8 : Structure de stockage flux RSS & Atom .............................................................18 Figure 9 : Composants logiciel du Web Crawler .................................................................22 Figure 10: Prise d’écrandu nombre de pages du site indexées...........................................25 Figure 11: Triangle d’Or..............................................................................................29 Figure 12 : La pyramide du PageRank ..............................................................................30 Figure 13 : Approvisionnement en Google Juice ................................................................31 Figure 14 : Distribution du Google Juice ..........................................................................32 Figure 15: Capture d’écran partie partenaires du site............33........................................... Figure 16: Architecture de distribution sur les réseaux sociaux...........................................37
Introduction
Gestion de flux d‘information: Collecte et Indexation
Les formations dispensées par l’Université Toulouse 1 Capitole sont nombreuses et diversifiées. Au nombre de cellesci, la filière ASIC. Cette dernière a pour vocation de former des ingénieurs au fait des problématiques liées aux systèmesd’informationen général.
Pour compléter la formation universitaire et mettre en valeur les connaissances acquises au cours de la dernière année de ce cursus, un stageminimal d’une durée de 5 moisest requis. C’est ainsique j’ai intégré l’EquipeSystèmes d’InformationsGénéralisésde l’Institut deRecherche en Informatique deToulouseen début du mois d’avril 2014. A travers la mission de collecte et d’analyse des flux qui m’était confiée, j’ai pu consolider certaines connaissances; mieux encore, j’ai pu découvrir de nouvelles technologies notamment dans le domaine du Big Data et de la recherche d’information.
Ce mémoire n’a pas vocation à donner tousdétails relatifs aux différentes techniques les utilisées. Il vient plutôt présenter de façon synthétique l’ensemble des travaux accomplis au cours de mon stage. Il est donc articulé en trois sections que sont :
la synthèse des travaux : cette sectionregroupe l’ensemble des activités de natures diverses –de la gestion de projet au développement  effectuées tout au long du stage,
le sujet de réflexion : résultat du fruit de mes réflexions hors travail confié  sur un sujet particulier du laboratoirede recherche d’accueil, elle présente dans un premier temps les bonnes pratiques de référencement naturel pour ensuite montrer commentl’IRIT pourrait éventuellement en tirer partie,
le bilan : cette dernière partie présente les leçons tirées du stage effectué sur le plan technique, professionnel et personnel. Aussi, tout en me basant sur mes expériences passées, je retrace le fil conducteur de mes aspirations au cours de mon cursus universitaire.
N. Akadiri
M2 ASIC 2013/2014
Page 7
Gestion de flux d‘information: Collecte et Indexation
Partie 1 : Synthèse des travaux
1. Contexte 1.1 Présentation de l’organisme
En 1990, naissait l’Institut de Recherche en Informatique de Toulouse (IRIT). Celaboratoire issu du partenariat entre l’Université PaulSabatier (UPS), le Centre National de la Recherche Scientifique (CNRS), l’Institut national polytechnique de Toulouse (INPT) et l’Université des Sciences Sociales de Toulouse (UT1), s'est imposé comme un élément incontournable en matière de recherche au niveau national et régional. En tant que grand pôle informatique régional, l'IRIT tisse des liens étroits avec les entreprises locales.
En interne ce sont près de 700 membres permanents et non permanentsaniment ce qui laboratoire à travers 20 équipes travaillant sur sept thèmes de recherches : Analyse et Synthèse de l’Information, Indexation et Recherche d’Informations, Interaction Coopération Adaptationpar l’Expérimentation, Raisonnement et Décision, Architecture, Systèmes et Réseaux, Modélisation, Algorithmes et Calcul Haute Performance, Sûreté de Développement du Logiciel.
Au niveau du thème Indexation et Recherche d'Informations, ce sont les équipes SIG et PYRAMIDE qui y opèrent. L'équipe SIGd'Informations Généralisés Systèmes , constituée de 23 permanents et 50 doctorants et postdoctorants est une des plus importantes équipesde l’IRIT.L’équipe répond, entre autres, aux problématiques liées àla représentation de l’information, la gestion de l'hétérogénéité des informations et de leur volume ainsi que l’efficacité et la facilité d’accès. Ce travail a donné lieu, en particulier, à plusieurs modèles et méthodes de recherche d’information tels que «MERCURE, modèle de recherche adaptative d’information basé sur l’approche connexionniste, GéoECDutilise la métaphore des systèmes géographiques pour la qui [20] visualisation de données géoréférencées» .
1.2. Définition du sujet
En 2011, 5 exaoctets de données étaient générées tous les deux jours. Deux ans après, en [14] 2013, cela ne prend plus que 10 minutes. . En effet, les utilisateurs dans leur usage privé et professionnel génèrent des quantités de données souvent hétérogènes. C'est ce volume de données disparates que l'on nomme Big Data. Les [15] défis posés par le Big Data s'appuient sur les 3V :
 leVolume faisant référence à la quantité d’informations,les données sont trop volumineuses pour être stockées et traitées dans leur globalité par les techniques actuelles,
N. Akadiri
M2 ASIC 2013/2014
Page 8
Gestion de flux d‘information: Collecte et Indexation
laVariété fait référence à l’hétérogénéité des formatsde données,
 laVélocité fait référence à l’aspect dynamique et/ou temporel des données qui sont produites de façon continue ou sur lesquelles des prises de décisions réelles doivent être réalisées.
Le contexte de notre travail concernel’analyse d’information sur un domaine. Ces informations peuvent être écrites dans des langues différentes sur différents médias, sur différents sujets (politique, économique, sport, ...). Elles sont produites en flux continu.
Ce sujetvise à traiter l’aspect variété et vélocité des informations dans un domaine. A partir d’un sujet donné à travers un ensemble de mots clefs, il s’agit de suivre sur différents flux d’information ses apparitions. Dans un premier temps, il s’agira donc d’être capable de collecter des informations issues de flots déterminés (RSS de certains journaux par exemple, tweets de certains comptes) et de les stocker dans des formats ad hoc. Plusieurs langues seront visées. Dans un deuxième temps, il s’agira d’analyserles données collectées en s’appuyant sur des outils de fouille simples.
Plus particulièrement, c’est la première tâche qui m’a été confiée. A travers ce projet, il s’agissaitégalementpour l’organisme d’accueil d’avoir un retour d’expérience de l’utilisation de la base de données NoSQL orientée documentqu’est MongoDB. Cette dernière a servi au stockage des catégories. Une catégorie est un ensemble de flux susceptibles de contenir des articles abordant un même sujet.
2.Gestion de projet et démarche d’ingénierie Aujourd'hui, dans les cycles de développement courts et itératifs, développer un logiciel s'apparente à un processus continu et évolutif qui permet d'intégrer de l'agilité dans la relation fournisseurs de services et maîtrise d'ouvrage.
2.1. Cycle de vie
Choisir un cycle de vie pour son projet n’est pas chose aisée. Le cas du projet se présentant à lui ainsi que le cumul des expériences passées sont, en majeur partie, la base sur laquelle se décide tout chef de projet dans le choix d’une démarche appropriée.
Du fait même de la nature du projetexpérimental , il m’apparaissaitappropriéd’insérer de l’agilité dans ma façon de procéder. Ainsi, je bénéficiais d’une gestion de projet flexibleà base d’itération. A chaque itération,l’applicationchanger par rapport au cahier des charges initial peut établi avec le client.Ce dernier est d’ailleurs au cœur de tout processusAGILE impliquant une forte réactivité du développeur.
La méthode itérative et incrémentale retenue a été celle du développement en spirale. Définie
N. Akadiri
M2 ASIC 2013/2014
Page 9
Gestion de flux d‘information: Collecte et Indexation
en 1988 par Barry Boehm dans son article"A Spiral Model of Software Development and Enhancement",elle permet d’itérer sur l’ensemble des phases d’un projet et présente notamment pour avantages :
la traçabilité entre les étapes,
le caractère itératif (par prototype) et incrémental,
les utilisateurs sont impliqués dans le projet,
les utilisateurs disposent à chaque prototype d’un logiciel fonctionnel.
2.2. Planification
2.2.1. Planification
La planification a consisté essentiellement à découper le projet en tâches puis à les hiérarchiser. Ensuite,les diagrammes qu’il est courant d’utiliser sont:
-
-
le diagramme de Gant nécessaire à la planification du projet et au suivi de son avancement,
le diagramme de Pert permettant de gérer au mieux la ressource temps.
Planning prévisionnel
N. Akadiri
Figure 1: Planning prévisionnel
M2 ASIC 2013/2014
Page 10
Planning réel
Gestion de flux d‘information: Collecte et Indexation
2.2.2. Analyse des écarts
Figure 2: Planning réel
Lorsqu’il m’a été confié de réaliser ce prototype, de par mes expériences passées, je m'attendais à passer très vite la partie collecte de flux afin de consacrer plus de temps à la partie indexation et analyseces parties étaient vraiment nouve car C’était sans compterlles pour moi. sur les risques liés à un tel projet expérimental. Entre le prévisionnel et la réalité, il y a donc eu des écarts.
3. Environnement technique
3.1. Flux de données
Dans le domaine du web, pour permettre à l'utilisateurne peut être omniprésent qui  de suivre en un même endroit les nouvelles de différents sites d'actualités, la syndication de contenu a été proposée. D'un côté, le site met à la disposition des utilisateurs un flux de données, de l'autre, des utilisateurs s'abonnent à ce flux de données en utilisant des aggrégateurs de flux. Ainsi, lors d'une nouvelle publication sur un des sites cibléspar l’utilisateur, celuici est averti.
Les flux de données mis à la disposition des utilisateurs sont généralement des technologies issues du langage de balisage XML. Les plus usités sont RSS Rich Site Summaryou pourReally Simple SyndicationNous ne présenterons ni les différences qui peuvent exister entre les et Atom.
N. Akadiri
M2 ASIC 2013/2014
Page 11
  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents