Les algorithmes de classement utilisés dans les moteurs de recherche
74 pages
Français

Les algorithmes de classement utilisés dans les moteurs de recherche

-

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres
74 pages
Français
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Description

Plan : Introduction / Comment classer les pages ? / Le Graphe du WEB / Pagerank / L’indexation des pages Web / La s´emantique et les bombes...

Informations

Publié par
Nombre de lectures 15
Licence : En savoir +
Paternité, pas d'utilisation commerciale, partage des conditions initiales à l'identique
Langue Français

Extrait

Lesalgorithmesdeclassementutilise´sdanslesmoteursderecherche

Lesalgorithmesdeclassementutilis´esdansles
moteurs de recherche

Michel Habib
habib@liafa.jussieu.fr
http://www.liafa.jussieu.fr/~habib

Moteurs de recherche, cours de M2
anne´e2009-2010

Lesalgorithmesdeclassementutilise´sdanslesmoteursderecherche

Organisation du cours

Cours : Michel
TP : Fabien de

Habib habib@liafa.jussieu.fr
Montgolfier fm@liafa.jussieu.fr

Lesalgorithmesdeclassementutilis´esdanslesmoteursderecherche

Plan

Introduction
Comment classer les pages?
Le Graphe du WEB
Pagerank
L’indexation des pages Web
Las´emantiqueetlesbombes
Graph Mining
Quelques exemples de jeux algorithmiques

Lesalgorithmesdeclassementutilise´sdanslesmoteursderecherche
Introduction

”Information is not Knowledge”, Albert Einstein
I
I
”Information is not Knowledge. Knowledge comes from
theory”, W. Edward Deming

Lesalgorithmesdeclassementutilis´esdanslesmoteursderecherche
Introduction

Sir Timothy
Timothy Bernes-Lee (1955) is generally credited with inventing the
world wide web in 1990.
The internet as such already existed, but it was mostly used for
email and newsgroups. It was Berners-Lee, together with his
Belgian colleague Robert Cailleau, who established the first
successful communication between an HTTP client and server via
the Internet, thus creating the first web browser.
The first ever website in the world was
http ://info.cern.ch/hypertext/WWW/TheProject.html.
There are 162 million websites in the world today.

Lesalgorithmesdeclassementutilise´sdanslesmoteursderecherche
Introduction

A quel titre je me permets de parler de ce sujet?

I
Spe´cialisted’algorithmiquesurlesgraphes
3the`sesco-encadr´eessurlesmoteursderecherche
I
CoursdeM2professionnel`aParisDiderot(1a`2embauches
I
par an chez Exalead)
Contrats sur le sujet avec Orange et Exalead
I

Lesalgorithmesdeclassementutilise´sdanslesmoteursderecherche
Introduction

Quelrapportaveclesmathe´matiques?

Unetr`esbelleapplicationdel’alge`brelin´eaire
I
desthe´ore`mesdepointfixe
I
Desmarchesal´eatoiressurdesgraphes(chaıˆnesdeMarkov)
I

Lesalgorithmesdeclassementutilis´esdanslesmoteursderecherche
Introduction

Vocabulaire technique minimal

I
url : Uniform Resource Locator
adresseIP+chemind’acc`es
I
html : Hypertext Markup Language
Celangageposs`edequelqueslacunes
I
http : Hypertext Transfert protocol
Protocoletr`esefficace
hyperliens ou liens hypertextes
I

Lesalgorithmesdeclassementutilis´esdanslesmoteursderecherche
Introduction

Fonctionnement d’un moteur de recherche

Donne´es:ahıˆnuceoi(neutsres)ct`ecaranedeequn
Re´sultat:sea`aluqsaosice´estion.nusileed´eRL’Uortenndo

Comment cela marche
1.tnneduleitnoudocExtraclcst)se´uqleomsei.n(que.ueaqiost
2.Recherche de ”toutes” les pages WEB qui contiennent ces
motscle´s
3.teordonn´eed’urlatcffiaheg’dnulesieirTnum(dseienu’
affichette).

Lesalgorithmesdeclassementutilis´esdanslesmoteursderecherche
Introduction

Tridesr´esultats
L’e´tape3estcritique,carilpeutyavoirplusde100000re´ponses.

Unequestiontr`espertinente
I
Habib Terroriste
Google Results (February 2007) approx 504 000 for Habib
I
terrorist. (0,11 seconds)

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents