Référencement et recherche sur le web
10 pages
Français
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres
10 pages
Français
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Description

La syntaxe des URL, les annuaires,

Informations

Publié par
Nombre de lectures 26
Licence : En savoir +
Paternité, pas d'utilisation commerciale, partage des conditions initiales à l'identique
Langue Français
Poids de l'ouvrage 1 Mo

Extrait

Référencement et recherche sur le web
N.B. Plan du document et exemples tirés de :
Defosse M.-F. . et al., La recherche d’information, Formation au C2i, http://w2.c2imes.org/PDF/B2.pdf
http://w2.c2imes.org/page_B2.html M2-RT - F.-G. Carpentier - 2013
Schéma général d’une URI
URI : Uniform Resource IdentiÞer URL : Uniform Resource Locator Schéma général : Scheme://nom:mot de passe@ machine.domaine.sufÞxe:port/ chemin/Þchier?parametre=valeur
M2-RT - F.-G. Carpentier - 2013
Syntaxe d’un URI  Partie 2
www.univ-brest.fr www : nom (ou alias) de la machine serveur N.B. De nombreux sites Web ont un nom commençant par www. Mais ce n’est qu’une convention… univ-brest.fr : domaine .fr : sufÞxe du domaine (top level domain) Exemples : .be, .uk, .eu, .net, .org, .com, .edu
M2-RT - F.-G. Carpentier - 2013
1
3
5
Quelques « adresses internet »
http://www.univ-brest.fr
http://bossa.univ-st-etienne.fr:8080
http://geai.univ-brest.fr/~carpenti/
http://geai.univ-brest.fr/recherche/index.html#publis
https://www.secure.bnpparibas.net/
ftp://ftp.nai.com
M2-RT - F.-G. Carpentier - 2013
Syntaxe d’un URI Partie I
Scheme : protocole utilisé. Exemples : http : hypertext transfer protocol https : http sécurisé ftp :Þle transfert protocole telnet : telnet Liste non exhaustive. Essayer par exemple, dans Mozilla Firefox : about:plugins ou about:conÞg M2-RT - F.-G. Carpentier - 2013
Syntaxe d’un URI  Partie 3
Top level domains - sur deux lettres : pays (ccTLD) Ex : .be, .uk, .fr -autres : domaines thématiques (gTLD) Ex. : .com, .edu, .gov, .info, etc - voir : http://www.iana.org/domains/root/db/
M2-RT - F.-G. Carpentier - 2013
2
4
6
Syntaxe d’un URI  Partie 4
Ex: comparer :
http://ged-ubo.univ-brest.fr
http://ged-ubo.univ-brest.fr:8080
Un serveur Web utilise en général le port 80. Autrement dit, on pourrait insérer :80 dans la plupart des URI.
Mais, en utilisant d’autres ports, on peut disposer de plusieurs serveurs sur une même machine.
M2-RT - F.-G. Carpentier - 2013
Moteurs et annuaires
Objectif commun : permettre la recherche d’informations
7
Annuaires bases de données gérées manuellement par des documentalistes Moteurs de recherche bases de données alimentées par des robots logiciels Méta-moteurs interrogent en parallèle différents moteurs et compilent les résultats
M2-RT - F.-G. Carpentier - 2013
Exemples d’annuaires
Les “vrais” annuaires deviennent de plus en plus rares. On peut citer :
 OpenDirectory Project :www.dmoz.org
M2-RT - F.-G. Carpentier - 2013
9
11
Syntaxe d’un URI  Partie 5
Chemin etÞchier : Hiérarchie de répertoires et nom du
chier demandé
Cas particuliers et remarques : geai.univ-brest.fr/~carpenti: site personnel de l’utilisateur carpenti Technologie utilisée : geai.univ-brest.fr/secretariats.html: page html geai.univ-brest.fr/~carpenti/statistiques/table1.php: page en php www.rpfrance.eu/spip.php?rubrique=2: site utilisant le CMS SPIP
M2-RT - F.-G. Carpentier - 2013
Annuaires
Ce sont des bases de données renseignées manuellement.
Les auteurs proposent leur site au référencement
Un documentaliste apprécie l’intérêt du site, rédige un descriptif, classe le site dans une catégorie...
 Avantages : bonne qualité générale des informations fournies
Inconvénients : en général taille assez réduite
M2-RT - F.-G. Carpentier - 2013
Exemple: recherche sur ODP (1)
La Recherche par Navigation
Appeler la page http://www.dmoz.org En descendant dans l'arborescence, trouver dans la rubrique impressionnisme : - la rubrique des peintres impressionnistes, -une liste de sites consacrés à l'impressionnisme. Sol.: Art - Art History - Periods and movements -Impressionism
8
10
Il est clair que cette recherche par navigation conduit à des résultats généraux apportant des informations sur le contexte du thème cherché.
M2-RT - F.-G. Carpentier - 2013
12
Exemple: recherche sur Yahoo! (2)
La Recherche par mots-clés Les mots-clés sont entrés dans la boîte de recherche et la recherche sera faite dans la rubrique concernée ( et non sur l'ensemble du Web ). Recherche simple Entrer dans la boîte de recherche le nom d'un peintre impressionniste connu (par ex. Renoir). Observer les résultats. Recherche avancée Cliquer sur le lien : Advanced Search Lancer une recherche sur la requête : Renoir OR Monet Observer les résultats.
M2-RT - F.-G. Carpentier - 2013
Exemples de moteurs
Ask.com France :fr.ask.com Excite :www.excite.com,www.excite.fr Exalead :www.exalead.fr Francité :www.francite.com Google :www.google.com,www.google.fr Hotbot :www.hotbot.lycos.com,www.hotbot.fr Bing :www.bing.com Yahoo! Search :fr.search.yahoo.com
M2-RT - F.-G. Carpentier - 2013
Metamoteurs
Interrogent en parallèle plusieurs moteurs de recherche
 Suppriment (en principe) les doublons dans les réponses obtenues
Renvoient à l’utilisateur une compilation des résultats
Exemples de meta-moteurs
Metacrawler :www.metacrawler.com Dogpile :www.dogpile.com
M2-RT - F.-G. Carpentier - 2013
13
15
17
Moteurs de recherche
 Un robot logiciel (spider, crawler) parcourt le Web à la recherche de nouvelles pages à indexer
 Le contenu des pages trouvées est indexé dans une base de données
 Avantages : nombreuses pages indexées
Inconvénients : fonctionnement peu intelligent.
M2-RT - F.-G. Carpentier - 2013
Suprématie Google, mais pas partout…
Google est très peu implanté dans certaines zones linguistiques :
- Dans la zone russophone (Russie, Ukraine, etc.) :
-Yandex :www.yandex.ru,http://., http://www.yandex.com
- En Chine (et au Japon), moteur de recherche en chinois:
- Baidu :www.baidu.com
M2-RT - F.-G. Carpentier - 2013
Nouveaux outils de recherche
Renouveler le concept de moteur de recherche Traitement plus «conceptuel» des requêtes
Exemple
Wolfram Alpha :
www.wolframalpha.com
M2-RT - F.-G. Carpentier - 2013
14
16
18
Metamoteur particulier
Ixquick :http://www.ixquick.com/fra/
Préserve l’anonymat de la recherche (et éventuellement permet une consultation anonyme des pages sélectionnées)
Ce n’est pas un cas unique : voir http://fr.wikipedia.org/wiki/Liste_de_moteurs_de_reche rche
M2-RT - F.-G. Carpentier - 2013
Référencement d’un site
Position du problème : nous avons réalisé un site, qui est mis en ligne chez un hébergeur.
Avons-nous une chance de voir le site apparaître dans les réponses d’un moteur de recherche ?
Réponse : non, pratiquement aucune, si nous ne demandons pas le référencement du site, mais il existe une abondante littérature et des entreprises spécialisées dans le référencement.
M2-RT - F.-G. Carpentier - 2013
Référencement sur un moteur de recherche
Encore récemment, pour l’indexation sur un moteur de recherche, il sufÞsait d’indiquer la page d’accueil du site. Le spider explore ensuite les différentes pages en suivant, de façon récursive, tous les liens rencontrés. Le référencement «de base» est gratuit, mais il est aussi possible de payer : SEO : search engine optimization et SEM: search engine marketing.
19
21
Cependant, pour diverses raisons, les moteurs de recherche ont rendu la procédure plus compliquée.Ex. sur Google : cherchez «Outils pour les webmasters».
M2-RT - F.-G. Carpentier - 2013
23
Limites de la démarche
Moteurs de recherche et annuaires permettent-ils l’accès à l’ensemble du Web ?
Réponse : pas du tout. Certains auteurs estiment même que 90 % de l’information présente sur le Web leur échappe
Parmi les obstacles à l’indexation : - les images, les vidéos - les documents de formats autres que HTML - les bases de données et le Web dynamique
M2-RT - F.-G. Carpentier - 2013
Référencement sur un annuaire
Tous les moteurs et les annuaires proposent des formulaires permettant de demander l’inscription du site.
Pour les annuaires, les indications à fournir sont simples : - adresse (url) du site - résumé du contenu - «catégorie» souhaitée Exemple : référencement sur ODP : afÞcher la page www.dmoz.org, puis cliquer sur «Suggest URL».
M2-RT - F.-G. Carpentier - 2013
Problèmes liés au référencement
Actuellement, l’accès aux outils de référencement impose l’ouverture d’un compte sur Google.
Google incite à placer sur le site une page de «validation HTML». Pour des sites très souvent mis à jour : sitemap, ux RSS…
Buts de ces procédures : éliminer les sites politiquement ou éthiquement incorrects, mais aussi collecter des données personnelles….
M2-RT - F.-G. Carpentier - 2013
20
22
24
Problèmes liés au référencement
Il ne sufÞt pas de demander le référencement….
Problèmes de délais : parfois plusieurs mois pour que notre demande soit prise en compte
De même, pour les moteurs de recherche, délai important entre deux visites
«blacklisting» volontaire. Voir à ce sujet : http://cyber.law.harvard.edu/Þltering/google/results1.html
M2-RT - F.-G. Carpentier - 2013
Rester référencé…
J’ai proposé mon site au référencement…
- suis-je sûr de le voir accepté ?
- restera-t-il référencé ?
- où apparaîtra-t-il dans les réponses des moteurs ?
M2-RT - F.-G. Carpentier - 2013
Scoring
En principe, indexation en «texte intégral»
25
27
En fait : - exploration tronquant les pages trop longues - poids différents donnés aux différentes parties du document  (titres, parties marquées par des balises <H1>, etc) - problème des images : renseigner correctement les  attributsALT=….
M2-RT - F.-G. Carpentier - 2013
29
Un métier : référenceur
Référencement correct : tout à fait crucial pour les sites commerciaux, et nécessaire pour les autres.
D’où un métier (pas vraiment nouveau): référenceur.
Voir par exemple :
http://www.referenceur-independant.fr/
M2-RT - F.-G. Carpentier - 2013
La stratégie Google
Google évalue la «popularité» d’un site d’après le nombre de liens pointant vers ce site : page rank
Le calcul du page rank s’est afÞné au cours du temps : prise en compte également du page rank des pages pointant vers le site.
Voir :http://fr.wikipedia.org/wiki/Page_rank
Pour éviter les stratégies visant à gonßer artiÞciellement le page rank d’un site : trust rank.
M2-RT - F.-G. Carpentier - 2013
Guider les robots indexeurs
Balises meta :
<META name=«keywords» content=«…..»> <META name=«description» content=«»>
Normalisation Dublin Core
<META name=«DC.Creator» content….
M2-RT - F.-G. Carpentier - 2013
26
28
30
Piloter le robot indexeur
LeÞchier robots.txt. Exemple :
User-agent: * Disallow: /manual
User-agent: susedig Disallow:
Les balises meta robots <META name=«robots» content=«index,follow»>
M2-RT - F.-G. Carpentier - 2013
Syntaxe de recherche sur Google
- par défaut, un ET entre les différents termes spéciÞés - non-prise en compte des mots «vides», sauf s’ils sont  précédés de «+» - guillemets permettant de spéciÞer une expression - caractères accentués ignorés - ciblage de la recherche : opérateurs link: et site: - pas de jokers
M2-RT - F.-G. Carpentier - 2013
Recherche simple sur Google
Penser à conÞgurer les options : menu «Paramètres de recherche» :
En particulier : langue, saisie semi-automatique, etc
M2-RT - F.-G. Carpentier - 2013
31
33
35
Recherche d’informations
Utiliser les moteurs et les annuaires pour rechercher de l’information
- les outils ont des capacités variées, mais sont  complémentaires - ne pas se limiter à un seul moteur - utiliser les possibilités de recherche «étendue»
M2-RT - F.-G. Carpentier - 2013
Syntaxe utilisée par Yahoo! Search
http://fr.search.yahoo.com/web/advanced?ei=UTF-8&p=
32
- Opérateurs booléens : AND (implicite), OR, NOT (ou -) - Pas de prise en compte des diacritiques, des majuscules - Singulier / pluriel, etc pris en compte - Expressions : guillemets - Indicateurs de «niveau de recherche» : intitle: inurl: site: Voir aussi :http://siteexplorer.search.yahoo.com/ - inlinks: M2-RT - F.-G. Carpentier - 201334
Exemple: recherche simple sur Google (1)
En appliquant ce modèle, eectuer avec Google les recherches suivantes:
- Rechercher des écrivains ou des poètes.
- Pour chacun des poètes ci-dessous, retrouver une page portant les informations suivantes :
 -Arthur Rimbaud : son portrait ( ou sa caricature ), sa biographie.
 -Guillaume Apollinaire : son portrait, sa biographie.
 -Georges Brassens : son portrait, sa biographie.
M2-RT - F.-G. Carpentier - 2013
36
Exemple: recherche simple sur Google (2)
- Recherche sur des artistes ou des oeuvres d'art.
- Rechercher des pages signiÞcatives sur le peintre français Antoine Watteau, sa biographie.
- Rechercher directement l'oeuvre suivante : " Pèlerinage à l'île de Cythère "
M2-RT - F.-G. Carpentier - 2013
Exemple: recherche simple sur Google (4)
Recherche rapide de media, institutions, entreprises, etc... (Plutôt que d'essayer des URLs approximatives, on lancera une recherche simple sur le nom cherché : on obtiendra toujours la page cherchée dans les 2 ou 3 premiers résultats).
Trouver les pages d'accueil suivantes :
En France : l'Université de Toulouse Le Mirail, la mairie de Toulouse, la mairie de Paris, la mairie de Biarritz, le gouvernement, l'académie française, le constructeur Peugeot, le musée du Louvre etc... Le Monde, Le Figaro, Libération, Le Point, L'Express etc...
A l'étranger : le MIT, la CIA, le FBI, la NASA, la Maison Blanche, le musée du Prado de Madrid, le musée des Oces de Florence en Italie, le New York Times, die Welt, the Times, the Guardian, El Pais, Il Corriere della Sera etc... M2-RT - F.-G. Carpentier - 2013
Recherche avancée avec Google: la nouvelle interface
37
39
41
Exemple: recherche simple sur Google (3)
- Rechercher la chansoncomportant le morceau de phrase suivant : «Les gens qui voient de travers»
- Retrouver le poème portant le bout de phrase :  " Voie lactée ô soeur lumineuse "
M2-RT - F.-G. Carpentier - 2013
Recherche avancée avec Google: l’ancienne interface
Préciser sa recherche avec Google
Exemple : vous cherchez des informations sur l’île de Java
- Que renvoie le mot-clé «Java» ?
- Comment préciser la recherche ?
Et si on cherche des information sur la danse du même nom, sur le langage de programmation Java ?
M2-RT - F.-G. Carpentier - 2013
38
42
Exemple: recherche avancée sur Google (5)
Faire varier les champs de recherche : Chercher : - "cours internet" dans les pages, - "cours internet" dans les titres,
- cours internet dans les titres.
Comparer les résultats.
M2-RT - F.-G. Carpentier - 2013
La recherche d’images (2)
Exercice : Cherchez les portraits d’un personnage connu en utilisant l’option «images» de Google AfÞchez le site afÞchant l’un d’eux Recherchez l’indice à partir duquel Google a pu référencer cette image. Pour cela, vous devrez sans doute afÞcher le code source de la page.
M2-RT - F.-G. Carpentier - 2013
Recherche comparée sur Yahoo! et Google
Recherche d'une donnée historique
Rechercher avec Yahoo! des informations brèves sur 4 Châteaux de la Loire.
Rechercher avec Google ces mêmes informations.
Recherche d'une donnée de type culture populaire
Rechercher avec Yahoo! les chansons sur Paris, paroles, auteurs, compositeurs ( on s'intéressera aux pages qui sont sélectionnées directement par les requêtes ).
Rechercher avec Google ces mêmes informations.
M2-RT - F.-G. Carpentier - 2013
43
45
47
La recherche d’images
Même principe que la recherche de documents textuels, mais problèmes liés à l’indexation. Google utilise en général : - soit le nom duÞchier - soit le contenu de la balise «alt» dans le code HTML de la page : <IMG SRC=«toto.jpg» ALT=«photo de toto»>
M2-RT - F.-G. Carpentier - 2013
Recherche comparée sur Yahoo! et Google
Recherche sur une donnée institutionnelle
Rechercher avec Yahoo! les informations sur les présidents de la république française ( on s'intéressera aux sites qui sont strictement dans l'annuaire ).
44
Rechercher avec Google ces mêmes informations ( on s'intéressera aux pages trouvées directement avec Google ).
M2-RT - F.-G. Carpentier - 2013
Moteur de recherche Exalead
Adresse :http://www.exalead.fr - Se veut une alternative à Google - Des possibilités étendues pour af exemple :
* Types de sites
* Recherche phonétique
* Orthographe approchée
ner la recherche. Par
M2-RT - F.-G. Carpentier - 2013
46
48
Recherche de publications scientifiques
Le SUDOC (Système Universitaire de documentation) est le catalogue collectif des universités françaises.
Adresse :http://corail.sudoc.abes.fr
Le catalogue de la BU de l’UBO :
Adresse :http://portail-scd.univ-brest.fr/
Google Scholar :
Adresse :http://scholar.google.com
M2-RT - F.-G. Carpentier - 2013
Exemple de recherche sur SUDOC (2)
Rechercher les ouvrages de la collection " Que sais-je " sur la vie rurale
Vous devriez obtenir 6 résultats
C'est dans l'écran de recherche avancée qu'on peut limiter la recherche à certains types de documents : thèses, titres de revues ; vous devez décocher tous les types de documents, en cliquant sur le lien " aucun ", et cocher la case du type de document sur lequel vous souhaitez faire votre recherche.
M2-RT - F.-G. Carpentier - 2013
49
51
53
Exemple de recherche sur SUDOC (1)
Comparez le nombre de résultats retournés après les recherches :
- vie rurale
- "vie rurale "
Solution : les termes sans guillemets retournent plus de 6200 réponses (le système prendra les termes " vie " et " rurale " indépendamment), alors que l'expression entre guillemets en retourne 1700 (le système ne prenant que les deux termes réunis) .
M2-RT - F.-G. Carpentier - 2013
Exemple de recherche sur SUDOC (3)
Vous recherchez un article de 1892 paru dans " The Sewanee Review". Où le trouverez-vous ?
Solution : à la BIU Centrale de la Sorbonne et dans les collections patrimoniales de la BNF. De nombreuses bibliothèques françaises possèdent cette revue, mais pas depuis l'origine.
M2-RT - F.-G. Carpentier - 2013
Navigateur Web : Enregistrement
 Enregistrer une page
Avec Mozilla Firefox : «Web Page - Complete» : avec les images et la page de style éventuelles, rassemblées dans un répertoire
M2-RT - F.-G. Carpentier - 2013
50
52
54
Navigateur Web : Enregistrement (2)
 Récupérer une image, télécharger un etc
chier .doc, .pdf,
Cliquez avec le bouton droit de la souris sur l’image, ou le lien vers leÞchier
Dans le menu contextuel qui apparaît, sélectionnez la commande «Enregistrer l’image sous...», «Enregistrez le lien sous...»
M2-RT - F.-G. Carpentier - 2013
Navigateur Web : Impression (2)
 Imprimer une page(suite)
Page comportant des tableaux : le comportement dépend de la manière dont le code de la page a été écrit. Pensez au format «paysage» ...
Page d’un site «dynamique» utilisant Javascript, etc : l’auteur n’a-t-il pas prévu un bouton «imprimer» ou «version imprimable»
M2-RT - F.-G. Carpentier - 2013
Navigateur Web : Favoris ou bookmarks, cookies
 Conserverl’adresse des sites intéressants Les navigateurs possèdent un menu «Ajouter aux signets», «Add to bookmarks», «Ajouter aux favoris» Menus permettant de gérer ces signets : renommer, supprimer, structurer de façon hiérarchique...
 Les cookies : utiles mais peuvent se montrer envahissants. La plupart peuvent être effacés sans inconvénient. Cf. menu Préférences > Vie privée dans Firefox.
M2-RT - F.-G. Carpentier - 2013
55
57
59
Navigateur Web : Impression
 Imprimer une page
 Page HTML simple : en général sans problème (sauf caractères blancs sur fond foncé)
 Page comportant des cadres (frames) : de préférence, afÞchez le cadre désiré dans une fenêtre, puis imprimez-la. Exemple à partir de :http://geai.univ-brest.fr/~carpenti/tdm-index.html, puis de l’afÞchage des «Tables électroniques»
M2-RT - F.-G. Carpentier - 2013
Navigateur Web : Gérer les fenêtres
 Utiliserplusieurs fenêtres, ou plusieurs onglets au cours de la navigation
Cliquez avec le bouton droit de la souris sur le lien vers la page cible.
Dans le menu contextuel qui apparaît, sélectionnez la commande «Ouvrir le lien dans une nouvelle fenêtre», «Ouvrir le lien dans un nouvel onglet»
Remarque : Certains liens sont conÞgurés pour ouvrir la page cible dans une nouvelle fenêtre. M2-RT - F.-G. Carpentier - 2013
Bibliographie
56
58
 SAMIER H., SANDOVAL V., la recherche intelligente sur l’Internet, Hermès
 DEFOSSE M.-F. et al., La recherche d’information, Formation au C2i,http://www.c2imes.org/PDF/B2.pdf
M2-RT - F.-G. Carpentier - 2013
60
  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents