Cet ouvrage fait partie de la bibliothèque YouScribe
Obtenez un accès à la bibliothèque pour le lire en ligne
En savoir plus

Recherche d'information

De
255 pages
Le premier ouvrage francophone sur les algorithmes qui sous-tendent les technologies de big data et les moteurs de recherche !


Depuis quelques années, de nouveaux modèles et algorithmes sont mis au point pour traiter des données de plus en plus volumineuses et diverses. Cet ouvrage présente les fondements scientifiques des tâches les plus répandues en recherche d'information (RI), tâches également liées au data mining, au décisionnel et plus généralement à l'exploitation de big data.



Il propose un exposé cohérent des algorithmes classiques développés dans ce domaine, abordable à des lecteurs qui cherchent à connaître le mécanisme des outils quotidiens d'Internet.



Le lecteur approfondira les concepts d'indexation, de compression, de recherche sur le Web, de classification et de catégorisation, et pourra prolonger cette étude avec les exercices corrigés proposés en fin de chapitre.



Ce livre s'adresse tant aux chercheurs et ingénieurs qui travaillent dans le domaine de l'accès à l'information et employés de PME qui utilisent en profondeur les outils du webmarketing, qu'aux étudiants de Licence, Master, doctorants ou en écoles d'ingénieurs, qui souhaitent un ouvrage de référence sur la recherche d'information.




  • Représentation et indexation


  • Recherche d'information


  • Recherche sur le Web


  • Catégorisation de documents


  • Partitionnement de documents


  • Recherche de thèmes latents


  • Considérations pratiques

Voir plus Voir moins

Vous aimerez aussi

Massih-Reza AMINI - Éric GAUSSIER OuvragePcroéofradceondneéStpeaprhPeantrRicokbSeiratsrroyn Recherche d’information Applications, modèlesetalgorithmes
Fouille de données, décisionnel et big data
Massih-Reza Amini, professeur d'informatique à l'Université J. Fourier (Grenoble 1), est titulaire d'une thèse sur l'étude de nouveaux modèles statistiques pour la classification documentaire et le résumé de textes. Il est co-auteur de dizaines d'articles scientifiques parus parmi les revues les plus prestigieuses des domaines de l'apprentissage automatique et de la recherche d'information.
Éric Gaussier,professeur d'informatique à l'Université J. Fourier (Grenoble 1), dirige actuellement l'équipe AMA dont les recherches se situent en analyse de données, modélisation et apprentissage automatique. Il est directeur adjoint du Laboratoire d'informatique de Grenoble, un des plus importants laboratoires d'informatique en France.
Recherche d’information Le premier ouvrage francophone sur les algorithmes qui sous-ten-dent les technologies de big data et les moteurs de recherche ! Depuis quelques années, de nouveaux modèles et algorithmes sont mis au point pour traiter des données de plus en plus volumineuses et diverses. Cet ouvrage présente les fondements scientifiques des tâches les plus répandues en recherche d'information (RI), tâches également liées au data mining, au décisionnel et plus générale-ment à l'exploitation de big data. Il propose un exposé cohérent des algorithmes classiques dévelop-pés dans ce domaine, abordable à des lecteurs qui cherchent à connaître le mécanisme des outils quotidiens d'Internet. Le lecteur approfondira les concepts d'indexation, de compression, de recherche sur le Web, de classification et de catégorisation, et pourra prolonger cette étude avec les exercices corrigés proposés en fin de chapitre. Ce livre s’adresse tant aux chercheurs et ingénieurs qui travaillent dans le domaine de l’accès à l’information et employés de PME qui utilisent en profondeur les outils du webmarketing, qu’aux étu-diants de Licence, Master, doctorants ou en écoles d’ingénieurs, qui souhaitent un ouvrage de référence sur la recherche d’information. Sommaire Représentation, indexation et compression.Prétraitements linguistiques. Segmentation. Normalisation. Filtrage par un anti-dictionnaire. Deux lois en recherche d’information : loi de Heaps et loi de Zipf. Représentation documentaire. Modèle vectoriel. Pondération des termes. Index inversé. Indexation dans des collections statiques et dynamiques.Recherche d’information.Modèles de recherche : booléens, vectoriels, probabilistes. Approche axiomatique de la RI. Expansion de requêtes. Mesures d’évaluation avec des résultats ordonnés et non ordonnés. Recherche sur le Web.Architecture de la toile. Inventions à la base du Web. Langage HTML. Protocole de transfert hypertexte. Collecte et indexation des pages. Robot d’indexation. Index distribués. Nouvelles stratégies de recherche. PageRank. Catégorisation de documents.Formalisme. Sélection de variables. Modèles génératifs. Modèle multivarié de Bernouilli. Modèle multinomial. Modèles discriminants. Modèle logistique. Séparateurs à vaste marge. Mesures d’évaluation. Partitionnement de documents.Étapes. Principaux algorithmes (à plat, hiérarchique). Évaluation. Applications à l’accès à l’information.Recherche de thèmes latents.Analyse sémantique latente. Analyse sémantique latente probabiliste. Modèle LDA.Logiciels libres pour la RI et pour la catégorisation.Terrier. Lucene. MG.Passage à l'échelle et Big Data
Recherche d’information Applications, modèlesetalgorithmes
Dans la même collection
Chez le même éditeur
Recherche d’information Applications, modèlesetalgorithmes
Massih-Reza AMINI - Éric GAUSSIER Préface de Stephen Robertson Avec la contribution de Grégoire Péan
ÉDITIONS EYROLLES 61, bd SaintGermain 75240 Paris Cedex 05 www.editionseyrolles.com
Remerciements à Grégoire Péan et Éric Bernauer pour leurs précieuses relectures.
En application de la loi du 11 mars 1957, il est interdit de reproduire intégralement ou partiellement le présent ouvrage, sur quelque support que ce soit, sans l’autorisation de l’Éditeur ou du Centre Français d’exploitation du droit de copie, 20, rue des Grands Augustins, 75006 Paris. © Groupe Eyrolles, 2013, ISBN : 9782212135329
Prface
La recherche d’information, autrefois vue comme un domaine de spcialit Ā l’inter-section des techniques documentaires et de la science informatique, est devenue l’une e des technologies majeures duxxisicle. Tout un chacun s’attend en eet aujour-d’hui Ā pouvoir trouver en quelques secondes des informations diverses sur tout type de sujet : horaires des transports en commun, principes de la production d’lectri-cit, nature des maladies infectieuses, pharmacie la plus proche fournissant des antal-giques, films Ā l’ache du cinma voisin, analyse critique des œuvres d’Erik Satie, fondements de l’existentialisme de Jean-Paul Sartre ou tout dtail trivial de la vie courante. Chacun considre cela comme allant de soi, et cet « allant de soi » est n du dveloppement des moteurs de recherche sur le Web.
Les fondements technologiques des moteurs de recherche peuvent tre dcrits trs simplement, mme si de nombreuses connaissances, combinaisons de dveloppe-ments thoriques et de savoirs-faire exprimentaux, ont t accumules dans ce domaine. Crer un moteur de recherche mdiocre est facile ; en crer un qui soit Ā la fois pertinent et rapide est une tout autre histoire, et cela quelle que soit la taille de la collection considre (collection personnelle de courriers lectroniques ou intgralit du corpus de la Bibliothque nationale). De faÇon tonnante, ce sont les moteurs de recherche sur Internet qui ont tenu le haut du pav ces quelque vingt dernires annes. Pour toutes sortes de raisons, ils ont atteint un niveau de maturit qui semble bien en avance de ce qui se pratique Ā des chelles plus rduites.
Cet ouvrage est une introduction fondamentale Ā la technologie de la recherche d’in-formation et ses applications, pour la plupart lies au Web. Il combine traitement automatique des langues et modles thoriques, et couvre, outre l’ordonnancement de documents en rponse Ā une requte, la classification supervise (en catgories pr-dfinies) et non supervise (clustering). L’importance des concepts statistiques dans ce domaine est centrale, depuis les caractristiques statistiques des langues (loi de Zipf )jusqu’aux modles probabilistes de recherche d’information et aux modles Ā thmes latents.
Cet ouvrage tait ncessaire pour mentaux de cette technologie d’information.
mettre Ā la moderne
porte d’un plus incontournable
large public qu’est la
les fonda-recherche
Stephen Robertson septembre 2012
Table des matires
PrfaceV Liste des algorithmesXI NotationsXIII Liste des tableauxXV Liste des figuresXVII 1 Introduction1 1.1 Conceptstudis dans ce livre3. . . . . . . . . . . . . . . . . . . . 1.2 Organisationdu livre. . . . . . . . . . . . . . . . . . . . . . . .6 2 Reprsentationet indexation9 2.1 Prtraitementslinguistiques10. . . . . . . . . . . . . . . . . . . . . 2.1.1 Segmentation11. . . . . . . . . . . . . . . . . . . . . . . . 2.1.2 Normalisation. . . . . . . . . . . . . . . . . . . . . . . .13 2.1.3 Filtragepar un antidictionnaire. . . . . . . . . . . . . . .16 2.2 Lesdeux lois de base en recherche d’information18. . . . . . . . . . . 2.2.1 Loide Heaps19. . . . . . . . . . . . . . . . . . . . . . . . 2.2.2 Loide Zipf20. . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Reprsentationdocumentaire21. . . . . . . . . . . . . . . . . . . . 2.3.1 Modlevectoriel. . . . . . . . . . . . . . . . . . . . . . .21
VIII – RECHERCHE D’INFORMATION – APPLICATIONS, MODLES ET ALGORITHMES
2.3.2 Pondrationdes termes23. . . . . . . . . . . . . . . . . . . 2.4 Indexinvers. . . . . . . . . . . . . . . . . . . . . . . . . . . . .26 2.4.1 Indexationdans des collections statiques. . . . . . . . . .27 2.4.2 Indexationdans des collections dynamiques30. . . . . . . . . 2.5 Exercices. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .33 3 Recherched’information45 3.1 Modlesde recherche. . . . . . . . . . . . . . . . . . . . . . . .46 3.1.1 Modlesboolens47. . . . . . . . . . . . . . . . . . . . . . 3.1.2 Modlesvectoriels49. . . . . . . . . . . . . . . . . . . . . . 3.1.3 Modlesprobabilistes53. . . . . . . . . . . . . . . . . . . . 3.1.4 Uneapproche axiomatique de la RI66. . . . . . . . . . . . . 3.2 Expansionde requtes. . . . . . . . . . . . . . . . . . . . . . . .68 3.2.1 Lamthode « boucle de rtropertinence ». . . . . . . . . .69 3.2.2 Lamthode « boucle de rtropertinence en aveugle »71. . . . 3.3 Mesuresd’valuation71. . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1 valuationde rsultats non ordonns. . . . . . . . . . . .72 3.3.2 valuationde rsultats ordonns. . . . . . . . . . . . . . .74 3.4 Exercices. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .80 4 Recherchesur le Web99 4.1 Architecturede la Toile. . . . . . . . . . . . . . . . . . . . . . .100 4.2 Troisinventions Ā la base du Web. . . . . . . . . . . . . . . . . .100 4.2.1 LangageHTML101. . . . . . . . . . . . . . . . . . . . . . . 4.2.2 Protocolede transfert hypertexte et adresses Web103. . . . . . 4.3 Collecteet indexation des pages sur la Toile. . . . . . . . . . . . .104 4.3.1 Robotd’indexation. . . . . . . . . . . . . . . . . . . . .104 4.3.2 Indexdistribus. . . . . . . . . . . . . . . . . . . . . . .108 4.4 Nouvellesstratgies de recherche. . . . . . . . . . . . . . . . . . .109 4.4.1 Modled’apprentissage automatique pour la RI110. . . . . . . 4.4.2 PageRank113. . . . . . . . . . . . . . . . . . . . . . . . . . 4.5 Exercices. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .116 5 Catgorisationde documents121 5.1 Formalisme. . . . . . . . . . . . . . . . . . . . . . . . . . . . .122 5.2 Slectionde variables124. . . . . . . . . . . . . . . . . . . . . . . . .
Un pour Un
Permettre à tous d'accéder à la lecture
Pour chaque accès à la bibliothèque, YouScribe donne un accès à une personne dans le besoin