Le journalisme assisté par ordinateur

Undoi - Joel

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

7 pages

Français

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

A propos
Informations
Extrait

Description

Journalisme assisté par ordinateu r(Cours Léon-Elie Troclet ) Le journalisme assisté par ordinateur regroupe, sasn surprise, une série d’outils informatiques utile sà l’exercice du journalisme, notamment d’investigaiotn. Il faut noter que cette notion de JAO, essentiellement développée par les anglo-saxons,s te vraisemblablement appelée à disparaître : il viendra un jour où ces outils feront partie du quoidtien des journalistes et où il sera invraisemblabel d’imaginer un journalisme qui ne soit pas assisté apr ordinateur. Dans le même, ordre d’idée, existe-t-il encore une mise en page ou publication qui nseo it pas assisté par ordinateur (PAO) ? Une conception qui ne soit pas assistée par ordinateur( CAO) ? L’informatique fait évoluer tous les métiers et lejo urnalisme n’échappe pas à la règle : perfectionnement des logiciels de mise en page, corerspondances par courriels, utilisation quotidienne des moteurs de recherche, recours auxr atitements de texte… Mais tant les outils de recherche sur le web que les logiciels bureautique sont évolué depuis l’apparition de Google ou celle de Microsoft Word. Plusieurs outils peuvent être uilitsés par le journalistes à chacune des 3 étapes du processus de fabrication de l’information : 1. Recherche de l’information 2. Tri et traitement de l’information 3. Rédaction, mise en forme, publication Le but de ce cours de 14 heures et d’attirer votraet tention sur quelques-uns de ces outils. Libre à chacun, selon ...

Sujets

informatique

ordinateur

Informations

Publié par	Undoi
Nombre de lectures	125
Langue	Français

Extrait

Journalisme assisté par ordinateur(Cours Léon-Elie Troclet)Le journalisme assisté par ordinateur regroupe, sans surprise, une série d’outils informatiques utiles à l’exercice du journalisme, notamment d’investigation. Il faut noter que cette notion de JAO, essentiellement développéepar les anglo-saxons, est vraisemblablement appelée à disparaître : il viendra un jour où ces outils feront partie du quotidien des journalistes et où il sera invraisemblable d’imaginer un journalisme qui ne soit pas assisté par ordinateur. Dans le même, ordre d’idée, existe-t-il encore une mise en page ou publication qui ne soit pas assisté par ordinateur (PAO) ? Une conception qui ne soit pas assistée par ordinateur (CAO) ? L’informatique fait évoluer tous les métiers et le journalisme n’échappe pas à la règle : perfectionnement des logiciels de mise en page, correspondances par courriels, utilisation quotidienne des moteurs de recherche, recours aux traitements de texte…Mais tant les outils de recherche sur le web que les logiciels bureautiques ont évolué depuis l’apparition de Google ou celle de Microsoft Word. Plusieurs outils peuvent être utilisés par le journalistes à chacune des 3 étapes du processus de fabrication de l’information : 1.Recherche de l’information 2.Tri et traitement de l’information 3.Rédaction, mise en forme, publication Le but de ce cours de 14 heures et d’attirer votre attention sur quelques-uns de ces outils. Libre à chacun, selon ses besoins, ses envies, ses centres d’intérêt, d’en approfondir la connaissance et de se les approprier : 1.Recherche de l’information: syntaxe avancée de Google, gestion des flux rss, scanner un site web avec Intellitamp, créer des mashups et des robots, exploration de bases de données en ligne… 2.Tri et traitement de l’information: utilisation d’un tableur (Excel), analyse des réseaux sociaux avec Ucinet… 3.Rédaction, mise en forme, publication: passage en revue de plusieurs atouts propres à la presse électronique (cartes interactives, journalisme collaboratif, journalisme de liens, Twitter…).

Exploiter Google

Googlene doit pas son succès qu’au grand nombre de pages indexées, il le doit aussi à une syntaxe relativement élaborée. En utilisant les bons opérateurs, il est possible de préciser sa recherche mais aussi de fouiller dans les archives de Google, de limiter la requête à un certain nombre de sites ainsi qu’à certains types de fichiers (pdf, xls, doc…), etc.

L’utilisation de “+”. Par défaut, Google exclut de ses recherches les mots les plus courants : il, elle, ou, et, un, 1, 2… Pour forcer le moteur de recherche à prendre en compte un de ces mots, il faut le faire précéder du signe “+”. Par exemple, pour rechercher le 1er opus de la série Le Parrain :Le Parrain +1. Attention à ne pas oublier d’insérer un espace avant l’opérateur “+”. A l’inverse, pour exclure certains termes de la recherche, on ajoutera le signe “”. Par exemple :Le Parrain Coppolarenseigne les sites incluant le mot Parrain mais ne se référant pas au film de Coppola.

Une expression exacte.Pour que la recherche pointe sur une recherche exacte, il faut l’insérer entre deux parenthèses. “Le Parrain 1” renverra vers tous les sites évoquant de cette façon le premier volet de cette série. Cette façon de faire est particulièrement utile lorsque l’on recherche des personnes (”Soeur Emmanuelle”), des paroles de chansons (l’inoubliable “Jules César, on l’appelait Jules César, il mettait pas d’falzar”), des citations, etc.

Les opérateurs avancéspermettent de confiner la recherche et donc d’obtenir des résultats plus précis. La plupart sont regroupés sur la pagePréférencesdu moteur de recherche mais pour gagner du temps et parfois pour des résultats plus précis encore, ils peuvent être introduits manuellement :

Des synonymes.Attention, cet opérateur ne fonctionne que pour les recherches dans les textes en anglais. Lorsqu’un des termes de la requête possède plusieurs synonymes, il peut être utile de le faire précéder du tilde (~) :~menétendra la recherche à man, men, people, etc.

L’opérateur “OR”.Il doit impérativement être mis en majuscules pour que la recherche tienne compte de l’un ou l’autre mot clef :homme OR femme politiquerenverra donc vers les sites évoquant soit la femme politique, soit l’homme politique. L’opérateur OR peut être remplacé parle signe |

Limiter la recherche à certains sites.Une fonction très utile, sinon indispensable, puisque grâce à l’opérateur site: elle restreint la recherche à certains domaines, voire à certains sites. Ainsi,site:bene prend en compte que les domaines enregistrés en .be tandis que site:conseildetat.belimite la recherche aux documents figurant sur le site du Conseil d’Etat de Belgique. A l’inverse, site: permet d’exclure certains domaines ou sites spécifiques.

La troncature.Utiliser l’astérisque permet de jouer son joker. Quel était le second prénom de Bill (William) Clinton? On pourrait rechercher une biographie du président américain mais le plus rapide est de faire une recherche sur“William * Clinton”. Attention au fait que l’astérisque ne peut remplacer qu’un mot ou un groupe de mots, pas une chaîne de caractères au sein d’un mot.

Archéologie.Pour obtenir l’ancienne version d’un site, il faut introduire l’opérateur cache: . Cette fonction n’est pas très utile car elle peut être activée plus facilement via le lien “En cache” qui figure à côté de chaque résultat.

Dans les url.Limiter la recherche aux url (adresses) se fait grâce à la commande inurl: .Si l’on veut, par exemple, lister les sites qui ont le mot Police dans leur url, on introduira inurl:police. Si l’on veut que la requête tienne compte de plusieurs mots clefs (qui doivent donc être tous présents dans l’url), on préférera l’opérateur allinurl: Ainsi,allinurl:police berenvoie vers les sites contenant police et be dans leur adresse internet. En toute logique, il s’agit surtout de noms de domaines belges (be) enregistrés par la police.

Dans les titres. Les pages web ont généralement un titre, fûtce pour permettre aux moteurs de recherche de les retrouver plus facilement. Ces titres apparaissent dans la barre d’état de votre navigateur. Pour rechercher un mot apparaissant dans le titre d’une page, c’est intitle: Et pour plusieurs mots, allintitle: Ainsi,allintitle: belgique policerenvoie vers les pages qui contiennent ces deux mots clefs dans le titre.

Les parenthèses.Pour des requêtes plus complexes, qui tiennent compte de plusieurs opérateurs, le mieux est de hiérarchiser les termes de recherche avec des parenthèses. Pour rechercher les documents évoquant l’interpellation ou l’arrestation de personnes qui ont été corrompues ou qui sont elles mêmes corruptrices, la syntaxe(arrestation OR interpellation) (corrompu OR corrupteur)donnera les meilleurs résultats.

Types de fichiers.Très utile, la commande filetype: permet de restreindre la recherche à certains types de documents, par exemple ceux issus d’Acrobat (pdf), de Word (doc), d’Excel (xls), etc. Ainsi, pour obtenir la liste des documents pdf contenus sur le site de la police fédérale, la commande filetype:pdf site:www.polfedfedpol.be/ donnera de bons résultats.

Pour en terminer (provisoirement) avec les opérateurs de Google et en prouver la souplesse, quelques exemples d’utilisation. Il y a bien sûr des milliers d’applications possibles, il suffit de multiplier les combinaisons d’opérateurs et de mots clefs.

Explorer les répertoires non protégés.Lorsque des fichiers sont enfermés dans le répertoire d’un site web, le système les indexe automatiquement (index of). Autrement, dit, il en dresse l’inventaire en indiquant noms (name), tailles (size), dates des dernières modifications (last modified)…

Pour trouver ces répertoires et connaissant leurs caractéristiques communes, on peut donc demander à Google de retrouver les pages dont le titre est “index of” et qui présentent, dans le corps de leur texte, les occurrences “last modified”, “size”, “name” et “description”. A toutes fins utiles, pour que la recherche soit la plus précise possible, on rejettera les pages de type html, php et htm. Le résultat n’est pas assez glamour ? Rien n’empêche de limiter les résultats aux répertoires incluant des fichiers son ou vidéo (formats wmv ou avi) relatifs à Carla Bruni. Le résultat :inurl(html|htm|php) intitle:”index of” +”last modified” +”parent directory” +description +size +”carla bruni” +(wmv OR avi)Des informations semiconfidentielles.A moins d’enfreindre la loi, par exemple en contournant des mots de passe, un serveur web n’est pas un livre ouvert. Néanmoins, il est d’améliorer ses chances de trouver une réponse en poussant la recherche dans ses derniers retranchements. Ce peut être en spécifiant le type de fichier logé sur un serveur : filetype:pdf, filetype:xls, filetype:doc, etc. On peut aussi essayer de deviner les répertoires semicachés : “intitle:Index.of.backup”, intitle:”index.of.personal”, inurl:/tmp (pour les fichiers temporaires), intitle:”index.of.secure”, etc. La commande site: restreint la recherche à certains noms de domaines.

Etude de cas Hisham Sliti est un Tunisienui faitartie des détenus de Guantanamo. En setembre 2007, on apprend que la justice américaine a ordonné que le Département de la Défense des Etats Unis (DoD) rende publiques un certain nombre d’auditions de prisonniers. Peutêtre celle de Hisham Sliti faitelle partie du nombre ? L’intérêt est qu’on sait déjà qu’il est passé par la Belgique, qu’il s’est procuré un passeport à Bruxelles, etc. Les journaux belges ont donc un intérêt articulier ourl’éventuel témoina ede ce détenu. Une requête sur le web avec"Hisham Sliti" en mot clef donne près de 500 occurrences. Avec cette difficulté supplémentaire que le prénom Hisham peut aussi être transcrit Hischam ou Hisham. Pour limiter les risques d’erreur, on partira donc du seul nom de famille. On peut supposer ue le comterendu d’audition, s’il a étéublié, est sous formatdf. Enfin, l’information devant être déclassifiée par l’armée américaine, on peut dans un premier temps limiter la recherche au nom de domaine « mil ». La requête doit donc ressembler à ceci : sliti hisham filetype:pdf site:mil La recherche est fructueuse : http://www.dod.mil/pubs/foi/detainees/csrt_arb/ARB_Round_1_Factors_000197000294.pdfLa publication est ici :http://joelmatriche.com/2007/09/20/passeportbelgepourguantanamo danslesoir/Le fichier robot.txt.Par défaut, toutes les pages d’un site peuvent être lues et donc indexées par les moteurs de recherche. Toutefois, il est essentiel de leur interdire l’accès à certaines pages, parce qu’elles n’ont aucun contenu (dans le cas de pages dynamiques, par exemple) ou parce que leur contenu n’est pas supposé être grand public. Il est aussi possible d’interdire aux robots d’accéder au site tout entier. Les instructions à l’attention du robot sont enfermées, en mode texte (fichier txt) à la racine du serveur. Elles se présentent généralement de cette façon : # robots.txt Useragent: * Disallow: /noel/ Disallow: /prive/

La première ligne (Useragent: *)indique que les instructions s’adressent à tous les moteurs de recherche. La ligne (Disallow: /noel/)interdit l’accès du robot au répertoire “noel”.

Autant dire que ces pages dont la visite est déconseillée peuvent susciter la curiosité. On en fera l’inventaire par la commande“robots.txt” “Disallow:” filetype:txt. Pour lire le fichier robot.txt d’un site web, il suffit donc d’en introduire le chemin dans la barre d’adresse du navigateur. Par exemple :http://www.whitehouse.gov/robots.txt

La machine à remonter le temps

Oups, la page ou le site web que vous aviez précieusement référencé n’existe plus! Tout n’est pas perdu pour autant, il existe plusieurs moyens de raviver la mémoire d’internet :

Le cache de Google: Google a été le premier à indexer et inclure dans les résultats de recherche les pages disparues. Il garde copie des pages pendant 3 mois environ. On peut y accéder via la page de résultats (cliquer sur “copie cachée”), par l’entreprise de la barre d’outils Google ou en introduisant dans la commande suivante dans le champ de recherche : cache:URL.

Wayback Machine:C’est la mémoire du web depuis 1996. La base de données conserve également des dizaines de milliers de concerts, d’enregistrements audios et vidéos. Il est par exemple possible de remonter le temps jusqu’au premières moutures de Google, en 1998.

WebCite: Un moteur qui conserve en archive les articles de certaines revues, surtout médicales. Etude de cas

En février 2008, un avocat liéeois est inculé ourdétention de matériel pédopornographique. Il est soupçonné d’avoir téléchargé ou à tout le moins visionné des images illégales sur un site web. Le nom de ce site (qui a depuis lors changé de propriétaire et de vocation) est donné par des enquêteurs et même écrit dans certains journaux. En se servant dewww.archives.org, il est possible de retrouver des traces du site originel : adresse courriel du webmaster, formulaires de commandes, prix pour les téléchargements…

Actualiser les résultats de Google

Comment actualiser les résultats donnés par Google ? Deux manières : Dans le moteur « News » ou « Actualités », s’abonner au flux rss Créer une alerte. Les nouveaux résultats seront renvoyés vers la boîte aux lettres de l’utilisateur. D’autres moteurs proposent le même service, notammentwww.icerocket.com

Surveiller les changements d’un site web

Comment surveiller l’évolution d’un site web lorsque celuici n’est pas pourvu d’un fil RSS ?

Avec un module firefox comme Update Scanner (https://addons.mozilla.org/fr/firefox/addon/3362)

Ou Notify (ne fonctionne pas avec les versions récentes de firefox : https://addons.mozilla.org/fr/firefox/addon/3149) Avec un logiciel comme Copernic (mais payant) Avec un logiciel gratuit comme Newzie (www.newzie.com)