Cours RI
16 pages
Français
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres
16 pages
Français
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Description

Approches fondées sur le s chaînes de caractères pour le Re cherche d'Inf ormation Mathieu RocheCours ECD (Recherche d'Information et Langage Naturel)2007/2008Utilisation des informations sur les chaînes de caractères en RI● Utiliser des connaissances sémantiques pour améliorer les méthodes de classification (cf cours précédent).– De telles connaissances ex istent dans le dom aine général. – Limite : domaines spécialisés.Lien entr e les chaînes de car actères et la “sémantique” ?2 Cours ECD - M2 – 2007/ 2008Utilisation des informations sur les chaînes de caractères en RI● Utiliser des méthodes fondées sur les chaînes de caractères pour :– Apporter des connaissances sémantiques (pour le regroupement de m ots “sém antiquement” proches),– Normaliser les textes (correction orthographique, etc.),– Reconnaissance des langues ,– Identification de plagiat (prox imité d e m arques déposées à l'IN P I),3 Cours ECD - M2 – 2007/ 2008– etc.Suffixes/ PréfixesBut : vé rifier q u'une c haîne d e c aractères Ch1 s e retrouve :• au d ébut d 'une c haîne d e ca ractères Ch2 (préfixe),• à la fi n d 'une ch aîne d e c aractères Ch2 (suffixe).✔ Exemples de similarités :● P réfixe -> Ch1 = chat / Ch2 = chaton● Suffixe -> Ch1 = suivre / Ch2 = p oursuivre4 Cours ECD - M2 – 2007/ 2008Suffixes/ PréfixesAvantage : efficace s ur c ertains domaines spécialisés te ls q ue la m édecine [N akache et al. 2006]✔ Les s uffixes indicateurs d 'états path ologiques : ...

Informations

Publié par
Nombre de lectures 38
Langue Français

Extrait

Approches fondées sur les chaînes de caractères pour le Recherche d'Information
Mathieu Roche
Cours ECD (Recherche d'Information et Langage Naturel)
2007/2008
 et èressémala eu tnqi
Limite : domaines spécialisés.
Utilisation des informations sur les chaînes de caractères en RI
?
Utiliser des connaissances sémantiques pour améliorer les méthodes de classification (cf cours précédent).
2
2M  D - sCEoCru087/20 200ncsa eeson cisnaet esellDgénéral.domaine adsnl  eixtsne t racte caes dhaînsec erl e tniLne
3
Utilisation des informations sur les chaînes de caractères en RI
Utiliser des méthodes fondées sur les chaînes de caractères pour :
Apporter des connaissances sémantiques (pour le regroupement de mots “sémantiquement” proches),
Normaliser les textes (correction orthographique, etc.),
Reconnaissance des langues ,
Identification de plagiat (proximité de marques déposées à l'INPI),
etc.
Cours ECD - M2  0270/2008
4
Suffixes/Préfixes
But : vérifier qu'une chaîne de caractères Ch1 se retrouve : • au début d'une chaîne de caractères Ch2   ( préfixe ), • à la fin d'une chaîne de caractères Ch2 ( suffixe ).
Exemples de similarités :  Préfixe -> Ch1 = chat / Ch2 = chat on Suffixe -> Ch1 = suivre / Ch2 = pour suivre
oCurs ECD - M2  2007/0280
5
Suffixes/Préfixes
Avantage : efficace sur certains domaines spécialisés tels que la médecine [Nakache et al. 2006]
Les suffixes indicateurs d' états pathologiques : 'ite' pour  désigner l'inflammation (pancréat ite , appendic ite , gastr ite ), 'algie'  ou 'odynie' pour la douleur.
Les suffixes indicateurs de gestes techniques : 'centèse'  signifie ponction, 'ectomie' est propre à l'ablation, 'plastie' la réparation.
 
Cours ECD M2 – 2007/2008 -
6
Suffixes/Préfixes
Utilisation de ces connaissances (suffixes/préfixes) sur les chaînes de caractères comme connaissance du domaine.
Désuffixation pour améliorer les méthodes de classification [Nakache et al., 2006]
Limite : chat / chateau !  
oCrus ECD - M2  2007/2008
 2M002 CE s - D207/708oCrui sspeapes» aut atsi ecndE «D tique : L'Remar
Il existe de nombreuses mesures de similarité (pas seulement au niveau des méthodes de mise en correspondance de schémas).
Exemple avec la distance « Edit distance » (notée E ) = somme minimale du coût des opérations qu'il faut effectuer pour transformer Ch1 en Ch2 .   Opérations : suppression, insertion, remplacement.
String Matching
is D «lédee nctahsneveL  » niet
8
String Matching
Exemple : E ( gréviste , grève ) = 4  
Ch1 : g _
Opérations : Ch2 : _ g
r é v i _ _ _ _
Remplacement Insertio
r è v _ _ _
nIn
s _
serti
noIns
t _
ert
ion
e _
e _
Mesure prenant en compte E : la mesure String Matching ( SM ) de Maedche et Staab :  SM(Ch1,Ch2) = max[ 0; (min(|Ch1|,|Ch2|)-E(Ch1,Ch2))/min(|Ch1|,|Ch2|) ]
SM ( gréviste , grève ) = max(0;(5-4)/5) = 0.2 Calculer SM (chat,chaton) Cour
 
Cours ECD - M2 – 2007/2008
9
String Matching
Méthode (Distance de Levenshtein) :  
Construire une matrice M de n+1 lignes et m+1 colonnes. Initialiser de la première ligne par la matrice ligne [ 0,1,….., m-1, m] et la première colonne par la matrice colonne [ 0,1,….., n-1, n]
Soit Cout(i, j)=0 si A(i)=B(j) et Cout(i, j)=1 si A(i)!=B(j) On a donc ici la matrice Cout :
oCrus EDC  -2M  0270/2008
10
String Matching
On remplit ensuite la matrice M en utilisant la règle suivante M[i, j] est égale au minimum de: L’élément directement avant plus 1: M[i-1, j] + 1. -      - L’élément directement au dessus plus 1: M[i, j-1] + 1.  - Le diagonal précédent plus le coût: M[i-1, j-1] + Cout(i, j).
...
Cours 
Calculer la matrice pour les mots : (chat, chaton)
ECD - 2M  2007/0280
/200811TechniquE DC- M  2 0270Crsoucllu rac erel ilutt esou péeis-n sed e semmargM oene isdee vreum serusef noédse sur les tri-grasemmlet uq sal ees me ur Lde.in
Généralement, la valeur de n varie entre 1 et 5.
 nombre de n caractères consécutifs.
n-grammes
Exemple de tri-grammes : Ch1 = chat / Ch2 = chaton : tr(Ch1) = { cha , hat } tr(Ch2) = { cha , hat , ato, ton}
 
  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents