sujet-these-lina-grim
4 pages
Catalan

sujet-these-lina-grim

-

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres
4 pages
Catalan
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Description

Sujet : Exploitation de clustering multiples sur un jeu de donnéesDomaine : analyse et exploitation des masses de donnéesFinancement prévu : Alloc. MESR (Ministère Enseignement Supérieur et de la Recherche)Début de la thèse : septembre ou octobre 2011Lieu de travail : Nantes, site de Polytech’Nantes/LINA.Rémunération : selon réglementation nationale du contrat doctoral http://www.enseignementsup-recherche.gouv.fr/cid20185/doctorat.htmlDirecteur de thèse : Marc GelgonCo-encadrants : Guillaume Raschia, Antoine PigeauLaboratoire et équipe d’accueil :Le/la doctorant(e) recruté(e) sera membre du LINA (Laboratoire d’Informatique Nantes-Atlantique, UMR CNRS 6241) et de l’équipe GRIM (Gestion, Résumé, Indexation et apprentissage sur les Mas-ses de données) de ce laboratoire. Les travaux de l’équipe GRIM concernent principalement la classification non supervisée de données, avec des méthodes et des perspectives diverses : le ré-sumé de bases de données et l’interrogation flexible, l’indexation, l’intégration et la recherche d’information dans les systèmes distribués (cluster, P2P), la recherche d’information multimedia, la préservation de la confidentialité dans les bases de données, ou la fouille dans les données sé-quentielles. Voir http://www.polytech.univ-nantes.fr/grim plus pour de détails.Profil recherché :- Titulaire d’un diplôme bac+5 en informatique (Master2 ou ingénieur), démontrant une activi-té d’initiation à la recherche. - Compétence et intérêt ...

Informations

Publié par
Nombre de lectures 57
Langue Catalan

Extrait

Sujet: Exploitation de clustering multiples sur un jeu de données Domaine: analyse et exploitation des masses de données
Financementprévu: Alloc. MESR (Ministère Enseignement Supérieur et de la Recherche) Début de la thèse: septembre ou octobre 2011 Lieu de travail: Nantes, site de PolytechNantes/LINA. Rémunération: selon réglementation nationale du contrat doctoral http://www.enseignementsup-recherche.gouv.fr/cid20185/doctorat.html Directeur de thèse: Marc Gelgon Co-encadrants: Guillaume Raschia, Antoine Pigeau
Laboratoire et équipe daccueil :
Le/la doctorant(e) recruté(e) sera membre du LINA (Laboratoire dInformatique Nantes-Atlantique, UMR CNRS 6241) et de léquipe GRIM (Gestion, Résumé, Indexation et apprentissage sur les Mas-ses de données) de ce laboratoire. Les travaux de léquipe GRIM concernent principalement la classification non supervisée de données, avec des méthodes et des perspectives diverses : le ré-sumé de bases de données et linterrogation flexible, lindexation, lintégration et la recherche dinformation dans les systèmes distribués (cluster, P2P), la recherche dinformation multimedia, la préservation de la confidentialité dans les bases de données, ou la fouille dans les données sé-quentielles. Voirhttp://www.polytech.univ-nantes.fr/grimplus pour de détails.
Profil recherché : - Titulairedun diplôme bac+5 en informatique (Master2 ou ingénieur), démontrant une activi-té dinitiation à la recherche. - Compétenceet intérêt pour lanalyse de données, les bases de données, la recherche din-formation. - Goûtpour une activité équilibrée entre réflexion scientifique, mise en oeuvre expérimentale, capacité à rédiger (dans la perspective darticles scientifiques et de la thèse) - Bonnemaîtrise de langlais. - Pourse voir attribuer la bourse par lécole doctorale, létudiant(e) candidat(e) devra figurer dans le premier tiers du classement de sa promotion.
Contacts pour sinformer ou candidater:marc.gelgon@univ-nantes.fr, 02 40 68 32 02
Description du sujet de thèse : Résumé.
Le clustering (classification non supervisée) de données est une tâche centrale en bases de don-nées et apprentissage automatique. Cette thèse propose davancer dans la voie de recherche con-nue sur le nom d ensemble clustering, cherchant à exploiter conjointement des processus ou ré-sultats de clusterings multiples. On recherche, par cette voie de travail, des clusterings plus fia-bles et utiles, et en même temps, pouvoir traiter des situations présentant des contraintes de con-fidentialité sur les données.
Mots clés. Bases de données, apprentissage automatique, classification non supervisée, cluste-rings multiples.
Introduction
Contexte et problématique
La structuration de jeux de données par classification non supervisée (=clustering) est une tâche classique et centrale, en bases de données comme en apprentissage automa- tique. Dans la dé-marche usuelle, on dispose dun jeu de données, on lui applique un algorithme de clustering quon espère performant et on obtient un résultat. La littérature en la matière est très riche. En classification supervisée, un axe de recherche également établi, depuis 15 ans, concerne les techniques dites d ensemble» : de bonnes propriétés théoriques ont été établies concernant la possibilité de construire des classifieurs très performants, par com- binaison de classifieurs fai-bles», c.a.d. de performance modeste. Des algorithmes pra- tiques et de très bons résultats ont été montrés pour des applications diverses [1]. Si, sur ce point, la classification non supervisée ne dispose pas encore dun bagage théorique aussi établi que la classification supervisée, la question de lexploitation conjointe de plusieurs résultats de clusterings est un réel enjeu, et de travaux fondateurs [2] et de progrès plus récents [3,4]. La diversité des méthodes disponibles pour faire du clustering et de la diversité de leur pa-ramétrisations résultent, pour un même jeu de données, des résultats de clustering potentielle-ment assez variés. Lobjectif général de ce travail de thèse est de chercher à tirer profit de la diversité de résultats de clustering disponibles pour un même jeu de données.
Problèmes et opportunités
Une des raisons de construire plusieurs clusterings sur un même jeu de données, puis de les combiner, est despérer améliorer les performances générales de lopération. Néan- moins, parce chaque algorithme de clustering fait ses propres hypothèses sur ce quest un bon clustering» et pose son propre modèle sur les données, une réflexion sur la défi- nition de cette performance», dans le cas de combinaison de clusterings menés par des techniques diverses, sera dailleurs à mener au cours de la thèse. Comment combiner les clusterings (clustering» ici plus général que partition», car les natures mathématiques des résultats de clustering peuvent être diverses) ? Quelles sont les propriétés souhai- tables sur la diversité des clusterings ? Comment tirer parti de cette diversité, de manière plus riche que la recherche dun unique clustering consensuel ? On sintéressera en particulier aux cas suivants : • les clusterings individuels sont réalisés sur le même ensemble dindividus, mais me- nés sépa-rément sur différentes variables. Cette situation peut être motivée par des problèmes de confi-dentialité sur les données, une volonté de performance de calcul, la malédiction de la dimension, ou encore la construction de clusterings multi- objectifs difficilement atteignables par un examen conjoint des variables, selon un procédé usuel. Au delà dun traitement à posteriori, on examine-ra, dans cette situation, les possibilités et lopportunité de faire collaborer (guider/contraindre) les processus de clustering, sur les différentes variables, en cours de route.
Page 2
• le cas où les clusterings sont menés sur les axes spatial et temporel dun même jeu de don-nées. On sintéressera, dans ce cas, aux données dites "sociales" (enjeu des systèmes de partage de données personnelles). • Enfin, on proposera des outils dinterrogation des clusterings ainsi produits (langage, algèbre). Ce travail de thèse pourrait exploiter des acquis importants de léquipe GRIM en matière dagré-gation de clustering [5,6,7], de traitement de données spatio-temporelles [8], et sarticuler avec des travaux en cours sur lanonymisation de données.
Références :
[1] Rokach, L. (2010). "Ensemble-based classifiers". Artificial Intelligence Review 33: 1–39.
[2] Alexander Strehl and J. Ghosh, Cluster ensembles – a knowledge reuse framework for combi-ning multiple partitions, Journal on Machine Learning Research (JMLR) 2002.
[3] Alexander Topchy, Anil K. Jain, William Punch. Clustering Ensembles: Models of Consensus and Weak Partitions, IEEE Trans. PAMI, 2006.
[4] Hongjun Wang, Hanhuai Shan, Arindam Banerjee. Bayesian Cluster Ensembles, SIAM Interna-tional Conference on Data Mining, SDM 09.
[5] Mounir Bechchi, Guillaume Raschia, Noureddine Mouaddib: Merging distributed database summaries. ACM CIKM 2007: 419-428
[6] Pierrick Bruneau, Marc Gelgon, Fabien Picarougne: Parsimonious reduction of Gaussian mix-ture models with a variational-Bayes approach. Pattern Recognition 43(3): 850-858 (2010)
[7] Mounir Bechchi, Guillaume Raschia, Noureddine Mouaddib, Joining Distributed Database Summaries, Rapport de recherche INRIA N 6728, Hal : http://hal.archives-ouvertes.fr/docs/00/34/65/28/PDF/RR-6768.pdf
[8] Antoine Pigeau: MyOwnLife: incremental and hierarchical classification of a personal image collection on mobile devices. Multimedia Tools Appl. 46(2-3): 289-306 (2010)
CV du directeur de thèse Marc Gelgon est professeur à PolytechNantes et responsable de léquipe GRIM du LINA. Ses intérêts de recherche portent sur les modèles probabilistes et, en particulier, leur estimation sur les données distribuées.
Parsimonious reduction of Gaussian mixture models with a variational-Bayes approach Bruneau P., Gelgon M., Picarougne F. Pattern Recognition43(2010) 850-858
Aggregation of probabilistic PCA mixtures with a variational-Bayes technique over parame-ters Bruneau P., Gelgon M., Picarougne F. DansProc. of Int. Conf. on Pattern Recognition-IEEE/IAPR Int. Conf. on Pattern Recognition, Turquie (2010)
CV du co-encadrant
Page 3
Guillaume Raschia est maître de conférences à PolytechNantes. Ses intérêts de recherche portent sur le résumé de données et de séquences, lintégration de données, le k-anonymat et les techno-logies de bases de données pour la préservation de la vie privée.
Production de jeux de données anonymes par une technique d'indexation spatiale Raschia G., Anjum A. DansActes de l'atelier "Protection de la Vie Privée"-Atelier "Protection de la Vie Privée", France (2010)
Time Sequence Summaries to Scale Up Time-dependent Applications Pham Q.-K., Raschia G., Mouaddib N., Saint-Paul R., Benatallah B. DansProceeding of the 18th ACM Conference on Information and Knowledge Manage-ment (CIKM)-18th ACM Conference on Information and Knowledge Management (CIKM), Chine (2009)
CV du co-encadrant Antoine Pigeau est maître de conférences à PolytechNantes. Ses intérêts de recherche portent sur le clustering de données, en particulier dans le cas des données spatio-temporelles.
Incremental and hierarchical classification of a personal image collection on mobile devi-ces Pigeau A. Journal of Multimedia Tools and Applications46, 2-3 (2010) 289-306 Geo-temporal structuring of a personal image database with two-level variational-Bayes mixture estimation Bruneau P., Pigeau A., Gelgon M., Picarougne F. DansRevised selected papers from Adaptive Multimedia Retrieval workshops (AMR'08-AMR'09)-Adaptive Multimedia Retrieval workshop (AMR'08), Allemagne (2008)
Page 4
  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents