Cet ouvrage et des milliers d'autres font partie de la bibliothèque YouScribe
Obtenez un accès à la bibliothèque pour les lire en ligne
En savoir plus

Partagez cette publication




AVERTISSEMENT

Ce document est le fruit d'un long travail approuvé par le
jury de soutenance et mis à disposition de l'ensemble de la
communauté universitaire élargie.

Il est soumis à la propriété intellectuelle de l'auteur. Ceci
implique une obligation de citation et de référencement lors
de l’utilisation de ce document.

D’autre part, toute contrefaçon, plagiat, reproduction
illicite encourt une poursuite pénale.


➢ Contact SCD Nancy 1 : theses.sciences@scd.uhp-nancy.fr




LIENS


Code de la Propriété Intellectuelle. articles L 122. 4
Code de la Propriété Intellectuelle. articles L 335.2- L 335.10
http://www.cfcopies.com/V2/leg/leg_droi.php
http://www.culture.gouv.fr/culture/infos-pratiques/droits/protection.htm Departement de formation doctorale en informatique Ecole doctorale IAEM Lorraine
UFR des Sciences & Technologies
Conception d’un modele et de
frameworks de distribution
d’applications sur grappes de PCs avec
tolerance aux pannes a faible cout^
THESE
pr´esent´ee et soutenue publiquement le 2 f´evrier 2011
pour l’obtention du
Doctorat de l’universite Henri Poincare { Nancy 1
(specialite informatique)
par
ConstantinosMAKASSIKIS
Composition du jury
President : LaurentPhilippe Professeur, Universit´e de Franche Comt´e
Rapporteurs : PierreManneback Universit´e de Mons
SergeChaumette Professeur, Universit´e Bordeaux I
Examinateurs : ClaudeGodart Universit´e de Lorraine
St´ephaneVialle Professeur, Sup´elec Campus de Metz
(directeur de th`ese)
VirginieGaltier Professeur adjoint, Sup´elec Campus de Metz
(co-encadrante de la th`ese)
´XavierWarin EDF R&D (Equipe Osiris)Mis en page avec la classe thloria.i
Remerciements
QuecesoitàSupélec,auLORIA,ouailleurs,nombreusessontlespersonnesquiontcontribué
d’une manière ou d’une autre à la réalisation du travail exposé dans ce manuscrit. D’emblée
j’aimerais les remercier et demander pardon à toutes celles que je n’ai pas mentionnées ci-après.
Tout d’abord, je tiens à exprimer ma gratitude envers mon directeur de thèse, le professeur
Stéphane Vialle, et ma co-encadrante de la thèse, le docteur Virginie Galtier, pour m’avoir
guidé formidablement tout au long de ces quatre dernières années. Sans leur perspicacité, sans
leur exigence, sans leur rigueur, sans leur disponibilité, sans leur pédagogie et sans leurs conseils,
Dieusaitoùjemeseraisembourbé:leurimplicationactiveetcomplémentaireaétéinstrumentale
pourcomplétermaformationetpourmeneràbienceprojet.Jeleur suisaussitrèsreconnaissant
pour avoir partagé leur expérience et m’avoir fait découvrir et apprécier différentes facettes du
monde de la recherche et de l’enseignement. À travers nos discussions, je me suis beaucoup
enrichi. Stéphane, Virginie, je suis très heureux que nous ayons travaillé ensemble.
Ensuite, je remercie les membres de mon jury de thèse. À commencer par les professeurs
Pierre Manneback et Serge Chaumette qui ont accepté de rapporter mon mémoire, puis les
professeursLaurentPhilippeetClaudeGodart,etpourfinir,XavierWarind’EDFaveclequel
j’ai eu le plaisir de travailler en début de thèse dans le cadre du projet ANR-GCPMF.
Un grand merci également au professeur Jens Gustedt et à toute l’équipe AlGorille pour
m’avoir accueilli et soutenu. Votre aide pour la préparation de la soutenance et vos encourage-
ments furent très précieux.
Enfin, je remercie les membres du personnel de Supélec que j’ai côtoyés au cours de ces
quatre années et qui ont facilité sinon rendu mon séjour plus agréable. Pour ne citer qu’une
partie : Patrick, Claudine, Sébastien, Gillou, merci d’avoir égayé le second étage en instaurant
une ambiance toute particulière dont vous détenez le secret. Hervé, merci d’avoir rendu plus
pimentées certaines journées avec des blagues et des répliques mémorables telles que «Buenas,
burras» ou «Tu perds déjà du temps».
JenepourraiclorecetteénumérationsansciterLucianetMatthieuquej’aibeaucoupcôtoyés
et avec lequels j’ai beaucoup échangé. En particulier, Lucian qui fut mon complice. Je n’oublierai
pasleslonguesheurespasséesensembleaubureauàtravaillerchacunsurnosthèsesrespectives,ce
qui nous a valu le surnom de stakhanovistes. Je n’oublierai pas non plus les innombrables parties
de billard puis de tennis de table, ainsi que les sorties touristiques, les soirées gastronomiques et
tous les autres bons moments passés ensemble.
Avant d’adresser quelques mots dans ma langue maternelle, je tiens à remercier la Région
Lorraine et Supélec pour avoir financé ce travail, ainsi que toutes les personnes que je n’ai pas
citées.
Τέλως θα ήθελα να αϕιερώσω αυτές τις τελευταίες γραμμές στους ϕίλους μου από το Στρα-
σβούργο, όπως και επίσης, στην οικογένεια μου: Πατέρα, Μητέρα, Μάρθα, Σταματία και Μάριε,
σας ευχαριστώ ολόψυχα για την συμπαράστασή σας όλα αυτά τα χρόνια.iiiii
If I had more time, I could write a shorter letter.
— Pascal’s Law
À ma chère famille.ivRésumé
Les grappes de PCs constituent des architectures distribuées dont l’adoption se répand à
cause de leur faible coût mais aussi de leur extensibilité en termes de nœuds. Notamment, l’aug-
mentation du nombre des nœuds est à l’origine d’un nombre croissant de pannes par arrêt qui
mettent en péril l’exécution d’applications distribuées. L’absence de solutions efficaces et por-
tables confine leur utilisation à des applications non critiques ou sans contraintes de temps.
MoLOToFestunmodèledetoléranceauxpannesdeniveauapplicatifetfondéesurlaréalisa-
tiondesauvegardes.Pourfaciliterl’ajoutdelatoléranceauxpannes,ilproposeunestructuration
de l’application selon des squelettes tolérants aux pannes, ainsi que des collaborations entre le
programmeur et le système de tolérance des pannes pour gagner en efficacité.
L’applicationdeMoLOToFàdesfamillesd’algorithmesparallèlesSPMDetMaître-Travailleur
a mené aux frameworks FT-GReLoSSS et ToMaWork respectivement. Chaque framework four-
nit des squelettes tolérants aux pannes adaptés aux familles d’algorithmes visées et une mise en
œuvre originale. FT-GReLoSSS est implanté en C++ au-dessus de MPI alors que ToMaWork est
implanté en Java au-dessus d’un système de mémoire partagée virtuelle fourni par la technologie
JavaSpaces.
L’évaluationdesframeworksmontreunsurcoûtentempsdedéveloppementraisonnableetdes
surcoûtsentempsd’exécutionnégligeables en l’absence de tolérance aux pannes. Les expériences
menées jusqu’à 256 nœuds sur une grappe de PCs bi-cœurs, démontrent une meilleure efficacité
de la solution de tolérance aux pannes de FT-GReLoSSS par rapport à des solutions existantes
de niveau système (LAM/MPI et DMTCP).
Mots-clés: tolérance aux pannes, points de reprise, squelettes de programmation, algorithmes
SPMD, algorithmes Maître-Travailleur, framework.Abstract
PC clusters are distributed architectures whose adoption spreads as a result of their
low cost but also their extensibility in terms of nodes. In particular, the increase in nodes is
responsable for the increase of fail-stop failures which jeopardize distributed applications. The
absence of efficient and portable solutions limits their use to non critical applications or without
time constraints.
MoLOToFisamodelforapplication-levelfaulttolerancebasedoncheckpointing.Toeasethe
addition of fault tolerance, it proposes to structure applications using fault-tolerant skeletons as
wellascollaborationsbetweentheprogrammerandthefaulttolerancesystemtogaininefficiency.
The application of MoLOToF on SPMD and Master-Worker families of parallel algorithms
lead to FT-GReLoSSS and ToMaWork frameworks respectively. Each framework provides fault-
tolerant skeletons suited to targeted families of algorithms and an original implementation. FT-
GReLoSSSusesC++ontopofMPIwhileToMaWorkusesJavaontopofvirtualsharedmemory
system provided by JavaSpaces technology.
The frameworks’ evaluation reveals a reasonable time development overhead and negligible
runtime overheads in absence of fault tolerance. Experiments up to 256 nodes on a dualcore PC
cluster, demonstrate a better efficiency of FT-GReLoSSS’ fault tolerance solution compared to
existing system-level solutions (LAM/MPI and DMTCP).
Keywords: fault tolerance, checkpoints, programming skeleton, SPMD algorithms, Master-
Worker algorithms, framework.