Conception d'un modèle et de frameworks de distribution d'applications sur grappes de PCs avec tolérance aux pannes à faible coût, Design of a model and frameworks for application distribution on PC clusters with low-overhead fault tolerance

De
Publié par

Sous la direction de Stéphane Vialle
Thèse soutenue le 02 février 2011: Nancy 1
Les grappes de PCs constituent des architectures distribuées dont l'adoption se répand à cause de leur faible coût mais aussi de leur extensibilité en termes de noeuds. Notamment, l'augmentation du nombre des noeuds est à l'origine d'un nombre croissant de pannes par arrêt qui mettent en péril l'exécution d'applications distribuées. L'absence de solutions efficaces et portables confine leur utilisation à des applications non critiques ou sans contraintes de temps.MoLOToF est un modèle de tolérance aux pannes de niveau applicatif et fondée sur la réalisation de sauvegardes. Pour faciliter l'ajout de la tolérance aux pannes, il propose une structuration de l'application selon des squelettes tolérants aux pannes, ainsi que des collaborations entre le programmeur et le système de tolérance des pannes pour gagner en efficacité. L'application de MoLOToF à des familles d'algorithmes parallèles SPMD et Maître-Travailleur a mené aux frameworks FT-GReLoSSS et ToMaWork respectivement. Chaque framework fournit des squelettes tolérants aux pannes adaptés aux familles d'algorithmes visées et une mise en oeuvre originale. FT-GReLoSSS est implanté en C++ au-dessus de MPI alors que ToMaWork est implanté en Java au-dessus d'un système de mémoire partagée virtuelle fourni par la technologie JavaSpaces. L'évaluation des frameworks montre un surcoût en temps de développement raisonnable et des surcoûts en temps d'exécution négligeables en l'absence de tolérance aux pannes. Les expériences menées jusqu'à 256 noeuds sur une grappe de PCs bi-coeurs, démontrent une meilleure efficacité de la solution de tolérance aux pannes de FT-GReLoSSS par rapport à des solutions existantes de niveau système (LAM/MPI et DMTCP).
-Systèmes informatiques-- Pannes
-Tolérance aux fautes (informatique)
-Algorithmes parallèles
-Framework (logiciel)
-Programmation structurée
PC clusters are distributed architectures whose adoption spreads as a result of their low cost but also their extensibility in terms of nodes. In particular, the increase in nodes is responsable for the increase of fail-stop failures which jeopardize distributed applications. The absence of efficient and portable solutions limits their use to non critical applications or without time constraints. MoLOToF is a model for application-level fault tolerance based on checkpointing. To ease the addition of fault tolerance, it proposes to structure applications using fault-tolerant skeletons as well as collaborations between the programmer and the fault tolerance system to gain in efficiency. The application of MoLOToF on SPMD and Master-Worker families of parallel algorithms lead to FT-GReLoSSS and ToMaWork frameworks respectively. Each framework provides fault-tolerant skeletons suited to targeted families of algorithms and an original implementation. FT-GReLoSSS uses C++ on top of MPI while ToMaWork uses Java on top of virtual shared memory system provided by JavaSpaces technology. The frameworks' evaluation reveals a reasonable time development overhead and negligible runtime overheads in absence of fault tolerance. Experiments up to $256$ nodes on a dualcore PC cluster, demonstrate a better efficiency of FT-GReLoSSS' fault tolerance solution compared to existing system-level solutions (LAM/MPI and DMTCP)
Source: http://www.theses.fr/2011NAN10011/document
Publié le : samedi 29 octobre 2011
Lecture(s) : 15
Nombre de pages : 169
Voir plus Voir moins




AVERTISSEMENT

Ce document est le fruit d'un long travail approuvé par le
jury de soutenance et mis à disposition de l'ensemble de la
communauté universitaire élargie.

Il est soumis à la propriété intellectuelle de l'auteur. Ceci
implique une obligation de citation et de référencement lors
de l’utilisation de ce document.

D’autre part, toute contrefaçon, plagiat, reproduction
illicite encourt une poursuite pénale.


➢ Contact SCD Nancy 1 : theses.sciences@scd.uhp-nancy.fr




LIENS


Code de la Propriété Intellectuelle. articles L 122. 4
Code de la Propriété Intellectuelle. articles L 335.2- L 335.10
http://www.cfcopies.com/V2/leg/leg_droi.php
http://www.culture.gouv.fr/culture/infos-pratiques/droits/protection.htm Departement de formation doctorale en informatique Ecole doctorale IAEM Lorraine
UFR des Sciences & Technologies
Conception d’un modele et de
frameworks de distribution
d’applications sur grappes de PCs avec
tolerance aux pannes a faible cout^
THESE
pr´esent´ee et soutenue publiquement le 2 f´evrier 2011
pour l’obtention du
Doctorat de l’universite Henri Poincare { Nancy 1
(specialite informatique)
par
ConstantinosMAKASSIKIS
Composition du jury
President : LaurentPhilippe Professeur, Universit´e de Franche Comt´e
Rapporteurs : PierreManneback Universit´e de Mons
SergeChaumette Professeur, Universit´e Bordeaux I
Examinateurs : ClaudeGodart Universit´e de Lorraine
St´ephaneVialle Professeur, Sup´elec Campus de Metz
(directeur de th`ese)
VirginieGaltier Professeur adjoint, Sup´elec Campus de Metz
(co-encadrante de la th`ese)
´XavierWarin EDF R&D (Equipe Osiris)Mis en page avec la classe thloria.i
Remerciements
QuecesoitàSupélec,auLORIA,ouailleurs,nombreusessontlespersonnesquiontcontribué
d’une manière ou d’une autre à la réalisation du travail exposé dans ce manuscrit. D’emblée
j’aimerais les remercier et demander pardon à toutes celles que je n’ai pas mentionnées ci-après.
Tout d’abord, je tiens à exprimer ma gratitude envers mon directeur de thèse, le professeur
Stéphane Vialle, et ma co-encadrante de la thèse, le docteur Virginie Galtier, pour m’avoir
guidé formidablement tout au long de ces quatre dernières années. Sans leur perspicacité, sans
leur exigence, sans leur rigueur, sans leur disponibilité, sans leur pédagogie et sans leurs conseils,
Dieusaitoùjemeseraisembourbé:leurimplicationactiveetcomplémentaireaétéinstrumentale
pourcomplétermaformationetpourmeneràbienceprojet.Jeleur suisaussitrèsreconnaissant
pour avoir partagé leur expérience et m’avoir fait découvrir et apprécier différentes facettes du
monde de la recherche et de l’enseignement. À travers nos discussions, je me suis beaucoup
enrichi. Stéphane, Virginie, je suis très heureux que nous ayons travaillé ensemble.
Ensuite, je remercie les membres de mon jury de thèse. À commencer par les professeurs
Pierre Manneback et Serge Chaumette qui ont accepté de rapporter mon mémoire, puis les
professeursLaurentPhilippeetClaudeGodart,etpourfinir,XavierWarind’EDFaveclequel
j’ai eu le plaisir de travailler en début de thèse dans le cadre du projet ANR-GCPMF.
Un grand merci également au professeur Jens Gustedt et à toute l’équipe AlGorille pour
m’avoir accueilli et soutenu. Votre aide pour la préparation de la soutenance et vos encourage-
ments furent très précieux.
Enfin, je remercie les membres du personnel de Supélec que j’ai côtoyés au cours de ces
quatre années et qui ont facilité sinon rendu mon séjour plus agréable. Pour ne citer qu’une
partie : Patrick, Claudine, Sébastien, Gillou, merci d’avoir égayé le second étage en instaurant
une ambiance toute particulière dont vous détenez le secret. Hervé, merci d’avoir rendu plus
pimentées certaines journées avec des blagues et des répliques mémorables telles que «Buenas,
burras» ou «Tu perds déjà du temps».
JenepourraiclorecetteénumérationsansciterLucianetMatthieuquej’aibeaucoupcôtoyés
et avec lequels j’ai beaucoup échangé. En particulier, Lucian qui fut mon complice. Je n’oublierai
pasleslonguesheurespasséesensembleaubureauàtravaillerchacunsurnosthèsesrespectives,ce
qui nous a valu le surnom de stakhanovistes. Je n’oublierai pas non plus les innombrables parties
de billard puis de tennis de table, ainsi que les sorties touristiques, les soirées gastronomiques et
tous les autres bons moments passés ensemble.
Avant d’adresser quelques mots dans ma langue maternelle, je tiens à remercier la Région
Lorraine et Supélec pour avoir financé ce travail, ainsi que toutes les personnes que je n’ai pas
citées.
Τέλως θα ήθελα να αϕιερώσω αυτές τις τελευταίες γραμμές στους ϕίλους μου από το Στρα-
σβούργο, όπως και επίσης, στην οικογένεια μου: Πατέρα, Μητέρα, Μάρθα, Σταματία και Μάριε,
σας ευχαριστώ ολόψυχα για την συμπαράστασή σας όλα αυτά τα χρόνια.iiiii
If I had more time, I could write a shorter letter.
— Pascal’s Law
À ma chère famille.ivRésumé
Les grappes de PCs constituent des architectures distribuées dont l’adoption se répand à
cause de leur faible coût mais aussi de leur extensibilité en termes de nœuds. Notamment, l’aug-
mentation du nombre des nœuds est à l’origine d’un nombre croissant de pannes par arrêt qui
mettent en péril l’exécution d’applications distribuées. L’absence de solutions efficaces et por-
tables confine leur utilisation à des applications non critiques ou sans contraintes de temps.
MoLOToFestunmodèledetoléranceauxpannesdeniveauapplicatifetfondéesurlaréalisa-
tiondesauvegardes.Pourfaciliterl’ajoutdelatoléranceauxpannes,ilproposeunestructuration
de l’application selon des squelettes tolérants aux pannes, ainsi que des collaborations entre le
programmeur et le système de tolérance des pannes pour gagner en efficacité.
L’applicationdeMoLOToFàdesfamillesd’algorithmesparallèlesSPMDetMaître-Travailleur
a mené aux frameworks FT-GReLoSSS et ToMaWork respectivement. Chaque framework four-
nit des squelettes tolérants aux pannes adaptés aux familles d’algorithmes visées et une mise en
œuvre originale. FT-GReLoSSS est implanté en C++ au-dessus de MPI alors que ToMaWork est
implanté en Java au-dessus d’un système de mémoire partagée virtuelle fourni par la technologie
JavaSpaces.
L’évaluationdesframeworksmontreunsurcoûtentempsdedéveloppementraisonnableetdes
surcoûtsentempsd’exécutionnégligeables en l’absence de tolérance aux pannes. Les expériences
menées jusqu’à 256 nœuds sur une grappe de PCs bi-cœurs, démontrent une meilleure efficacité
de la solution de tolérance aux pannes de FT-GReLoSSS par rapport à des solutions existantes
de niveau système (LAM/MPI et DMTCP).
Mots-clés: tolérance aux pannes, points de reprise, squelettes de programmation, algorithmes
SPMD, algorithmes Maître-Travailleur, framework.Abstract
PC clusters are distributed architectures whose adoption spreads as a result of their
low cost but also their extensibility in terms of nodes. In particular, the increase in nodes is
responsable for the increase of fail-stop failures which jeopardize distributed applications. The
absence of efficient and portable solutions limits their use to non critical applications or without
time constraints.
MoLOToFisamodelforapplication-levelfaulttolerancebasedoncheckpointing.Toeasethe
addition of fault tolerance, it proposes to structure applications using fault-tolerant skeletons as
wellascollaborationsbetweentheprogrammerandthefaulttolerancesystemtogaininefficiency.
The application of MoLOToF on SPMD and Master-Worker families of parallel algorithms
lead to FT-GReLoSSS and ToMaWork frameworks respectively. Each framework provides fault-
tolerant skeletons suited to targeted families of algorithms and an original implementation. FT-
GReLoSSSusesC++ontopofMPIwhileToMaWorkusesJavaontopofvirtualsharedmemory
system provided by JavaSpaces technology.
The frameworks’ evaluation reveals a reasonable time development overhead and negligible
runtime overheads in absence of fault tolerance. Experiments up to 256 nodes on a dualcore PC
cluster, demonstrate a better efficiency of FT-GReLoSSS’ fault tolerance solution compared to
existing system-level solutions (LAM/MPI and DMTCP).
Keywords: fault tolerance, checkpoints, programming skeleton, SPMD algorithms, Master-
Worker algorithms, framework.

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.

Diffusez cette publication

Vous aimerez aussi