Cet ouvrage et des milliers d'autres font partie de la bibliothèque YouScribe
Obtenez un accès à la bibliothèque pour les lire en ligne
En savoir plus

Partagez cette publication

Inaugural-Dissertation
zur
ErlangungderDoktorwur¨ de
der
Naturwissenschaftlich-MathematischenGesamtfakultat¨
der
Ruprecht-Karls-Universitat¨ Heidelberg
vorgelegtvon
Diplom-InformatikerChristophBiardzki
ausThorn
Tagdermundlichen¨ Prufung:¨ 19.1.2009AnalyzingMetadataPerformancein
DistributedFileSystems
Gutachter: Prof. Dr. ThomasLudwigAbstract
Distributedfilesystemsareimportantbuildingblocksinmoderncomputingenvironments.
The challenge of increasing I/O bandwidth to files has been largely resolved by the use
of parallel file systems and sufficient hardware. However, determining the best means by
which to manage large amounts of metadata, which contains information about files and
directoriesstoredinadistributedfilesystem,hasprovedamoredifficultchallenge.
Theobjectiveofthisthesisistoanalyzetheroleofmetadataandpresentpastandcurrent
implementations and access semantics. Understanding the development of the current file
systeminterfacesandfunctionalityisakeytounderstandingtheirperformancelimitations.
Basedonthisanalysis,adistributedmetadatabenchmarktermedDMetabenchispresented.
DMetabench significantly improves on existing benchmarks and allows stress on meta-
data operations in a distributed file system in a parallelized manner. Both intra-node and
inter-node parallelity, current trends in computer architecture, can be explicitly tested with
DMetabench. Thisisduetothefactthatadistributedfilesystemcanhavedifferentseman-
ticsinsideaclientnoderatherthansemanticsbetweenmultiplenodes.
As measurements in larger distributed environments may exhibit performance artifacts
difficulttoexplainbyreferencetoaveragenumbers,DMetabenchusesatime-loggingtech-
nique to record time-related changes in the performance of metadata operations and also
protocolsadditionaldetailsoftheruntimeenvironmentforpost-benchmarkanalysis.
Using the large production file systems at the Leibniz Supercomputing Center (LRZ) in
Munich,thefunctionalityofDMetabenchisevaluatedbymeansofmeasurementsondiffer-
entdistributedfilesystems. Theresultsnotonlydemonstratetheeffectivenessofthemeth-
odsproposedbutalsoprovideuniqueinsightintothecurrentstateofmetadataperformance
inmodernfilesystems.
The thesis concludes with a discussion of the results and the identification of areas for
futureresearch.
iZusammenfassung
VerteilteDateisystemesindwichtigeBausteinemodernerIT-Umgebungen. Wahr¨ endparal-
leleundverbesserteHardwaredieGeschwindigkeitdesDatenzugriffsbereits
erfolgreich verbessert haben, bleibt eine optimale Verwaltung von Metadaten, also den In-
formationen uber¨ Dateien, Verzeichnisse und deren Organisation, eine schwierige Heraus-
forderung.
DasZieldieserDissertationisteszunachst,¨ dieRollederMetadateninDateisystemenzu
erortern¨ undsowohlhistorischealsauchaktuelleImplementierungensowieZugriffsseman-
tikendarzustellen. EingenauesVerstandnis¨ derEntwicklungvonDateisystemenundihren
Schnittstellen ist notwendig, um ihre Leistungsbeschrankungen¨ im Bereich der Metadaten
zu ergrunden.¨ Auf Basis dieser Untersuchungen wird der verteilte Metadaten-Benchmark
DMetabenchprasentiert.¨
¨ verbessert bereits existierende Benchmarks und ermoglicht eine gezielte,
parallele Erzeugung von Metadaten-Operationen in verteilten Dateisystemen. Sowohl die
Parallelitat¨ innerhalb,auchauchzwischenRechenknoten–beidesaktuelleTrendsbeiRech-
ner- und Systemarchitekturen – konnen¨ gezielt getestet werden. Dies ist insofern wichtig,
alsdassverteilteDateisystemezwischenunterschiedlichenKnotenofteineandereSemantik
anbieten,alsinnerhalbeinerBetriebssysteminstanz.
Da Messungen in verteilten Umgebungen Performanceartefakte verursachen konnen,¨
diemitDurchschnittswertenschwerzuerklar¨ ensind,bietetDMetabencheineZeitintervall-
¨basierte Protokollfunktion, die zeitabhangige¨ Anderungen der Geschwindigkeit von Meta-
daten-Operationen aufzeichnet. Weiterhin werden auch Details der Systemkonfiguration
automatischprotokolliert.
DieFunktionalitat¨ vonDMetabenchwurdemitHilfevonMessungenangroßen,verteil-
ten Produktions-Dateisystemen am Leibniz-Rechenzentrum (LRZ) in Munchen¨ uberpr¨ uft.¨
DieErgebnissezeigennichtnurdieWirksamkeitdervorgestelltenTechniken,sonderngeben
aucheinzigartigeEinblickeindenStandderTechnikbeiderMetadatenleistungvonverteil-
tenDateisystemen.
Abschliessend werden die Ergebnisse der Arbeit diskutiert und interessante Aufgaben
sowieProblemefur¨ zukunftige¨ Untersuchungenvorgestellt.
iiAcknowledgements
This work would not have been possible without the continuous support of Prof. Thomas
Ludwig, who supervised my research and whose expert advice not only saved me from
making many beginner’s mistakes but also greatly improved quality. He and his support
teamattheUniversityofHeidelberghavecreatedacomfortable,efficientandveryfriendly
environmentformyresearchactivities.
I would also like to thank all my colleagues at the Leibniz Supercomputing Center in
Munich for their strong support during the course of my research. I would like to thank
ReinerStrunzforhisinvaluableinsightsintoAFS.TheentireLinuxteam,particularlyMike
Becher, Bernhard Aichinger, Peter Simon and Dr. Reinhold Bader, not only provided con-
stantadviceandassistancebutalsobravelyenduredandresolvedthecountlessinterference
of my research with the production systems. Here I would also like to thank Dr. Herbert
¨HuberandDr. Horst-DieterSteinhofer,whogavepermissiontouseLRZresourcesandsup-
ported me in every imaginable way. Many other co-workers at the LRZ also contributed to
thisthesis,whethertheyknowitornot. Abigthankyoutoallofyou–withoutyourhelp,I
wouldneverhavefinishedmythesis.
iiiTableofContents
1 Motivation 1
1.1 Averyshorthistoryoffilesystems . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Filesystemconcepts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Distributedfilesystemsandmetadata . . . . . . . . . . . . . . . . . . . . . . . 3
1.4 Objectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.5 Structureofthethesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 MetadatainDistributedFileSystems 5
2.1 Filesystembasics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.1 Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.2 Integrationwithoperatingsystems. . . . . . . . . . . . . . . . . . . . . 8
2.2 Dataoperations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.1 Systemcalls . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.2 Dataoperationsandcachecontrol . . . . . . . . . . . . . . . . . . . . . 11
2.3 Metadata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3.1 Systemcalls . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3.2 Locks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4 Basicarchitectureoflocaldiskfilesystems . . . . . . . . . . . . . . . . . . . . . 13
2.4.1 UFS:TheUNIXfilesystem . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4.2 Metadataimprovementsinlocalfilesystems . . . . . . . . . . . . . . . 14
2.5 Basicarchitecturesofdistributedfilesystems . . . . . . . . . . . . . . . . . . . 17
2.5.1 Client-fileserverparadigm . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5.2 StorageAreaNetwork(SAN)filesystems . . . . . . . . . . . . . . . . . 21
2.5.3 Parallelfilesystems. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.5.4 Hybridconcepts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.6 Semanticsofdataandmetadataaccess . . . . . . . . . . . . . . . . . . . . . . . 23
2.6.1 Concurrentaccesstofiledata . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6.2 Internalmetadatasemantics . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6.3 External . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6.4 Persistencesemantics . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
vvi TABLEOFCONTENTS
2.7 Metadataconsistency . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.7.1 Localfilesystems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.7.2 Distributedfilesystems . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.8 Trendsinfilesystemmetadatamanagement . . . . . . . . . . . . . . . . . . . 30
2.8.1 Techniquesfordataandtheirimpactonmetadata . . . . 30
2.8.2 Filenumberandsizedistributioninfilesystems . . . . . . . . . . . . . 32
2.8.3 Metadataaccessandchangenotifications . . . . . . . . . . . . . . . . . 33
2.8.4 Filesystemvs. databasestorage . . . . . . . . . . . . . . . . . . . . . . 34
2.8.5 Solid-statestoragedevices . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.9 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3 Distributedmetadatabenchmarking 37
3.1 Previousandrelatedwork . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.1.1 AndrewBenchmark . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.1.2 Trace-basedbenchmarkingtools . . . . . . . . . . . . . . . . . . . . . . 38
3.1.3 Lmbench-suiteandLat.fs . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.1.4 Postmark. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.1.5 FileBench . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.1.6 IOzone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.1.7 Fstress . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.1.8 Clusterpunch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.1.9 ParallelI/Obenchmarks. . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.1.10 BenchmarkscreatedattheLRZ . . . . . . . . . . . . . . . . . . . . . . . 41
3.2 Discussionofobjectivesforanewbenchmarkframework . . . . . . . . . . . . 41
3.2.1 Portabilityandfilesystemindependence . . . . . . . . . . . . . . . . . 42
3.2.2 Benchmarkingdistributedsystems . . . . . . . . . . . . . . . . . . . . . 42
3.2.3 Metadataoperationsandscalability . . . . . . . . . . . . . . . . . . . . 43
3.2.4 Extendability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.2.5 Interpretingmeasurements . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.2.6 Environmentprofilingandresultreproduction . . . . . . . . . . . . . . 50
3.3 DMetabench: Ametadatabenchmarkframework . . . . . . . . . . . . . . . . 51
3.3.1 Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.3.2 Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.3.3 BenchmarkingworkflowwithDMetabench. . . . . . . . . . . . . . . . 53
3.3.4 Processplacementinmixedclusters . . . . . . . . . . . . . . . . . . . . 56
3.3.5 DMetabenchparameters . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.3.6 Testdataplacement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.3.7 Problemsizeandbenchmarkruntime . . . . . . . . . . . . . . . . . . . 61
3.3.8 Pre-definedbenchmarksavailableinDMetabench . . . . . . . . . . . . 62

Un pour Un
Permettre à tous d'accéder à la lecture
Pour chaque accès à la bibliothèque, YouScribe donne un accès à une personne dans le besoin