Analyzing metadata performance in distributed file systems [Elektronische Ressource] / vorgelegt von Christoph Biardzki
165 pages
English

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Analyzing metadata performance in distributed file systems [Elektronische Ressource] / vorgelegt von Christoph Biardzki

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus
165 pages
English
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

Description

Inaugural-DissertationzurErlangungderDoktorwur¨ dederNaturwissenschaftlich-MathematischenGesamtfakultat¨derRuprecht-Karls-Universitat¨ HeidelbergvorgelegtvonDiplom-InformatikerChristophBiardzkiausThornTagdermundlichen¨ Prufung:¨ 19.1.2009AnalyzingMetadataPerformanceinDistributedFileSystemsGutachter: Prof. Dr. ThomasLudwigAbstractDistributedfilesystemsareimportantbuildingblocksinmoderncomputingenvironments.The challenge of increasing I/O bandwidth to files has been largely resolved by the useof parallel file systems and sufficient hardware. However, determining the best means bywhich to manage large amounts of metadata, which contains information about files anddirectoriesstoredinadistributedfilesystem,hasprovedamoredifficultchallenge.Theobjectiveofthisthesisistoanalyzetheroleofmetadataandpresentpastandcurrentimplementations and access semantics. Understanding the development of the current filesysteminterfacesandfunctionalityisakeytounderstandingtheirperformancelimitations.Basedonthisanalysis,adistributedmetadatabenchmarktermedDMetabenchispresented.DMetabench significantly improves on existing benchmarks and allows stress on meta-data operations in a distributed file system in a parallelized manner. Both intra-node andinter-node parallelity, current trends in computer architecture, can be explicitly tested withDMetabench. Thisisduetothefactthatadistributedfilesystemcanhavedifferentseman-ticsinsideaclientnoderatherthansemanticsbetweenmultiplenodes.

Sujets

Informations

Publié par
Publié le 01 janvier 2009
Nombre de lectures 57
Langue English
Poids de l'ouvrage 2 Mo

Extrait

Inaugural-Dissertation
zur
ErlangungderDoktorwur¨ de
der
Naturwissenschaftlich-MathematischenGesamtfakultat¨
der
Ruprecht-Karls-Universitat¨ Heidelberg
vorgelegtvon
Diplom-InformatikerChristophBiardzki
ausThorn
Tagdermundlichen¨ Prufung:¨ 19.1.2009AnalyzingMetadataPerformancein
DistributedFileSystems
Gutachter: Prof. Dr. ThomasLudwigAbstract
Distributedfilesystemsareimportantbuildingblocksinmoderncomputingenvironments.
The challenge of increasing I/O bandwidth to files has been largely resolved by the use
of parallel file systems and sufficient hardware. However, determining the best means by
which to manage large amounts of metadata, which contains information about files and
directoriesstoredinadistributedfilesystem,hasprovedamoredifficultchallenge.
Theobjectiveofthisthesisistoanalyzetheroleofmetadataandpresentpastandcurrent
implementations and access semantics. Understanding the development of the current file
systeminterfacesandfunctionalityisakeytounderstandingtheirperformancelimitations.
Basedonthisanalysis,adistributedmetadatabenchmarktermedDMetabenchispresented.
DMetabench significantly improves on existing benchmarks and allows stress on meta-
data operations in a distributed file system in a parallelized manner. Both intra-node and
inter-node parallelity, current trends in computer architecture, can be explicitly tested with
DMetabench. Thisisduetothefactthatadistributedfilesystemcanhavedifferentseman-
ticsinsideaclientnoderatherthansemanticsbetweenmultiplenodes.
As measurements in larger distributed environments may exhibit performance artifacts
difficulttoexplainbyreferencetoaveragenumbers,DMetabenchusesatime-loggingtech-
nique to record time-related changes in the performance of metadata operations and also
protocolsadditionaldetailsoftheruntimeenvironmentforpost-benchmarkanalysis.
Using the large production file systems at the Leibniz Supercomputing Center (LRZ) in
Munich,thefunctionalityofDMetabenchisevaluatedbymeansofmeasurementsondiffer-
entdistributedfilesystems. Theresultsnotonlydemonstratetheeffectivenessofthemeth-
odsproposedbutalsoprovideuniqueinsightintothecurrentstateofmetadataperformance
inmodernfilesystems.
The thesis concludes with a discussion of the results and the identification of areas for
futureresearch.
iZusammenfassung
VerteilteDateisystemesindwichtigeBausteinemodernerIT-Umgebungen. Wahr¨ endparal-
leleundverbesserteHardwaredieGeschwindigkeitdesDatenzugriffsbereits
erfolgreich verbessert haben, bleibt eine optimale Verwaltung von Metadaten, also den In-
formationen uber¨ Dateien, Verzeichnisse und deren Organisation, eine schwierige Heraus-
forderung.
DasZieldieserDissertationisteszunachst,¨ dieRollederMetadateninDateisystemenzu
erortern¨ undsowohlhistorischealsauchaktuelleImplementierungensowieZugriffsseman-
tikendarzustellen. EingenauesVerstandnis¨ derEntwicklungvonDateisystemenundihren
Schnittstellen ist notwendig, um ihre Leistungsbeschrankungen¨ im Bereich der Metadaten
zu ergrunden.¨ Auf Basis dieser Untersuchungen wird der verteilte Metadaten-Benchmark
DMetabenchprasentiert.¨
¨ verbessert bereits existierende Benchmarks und ermoglicht eine gezielte,
parallele Erzeugung von Metadaten-Operationen in verteilten Dateisystemen. Sowohl die
Parallelitat¨ innerhalb,auchauchzwischenRechenknoten–beidesaktuelleTrendsbeiRech-
ner- und Systemarchitekturen – konnen¨ gezielt getestet werden. Dies ist insofern wichtig,
alsdassverteilteDateisystemezwischenunterschiedlichenKnotenofteineandereSemantik
anbieten,alsinnerhalbeinerBetriebssysteminstanz.
Da Messungen in verteilten Umgebungen Performanceartefakte verursachen konnen,¨
diemitDurchschnittswertenschwerzuerklar¨ ensind,bietetDMetabencheineZeitintervall-
¨basierte Protokollfunktion, die zeitabhangige¨ Anderungen der Geschwindigkeit von Meta-
daten-Operationen aufzeichnet. Weiterhin werden auch Details der Systemkonfiguration
automatischprotokolliert.
DieFunktionalitat¨ vonDMetabenchwurdemitHilfevonMessungenangroßen,verteil-
ten Produktions-Dateisystemen am Leibniz-Rechenzentrum (LRZ) in Munchen¨ uberpr¨ uft.¨
DieErgebnissezeigennichtnurdieWirksamkeitdervorgestelltenTechniken,sonderngeben
aucheinzigartigeEinblickeindenStandderTechnikbeiderMetadatenleistungvonverteil-
tenDateisystemen.
Abschliessend werden die Ergebnisse der Arbeit diskutiert und interessante Aufgaben
sowieProblemefur¨ zukunftige¨ Untersuchungenvorgestellt.
iiAcknowledgements
This work would not have been possible without the continuous support of Prof. Thomas
Ludwig, who supervised my research and whose expert advice not only saved me from
making many beginner’s mistakes but also greatly improved quality. He and his support
teamattheUniversityofHeidelberghavecreatedacomfortable,efficientandveryfriendly
environmentformyresearchactivities.
I would also like to thank all my colleagues at the Leibniz Supercomputing Center in
Munich for their strong support during the course of my research. I would like to thank
ReinerStrunzforhisinvaluableinsightsintoAFS.TheentireLinuxteam,particularlyMike
Becher, Bernhard Aichinger, Peter Simon and Dr. Reinhold Bader, not only provided con-
stantadviceandassistancebutalsobravelyenduredandresolvedthecountlessinterference
of my research with the production systems. Here I would also like to thank Dr. Herbert
¨HuberandDr. Horst-DieterSteinhofer,whogavepermissiontouseLRZresourcesandsup-
ported me in every imaginable way. Many other co-workers at the LRZ also contributed to
thisthesis,whethertheyknowitornot. Abigthankyoutoallofyou–withoutyourhelp,I
wouldneverhavefinishedmythesis.
iiiTableofContents
1 Motivation 1
1.1 Averyshorthistoryoffilesystems . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Filesystemconcepts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Distributedfilesystemsandmetadata . . . . . . . . . . . . . . . . . . . . . . . 3
1.4 Objectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.5 Structureofthethesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 MetadatainDistributedFileSystems 5
2.1 Filesystembasics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.1 Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.2 Integrationwithoperatingsystems. . . . . . . . . . . . . . . . . . . . . 8
2.2 Dataoperations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.1 Systemcalls . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.2 Dataoperationsandcachecontrol . . . . . . . . . . . . . . . . . . . . . 11
2.3 Metadata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3.1 Systemcalls . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3.2 Locks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4 Basicarchitectureoflocaldiskfilesystems . . . . . . . . . . . . . . . . . . . . . 13
2.4.1 UFS:TheUNIXfilesystem . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4.2 Metadataimprovementsinlocalfilesystems . . . . . . . . . . . . . . . 14
2.5 Basicarchitecturesofdistributedfilesystems . . . . . . . . . . . . . . . . . . . 17
2.5.1 Client-fileserverparadigm . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5.2 StorageAreaNetwork(SAN)filesystems . . . . . . . . . . . . . . . . . 21
2.5.3 Parallelfilesystems. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.5.4 Hybridconcepts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.6 Semanticsofdataandmetadataaccess . . . . . . . . . . . . . . . . . . . . . . . 23
2.6.1 Concurrentaccesstofiledata . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6.2 Internalmetadatasemantics . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6.3 External . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6.4 Persistencesemantics . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
vvi TABLEOFCONTENTS
2.7 Metadataconsistency . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.7.1 Localfilesystems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.7.2 Distributedfilesystems . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.8 Trendsinfilesystemmetadatamanagement . . . . . . . . . . . . . . . . . . . 30
2.8.1 Techniquesfordataandtheirimpactonmetadata . . . . 30
2.8.2 Filenumberandsizedistributioninfilesystems . . . . . . . . . . . . . 32
2.8.3 Metadataaccessandchangenotifications . . . . . . . . . . . . . . . . . 33
2.8.4 Filesystemvs. databasestorage . . . . . . . . . . . . . . . . . . . . . . 34
2.8.5 Solid-statestoragedevices . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.9 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3 Distributedmetadatabenchmarking 37
3.1 Previousandrelatedwork . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.1.1 AndrewBenchmark . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.1.2 Trace-basedbenchmarkingtools . . . . . . . . . . . . . . . . . . . . . . 38
3.1.3 Lmbench-suiteandLat.fs . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.1.4 Postmark. . . . . . . . . . . . . . . . . . . . . . . . . . .

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents