Design and implementation of a system for data traffic management in a real-time processing farm operated at 1 MHz [Elektronische Ressource] / vorgelegt von Deyan Atanasov

De
I N A U G U R A L – D I S S E R T A T I O N zur Erlangung der Doktorwürde der Naturwissenschaftlich-Mathematischen Gesamtfakultät der Ruprecht – Karls – Universität Heidelberg vorgelegt von MSc Deyan Atanasov aus Kubrat, Bulgarien Tag der mündlichen Prüfung: 21. Dezember 2009 Design and Implementation of a System for Data Traffic Management in a Real-Time Processing Farm Operated at 1 MHz Gutachter: Prof. Dr. Volker Lindenstruth Prof. Dr. Ulrich Brüning Abstract Viele der heutigen Hochenergiephysik-Experimente erforschen seltene Phänomene und benötigen daher eine Echtzeitdatenverarbeitung mit hohen Durchsatzraten, um das Rohdatenaufkommen der Detektoren von einigen Terabytes pro Sekunde auf eine Rate zu senken, die für die Speicherung und detaillierte Auswertung geeignet ist. Anwendungsspezifische Trigger-Systeme wählen die für das physikalische Experiment relevanten Ereignisse aus. Häufig werden Datenfragmente, die zu einem Ereignis gehören, aber von mehreren verschiedenen Detektoren produziert werden, an einer Stelle gesammelt, bevor sie verarbeitet werden.
Publié le : jeudi 1 janvier 2009
Lecture(s) : 17
Tags :
Source : D-NB.INFO/1000324664/34
Nombre de pages : 159
Voir plus Voir moins




I N A U G U R A L – D I S S E R T A T I O N

zur
Erlangung der Doktorwürde
der
Naturwissenschaftlich-Mathematischen Gesamtfakultät
der
Ruprecht – Karls – Universität
Heidelberg
























vorgelegt von
MSc Deyan Atanasov
aus Kubrat, Bulgarien

Tag der mündlichen Prüfung: 21. Dezember 2009










Design and Implementation
of a System for Data Traffic Management
in a Real-Time Processing Farm
Operated at 1 MHz



























Gutachter: Prof. Dr. Volker Lindenstruth
Prof. Dr. Ulrich Brüning



Abstract


Viele der heutigen Hochenergiephysik-Experimente erforschen seltene Phänomene und
benötigen daher eine Echtzeitdatenverarbeitung mit hohen Durchsatzraten, um das
Rohdatenaufkommen der Detektoren von einigen Terabytes pro Sekunde auf eine Rate zu
senken, die für die Speicherung und detaillierte Auswertung geeignet ist.
Anwendungsspezifische Trigger-Systeme wählen die für das physikalische Experiment
relevanten Ereignisse aus. Häufig werden Datenfragmente, die zu einem Ereignis gehören, aber
von mehreren verschiedenen Detektoren produziert werden, an einer Stelle gesammelt, bevor
sie verarbeitet werden. Das sich ergebende Kommunikationsmodel kann bei ungesteuerter
Datenübertragung zu Verzögerungen und ineffizienter Nutzung von Rechenzeiten führen, da
eine Vielzahl von Quellen versuchen, um Netzwerkverbindungen und Rechenkapazitäten zu
konkurrieren. Diese Arbeit behandelt die notwendigen Maßnahmen, um einen störungsfreien
und lastverteilten Betrieb einer Echtzeittrigger-Farm sicherzustellen, die Paketgrößen von
einigen Kilobytes bei einer Taktrate im Megahertz Bereich verarbeitet. Die über mehrere
Quellen aufgeteilten Daten müssen dabei innerhalb einiger Millisekunden zusammengefasst
und verarbeitet werden. Die Rechnerfarm besteht aus gewöhnlichen PCs, die ringförmig durch
ein handelsübliches Hochgeschwindigkeitsnetzwerk mit niedriger Latenz verbunden sind. Es
wird ein System zum Datenverkehrsmanagement vorgestellt, basierend auf einer globalen
Steuerungseinheit und einem dedizierten Steuerungsnetzwerk. Erstere reserviert verteilte
Rechenkapazitäten dynamisch, um Netzwerkstaus zu vermeiden und die Belastung der Systeme
aufzuteilen. Letztere versorgt die Datenquellen mit den Steuerungsinformationen, um die
überwachte Datenübertragung anzustoßen. Anhand eines Prototypen-Rechnerverbundes mit
einer hardwarebasierten Steuerung des Netzwerkverkehrs wird der störungsfreie Betrieb gezeigt.
Basierend auf den gemessenen Parametern werden Simulationsergebnisse für große
Computerfarmen präsentiert. Prototyp und Simulation zeigen die Fähigkeit des Systems,
128 Byte Blöcke, die über mehreren PCI-Eingangsquellen mit einer Rate von mehr als 2 MHz
zur Verfügung gestellt werden, auf einen fernzugreifbaren Speicher (Remote Shared Memory)
zu transportieren. Sowohl die Mess- als auch die Simulationsergebnisse demonstrieren, dass es
möglich ist, ein hochverfügbares Mehrcomputer-Trigger-System mit geringer Latenz auf
handelsüblichen Komponenten aufzubauen. Dafür muss nur der tatsächliche Datentransfer
sorgfältig gesteuert werden, um, bei sinnvollem Einsatz der Rechenkapazitäten, effizient Daten
zusammen zu führen.
Abstract


The majority of contemporary high-energy physics experiments study rare phenomena, which
necessitates real-time high-throughput data processing to reduce the raw detector data rate of
several Tbyte/s to a rate which is feasible for storage and detailed analysis. Unique trigger
systems select the physical events relevant to the experiment. Typically, data fragments
corresponding to the same event and originating from multiple detector data sources need to be
assembled in a specific location before being processed further. The resulting communication
model can lead to congestions and to inefficient system utilization if data are transferred
without supervision since numerous sources are attempting to use common interconnect and
computing recourses concurrently. This thesis deals with the measures taken to ensure a
congestion-free, load-balanced operation of a real-time trigger farm processing data packets as
small as several kbytes at a megahertz rate. The input data are initially split among multiple
data feeds and need to be assembled and processed within a few milliseconds. The processing
farm is built around commodity PCs which are interconnected with a commercial high-speed
low-latency network implementing a torus topology. The thesis presents a system for data
traffic management based on a global traffic supervisor and a dedicated control network. The
former allocates distributed computing resources dynamically in order to avoid network
congestions as well as to balance the load of the system. The latter communicates supervising
information to all data feeds in order to initiate a controlled data transfer. A congestion-free
system operation is demonstrated in a farm prototype with an integrated hardware-based
implementation of the traffic shaping system. Based on parameters measured in the prototype,
simulation results of a large-scale processing farm are presented. Both the prototype and the
simulation results demonstrate that the system is capable of transferring input data initially split
among multiple PCI-based feeding nodes, each one transmitting sub-fragments of 128 bytes, to
a specific remote shared memory location at a rate beyond 2 MHz. The obtained results
demonstrate the applicability of multicomputer systems based on commodity components for
high-rate, low-latency trigger processing if certain care is taken in organizing the actual data
transfers. This organization has to ensure efficient event building and appropriate allocation of
the available processing resources.







CONTENTS




I. INTRODUCTION ........................................................................................................................ 1
II. ARCHITECTURE OF A HIGH-RATE LOW-LATENCY SCALABLE TRIGGER............ 5
A. INITIAL MOTIVATION.................................................................................................................. 5
1. The LHCb Trigger System..................................................................................................... 7
2. b Level-1 and the Requirements for the Level-1 Trigger........................................ 8
B. GENERAL SYSTEM ARCHITECTURE........................................................................................... 11
1. The Scalable Coherent Interface......................................................................................... 13
C. DATA TRANSFER MODE............................................................................................................ 14
D. DATA ROUTING ........................................................................................................................ 16
E. THE SYSTEM PROTOTYPE ......................................................................................................... 17
F. THE NEED FOR TRAFFIC SHAPING............................................................................................. 18
G. TRAFFIC SHAPING IN THE CMS EXPERIMENT ........................................................................... 22
H. TSHAPING IN THE ATLAS EXPERIMENT....................................................................... 26
III. DATA FLOW CONTROL SYSTEM ARCHITECTURE...................................................... 29
A. THE CONCEPT........................................................................................................................... 29
B. THE SCHEDULER....................................................................................................................... 31
1. Structure and Operation...................................................................................................... 32
2. Scheduling Discipline.......................................................................................................... 34
3. Latency of the Scheduler ..................................................................................................... 37
4. Queuing of Destination Addresses ...................................................................................... 39
5. Flow Control Network Interface ......................................................................................... 40
6. Transfer of Feedback Messages.......................................................................................... 41
7. Implementation.................................................................................................................... 43
8. Setting up the Scheduler...................................................................................................... 44
9. Control and Status of the Scheduler.................................................................................... 44
C. THE CIA-RORC BOARD .......................................................................................................... 45
1. Motivation ........................................................................................................................... 45
2. Features .............................................................................................................................. 49
D. THE FLOW CONTROL SYSTEM NETWORK ................................................................................. 56
E. THE FEEDING NODES................................................................................................................ 61
1. Structure.............................................................................................................................. 61
2. Data Format........................................................................................................................ 63
3. Flow Control Network Interface ......................................................................................... 64
4. Implementation.................................................................................................................... 66
5. Configuration, Control and Status of the DMA Engine Domain......................................... 67
F. SCHEDULER II........................................................................................................................... 68
IV. FLOW-CONTROLLED SYSTEM PERFORMANCE........................................................... 71
A. TEST SET-UP ............................................................................................................................. 71
B. SYSTEM FREQUENCY ................................................................................................................ 74
C. FLOW CONTROL NETWORK LATENCY ...................................................................................... 78
D. SYSTEM LATENCY .................................................................................................................... 81
E. FEEDING NODES’ PCI BUS ANALYSIS 83
1. PCI Bus Idle Time Analysis................................................................................................. 83
2. Target Retry Analysis.......................................................................................................... 85


vContents
──────── ──────── ──────── ──────── ──────── ──────── ──────── ───
V. SIMULATION OF THE TRIGGER PROCESSING FARM................................................. 89
A. SYSTEM ARCHITECTURE........................................................................................................... 89
B. INPUT DATA ............................................................................................................................. 90
C. SYSTEM SIZE ............................................................................................................................ 91
D. THE SIMULATION FRAMEWORK................................................................................................ 92
E. THE SIMULATION MODEL......................................................................................................... 94
F. SIMULATION RESULTS.............................................................................................................. 95
VI. CONCLUSION ......................................................................................................................... 101
VII. APPENDICES...... 105
A. SETTING UP THE SYSTEM........................................................................................................ 105
B. SCHEDULER DESIGN PARAMETERS......................................................................................... 110
C. CONTROL AND STATUS REGISTERS OF THE SCHEDULER......................................................... 117
D. DMA ENGINE DESIGN PARAMETERS...................................................................................... 122
E. DMA ENGINE CONTROL AND STATUS REGISTERS ................................................................. 124
F. CD-ROM CONTENTS ............................................................................................................. 127
G. ACRONYMS AND ABBREVIATIONS .......................................................................................... 128
BIBLIOGRAPHY .............................................................................................................................. 133
ACKNOWLEDGEMENTS............................................................................................................... 141

vi

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.