Design and implementation of a system for data traffic management in a real-time processing farm operated at 1 MHz [Elektronische Ressource] / vorgelegt von Deyan Atanasov

ruprecht-karls-universitat_heidelberg - Deyan Atanasov

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

159 pages

Deutsch

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

A propos
Informations
Extrait

Description

Sujets

Informatik

Informations

Publié par	ruprecht-karls-universitat_heidelberg
Publié le	01 janvier 2009
Nombre de lectures	17
Langue	Deutsch
Poids de l'ouvrage	4 Mo

Extrait

I N A U G U R A L – D I S S E R T A T I O N

zur
Erlangung der Doktorwürde
der
Naturwissenschaftlich-Mathematischen Gesamtfakultät
der
Ruprecht – Karls – Universität
Heidelberg

vorgelegt von
MSc Deyan Atanasov
aus Kubrat, Bulgarien

Tag der mündlichen Prüfung: 21. Dezember 2009

Design and Implementation
of a System for Data Traffic Management
in a Real-Time Processing Farm
Operated at 1 MHz

Gutachter: Prof. Dr. Volker Lindenstruth
Prof. Dr. Ulrich Brüning

Abstract

Viele der heutigen Hochenergiephysik-Experimente erforschen seltene Phänomene und
benötigen daher eine Echtzeitdatenverarbeitung mit hohen Durchsatzraten, um das
Rohdatenaufkommen der Detektoren von einigen Terabytes pro Sekunde auf eine Rate zu
senken, die für die Speicherung und detaillierte Auswertung geeignet ist.
Anwendungsspezifische Trigger-Systeme wählen die für das physikalische Experiment
relevanten Ereignisse aus. Häufig werden Datenfragmente, die zu einem Ereignis gehören, aber
von mehreren verschiedenen Detektoren produziert werden, an einer Stelle gesammelt, bevor
sie verarbeitet werden. Das sich ergebende Kommunikationsmodel kann bei ungesteuerter
Datenübertragung zu Verzögerungen und ineffizienter Nutzung von Rechenzeiten führen, da
eine Vielzahl von Quellen versuchen, um Netzwerkverbindungen und Rechenkapazitäten zu
konkurrieren. Diese Arbeit behandelt die notwendigen Maßnahmen, um einen störungsfreien
und lastverteilten Betrieb einer Echtzeittrigger-Farm sicherzustellen, die Paketgrößen von
einigen Kilobytes bei einer Taktrate im Megahertz Bereich verarbeitet. Die über mehrere
Quellen aufgeteilten Daten müssen dabei innerhalb einiger Millisekunden zusammengefasst
und verarbeitet werden. Die Rechnerfarm besteht aus gewöhnlichen PCs, die ringförmig durch
ein handelsübliches Hochgeschwindigkeitsnetzwerk mit niedriger Latenz verbunden sind. Es
wird ein System zum Datenverkehrsmanagement vorgestellt, basierend auf einer globalen
Steuerungseinheit und einem dedizierten Steuerungsnetzwerk. Erstere reserviert verteilte
Rechenkapazitäten dynamisch, um Netzwerkstaus zu vermeiden und die Belastung der Systeme
aufzuteilen. Letztere versorgt die Datenquellen mit den Steuerungsinformationen, um die
überwachte Datenübertragung anzustoßen. Anhand eines Prototypen-Rechnerverbundes mit
einer hardwarebasierten Steuerung des Netzwerkverkehrs wird der störungsfreie Betrieb gezeigt.
Basierend auf den gemessenen Parametern werden Simulationsergebnisse für große
Computerfarmen präsentiert. Prototyp und Simulation zeigen die Fähigkeit des Systems,
128 Byte Blöcke, die über mehreren PCI-Eingangsquellen mit einer Rate von mehr als 2 MHz
zur Verfügung gestellt werden, auf einen fernzugreifbaren Speicher (Remote Shared Memory)
zu transportieren. Sowohl die Mess- als auch die Simulationsergebnisse demonstrieren, dass es
möglich ist, ein hochverfügbares Mehrcomputer-Trigger-System mit geringer Latenz auf
handelsüblichen Komponenten aufzubauen. Dafür muss nur der tatsächliche Datentransfer
sorgfältig gesteuert werden, um, bei sinnvollem Einsatz der Rechenkapazitäten, effizient Daten
zusammen zu führen.
Abstract

The majority of contemporary high-energy physics experiments study rare phenomena, which
necessitates real-time high-throughput data processing to reduce the raw detector data rate of
several Tbyte/s to a rate which is feasible for storage and detailed analysis. Unique trigger
systems select the physical events relevant to the experiment. Typically, data fragments
corresponding to the same event and originating from multiple detector data sources need to be
assembled in a specific location before being processed further. The resulting communication
model can lead to congestions and to inefficient system utilization if data are transferred
without supervision since numerous sources are attempting to use common interconnect and
computing recourses concurrently. This thesis deals with the measures taken to ensure a
congestion-free, load-balanced operation of a real-time trigger farm processing data packets as
small as several kbytes at a megahertz rate. The input data are initially split among multiple
data feeds and need to be assembled and processed within a few milliseconds. The processing
farm is built around commodity PCs which are interconnected with a commercial high-speed
low-latency network implementing a torus topology. The thesis presents a system for data
traffic management based on a global traffic supervisor and a dedicated control network. The
former allocates distributed computing resources dynamically in order to avoid network
congestions as well as to balance the load of the system. The latter communicates supervising
information to all data feeds in order to initiate a controlled data transfer. A congestion-free
system operation is demonstrated in a farm prototype with an integrated hardware-based
implementation of the traffic shaping system. Based on parameters measured in the prototype,
simulation results of a large-scale processing farm are presented. Both the prototype and the
simulation results demonstrate that the system is capable of transferring input data initially split
among multiple PCI-based feeding nodes, each one transmitting sub-fragments of 128 bytes, to
a specific remote shared memory location at a rate beyond 2 MHz. The obtained results
demonstrate the applicability of multicomputer systems based on commodity components for
high-rate, low-latency trigger processing if certain care is taken in organizing the actual data
transfers. This organization has to ensure efficient event building and appropriate allocation of
the available processing resources.

CONTENTS

I. INTRODUCTION ........................................................................................................................ 1
II. ARCHITECTURE OF A HIGH-RATE LOW-LATENCY SCALABLE TRIGGER............ 5
A. INITIAL MOTIVATION.................................................................................................................. 5
1. The LHCb Trigger System..................................................................................................... 7
2. b Level-1 and the Requirements for the Level-1 Trigger........................................ 8
B. GENERAL SYSTEM ARCHITECTURE........................................................................................... 11
1. The Scalable Coherent Interface......................................................................................... 13
C. DATA TRANSFER MODE............................................................................................................ 14
D. DATA ROUTING ........................................................................................................................ 16
E. THE SYSTEM PROTOTYPE ......................................................................................................... 17
F. THE NEED FOR TRAFFIC SHAPING............................................................................................. 18
G. TRAFFIC SHAPING IN THE CMS EXPERIMENT ........................................................................... 22
H. TSHAPING IN THE ATLAS EXPERIMENT....................................................................... 26
III. DATA FLOW CONTROL SYSTEM ARCHITECTURE...................................................... 29
A. THE CONCEPT........................................................................................................................... 29
B. THE SCHEDULER....................................................................................................................... 31
1. Structure and Operation...................................................................................................... 32
2. Scheduling Discipline.......................................................................................................... 34
3. Latency of the Scheduler ..................................................................................................... 37
4. Queuing of Destination Addresses ...................................................................................... 39
5. Flow Control Network Interface ......................................................................................... 40
6. Transfer of Feedback Messages.......................................................................................... 41
7. Implementation.................................................................................................................... 43