Knowledge-on-Demand HP-UX 11i : découvrez, auprès de nos ...

11 pages

Français

Knowledge-on-Demand HP-UX 11i : découvrez, auprès de nos ...

Unjya - Laforge

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

11 pages

Français

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

A propos
Informations
Extrait

Description

Knowledge-on-Demand HP-UX 11i :
découvrez, auprès de nos laboratoires, les meilleures pratiques
pour optimiser vos performances
Série pour le personnel de déploiement
Configuration de HP-UX 11i v3 pour les installations SAP --
Transcription d'un sujet de webcast
Bienvenue dans Knowledge on Demand. Je m'appelle Bob Wynne et je vais vous expliquer comment tirer le
meilleur parti des serveurs HP-UX avec le logiciel SAP. Comme le montre cette diapositive d'introduction, j'évolue
au sein du laboratoire de recherche sur le noyau HP-UX de Cupertino, en Californie. Voilà plusieurs années que
je travaille ici et depuis environ six ans, je m'occupe principalement des performances SAP avec pour objectif
d'atteindre les meilleurs résultats de benchmark sur HP-UX.
[DIAPOSITIVE SUIVANTE]
Pour commencer, je vais présenter ce dont nous allons parler aujourd'hui. Les performances SAP constituent un
vaste sujet et j'aimerais me concentrer sur les processeurs Itanium et les systèmes HP-UX, notamment les grands
systèmes à cellules. Les données contenues dans cette présentation reposent essentiellement sur des expériences
que nous avons menées en laboratoire ainsi que sur notre expérience du benchmark. De toute évidence, il existe
d'importantes différences entre l'univers des benchmarks et celui des installations clients. Le fait qu'en matière de
bencharking nous utilisions des charges de travail très uniformes et bien comprises en est l'une des principales.
Cela permet de parfaitement ...

Sujets

Orbite cristallographique

Linternaute.com

Résultats électoraux de l'extrême gauche en France

V382 Velorum

Temps de réponse (électronique)

Dialogue territorial

Informations

Publié par	Unjya
Nombre de lectures	65
Langue	Français

Extrait

Knowledge-on-Demand HP-UX 11i :

découvrez, auprès de nos laboratoires, les meilleures pratiques

pour optimiser vos performances

Série pour le personnel de déploiement

Configuration de HP-UX 11i v3 pour les installations SAP --

Transcription d'un sujet de webcast

Bienvenue dans Knowledge on Demand. Je m'appelle Bob Wynne et je vais vous expliquer comment tirer le

meilleur parti des serveurs HP-UX avec le logiciel SAP. Comme le montre cette diapositive d'introduction, j'évolue

au sein du laboratoire de recherche sur le noyau HP-UX de Cupertino, en Californie. Voilà plusieurs années que

je travaille ici et depuis environ six ans, je m'occupe principalement des performances SAP avec pour objectif

d'atteindre les meilleurs résultats de benchmark sur HP-UX.

[DIAPOSITIVE SUIVANTE]

Pour commencer, je vais présenter ce dont nous allons parler aujourd'hui. Les performances SAP constituent un

vaste sujet et j'aimerais me concentrer sur les processeurs Itanium et les systèmes HP-UX, notamment les grands

systèmes à cellules. Les données contenues dans cette présentation reposent essentiellement sur des expériences

que nous avons menées en laboratoire ainsi que sur notre expérience du benchmark. De toute évidence, il existe

d'importantes différences entre l'univers des benchmarks et celui des installations clients. Le fait qu'en matière de

bencharking nous utilisions des charges de travail très uniformes et bien comprises en est l'une des principales.

Cela permet de parfaitement dimensionner et configurer les bases de données et d'obtenir un très faible taux

E/S. Cela permet également de répartir la charge de travail de manière très uniforme vers les différents

processeurs pour en tirer le meilleur parti ainsi que de leur mémoire cache. Je me rends bien compte que ce n'est

pas le cas de la plupart des applications commerciales dont la charge de travail varie considérablement au fil du

temps et ne s'avère pas toujours prévisible. Ceci dit, je sais que tout ce que nous apprenons en matière de

performances peut être utilisé pour améliorer les performances réelles sur le terrain. En ce qui concerne les

grosses machines dotées d'accès mémoire non-uniformes, notamment, l'optimisation des processeurs et de la

mémoire permet d'en améliorer considérablement les performances. Sur le grand benchmark à deux niveaux

réalisé sur un Superdome 128 c

urs voilà un an, et qui regroupe toujours, en date de janvier 2008, les résultats

SD à deux niveaux les plus complets jamais publiés, même les goulets d'étranglement de base de données et

d'entrées/sorties ont été éliminés, nous avons atteint une utilisation des processeurs proche de 100 % et réussi à

améliorer les performances de près de 50 % en tirant pleinement parti de la mémoire locale de cellule et en

optimisant l'efficacité des processeurs Itanium. Au cours de cette présentation, je ne vous parlerai pas des outils

visant à mesurer les performances ni de la manière de dimensionner les applications SAP.

Je ne vous parlerai pas non plus de l'analyse des goulets d'étranglement SAP ou HP-UX ni de la configuration de

la base de données. De nombreux éléments de référence couvrent déjà ces sujets.

[DIAPOSITIVE SUIVANTE]

Pour cette présentation, je partirai du principe que les systèmes sur lesquels nous nous penchons ont déjà été

configurés en termes d'entrées/sorties du disque, de configuration de la base de données et d'utilisation des

processeurs. De toute évidence, votre utilisation ne situera pas entre 95 et 100 % comme lors de nos

benchmarks, mais plutôt à un niveau compris entre 20 et 30 %, niveau auquel vous ne devriez pas rencontrer de

problèmes de performances. Je vais partir du principe que vous comprenez bien votre application. Ce point

semble évident, mais avant de consacrer, par exemple, des processeurs donnés à une instance SAP, vous devez

connaître le volume de travail généré par cette instance, le nombre d'utilisateurs qu'il doit prendre en charge,

savoir si la charge de travail varie considérablement à certains moments de la journée ou du mois. Il vous faut

bien comprendre votre application. Je vais également partir du principe que vous disposez de connaissances de

base sur l'administration et les outils d'analyse SAP, sur l'administration et la configuration du système HP-UX

ainsi que sur l'architecture de l'ordinateur.

[DIAPOSITIVE SUIVANTE]

Cette présentation a pour principal sujet l'optimisation de l'efficacité du processeur. Elle doit vous permettre

d'exécuter le plus d'instructions possible par cycle d’horloge pour réduire le cycle par instruction tout en veillant à

ce que les instructions exécutées vous soient particulièrement utiles. D'une manière plus spécifique, je vous

parlerai des défauts de TLB, de la manière de les réduire et de leurs effets sur les performances. Ensuite, je

détaillerai les questions de latence de la mémoire. Je passerai alors en revue quelques consignes en matière de

configuration des instances SAP reposant sur ces principes avant de vous parler succinctement de la

configuration du système d'exploitation HP-UX pour SAP. Enfin, je me pencherai sur la configuration des

applications multithread. Pour le moment, le noyau R3 n'est pas multithread. Aussi, cette dernière section

s'adressera plus particulièrement aux utilisateurs d'applications SAP liveCache ou java, comme les portails SAP.

[DIAPOSITIVE SUIVANTE]

Je vais donc commencer par vous expliquer comment limiter les défauts de TLB et vous donner quelques

informations générales sur le sujet. Lorsqu'un processeur exécute des instructions, les opérandes d'adresses des

instructions correspondent, bien évidemment, aux adresses virtuelles et doivent être traduits en adresses de

mémoire réelle avant d'être exécutées. Pendant des années, bien avant que je n'exerce ce métier, le concept de

Translation Look-aside Buffer (TLB) a été implémenté pour accélérer le processus de traduction des adresses. Les

processeurs Montecito actuels sont dotés de 64 entrées TLB de premier niveau dans lesquels les traductions

d'adresses les plus récemment utilisées sont mises en mémoire cache par pages de 4K. Elles sont réparties entre

32 adresses pour les instructions et 32 adresses pour les données. De plus, il existe 256 entrées de TLB de niveau

un réparties de manière uniforme : 128 pour les données et 128 pour les instructions. . Il est intéressant de noter

que chacune de ces entrées correspond à une page virtuelle et que 12 tailles de pages différentes sont prises en

charge, s'échelonnant de 4 Ko à 4 Go.

Bien évidemment, plus la taille de la page est importante, moins il vous faut d'entrées pour mapper une plage de

mémoire physique. Vous pouvez vous attendre à trouver 90 % d'informations non trouvées dans le premier

niveau, et plus de 99 % dans les deux premiers niveaux combinés. Même si le processeur ne trouve pas

l'adresse dans le TLB, vous avez 75 % de chances de trouver la traduction avec le matériel dans une table de

page hachée.

Mais si le processeur doit utiliser le logiciel pour effectuer la traduction, les performances en sont affectées.

D'après des mesures prises lors de l'exécution de SAP sur un rx6600 à huit c

urs, un taux de défaut de TLB

s'élevant à deux pour 1 000 instructions, ce qui semble peu, peut contraindre le système à utiliser 7 % de son

temps dans le gestionnaire de déroutement des informations non trouvées. En réduisant ce taux d'informations

non trouvées à, disons une pour 10 000 instructions, ainsi que le temps consacré au gestionnaire de déroutement

des informations non trouvées en conséquence, les performances en sont considérablement affectées. Petite

remarque : chaque programme exécutable est accompagné d'une indication pour le système d’exploitation

concernant ses tailles de pages préférées pour les données et les instructions. Ceci est défini lors de la

compilation du programme, vous pouvez modifier cette indication à l'aide de la commande chatr.

Le tableau bleu répertorie les résultats issus de l'exécution du benchmark SAP SD à l'aide d'indications de tailles

de pages différentes pour le programme exécutable principal, disp+work. Là encore, ces données proviennent

d'un rx6600 à huit c

urs affichant une charge relativement élévée de 2 050 utilisateurs SD. Lorsque disp+work

est utilisé pour des pages de 4 Ko, les performances s'avèrent des plus médiocres. Le système passe plus de

7 % de son temps dans le gestionnaire de déroutement ; le temps de réponse tourne autour de quatre secondes

et le débit est légèrement inférieur à 9 000 SAP, ce qui correspond à environ 150 étapes de dialogue seconde.

A l'inverse, si vous consultez la dernière colonne de ce tableau, vous constatez que lorsque le programme

exécutable est utilisé pour des pages plus volumineuses, le temps de réponse passe à

1,4 seconde et le débit augmente de 20 %. Heureusement, avec HP-UX 11i v3, la taille des pages virtuelles par

défaut est passée de 4 Ko à 16 Ko. Ainsi, si vous compilez un programme sans indication de taille de page,

par défaut, comme indiqué dans le programme exécutable, le système d'exploitation utilise des pages de 16 Ko

au moment du chargement en mémoire du programme.

Mais surtout, à partir de la version 620 ou 640, le noyau R3 SAP pour HP-UX a été compilé avec des indications

correspondant à des instructions de 4 MO et des tailles de pages de données de 16 Mo. Pour les benchmarks,

nous utilisons des pages plus volumineuses, mais comme vous pouvez le constater dans les deux dernières

colonnes de ce tableau, cela ne change pas grand-chose. En revanche, si vous exécutez une version antérieure

de HP-UX, de même qu'une version antérieure de SAP, veillez à vérifier la taille des pages. (Exécutez la

commande chatr sur une copie de disp+work qui n'est pas en cours d'exécution.)

Vous pouvez également surveiller l'efficacité des TLB pour un processus spécifique ou le système entier à l'aide

de Caliper. Si vous utilisez des tailles de pages par défaut, le recours à la commande chatr pour modifier ces

indications peut vous être d'une aide précieuse. Mais attention, l'utilisation de la mémoire et la taille des pages

virtuelles imposent un compromis, comme vous pouvez le constater dans la colonne la plus à droite illustrant le

pic d'utilisation de la mémoire. Quelle que soit l'indication en matière de taille des pages, les entrées/sorties ne

tentent jamais d'utiliser une page virtuelle plus volumineuse que celle que peut utiliser l'application, mais il arrive

souvent qu'un processus ne fasse pas référence à tout son segment de données privées ou aux segments de

mémoire partagée qui lui sont associés. Ainsi, les entrées/sorties allouent d'importants segments de données à un

moment, et tous n'étant pas indispensables, la mémoire peut en être affectée.

Dans le cas de SAP, le recours à disp+work pour les pages les plus volumineuses requiert environ 25 % de

mémoire en plus que les pages de 16 Ko. Cette mesure a été prise sur le benchmark SD avec une charge

élevée. Sur un système relativement inactif, la différence en termes d'utilisation de la mémoire s'avère

généralement plus nette.

Permettez-moi une autre remarque : pour une bonne gestion de la mémoire, surveillez toute utilisation élevée de

la mémoire étendue de SAP avec la transaction ST02. Si elle affiche une valeur nettement inférieure à 100 %,

essayez de réduire le paramètre em/initial_size_MB pour économiser de la mémoire.

Vous pouvez également économiser de la mémoire en combinant les différentes réserves de chaque instance d'un

même segment de mémoire partagée. Il est enfin possible de réduire le volume de mémoire étendue requis par

une instance en limitant le nombre de processus métier, de même que le paramètre em/block_size_KB. Essayez

surtout de réduire le nombre de processus métier, sujet sur lequel je reviendrai un peu plus tard.

[DIAPOSITIVE SUIVANTE]

Penchons-nous à présent sur les informations non trouvées dans le cache. Souvenez-vous qu'il est ici question

d'essayer d'améliorer l'efficacité du processeur en exécutant des instructions utiles, et non pas, par exemple,

celles du gestionnaire d'informations non trouvées, et en limitant les arrêts du processeur le nombre de fois où le

processeur s’arrête. Ces blocages sont, bien sûr, essentiellement dus aux délais de chargement des données et

instructions à partir de la mémoire ainsi qu'aux délais de stockage des données dans la mémoire. Si les données

se trouvent déjà dans la hiérarchie du cache du processeur, le nombre de cycles gaspillés, en attente de mémoire

ou en cas d'hyper-threading et de basculement vers un autre thread matériel, est limité. Dans le cas des

installations SAP, même celles à deux niveaux pour lesquels des processus métier SAP et des processus de

données SAP partagent les mêmes processeurs, le cache d'instructions ne présente pas de problème. En effet,

disp+work dispose d'une excellente localité de référence. Pour le meilleur comme pour le pire, un important

pourcentage des cycles processeur exécutant SAP est utilisé dans quelques modules d'interprétation ABAP et

routines de données de libc, comme memcmp() et memcpy().

Notez que le moteur SAP R3 passe le plus clair de son temps à interpréter le code ABAP. Dès lors, du point de

vue des performances, la question à se poser est la suivante : « Comment limiter les informations non trouvées

dans le cache de données ? » Bien évidemment, la manière dont l'application est conçue et compilée y joue un

rôle important. En tant qu'administrateur système, vous disposez de différents moyens visant à optimiser

l'efficacité du cache du processeur.

Tout d'abord, essayez de limiter le nombre de processus sur un même processeur. Exécutez ensuite les processus

partageant des données communes sur le même processeur ou ensemble de processeurs. Je vous expliquerai, un

peu plus tard, comment déterminer le nombre de processus métier adapté à une instance. Le regroupement des

tâches répond à un principe relativement simple : veillez à exécuter les processus d'une même instance sur un

même processeur ou ensemble de processeurs.

Pour ce faire, dans HP-UX, utilisez des ensembles de processeurs ou psets. Les psets présentent l'avantage de

pouvoir être créés, modifiés ou supprimés à la volée et ce, avec peu, voire pas d'effets résiduels. De même, un

processus peut être ajouté ou supprimé à partir d'un pset sans entraîner de surcharge. Les psets ont pour unique

fonction de déterminer les zones où les processus peuvent ou pas être exécutés. Nous avons pris quelques

mesures sur un système sans cellule, un rx6600 doté de quatre processeurs Montecito à double c

urexécutant 2

050 utilisateurs SD, pour connaître la différence entre l'exécution de chaque instance SAP dans son propre pset

et l'exécution de tous les processus librement sur tout sur le système.

Les résultats qui en découlent sont répertoriés dans ce tableau bleu. Ces résultats sont intéressants. Comme vous

pouvez le constater, en définissant des psets, nous avons réduit de près de 15 % le nombre d'informations non

trouvées dans le cache. Nous avons également réduit d'environ 20 % le délai de requête de la base de

données. J'aimerais pouvoir vous dire que ce faisant, vous constaterez systématiquement une amélioration du

temps de réponse de 23%. Mais ce temps de réponse est celui du benchmark et peut varier en situation réelle. En

matière de benchmark, lorsque vous intervenez sur un système inactif et augmentez le nombre d'utilisateurs, le

temps de réponse reste relativement constant à son niveau minimum et aux alentours du pic de charge de travail

supporté par le système pour ensuite augmenter rapidement avec la mise en concurrence des ressources. 2 050

utilisateurs constituent une charge un peu trop élevée pour cette démonstration, car elle est inférieure d'environ 5

% à ce que le système supporte.

Nous avons donc agir sur la courbe du temps de réponse au niveau où celui-ci augmente rapidement. A ce

stade, une légère différence en termes de performances se traduit par un changement relativement important du

temps de réponse. L'amélioration du temps de processeur par étape de dialogue d'un peu plus de 2 % s'avère

cohérente avec les mesures prises sur un Superdome à une cellule, mesures qui nous ont permis de constater que

l'ajout de psets pouvait se traduire par environ 3 à 5 % d'utilisateurs en plus.

La différence en termes de temps de requête de la base de données est intéressante. En effet, lorsqu'un processus

SAP sollicite la base de données, gérée ici par le processus serveur Oracle, le processus métier transmet des

données au processus de la base de données. Et lorsque le processus serveur Oracle est exécuté, les données

résident, vraisemblablement, toujours dans le cache du processeur où le processus métier a été exécuté pour la

dernière fois. Si vous programmez les deux processus de manière à ce qu'ils soient exécutés dans le même pset,

il y a fort à parier qu'ils s'exécutent sur le même processeur, ce qui améliore les performances du processus de la

base de données, ce qui correspond, à mon sens, 20 % constatés ici. D'une manière générale, les psets

n'entraînent pas de nette amélioration, sauf sur les systèmes exécutant des caches plus petits. Là encore, ces

données sont issues d'un système de benchmark doté d'un cache maximum de 12 Mo par c

ur. Le bénéfice lié

à l'utilisation de psets est plus important sur les systèmes exécutant une charge de travail plus hétérogène. Et bien

sûr, les psets sont encore plus utiles sur les systèmes plus anciens et plus grands, systèmes sur lesquels la latence

de la mémoire, et donc les problèmes liés aux informations non trouvées dans le cache, est plus marquée.

[DIAPOSITIVE SUIVANTE]

Penchons-nous à présent sur la latence de la mémoire. A l'aide des diapositives suivantes, je vais vous présenter

des informations générales sur la latence de la mémoire des machines à cellules. Puis, je vous parlerai des

données de benchmark qui illustrent la manière dont la différence de latence de la mémoire affecte les

performances. Et pour finir, je vous donnerai quelques conseils pratiques qui, je l'espère, vous seront bien utiles.

[DIAPOSITIVE SUIVANTE]

Cette diapositive illustre un système type à deux cellules. Pour plus de simplicité, nous ne montrons que 4

processeurs, même si un processeur Montecito à double c

ur vous permet de disposer de huit c

urs par cellule.

[DIAPOSITIVE SUIVANTE]

La plus courte latence d'accès aux données en dehors du processeur, qui doit être bien inférieure à 100

nanosecondes, est possible que si ces données se trouvent dans un autre cache du processeur, sur le même bus

frontal que la cellule. Les temps que je vais vous présenter sur ces diapositives ne sont pas précis. Ils reposent sur

des machines à cellules récentes. Mais les ratios entre les différents temps affichent, quant à eux, une certaine

précision. Ils sont assez représentatifs de ce que vous pourriez constater sur le récent chipset sx2000.

[DIAPOSITIVE SUIVANTE]

La deuxième meilleure latence, qui se situe autour de 200 nanosecondes, correspond aux données situées dans

la mémoire locale de cellule. Cette latence augmente de 50 % si les données se trouvent dans le cache d'un

processeur situé sur un autre bus frontal mais dans le même la cellule.

[DIAPOSITIVE SUIVANTE]

Cependant, s'il vous faut faire appel à une autre cellule pour accéder aux données, le coût minimum d'accès à

ces données à partir de la mémoire d'une autre cellule est multiplié par deux par rapport à celui de la mémoire

locale de cellule.

[DIAPOSITIVE SUIVANTE]

Et si les données se trouvent dans le cache d'un processeur distant, ce coût est quasiment multiplié par deux et

demi par rapport à celui de la mémoire locale.

Sur les plus grands systèmes, il est possible de franchir deux crossbars pour accéder à une donnée. Un accès à

la mémoire en deux sauts est deux fois et demie plus coûteuse que la mémoire locale et un cache distant peut être

multiplié par 3,25, soit 650 nanosecondes. 650 nanosecondes, cela semble peu, mais si vous fonctionnez à un

taux MIPS normal conforme à une installation SAP bien configurée sur un processeur Montecito d'environ 1 825

millions d'instructions par seconde, vous pouvez exécuter près de 1 200 instructions pendant ces 650

nanosecondes. Il convient dès lors de limiter le nombre de fois qu'il vous faut attendre après la mémoire.

[DIAPOSITIVE SUIVANTE]

Pour ce faire, la meilleure solution consiste à recourir à la mémoire locale de cellule.

Ce tableau répertorie les résultats de plusieurs tests d'extension menés à l'aide du benchmark SD sur un grand

système Superdome. Notez que l'hyper-threading y a été désactivé. Les nombres situés sur l'axe Y correspondent

au nombre d'utilisateurs SD pouvant exécuter un temps de réponse moyen inférieur à deux secondes.

C'est là une condition requise en matière de certification de benchmark, de même que pour la manière dont SAP

calcule SAPS. Pour chaque configuration testée, à savoir 2, 4, 8 et 16 cellules, nous vous présentons trois

ensembles de résultats. La colonne bleue correspond aux résultats générés lorsque toute la mémoire est entrelacée

sur toutes les cellules et que les processus sont libres de s’exécuter sur tous les processeurs disponibles. Il s'agit là

de la configuration par défaut pour HP-UX et, sauf intervention de votre part, c'est ce que vous pouvez constater

sur un grand système. La colonne du milieu, de couleur marron sur mes diapositives, répertorie les résultats

lorsque presque toute la mémoire est locale, par opposition à la mémoire entrelacée, et toutes les instances SAP

et tous les processus serveur de la base de données sont limités à des cellules uniques. Les meilleurs résultats, en

jaune, sont obtenus en affinant une restriction des processus aux ensembles de processeurs.

Bien sûr, le coût le la mémoire entrelacée augmente en fonction du nombre de cellules. La différence entre les

trois colonnes est plus prononcée sur les systèmes les plus grands. Sur une configuration à deux cellules, même

avec toute la mémoire entrelacée, vous avez 50 % de chances de trouver la ligne de mémoire que vous

recherchez dans la mémoire locale. Sur une configuration à deux cellules, la mémoire locale de cellule et les

psets se traduisent par un bénéfice respectif de 12 % et 4 %. Si vous passez au système à 16 cellules, les

performances par défaut portent sur 19 760 utilisateurs et 27 550 utilisateurs avec mémoire locale de cellule let

psets, soit un gain de près de 40 %.

[DIAPOSITIVE SUIVANTE]

Penchons-nous sur un autre exemple d’un plus petit rx8640 à quatre cellules. Ce système est doté de 120 Go de

RAM et, pour les besoins de cette expérience, nous avons configuré quatre partitions virtuelles distinctes, chacun

exécutant HP-UX 11i v3. Chaque partition s'est vue allouer tous les processeurs d’une des quatre cellules ainsi

qu'un quart de la mémoire totale, soit 30 Go chacune. Nous avons installé un système SAP ECC 6.0 sur trois des

quatre vPars, chacune dotée de bases de données Oracle 10G identiques. Pour cette expérience, nous avons

utilisé la version unicode de SAP et configuré deux instances par système. Nous avons testé deux configurations

de mémoire différentes. Pour la première série de tests, illustrés ici, l'ensemble de la mémoire a été entrelacée sur

les quatre cellules et chaque vPar s'est vue allouer 30 Go de cette mémoire.

[DIAPOSITIVE SUIVANTE]

Pour la deuxième série de tests, chaque vPar s'est vue allouer 30 Go de mémoire locale de cellule, comme le

montre le présent schéma. Pour mieux simuler la réalité d'un environnement client, nous avons exécuté une

combinaison de benchmarks SAP standard. La charge de travail était composée d'éléments de vente, de

distribution, de finance, de planning de production et de gestion. Malheureusement, s'agissant d'un benchmark

SAP, il présente un nombre limité d'entrées/sorties, mais l'exécution de cette combinaison de charges de travail,

nous avons examiné de plus près la base du code R3. Nous avons également opté pour une exécution inférieure

à celle du pic de charge de travail pour mieux refléter les attentes des clients. Toutes ces mesures ont été prises

avec une charge de travail identique de 750 utilisateurs. Nous avons donc simultanément utilisé 750 utilisateurs

sur trois des quatre vPars, trois des quatre systèmes HP-UX ; la quatrième cellule étant restée inactive.

[DIAPOSITIVE SUIVANTE]

Les résultats sont répertoriés dans ce tableau bleu. Là encore, comme nous utilisons des outils de benchmark SAP

standard, il s'ensuit un temps de réflexion de dix secondes entre les étapes de dialogue. Après examen du temps

de réponse et des étapes de dialogue par seconde, vous constatez un delta 4X du temps de réponse contre

seulement 10 % en ce qui concerne les étapes de dialogue par seconde. En fait, ces deux chiffres sont

étroitement liés. N'oubliez pas qu'il existe un temps de réflexion de dix secondes entre chaque étape de

dialogue, et en présence de 750 utilisateurs, le meilleur débit que vous pouvez espérer, avec une réponse

instantanée, est de l'ordre de 75 étapes de dialogue par seconde. Dès lors, le temps CPU par étape de dialogue

et l'utilisation totale du processeur constituent, à mon sens, de meilleures mesures de comparaison des

performances et affichent, dans le cas présent, une différence de l'ordre de 25 à 30 %.

[Diapositive suivante] (reprendre la diapositive précédente)

Il est intéressant de noter que ces résultats sont cohérents avec les résultats des quatre cellules mesurées

précédemment sur le benchmark SD du Superdome. Pour ce qui est de la configuration à quatre cellules, le

nombre d'utilisateurs avec mémoire locale de cellule et psets a augmenté d'environ 25 % pour passer de 5 960

à 7 450 utilisateurs SD.

[DIAPOSITIVE SUIVANTE]

Que peut-on en déduire ? Bien sûr, il est plus facile de configurer la mémoire locale de cellule et les psets pour

un benchmark doté de charges de travail prévisibles et uniformes que pour un système de production réel. Mais

je pense que ces gains de performances, de l'ordre de 25 à 30 %, sont trop importants pour être négligés. Au

minimum, vous devez pouvoir définir, un peu de mémoire locale de cellule. 10 % suffisent à toutes les données

privées des processus et peuvent gérer plus d'un niveau de toutes les références mémoire. Si vous utilisez 11i v3,

cela profite également aux structures de données du noyau conçues pour la mémoire locale de cellule.

L'utilisation de la mémoire locale de cellule, même à faible volume, implique que les instances SAP soient reliées

à des cellules individuelles. J'aimerais ajouter à cela qu'une seule instance SAP ne doit en aucun cas être trop

volumineuse pour solliciter la puissance de traitement de plus que tous les processeurs ou toute la mémoire d'une

cellule. J'y reviendrai dans quelques instants. Idéalement, pour tirer pleinement parti de la mémoire locale de

cellule, des segments de mémoire partagés SAP doivent aussi être alloués en dehors de la mémoire locale de

cellule. Malheureusement, aucun élément analysable SAP ne le permet.

Ceci dit, avec HP-UX 11i v3, il est possible de définir un drapeau pour indiquer au noyau HP-UX d'allouer de la

mémoire partagée en dehors de la mémoire locale de cellule, le cas échéant. Cet élément analysable, appelé

numa_policy, peut être dynamiquement défini sur un système en cours d'exécution avec la commande kctune.

Enfin, si vous exécutez la base de données sur le même serveur que les instances SAP, ce qu'en termes de

benchmarking on appelle configuration à deux niveaux, il est préférable que les processus de la base de

données soient exécutés sur la même cellule que les processus métier SAP auxquels ils correspondent.

Pour ce faire, Oracle propose deux moyens simples. Le moyen le plus efficace, pour diverses raisons, consiste à

utiliser le protocole bequeath que vous définissez dans le fichier tnsnames.ora. Ce faisant, vous ignorez

totalement la pile réseau en communiquant entre le processus métier SAP et le processus serveur Oracle.

Le processus serveur Oracle est, en fait, créé en tant qu'enfant du processus métier et hérite, à ce titre, de sa

politique d'ordonnancement. Vous pouvez également créer plusieurs écouteurs (listeners), un pour chaque cellule

où vous allez exécuter une instance SAP. Je sais que DB2 dispose d'un mécanisme similaire. Je n'en suis pas

certain pour les autres systèmes de gestion de bases de données.

[DIAPOSITIVE SUIVANTE]

Dans la section suivante, nous allons nous pencher sur les implications de notre discussion en matière de

configuration SAP. Là encore, il convient de se poser la question suivante : « Comment configurer SAP de

manière à utiliser le plus efficacement possible la puissance de traitement disponible ?»

[DIAPOSITIVE SUIVANTE]

Les points de cette diapositive sont à mettre en corrélation avec les principes décrits précédemment : définissez

les conditions requises en termes de processeur et de mémoire pour chaque instance SAP, puis affectez-les au

plus petit ensemble de processeurs disponible. Combien d'instances dois-je utiliser et quel doit être le volume de

chacune ? Combien de processus métier chacune doit-elle comporter ? Penchons-nous sur ces questions.

[DIAPOSITIVE SUIVANTE]

En la matière, il n'existe aucune règle adaptée à tous les cas de figure. D'après mon expérience, la tendance

générale consiste à surdimensionner des instances. Il est conseillé de disposer d'un plus grand nombre de petites

instances et cela, pour deux raisons. Premièrement, le répartiteur ne se traduit pas par un goulet d'étranglement.

Deuxièmement, et cela se vérifie notamment sur les grands systèmes, les petites instances permettent d'obtenir une

meilleure localité de la mémoire et du processeur, ce qui augmente l’efficacité des caches de ce dernier et, plus

important encore, réduit la latence de la mémoire. En règle générale, il convient d'adopter une instance pour

deux à quatre c

urs. Par exemple, si vous utilisez un processeur rx4640 à quatre c

urs en tant que serveur

d'applications, définissez un minimum de deux instances. Bien sûr, sur les systèmes à plusieurs cellules, si

possible, veillez à ce que les instances ne s’étendent pas sur plusieurs cellules.

[DIAPOSITIVE SUIVANTE]

Déterminer le nombre de processus métier qui convient exige un minimum de travail, car il vous faut bien

connaître votre application. Le principe de base est assez simple : utilisez le moins de processus métier possible

et cela, pour diverses raisons. Chaque processus métier utilise de la mémoire, pas seulement pour sa région de

données privées, mais aussi dans la mémoire étendue de l'instance. Mis bout à bout, chaque processus métier

supplémentaire que vous ajoutez peut nécessiter jusqu'à 100 Mo de RAM en plus. Plus il y a de processus

métier sur un processeur, plus la pression exercée sur ses caches est forte, plus les changements de contexte sont

importants et plus il y a contention dans SAP et dans le code de la base de données.

N'oubliez pas que chaque processus métier est doté d'un processus ou thread de base de données qui lui est

propre. Et plus ils sont nombreux à être exécutés simultanément, plus la contention des ressources de la base de

données est importante. En matière de mises à jour, notamment, nous avons pu constater des améliorations en

termes de temps de requête de la base de données moyennant la diminution du nombre de processus métier mis

à jour et donc du nombre de processus serveur mis à jour accédant aux mêmes tables de la base de données. Je

pense également qu'on a tendance à oublier la manière dont les requêtes sont gérées par le noyau R3. Si un

processus métier gérant une requête utilisateur doit attendre les entrées/sorties, ce processus normalement ne se

bloque pas. En fait, le contexte utilisateur est enregistré dans la zone de travail de la mémoire étendue et le

processus métier récupère l'unité de travail suivante dans la file d'attente du répartiteur avant de poursuivre sa

lancée. Ainsi, vous n'avez pas besoin d'autant de processus métier qu'il n'y paraît.

Certes, faute de processus métier suffisants, les ressources processeur sont inactives alors que le travail

s'accumule dans la file d'attente du répartiteur. Veillez à régulièrement surveiller l'utilisation du processeur ainsi

que les files d'attente du répartiteur. Pour surveiller ces files d'attente, j'ai recours à dpmon, un utilitaire SAP

générant peu de surcharge. Cet utilitaire lit directement les segments de mémoire partagés et ignore le noyau R3.

Vous pouvez également vous pencher sur le noyau SAP via la transaction sm51.

Si vous jugez le temps de réponse trop élevé, de même que les files d'attente, et pensez disposer de suffisamment

de mémoire et de processeur inactif, ajoutez un autre processus métier et voyez si la situation s'améliore.

Cependant, si vous jugez que la file d'attente du répartiteur est rarement encombrée et que certains processus

métier n'accumulent que peu de temps de processeur (pour ce faire, utilisez régulièrement la commande ps),

réduisez le nombre de processus métier. Les processus métier inutiles gaspillent des ressources et affectent les

performances.

Je vais à présent vous parler de la configuration des mises à jour. Quel est le meilleur moyen de procéder ? En

la matière, il existe de nombreuses possibilités. Je pense que dans le cas d'une configuration à trois niveaux, la

configuration de serveurs de mise à jour distincts présente un certain nombre d'avantages et d'inconvénients

théoriques et il convient également de se pencher sur l'exécution de mises à jour sur l'instance centrale. En effet,

les communications entre les serveurs de dialogue et de mise à jour sont indirectes et transitent par l'instance

centrale. Veillez à ne pas trop surcharger l'instance centrale.

Elle doit être en mesure d'effectuer ses tâches de verrouillage et de traiter les files d'attente très rapidement. Mais

la théorie est logique. Je dispose actuellement de trop peu d'éléments pour privilégier l'un ou l'autre moyen

d'effectuer des mises à jour sur une configuration à trois niveaux. Et j'aimerais ajouter qu'en termes de

performances, cela n'a pas grande importance.

Ceci dit, si l'on considère de grands systèmes dotés de serveurs d'applications configurés sur le même serveur

que la base de données, votre configuration à deux niveaux classique, il est intéressant d'affecter les mises à jour

à une instance exécutée sur la même cellule que les processus dialogue et leurs processus serveur. La raison à

cela : le taux de réussite du cache s'améliore, de même que la latence de la mémoire, surtout pour les processus

serveur de la base de données. D'un point de vue pratique, cela signifie que vous ne configurerez probablement

pas d'instances de mise à jour dédiées, car la charge d'une même cellule ne suffit pas à le justifier. Définissez

plutôt deux, voire trois ou quatre processus de mise à jour en fonction de vos besoins, veillez à les affecter à une

des instances d'une cellule et à faire en sorte cette instance fasse office de serveur de mise à jour pour toutes les

autres instances exécutées sur cette même cellule.

Paramètres du profil. Curieusement, compte tenu du grand nombre de paramètres SAP configurables, je me suis

rendu compte que la plupart ne s'accompagnent pas de réel impact sur les performances. Vous n'êtes pas tenu

de vérifier que les différents tampons et réserves de SAP sont correctement dimensionnés. Examinez régulièrement

l'utilisation de la mémoire interne via la transaction st02 et vérifiez qu'il n'existe pas d'échanges. L'écran st02

permet de facilement le voir : vérifiez qu'aucun champ n'apparaît en rouge.

Au-delà de cela, je crois que deux paramètres dont les valeurs sont définies par SAP affectent les performances.

Tout d'abord, vérifiez que SAP utilise le registre d'horloge de résolution HP-UX gethrtime pour les statistiques de

temps et non gettimeofday qui se révèle nettement moins efficace. Le code SAP est doté d'importants volumes

d'instrumentation. Ils chronomètrent tout et enregistrent ces mesures. En utilisant un chronomètre suffisamment

efficace, vous pouvez préserver une grande part des performances. Le paramètre à prendre en considération

s'appelle « stat/clock » et il doit être défini sur « sap_clock ». ; « gettimeofday », sa valeur par défaut, étant

à éviter. Le deuxième paramètre est, je crois, une nouveauté de la version 620.

Pour préserver l'espace du tampon du programme, SAP a compressé la portion de données initialisée des

programmes ABAP au moment de leur chargement dans la mémoire tampon. Trois paramètres permettent de

régler le degré de compression : zéro, un et deux pour une compression minimum, normale ou maximum. Un

correspond au paramètre par défaut. Pour de plus amples détails, consultez la note SAP 559874. L'espace et le

temps de processeur font l'objet d'un compromis.

En définissant le paramètre initrc_degree sur zéro, nous avons réussi à économiser 5 à 6 % d'utilisation totale

processeur par processus métier avec une sollicitation accrue de la mémoire dans la mémoire tampon du

programme. Pour les benchmarks, l'augmentation de l'espace s'est avérée minime et ce, compte tenu du fait que

le nombre de programmes ABAP exécutés est relativement faible. Là encore, il convient de bien surveiller la

situation, mais cela peut s'avérer intéressant en présence d'un système test ou AQ capable de savoir si ce

compromis en vaut la peine, ce qui s'est vérifié dans le cas des benchmarks.

[DIAPOSITIVE SUIVANTE]

Dans cette section, nous allons brièvement décrire la configuration du noyau HP-UX pour SAP.

[DIAPOSITIVE SUIVANTE]

Ici, la recommandation la plus importante consiste à toujours se référer à la note SAP 172747 : « HP-UX

Operating System Kernel Parameter Recommendations » (Recommandations relatives aux paramètres du noyau

du système d'exploitation HP-UX) qui détaille les paramètres autres que ceux utilisés par défaut requis pour SAP.

Ils ont principalement trait à la communication entre processus. Heureusement, cette question requiert moins

d'attention que par le passé. Sur les versions plus anciennes de HP-UX, bon nombre de ressources du noyau

étaient allouées en fonction des paramètres et il fallait veiller à ne pas trop configurer ces tables pour ne pas

gaspiller la mémoire. Avec 11i, la plupart des tables du noyau sont dynamiques. Le fait de définir de nombreux

paramètres sur leur valeur maximum n'entraîne que peu, voire pas de pénalités et, en fait, et ces valeurs sont

utilisées pour bon nombre de paramètres. De même, de nombreux paramètres ajustables sont eux-mêmes

dynamiques. Ils peuvent être modifiés à la volée sans nécessiter de redémarrage. Dans un tel contexte, une

mauvaise configuration du noyau porte moins à conséquence. Veillez cependant à allouer suffisamment de

ressources à ce noyau pour éviter que SAP ne se heurte à des erreurs si certaines ressources viennent à manquer.

Si vous suivez les recommandations formulées dans la note SAP, vous ne devriez pas rencontrer de problèmes.

Ceci dit, j'aimerais attirer votre attention sur le fait qu'il vous faut veiller à ne pas gaspiller d'espace en

configurant le cache de tampon plus qu'il ne le faut. Je crois que la note SAP recommande de définir

filecache_max— sur 11i v3 ; sur les versions antérieures de HP-UX, les paramètres équivalents étaient les

suivants : dbc_max_pct sur 8 % et filecache_min sur 5 %. Dans ce contexte, vous devez installer SAP sur le

même serveur que la base de données, exécuter la base de données via le système de fichiers et ne pas utiliser

d'entrées/sorties directes. Ainsi, surtout si vous configurez votre système en tant que serveur de l'application SAP,

vous n'êtes pas tenu de consacrer 5 % de la mémoire au cache de fichiers, 1 % devant suffire. Si vous hésitez,

vous pouvez opter pour la valeur la plus élevée et laissez le cache de fichiers augmenter, mais commencez par

une valeur minimum très basse. Vous économiserez ainsi de la mémoire.

Je vous conseille également de toujours configurer un important espace d'échange (swap). En effet, il vous faudra

certainement bien dimensionner vos applications pour optimiser la mémoire. Si votre mémoire est limitée au point

qu'il vous soit nécessaire de procéder à un échange, les performances en seront considérablement affectées.

Aucun système d'exploitation n'est conçu pour être échangé de manière continue. Il est important de disposer de

suffisamment de stockage de sauvegarde pour créer et faire évoluer vos processus ainsi que votre mémoire

partagée. Nous vous conseillons d'allouer deux à trois fois la taille de la mémoire réelle pour l'espace

d'échange. Il ne doit pas nécessairement s'agir de périphériques rapides et coûteux. L'important, c'est que vous

disposiez de cette espace disque. Vous ne devez pas être amené à l'utiliser, mais en cas de besoin, vous pouvez

compter sur la solution de stockage de sauvegarde.

Enfin, pour revenir sur un point soulevé précédemment, la mémoire locale de cellule permet de renforcer les

performances, sur les grands systèmes notamment. Sur 11i v3, vous pouvez demander au système d'exploitation

d'utiliser la mémoire locale de cellule comme mémoire partagée en définissant le paramètre numa_policy sur un.

[DIAPOSITIVE SUIVANTE]

Le dernier sujet porte sur les performances de pthreads. Le noyau SAP n'est pas multithread. Mais d'autres

produits, comme liveCache basé sur MaxDB, le sont. Si vous envisagez d'exécuter des applications multithread,

nous vous conseillons vivement d'opter pour la dernière version du système d'exploitation. En termes de

performances des threads, 11i v2 et, dans une plus grande mesure, 11i v3 affichent de réelles améliorations par

rapport aux versions antérieures de HP-UX. Si vous consultez cette présentation après mars 2008, la version

fusionnée 0803 de 11i v3 a été encore améliorée pour pthreads. Quelle que soit la version, la variable

d'environnement PTHREAD_FORCE_SCOPE_SYSTEM doit être définie sur un. Elle indique au noyau que vous

n'utiliserez pas les threads MxN, ce qui permet de limiter la surcharge sur la plupart des appels des

bibliothèques pthreads. Si vous utilisez 11i v2 et que vous souhaitez améliorer les performances des threads, je

commencerais par vous dire d'opter pour 11i v3. Installez parallèlement le correctif de pthreads PHCO_36323

ainsi le correctif de performances ksleep, PHKL_36826. Le premier correctif contient des améliorations destinées

aux variables de condition et le deuxième, plus important encore, accélère les mécanismes de veille et de réveil

de toutes les opérations pthreads, pour les mutex et les variables de condition.

Je sais que cela peut paraître incroyable, mais nous avons récemment mené des tests sur un système PA à 64

urs, un programme de tests synthétiques qui simule le mécanisme de basculement des threads utilisé par

liveCache et ces tests ont démontré que la dernière version de 11i v3 pouvait prendre en charge un taux de

basculement des threads deux fois plus élevé que celui de la version 11i.

Il faut bien admettre que l'ancienne implémentation affichait quelques problèmes d’évolutivité, mais la nouvelle

s'avère particulièrement rapide.

[DIAPOSITIVE SUIVANTE]

Nous voici à la dernière diapositive. Je vais vous résumer brièvement les différents points que nous avons

développés. Tout d'abord, il est extrêmement important de bien comprendre votre charge de travail avant de

pouvoir agir sur les performances. Vous devez connaître l'utilisation que vous faites des ressources moyennes et

du pic de ressources pour bien allouer les ressources de votre ordinateur. Vous devez également veiller à utiliser

des grandes pages pour votre application, ce qui devrait être aisément possible si vous utilisez une des dernières

versions de SAP et HP-UX. Pour le vérifier, utilisez la commande chatr. Si vous n'utilisez pas de grandes pages,

tirez immédiatement parti de disp+work et réduisez les défauts de TLB. Essayez ensuite d'améliorer le taux de

réussite du cache en limitant les processus ainsi que leur transfert d'un processeur à un autre. Plus important

encore, sur les grands systèmes, utilisez la mémoire locale de cellule. Le fait de réduire la latence de la mémoire,

comme nous avons pu le constater, s'accompagne d'une très nette incidence sur les performances dans leur

ensemble. Enfin, lorsque vous configurez SAP, ne limitez pas le nombre d'instances, mais limitez le nombre de

processus métier de chaque instance. Utilisez toutes les instances dont vous avez besoin pour atteindre l'équilibre

et la granularité de votre choix, mais pour chaque instance, réduisez au minimum le nombre de processus métier.

[DIAPOSITIVE SUIVANTE]

J'espère que ces informations vous seront utiles. Si vous avez des questions ou suggestions sur les points

développés dans cette présentation, n'hésitez pas à m'écrire à l'adresse indiquée sur le site Web. Merci pour

votre attention.

Pour de plus amples informations, visitez le site suivant :

www.hp.com/go/kod

sujettes à modification sans préavis. Les seules garanties applicables aux produits et services HP sont celles

énoncées dans les déclarations de garantie expresses qui accompagnent lesdits produits et services. Aucun élément

du présent contenu ne peut être interprété comme constituant une garantie supplémentaire. HP ne saurait être tenue

responsable des erreurs ou omissions de nature technique ou rédactionnelle contenues dans le présent document.

Univers
Ebooks
Livres audio
Presse
Podcasts
BD
Documents

Livre audio en ligne - Développement personnel Livre en ligne Tout le catalogue Tous les Intérêts

Knowledge-on-Demand HP-UX 11i : découvrez, auprès de nos ...

Orbite cristallographique

Linternaute.com

Résultats électoraux de l'extrême gauche en France

V382 Velorum

Temps de réponse (électronique)

Dialogue territorial

YouScribe

Le catalogue

Le service

Les conditions