Dynamique des systèmes complexes et applications aux SHS :modèles, concepts méthodes-Equilibre(s).-Dynamiquesavec apprentissage par renforcement.Jean-Pierre NadalLaboratoire de Physique Statistique de l’ENSet CENECC (CENtre d’Etude des systèmes Complexes et de la Cognition, ENS)nadal@lps.ens.frEcoleThématique CNRS d ’Agay Roches Rouges 8 - 17 mars 2004ƒƒ999ƒƒƒ9ƒƒƒplan• Notations, rappels• EquilibresPoint fixe d’une dynamique déterministe Dyn. stochastique avec potentiel (énergie) : BoltzmannNashEquilibre de Nash en Stratégie Mixte (MSE)Quantal Response Equilibrium (QRE)Expérimentation : comparaison comportements / modèles• Dynamique avec apprentissage / adaptationPrincipe de l’apprentissage par renforcementIllustrations : Jeu à deux joueurs - QRE versus dynamique de populationsEl Farol / Minority GameMarché aux poissons de Marseille Mémoire à court-terme (variante du modèle de Hopfield)• Logit or not logit ? (le principe d’entropie maximale).mars 2004 école Systèmes Complexes 2notations, rappels• N agents : i = 1, 2,…, N Choix discrets - exemple du cas binaire :• choix de l’agent numéro i : ω = 1 / ω = 0 ou : S = +1 / S = -1i i i i assister/ne pas assister, acheter/ne pas acheter, groupe A/groupe B,neurone actif/inactif, spin d’Ising +/-, automate 1/0, action 1/action 2,stratégie 1/ stratégie 2 (coopérer/trahir, signaler/ne pas signaler,…) …• Pour chaque agent i : u (S , S ) = utilité = surplus = gain = - frustrationi i ...
Jean-Pierre Nadal Laboratoire de Physique Statistique de lENS et CENECC (CENtre dEtude des systèmes Complexes et de la Cognition, ENS) nadal@lps.ens.fr
-Equilibre(s). -Dynamiques avec apprentissage par renforcement.
Dynamique stochastique (bain thermique, bruit synaptique, main temblante) avec interactions symétriques + logit :p(Si= 1/[1 + exp 2= +1) βhi] T = température = 1/β Péqu. (1/Z( S ) = ) exp βE( S ). = distribution deBoltzmann(1844 - 1906) (→potential games en théorie des jeux)
½
Equilibres(économie) Nash: S* est un équilibre de Nash si, pour touti: ui(S*i, S*-i)≥ui(Si, S*-i) quel que soit Si. cas, il existe 0, 1 ou plusieurs équilibres de Nash.selon les un point fixe attractif de la dynamique déterministe est un équilibre de Nash. Equilibre deNashenStratégieMixte (Mixed-StrategyEquilibrium) Chaque joueurijoue la stratégie Siavec une probabilité pi(Si) Gain anticipé pari: <ui(Si) > =Σp (S-i)ui(Si, Si) -{ S-i} MSE : <ui(Si quel que soit S identique) >i. il existe toujours un MSE. mars 2004 école Systèmes Complexes 5
Stratégies mixtes et comportement QuantalResponseEquilibrium(QRE) pi(Si) =f(< ui(Si) > ) /Σ{s}f(< ui(s) > ) ( <ui(Si) > = gain anticipé parisil choisit la stratégie Si) Exemple (logit !) : f(x) =exp(βx ). remarque : QRE≈« approximation dechamp moyen» en physique Expériences: comparaison des comportements avec les prédictions MSE et QRE Réf.: McKelvey and Palfrey,alrmnorgamorfliuqeesofairbiGmaem,sdnseaerlnopsuQatna economicbehavior,7:6-38(1995) Colin F.Camerer, « Behavorial Game Theory », Princeton Univ. Press 2003 mars 2004 école Systèmes Complexes 6
mars 2004
Dynamique : Apprentissage par renforcement
école Systèmes Complexes
7
Apprentissage par renforcement Gain / utilité / profitnon connuà lavance Exploration: lexpérience (la sienne et/ou celle des autres) permet dévaluer le bénéfice dune action (dune stratégie, dun choix) Renforcementdes actions qui se révèlent les plus efficaces : augmentation de la probabilité de choisir cette action dans le futur (exploitationdes connaissances acquises) Cas le plus simple :le gain dune action est connu immédiatement (exemple : jeux usuels de la théorie des jeux, gain distribué après chaque tour) Cas plus difficile : gain connu uniquement après une suite dactions Encore plus difficile (mais très réaliste) : gain = information purement qualitative : «cest bien / cest mal» (réf. : R. S. Sutton & A. G. Barto, « Reinforcement learning », The MIT Press, 1998) mars 2004 école Systèmes Complexes 8