Technique de contrôle de capacité dans un réseau de neurone, par réduction neuronale

Nicolas- - Nicolas

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

13 pages

Français

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

A propos
Informations
Extrait

Description

Technique de contrôle de capacité dans un réseau de neurone, par réduction neuronale Nicolas Pinchaud On se propose de construire un modèle de réseau de I Modélisation neurone de type perceptron multicouche avec une couche cachée. Dont le nombre de neurones dans la Etablissons un cadre général en proposant une couche cachée est un paramètre que l’on optimise. définition d’un modèle, d’abord basé sur des Le modèle est construit de façon itérative, où concepts intuitifs, sur lesquels repose ensuite une chaque itération correspond à la suppression d’un tentative de formalisation. neurone de la couche cachée. La réduction progressive du nombre de neurone, réduit la -Modèle, définition en « pièces de puzzle » capacité du modèle, l’objectif étant de commencer cette réduction en partant d’un modèle en état de La modélisation d’un ensemble peut être vue sur-apprentissage, on réduit alors la capacité en comme la définition des pièces d’un puzzle, ces supprimant des neurones, pour obtenir pièces doivent pouvoir être assemblées et permettre successivement des modèles de plus en plus la construction d’images représentatives des généraux. Cela peut être vu comme une technique éléments modélisés. Si la tâche de modélisation est de contrôle de capacité.

Informations

Publié par	Nicolas-
Publié le	12 juillet 2013
Nombre de lectures	108
Langue	Français
Poids de l'ouvrage	1 Mo

Extrait

Technique de contrôle de capacité dans un réseau de neurone, par réduction neuronale Nicolas Pinchaud On se propose de construire un modèle de réseau de neurone de type perceptron multicouche avec une couche cachée. Dont le nombre de neurones dans la couche cachée est un paramètre que l’on optimise. Le modèle est construit de façon itérative, où chaque itération correspond à la suppression d’un neurone de la couche cachée. La réduction progressive du nombre de neurone, réduit la capacité du modèle, l’objectif étant de commencer cette réduction en partant d’un modèle en état de sur-apprentissage, on réduit alors la capacité en supprimant des neurones, pour obtenir successivement des modèles de plus en plus généraux. Cela peut être vu comme une technique de contrôle de capacité. Les techniques classiques de contrôle de la capacité d’un réseau de neurone se font en générale en choisissant une structure de réseau possédant un nombre limité de neurones, ou par le biais d’un paramètre de régularisation, par exemple en empêchant les poids des synapses de devenir trop grands. Ces techniques ont pour but de réduire le phénomène de sur-apprentissage qu’engendre une trop grande capacité. Elles consistent à réduire l’espace des fonctions représentables par le modèle en restreignant l’espace des paramètres. Néanmoins, cette restriction ne prend pas en compte d’éventuelles propriétés que peuvent revêtir le phénomène de sur-apprentissage ou de généralisation sur les réseaux de neurones. S’il est possible d’identifier des signes d’un état de sur-apprentissage ou de bonne généralisation dans un réseau de neurone, en observant son comportement interne au niveau neuronal (on parlera de phénotype cellulaire ou neuronal), cela pourrait mener à l’élaboration de techniques de contrôle de capacité plus efficaces sur ces types de modèles particuliers. Dans la première partie nous introduisons le cadre général en donnant une définition de la modélisation d’un ensemble en apprentissage machine, celle-ci nous sert dans la seconde partie pour développer un modèle du phénotype cellulaire, dont l’objectif est de prédire un état macroscopique de sur-apprentissage ou de généralisation. Dans la troisième partie, nous en déduisons des techniques de contrôle de capacité, dont l’une est étudiée.

I Modélisation Etablissons un cadre général en proposant une définition d’un modèle, d’abord basé sur des concepts intuitifs, sur lesquels repose ensuite une tentative de formalisation. -Modèle, définition en « pièces de puzzle » La modélisation d’un ensemble peut être vue comme la définition des pièces d’un puzzle, ces pièces doivent pouvoir être assemblées et permettre la construction d’images représentatives des éléments modélisés. Si la tâche de modélisation est supervisée, les images doivent ressembler à des images cibles, la mesure de cette ressemblance dépend d’une fonction de coût. Dans le cas de l’auto-encodeur, les images cibles sont les éléments originaux eux-mêmes. Nous utiliseront aussi le terme de « pattern » pour désigner les « pièces de puzzle » d’un modèle. Remarquons que les règles d’assemblage des pièces sont aussi importantes que les pièces elles même. Il peut y avoir plusieurs niveaux de hiérarchie de modélisation, les éléments modélisés dans un premier temps, donnent des images représentatives qui à leur tour peuvent être modélisés, et ainsi de suite. Les réseaux profonds sont un exemple de ce type de modèle à plusieurs niveaux. Un modèle est donc défini par les pièces, les opérations d’assemblages qui permettent de les combiner, et donne en sortie, l’image d’un élément donné en entrée. Cette image est construite à l’aide du modèle par assemblage de pièces. En apprentissage machine, dans un réseau de neurone les pièces sont définies par les poids synaptiques, et les opérateurs définies par les méta-paramètres : l’architecture du réseau, les fonctions d’activations etc ; pour un HMM les paramètres correspondent, à l’inverse, aux opérations d’assemblage, les probabilités de transition et d’émission définissant l’ordre dans lequel on assemble la séquence d’état cachées. Un modèle peut aussi être génératif, en produisant sans entrée, une sortie, en combinant l’assemblage de ses pièces tel que ses opérations d’assemblage le permet.

-Exemple Nous donnons un exemple de modèle, modélisant des propositions de la logique propositionnelle. Le langage de la logique propositionnelle est formé des symboles suivants : -,q, , , sont des propositions atomiques qui (ils peuvent être en nombre infini). -et ,(, ),Ú, ,| Ces symboles sont les pièces de notre modèle, on peut les combiner en les concaténant et obtenir des éléments, comme :(pr|( Dans ce contexte appelons ces pièces des mots, et disons que leur assemblage forme des phrases. Nous identifions certaines phrases comme des propositions selon la définition inductive d’une proposition: -,q, , ,sont des propositions. -SiP,Qsont des propositions, alors (P Q), (PÚQ), (P|Q),P sont aussi des propositions. Nous voyons que(pr|( pas une n’est proposition, contrairement à(p r)|(pÚr) Supposons que nous disposons d’un ensemble de propositions , que nous essayons de modéliser, c'est-à-dire que nous voulons que notre modèle puisse créer les phrases éléments de , à partir de mots de base. Les symbolesp,q,r,s,t ,, (, ),Ú, ,| la de logique propositionnelle, utilisés comme mots, peuvent permettre cette modélisation, car elles permettent la construction de toutes les propositions, donc de tous les éléments de . Mais ces dernières peuvent aussi construire des phrases comme «(pr|(» qui n’est pas une proposition. Si notre objectif est de créer un modèle qui permet uniquement de modéliser les propositions, alors l’utilisation de ces mots comme pièces de notre modèle, n’est peut-être pas approprié, car ces pièces permettent de construire un ensemble trop large de phrases. On peut réduire cet ensemble en utilisant des mots comme (p q), (pÚq), (p|q),p, remarquons

qu’avec ceux-ci, nous ne pouvons plus construire de phrases comme(pr|(. Remarquons aussi que nous pouvons réduire l’ensemble engendré en restreignant les opérations d’assemblages effectuables entre les pièces, par exemple en empêchant un d’être suivit d’unÚ. Dans un réseau de neurone, cela peut correspondre à la modification de sa structure, par exemple en supprimant une synapse. -Modèle, définition formelle D’un point de vue formel, la modélisation d’un ensemble correspond à une applicationm; Si le modèle est génératif,mpourra être une application mesurable sur un espace probabilisé, autrement dit une variable aléatoire. Supposons quem Si . définie sur soitmest injective, alors la modélisation se fait sans perte d’information, sim( ) discret alors estm peut être vu comme un classifieur, par exemple classant les propositions comme étant vraie ou fausse. Notons que cette définition n’explique pas la modélisation en « pièces de puzzle ». On propose de la compléter en supposant quemest elle-même la composition d’autres applications, par exemple m1vv v N N%1...0. Supposons qu’il existe unvitelle que sa sortie soit identifiable à un espace vectoriel, on définie les « pièces » ou « pattern » comme une composante d’un vecteur produit parvi. Les opérations entre ces pièces se font par l’intermédiaire de l’application de rang supérieurvi#1. Dans un perceptron multicouche, les correspondent aux couches, et sont à valeur dans un espace vectoriel de dimension , étant le nombre de neurone dans la couchei, donc chaque neurone correspond à la détection d’une « pièce » ou « pattern », dont la nature dépend notamment de son biais et des poids de ses entrées synaptiques, les pièces détectées dans une couche, sont composées et assemblées dans la couche suivante. II Phénotype cellulaire dans un réseau de neurone

Commençons par voir quelques résultats intuitifs du formalisme précédant, puis nous présentons un outil de mesure qu’est la contribution d’un neurone à l’erreur, qui sera utilisé par la suite. -Propositions a)Les exemples d’une base d’apprentissage sont composés de patterns. Comme nous l’avons dans l’exemple de la logique propositionnelle, les propositions peuvent être vues comme une composition de patterns, où ces derniers sont de la forme :(P Q), (PÚQ), (P|Q),P b)Un neurone reconnaît un pattern particulier. Nous considérons ici les neurones formels classiques, avec pour fonction d’activation une fonction de type sigmoïde. Supposons qu’un neurone a reconnu un pattern si son activation dépasse un certain seuil. L’activation sera d’autant plus grande si le produit scalaire entre ses entrées synaptiques et leur poids correspondant est élevé, ce qui signifie que plus le vecteur de poids et le vecteur d’entrée sont colinéaires, plus le neurone sera susceptible de s’activer fortement et de reconnaître un pattern. Le vecteur de poids représente donc un pattern que le neurone est chargé de reconnaître. Le biais correspond à une « tolérance de colinéarité », plus il est faible, plus le vecteur d’entrée devra être colinéaire au vecteur de poids pour que le neurone s’active et inversement. Voyons la notion de contribution d’un neurone à l’erreur, et comment elle peut être liée au sur-apprentissage et à la généralisation du modèle neuronal. Contribution d’un neurone à l’erreur : La contribution d’un neurone est déterminée par la différence entre le risque empirique du modèle en l’absence du neurone et le risque en sa présence. L’absence du neurone est équivalente à une sortie nulle de ce dernier, on noteyla sortie du modèle et yn la sortie du modèle en fixant l’activation du neuronen 0. àyp la sortie cible de l’exemple est d’un ensemble d’apprentissage ou de test, qui possèdeNéléments. La contributionCn d’un neurone est alors :

Cn1∑L yn p%p N1p( ,y)L(y,y) Avec la fonction de cout.

Une interprétation possible de la contribution d’un neurone, est qu’une contribution faible correspond à un neurone spécialisé dans la reconnaissance d’un pattern présent dans un faible nombre d’exemple d’apprentissage. La faible proportion d’occurrence de ce pattern dans la base d’apprentissage, suggère que ce dernier est spécifique aux quelques exemples (s’il n’y en a pas qu’un) qui le possède. Il peut y avoir deux raisons à cela, la première c’est que le pattern est naturellement peu fréquent dans l’ensemble modélisé, la seconde est que le neurone a sur-appris quelques exemples de la base d’apprentissage, et que le pattern qu’il reconnaît n’est pas présent dans d’autres exemples, notamment ceux de la base de test. Inversement, une contribution élevée correspond à un neurone reconnaissant un pattern dont l’occurrence est élevée dans la base d’apprentissage, cela suggère que ce dernier est aussi présent dans la base de test (si la base d’apprentissage n’est pas biaisée), et donc ce neurone contribue au pouvoir de généralisation du modèle. Identification des patterns Nous voyons donc l’intérêt des neurones d’avoir une contribution élevé ce qui correspond à reconnaître des patterns fréquents. L’identification des patterns les plus fréquents présents dans la base d’apprentissage, se fait grâce à la descente du gradient et à la capacité limité du modèle. La capacité limité fait qu’il est plus avantageux, pour obtenir de meilleures performances sur le cout, d’attribuer aux neurones la tache d’identifier des patterns commun à beaucoup d’exemples, donc fréquents. Comme on l’a vu, les patterns fréquents dans la base d’apprentissage sont susceptibles d’être aussi présents dans la base de test. Si la limitation en capacité n’a pas lieu, le nombre de neurones est élevé, et permet dans un cas extrême, d’associer chaque neurone à un exemple de la base d’apprentissage en le spécialisant pour la reconnaissance de ce dernier uniquement. L’erreur sur la base de test sera élevée car aucun pattern n’y sera reconnu, ce qui engendre le sur-apprentissage. Représentation d’un exemple par des patterns

Un exemple d’apprentissage, peut comporter plusieurs patterns en son sein. Les neurones ont pour objectif de les identifier et dans le cas de l’auto-encodeur, l’exemple est reconstruit en « assemblant » ces derniers. Si l’ensemble des patterns utiles à la généralisation, possiblement identifiables, est élevé, la capacité du modèle devra être aussi élevée pour qu’il puisse tous les représenter. Ce qui correspond donc à un nombre élevé de neurones. Mais le risque alors, est le sur-apprentissage qui se traduit, comme on l’a vu, par la spécialisation des neurones pour des exemples de la base d’apprentissage. Cela devrait se remarquer par un faible nombre de patterns identifié dans les exemples, et une appartenance de ces patterns à un faible nombre d’exemple. Ce qui se traduit dans un réseau de neurone à une couche cachée, par un faible nombre de neurones activés dans la couche cachée pour chaque exemple en entrée, et par une activation de faible fréquence de ces neurones, cela correspond à une faible contribution des neurones. Alors qu’une bonne généralisation devrait correspondre à une fréquence d’activation des neurones dépendante de la véritable fréquence des patterns dans la base de données. Un neurone reconnaissant un pattern fréquent devrait posséder une contribution élevé. A l’inverse, un neurone reconnaissant un pattern peu fréquent, devrait avoir une contribution faible. La taille de la base d’apprentissage donne la probabilité qu’un pattern avec une fréquenceps’y retrouve, cette probabilité vaut :1%(1%p)N. Si un neurone détecte un pattern avec une fréquence trop faible en comparaison de la taille de la base d’apprentissage, cela signifie que ce neurone contribue au sur-apprentissage. Entropie de la contribution des neurones On peut représenter la contribution des neurones, selon une distribution en considérant les proportions des contributions par rapport à la somme totale des contributions. On peut alors calculer l’entropie de cette distribution. Une entropie élevée indique un état de sur-apprentissage. En effet, dans cet état, la contribution des neurones de la couche cachée devrait être faible pour tous les neurones, car ces derniers sont spécialisés pour reconnaître des patterns peu fréquents. Cela devrait engendrer une distribution plutôt uniforme, et donc une entropie

élevée. Remarquons que si la distribution est uniforme, l’entropie sera plus élevée pour un nombre de neurone plus important. Si l’on utilise l’entropie comme critère de sélection d’un modèle, alors pour une performance identique sur la base d’apprentissage, un modèle plus simple (d’entropie plus faible) sera préféré, conformément au principe du rasoir d’Occam. Résumé En résumé, nous disons que (notons que l’on parle en terme statistique) : -Le phénomène de sur-apprentissage peut être observé au niveau neuronal. Un neurone possédant une faible contribution à l’erreur contribue au sur-apprentissage, et inversement un neurone avec une grande contribution correspond à un neurone contribuant à la généralisation du modèle. -Une contribution faible d’un neurone correspond à une activation peu fréquente de ce dernier, alors qu’une contribution élevée correspond à une activation fréquente. -Le sur-apprentissage peut se traduire par une distribution des contributions neuronales uniforme, et donc une entropie élevé. Une entropie faible montre que la distribution n’est pas uniforme et que certain neurones possède une contribution élevé, cela indique une bonne généralisation. III Contrôle intelligent de la capacité d’un réseau de neurone. Généralement le phénomène de sur-apprentissage se constate par une erreur faible sur la base d’entrainement et une erreur élevé sur la base de validation. Ce diagnostique du sur-apprentissage se fait en observant le phénotype macroscopique du modèle. Or nous venons de voir qu’il peut être possible d’identifier le sur-apprentissage en observant son phénotype « cellulaire » : en observant le comportement du modèle au niveau de son activité neuronale. Cela permet d’orienter le processus d’apprentissage, vers un phénotype correspondant à une bonne généralisation. Nous proposons deux techniques, dont l’une sera étudiée dans ce rapport. Ces deux techniques d’apprentissage de réseau de neurones tendent non seulement à minimiser le cout classique sur la base d’apprentissage, mais aussi à

favoriser l’identification de patterns généraux en vue d’éviter le phénomène de sur-apprentissage. Favoriser l’activation neuronale La première idée consiste à favoriser l’activation simultanée d’un maximum de neurones dans la couche cachée, ce qui correspondrait à une augmentation des contributions des neurones, et à orienter le modèle vers une modélisation des exemples d’apprentissage en une décomposition en un grand nombre de patterns. Cela consiste à ajouter un paramètre de régularisation à la fonction de cout qui favorise l’activation d’un grand nombre de neurone : L(ˆy,yp)1L(y,yp)%lan2 n Oùanest l’activation du neuronen méta, et un paramètre réel. Réduction progressive de la capacité La seconde idée consiste à partir d’un modèle de grande capacité, de le paramétrer de sorte qu’il soit en situation de sur-apprentissage, on réduit alors sa capacité en enlevant le neurone possédant la plus faible contribution, et on tente à nouveau de le mettre en situation de sur-apprentissage dans cette nouvelle configuration. Le neurone de plus faible contribution correspond à un neurone dont l’influence sur l’erreur est faible, et signifie que son activation est peu fréquente, et donc que le pattern qu’il est chargé de reconnaître est peu fréquent. Comme le modèle est supposé être en situation de sur-apprentissage, ce pattern devrait correspond à un ou quelques exemples spécifiques de la base d’apprentissage. Avec la suppression du neurone, les exemples qui lui correspondaient sont alors « expliqués » par d’autres neurones, dont le pouvoir de généralisation est plus élevé, et la capacité de généralisation du modèle devrait ainsi s’accroître. D’un point de vu formel, l’ensemble des paramètres que le modèle peut prendre correspond à un espace vectoriel (de grande dimension). Un paramétrage du modèle, correspond à un vecteur . Chaque neurone de la couche cachée correspond à un sous ensemble de paramètre, correspondant à son biais, aux poids de ses entrées synaptiques, et aux poids des synapses sortants, ce qui correspond à un vecteur8n l’espace des paramètres en de complétant les composantes manquantes par des 0.

On a : 88 1n#b, oùbcorrespond à un vecteur n correspondant aux paramètres ne dépendants pas des neurones de la couche caché, comme les biais des neurones de la couche de sortie. Un vecteur nous donne son risqueR( ) . On cherche et supprime le neuronentel que n1arg minR(8 % 8Δ)%R(8)2 Δ C'est-à-dire que l’on cherche à projeter dans un sous espace des paramètres qui minimise la variation du risque, en supprimant un neurone. Ce procédé rappelle la réduction PCA. Nous proposons une étude de cette technique. Expérience sur Mnist Nous avons entrainé un auto-encodeur avec une couche caché, d’une capacité initiale de 1000 neurones. La base d’entrainement comprenait 9000 exemples. Nous avons pré-entrainé le modèle avec 200k époques de descente de gradient stochastique, pour qu’il atteigne un état de sur-apprentissage. A partir de ce point, nous avons commencé à supprimer un neurone toutes les 1000 époques d’entrainement. Ce processus devrait continuer jusqu'à ce que l’erreur d’entrainement dépasse l’erreur de validation la plus faible obtenue jusqu’alors, ce qui indique que l’erreur de validation ne peut descendre d’avantage. La base de validation est formée de 1000 exemples. La fonction de cout étant le cross entropy, et les fonctions d’activations, la fonction logistique. La Figure a montre l’évolution de l’erreur d’entrainement et de l’erreur de validation au fur et à mesure que les neurones sont supprimés toutes les 1000 itérations. On voit que l’erreur d’entrainement ne commence à monter que vers l’itération 400k environ, et baisse assez clairement jusqu'à l’itération 200k environ, ce qui indique que le modèle n’avait pas atteint son minimum sur l’erreur d’entrainement avant le début du processus de suppression de neurone. La figure b montre la zone critique où l’erreur de validation atteint son minimum de 51.50, après la suppression de 170 neurones, il n’est pas clair que ce minimum soit atteint grâce à la réduction de la capacité, puisque le modèle n’avait pas atteint son erreur d’entrainement minimale avant le début de la réduction de la capacité. La figure c montre la zone critique, avec en vert la courbe de l’erreur de validation avec la suppression de neurone selon le critère de plus faible

contribution, en bleu avec suppression aléatoire, on voit que la suppression selon la contribution apporte un avantage sur l’erreur de validation. La figure d et e montrent les histogrammes des distributions des contributions des neurones avant et après la suppression des 170 neurones, leur entropie est respectivement de 6.87 et 6.70. On voit que l’histogramme tend à s’étaler vers une proportion plus importante de neurone à contribution plus élevé après la suppression neuronale. La figure f montre l’évolution de l’entropie des distributions des contributions neuronales durant l’entrainement du modèle. L’entropie décroit comme convenu, car le nombre de neurone diminue. Mais comme l’erreur sur la base d’entrainement augmente, cela signifie soit que le modèle a besoin d’une plus grande capacité pour expliquer la base d’apprentissage, soit que le processus d’apprentissage n’est pas optimisé et qu’un bon minimum local n’est pas atteint sur l’espace des paramètres. -modèle statique à 830 neurones Avec la technique de contrôle de capacité par suppression de neurone, nous avons obtenu une erreur minimale de 51.5 sur la base de validation, au moment où le modèle était réduit à 830 neurones dans la couche caché. Nous comparons ce résultat en entrainant un modèle statique avec un nombre fixe de 830 neurones dans la couche cachée. La figure g montre l’évolution de l’erreur d’entrainement et de validation. L’expérience a été stoppée avant que l’erreur d’entrainement n’atteigne son minimum, on voit que plus de 900k itérations sur la descente de gradient sont nécessaires. Cela montre que dans l’expérience précédente, les 200k itérations effectuées pour que le modèle atteigne un état de sur-apprentissage, avant de réduire sa capacité, ne sont pas suffisants. L’état de sur-apprentissage est indiquée par le fait que la différence entre l’erreur de validation et d’entrainement s’accroit, mais l’erreur de validation n’augmente pas et semble converger vers une performance de 51.2. La figure h montre l’histogramme de la distribution des contributions des neurones, lorsque le modèle atteint son plus bas niveau sur l’erreur de validation (51.2), l’entropie de la distribution est de 6.68, en comparant avec l’histogramme de la figure e, on voit que la distribution comporte plus de neurones avec une grande contribution, mais en contre partie, pour qu’il y est sommation à 1, elle possède aussi plus de neurones de faible contribution.

La figure i montre l’évolution de l’entropie de la distribution des contributions, on voit que l’entropie commence par atteindre très vite un maximum proche de l’entropie maximum où chaque neurone possède une contribution identique, la distribution est alors presque uniforme, cette phase correspond à une décroissance rapide de l’erreur de validation, puis l’entropie décroit signifiant que le modèle trouve des états où il est capable d’expliquer l’ensemble d’apprentissage avec moins d’information, cette phase correspond à une décroissance lente de l’erreur de validation. -Expérience sur une base de données musicale On a effectué la même expérience de réduction de la capacité du modèle par suppression de neurone, mais sur une base de données de type musicale. Des musiques ont été représenté en somme de noyaux à l’aide d’une technique appelé « matching pursuit ». Le protocole expérimental est le même que pour la base de donnée Mnist, il s’agissait de modélisé la musique à l’aide d’un auto-encodeur, sauf que le nombre initial de neurones dans la couche cachée était de 1500. La figure j montre l’évolution de l’erreur d’entrainement et de validation, on voit que les courbes sont similaires à ceux obtenu avec Mnist. Les figures k et l montrent les histogrammes de la distribution des contributions respectivement avant et après la suppression des neurones, là aussi les résultats sont comparables avec Mnist. IV Conclusion Nous avons proposé un modèle du phénotype neuronal caractéristique du sur-apprentissage et de la généralisation d’un réseau de neurone. Nous avons proposé une technique de contrôle de capacité exploitant ce modèle afin d’optimiser l’apprentissage d’un réseau de neurone. Le modèle du phénotype neuronal requiert une validation théorique et empirique, qui n’a pas été effectué dans ce rapport. Les résultats sur la technique de contrôle de capacité par suppression de neurone, ne donne pas de résultats significatifs, les raisons possibles sont : le modèle du phénotype cellulaire est invalide ; la base Mnist ne permet pas de rendre compte du modèle ; le protocole expérimental souffre de lacunes : - le pré-entrainement initial du réseau n’a été effectué que sur 200k époques, ce qui est

insuffisant pour atteindre le minimum sur l’erreur d’entrainement. La capacité initiale du réseau n’est pas assez élevée, ce qui empêche d’obtenir l’erreur d’entrainement initial minimum et un état de sur apprentissage élevé. Le nombre d’itérations de 1k pour l’algorithme

des neurones est insuffisant et par conséquent le nouveau minimum local situé sur le sous espace de paramètres n’est pas atteint. Néanmoins, les résultats montrent que la suppression des neurones basée sur le critère de la contribution à l’erreur, apporte une meilleure performance que la suppression aléatoire.

Figure a Erreur d'entrainement et de validation au cours de la réduction de la capacité du modèle. En absice le nombre d’itération de descente de gradients effectués, les millièmes correspondent aussi au nombre de neurone supprimés.

Figure b Zone critique de la figure a, o à

ù l’erreur de validation atteint son minimum vers l’itération 170000, ce qui correspond

Figure c Erreur de validation sur la même zone critique, en bleu la sélection des neurones à supprimé est faite de façon aléatoire.

Figure d Histogramme de la distribution des contributions des neurones avant la suppression des neurones, entropie : 6.

Figure e Histogramme des proportions des contributions des neurones après la suppression de 170 neurones, entropie : 6.70.

Figure f Evolution de l'entropie de la distribution des contributions des neurones durant l'entrainement, en fonction de l’époque

Figure g h Evolution de l’erreur d’entrainement et de d’apprentissage.

validation du modèle statique de 830 neurones, en fonction de l’époque

Figure i Histogramme de la distribution des contributions neuronales sur le modèle statique de 830 neurones, lorsque le modèle atteint son minimum sur la base de validation. Entropie : 6.68

Figure j Evolution de l'entropie de la distributio 830 neurones dans la couche cachée.

n des contributions des neurones durant l'entrainement du modèle statique avec