Un nouvel article publié par Alessandro Ingrosso, chercheur postdoctoral senior à la section des sciences quantitatives de la vie de l’ICTP, et Sebastian Goldt, chercheur à la SISSA, traite de la manière dont les réseaux neuronaux apprennent.
Un nouvel article publié dans PNAS par Alessandro Ingrosso, chercheur postdoctoral senior à la section des sciences quantitatives de la vie du CIPT, et Sebastian Goldt, chercheur à la SISSA, traite de la manière dont les réseaux neuronaux apprennent, c’est-à-dire de la manière dont ils construisent leurs structures d’apprentissage, en fonction des données d’entrée qui leur sont fournies.
Intitulé « Data-driven emergence of convolutional structure in neural networks », l’article étudie comment les réseaux neuronaux peuvent découvrir de manière autonome des symétries significatives dans leurs données d’entrée, qui sont cruciales dans le processus d’apprentissage.
« C’est un projet que j’ai commencé pendant mon postdoc au Center for Theoretical Neuroscience de l’université de Columbia, et qui m’a laissé avec une sorte de question ouverte », a déclaré M. Ingrosso. « Lorsque je suis arrivé ici à l’ICTP, je cherchais des méthodes pour résoudre ce problème ouvert. Je savais que Goldt pouvait compléter mon expertise, je l’ai donc contacté et nous avons commencé à travailler ensemble.»
Les réseaux neuronaux les plus performants
Dans les problèmes de reconnaissance d’images, les réseaux neuronaux les plus performants et les plus utilisés sont de type convolutif. Ces types particuliers de réseaux neuronaux artificiels ont été inventés à l’origine en s’inspirant d’un système biologique, à savoir la structure de la rétine et la façon dont le cortex visuel du cerveau réagit aux images.
La principale caractéristique de ces réseaux est qu’il existe une organisation topographique de la réponse du cortex au signal externe. Cela signifie que le monde extérieur que nous voyons est « divisé » en parcelles qui sont perçues par des champs réceptifs localisés.
« La structure convolutive est généralement précodée dans le réseau, c’est-à-dire qu’il faut l’écrire dans le réseau, a expliqué M. Ingrosso. Notre question était donc la suivante : est-il possible pour le réseau d’apprendre la structure convolutive directement à partir des données d’entrée ? »
La raison pour laquelle les réseaux neuronaux convolutifs réussissent si bien à résoudre les problèmes de classification d’images est qu’ils contiennent dans leur propre structure la propriété d’invariance de traduction des images. En d’autres termes, leurs performances ne dépendent pas de la localisation d’un élément ou d’un objet dans le champ visuel.
« Nous nous sommes d’abord assurés que le réseau apprenait de manière autonome la structure convolutive, c’est-à-dire qu’il développait cette structure interne invariante en translation – uniquement à partir des données d’entrée, a expliqué M. Ingrosso. La deuxième chose était de comprendre, dans un modèle de réseau très simple, pourquoi cette structure convolutive n’est influencée que par les propriétés de l’entrée. Ce que nous avons découvert, c’est que si les images d’entrée ont des propriétés similaires à celles des images du monde réel, cela entraîne l’émergence d’une structure convolutive dans le réseau. »
Un modèle simple d’images d’entrée
Les deux chercheurs ont mis au point un modèle simple d’images d’entrée qui partagent certaines caractéristiques de base avec les images dites naturelles : elles sont invariantes en translation, localisées et ont des contours plutôt clairs. L’utilisation de ces images comme entrées pour leur réseau neuronal a entraîné le développement d’un modèle de champs réceptifs localisés.
« Nous avons essentiellement analysé, d’un point de vue théorique, la dynamique de l’apprentissage et l’architecture du réseau qui en résulte », a déclaré M. Ingrosso. Les résultats pourraient avoir des répercussions importantes sur la théorie des réseaux neuronaux et de l’apprentissage automatique. « Cette analyse nous a permis de comprendre quelles sont les caractéristiques statistiques des images qui déterminent le développement des champs réceptifs locaux », a ajouté M. Goldt.
En outre, ces résultats pourraient être appliqués à diverses modalités sensorielles autres que la vision, comme le son, en analysant la réponse locale aux fréquences auditives, ou les motifs, comme dans les structures protéiques.
« C’était un projet vraiment amusant, et nous aimerions en étudier davantage, a déclaré Goldt. Par exemple, nous avons remarqué que les réseaux apprennent en suivant une sorte de hiérarchie, en commençant par les statistiques les plus simples des entrées et en procédant ensuite à des statistiques plus compliquées. Et nous aimerions comprendre comment cela se produit.»
L’ICTP a publié ce rapport pour la première fois.