280 participants éblouissent par leurs innovations lors du “SKAO Data Challenge”.
Le ‘Second Data Challenge’ (SDC2) organisé par le SKA Observatory s’est terminé récemment après 6 mois, avec 280 participants qui ont dévoilé leurs méthodes innovantes d’analyse de données.
Les défis de données SKAO sont conçus pour préparer les futurs utilisateurs à traiter efficacement les données de SKAO, afin qu’elles puissent être exploitées au maximum de leur potentiel dès que les télescopes entreront en opération, et pour stimuler le développement de techniques d’analyse de données. Ils aident également l’Observatoire et ses partenaires informatiques à préparer les systèmes et les processus nécessaires au réseau de centres régionaux SKA (SRC) qui stockeront, traiteront et fourniront un accès aux données aux astronomes du monde entier.
Quarante équipes comprenant 280 participants de 22 pays ont pris part au SDC2, qui a démarré en février de cette année et a duré six mois. Elles ont été soutenues par huit centres de supercalculateurs dans le monde, fournissant des ressources de stockage et de traitement essentielles.
Des algorithmes pour 250 000 galaxies
« Nous avons été ravis de voir un tel enthousiasme pour le défi et une telle répartition géographique des participants, ce qui montre le fort engagement des communautés scientifiques et logicielles, déclare Philippa Hartley, membre postdoctoral de SKAO, qui a codirigé le défi. C’est passionnant de voir la variété des méthodes utilisées, et comment elles se comparent et se complètent. Merci à tous ceux qui ont contribué, tant au sein des équipes que chez nos partenaires informatiques, dont la générosité a rendu le défi possible. »
Pour ce défi, les équipes ont été chargées de développer des algorithmes informatiques pour identifier et caractériser près de 250 000 galaxies dans un cube de données SKAO simulé de 1 To. Elles ont été notées sur deux éléments : le nombre d’objets trouvés (avec une pénalité pour les faux positifs), et la précision avec laquelle elles ont mesuré les différentes caractéristiques des objets, par exemple leur taille ou leur luminosité. Ces éléments ont été combinés pour donner un score final.
Apprentissage automatique sur une installation de calcul
L’équipe MINERVA de l’Observatoire de Paris-PSL, du CNRS et de ses partenaires de l’Institut canadien d’astrophysique théorique et de l’Observatoire astronomique de Strasbourg, a obtenu le meilleur score après avoir utilisé une approche innovante fondée sur l’apprentissage automatique sur la facilité de calcul GENCI-IDRIS.
L’équipe a développé deux outils indépendants mais complémentaires pour l’analyse, dont les résultats ont ensuite été recoupés. Si un objet apparaissait dans les résultats des deux approches, il était pondéré plus fortement, ce qui permettait de réduire le taux de faux positifs.
Les ordinateurs apprennent à reconnaître les objets
« C’est un bel exemple du type d’effort conjoint que nous visons en coordonnant les activités liées au SKA en France, déclare C. Ferrari, directeur de SKA-France et astronome à l’Observatoire de la Côte d’Azur (OCA). Faire travailler ensemble des astronomes, des développeurs, des ingénieurs de différents instituts de recherche et infrastructures sera primordial pour l’organisation future des SRC. »
Certaines équipes, dont Minerva et l’équipe FORSKA-Suède, qui a terminé deuxième, ont utilisé l’apprentissage automatique – plus précisément l’apprentissage profond ou les réseaux neuronaux – grâce auquel les ordinateurs apprennent à reconnaître des objets après avoir reçu des données d’entraînement, comme le logiciel de reconnaissance vocale d’un smartphone. D’autres ont utilisé ou perfectionné des logiciels existants pour appliquer des algorithmes de filtrage complexes aux données, afin de faire ressortir les sources du bruit instrumental. Ces méthodes ont également démontré un taux de réussite élevé pour l’identification des sources.
Les télescopes de SKAO plus puissants
« Il n’y a pas nécessairement une seule approche “correcte”, car la valeur de la DDC2 est de voir la variété des techniques déployées par les équipes, dit P. Hartley. En partageant ce qu’ils ont appris, ce qui a marché et ce qui n’a pas marché, tous ceux qui ont participé nous aident à affiner nos processus à l’avenir. Il se pourrait bien que nous utilisions à l’avenir une combinaison de méthodes complémentaires pour analyser les données du SKAO. »
La sensibilité des télescopes du SKAO signifie qu’ils « verront » beaucoup plus de choses que les télescopes existants, et le traitement efficace d’un grand nombre de sources était un point essentiel du SDC2.
« Les équipes nous ont dit que cela a été une expérience extrêmement précieuse, non seulement dans le traitement des données, mais aussi dans le rassemblement de nombreux groupes et spécialités différents pour se concentrer sur la recherche de sources, ce qui, sans les défis, ne se serait pas nécessairement produit jusqu’à beaucoup plus tard, ajoute P. Hartley. Les connaissances et les réseaux qui ont été construits grâce à SDC2 formeront la base de collaborations encore plus fortes à l’avenir. »
Ce que les astronomes attendent de SKAO
L’ensemble de données de SDC2 était plus de 300 fois plus grand que celui du Science Data Challenge 1 de 2019, et un exemple plus réaliste de ce que les astronomes peuvent attendre des observations de SKAO. Cela signifie que, plutôt que de le télécharger sur leurs ordinateurs personnels (peu pratique, voire impossible, compte tenu de sa taille), les participants y ont eu accès via les installations des partenaires informatiques, ce qui a permis de garantir des conditions de concurrence équitables, quelles que soient la vitesse de téléchargement locale, les capacités de stockage ou de traitement de chaque équipe.
« Les contributions apportées par les installations de calcul, dont certaines deviendront des centres régionaux SKA (SRC) à l’avenir, ne peuvent pas être surestimées. Nous sommes reconnaissants pour leur implication et impatients de continuer à travailler ensemble alors que nous poursuivons le développement de la conception du réseau SRC qui sera une partie essentielle des opérations de l’Observatoire », dit Anna Bonaldi, scientifique du projet SKAO, codirectrice du défi.
Les prix de reproductibilité
Dans le cadre du défi, et conformément à son engagement envers le principe de la science ouverte, le SKAO s’est associé au Software Sustainability Institute pour offrir des « prix de reproductibilité ». Ces prix seront décernés aux équipes dont le code peut être utilisé par d’autres pour reproduire le même résultat, ou réutilisé en partie pour développer d’autres logiciels. Des liens vers les dépôts de code des équipes seront inclus dans un document sur lequel l’équipe scientifique du SKAO travaille actuellement avec les participants du SDC2, qui détaillera et analysera les méthodes utilisées.
« Cette analyse plus approfondie sera intéressante même au-delà de notre propre communauté, car la nature de SDC2 signifie que les techniques pourraient trouver des applications au-delà de l’astronomie, dans des domaines où d’énormes volumes de données doivent être analysés efficacement, dit A. Bonaldi. C’est vraiment passionnant de voir où nous allons à partir de là et comment nous pouvons mettre en commun nos connaissances pour faire le meilleur usage possible des données de SKAO. »
Des plans sont déjà en cours d’élaboration pour les futurs défis, et SKAO est en pourparlers avec plusieurs de ses groupes de travail scientifiques sur les domaines scientifiques qui pourraient être sélectionnés ensuite.
Ce billet a été initialement partagé par SKAO.