MetaMoSim: Generic metadata management for reproducible high-performance-computing simulation workflows

Moderne Wissenschaft basiert in weiten Teilen auf Simulationsforschung. Mit den Fortschritten in der Hochleistungsrechnentechnologie (HPC) wachsen die zugrunde liegenden mathematischen Modelle und numerischen Workflows stetig in ihrer Komplexität.
Dieser Anstieg der Komplexität bietet ein riesiges Potenzial für Wissenschaft und Gesellschaft, stellt jedoch gleichzeitig eine Bedrohung für die Reproduzierbarkeit wissenschaftlicher Ergebnisse dar. Eine der Hauptaufgaben in diesem Bereich ist die Erfassung und Organisation der Metadaten, die die Details der numerischen Workflows beschreiben, die notwendig sind, um numerische Experimente zu replizieren und Simulationsresultate zu erkunden und zu vergleichen. In der jüngeren Vergangenheit wurden verschiedene Konzepte und Werkzeuge für das Metadatenhandling in spezifischen wissenschaftlichen Bereichen entwickelt. Es bleibt unklar, inwieweit diese Konzepte auf HPC-basierte Simulationsforschung übertragbar sind und wie Interoperabilität angesichts der Vielfalt simulationsbasierter wissenschaftlicher Anwendungen sichergestellt werden kann.
Dieses Projekt zielt darauf ab, ein generisches, bereichsübergreifendes Metadaten-Management-Framework zu entwickeln, um die Reproduzierbarkeit der HPC-basierten Simulationswissenschaft zu fördern und Workflows sowie Werkzeuge für eine effiziente Organisation, Erkundung und Visualisierung von Simulationsdaten bereitzustellen.
Im Rahmen des Projekts haben wir bisher eine Übersicht über bestehende Ansätze aus verschiedenen Bereichen durchgeführt. In den vergangenen Jahren wurden eine Vielzahl von Werkzeugen für das Metadatenhandling und Workflows entwickelt. Wir haben Werkzeuge und Formate wie das odML identifiziert, die für unsere Arbeit nützlich sind. Das Metadaten-Management-Framework wird alle Komponenten der Simulationsforschung und die entsprechenden Metadatentypen abdecken, einschließlich Modellbeschreibung, Modellimplementierung, Datenerkundung, Datenanalyse und Visualisierung. Wir haben nun ein allgemeines Konzept entwickelt, um Metadaten zu verfolgen, zu speichern und zu organisieren. Als nächstes werden die erforderlichen Werkzeuge innerhalb dieses Konzepts entwickelt, sodass sie sowohl in der Computational Neuroscience als auch in der Erde- und Umweltwissenschaft anwendbar sind.
MetaMoSim ist ein gemeinsames Projekt der Helmholtz-Zentren UFZ und FZJ, gefördert im Rahmen der HMC Projektkohorte 2020.
Publikationen:
Jose Villamar, Matthias Kelbling; “The metadata archivist”, https://codebase.helmholtz.cloud/metamosim/metadata_archivist.
Thober, S. et al, Presentation, “Generic metadata management for reproducible high-performance-computing simulation workflows”, HMC Conference 2022.
Thober, S. et al, Poster “Tracking large-scale simulations through unified metadata handling”, HMC Conference 2022.