Realisierung von FAIR Digital Objects

Die Geschichte von FAIR Digital Objects

Die Idee, auf der das Konzept der FAIR Digital Objects basiert, stammt aus einem Paper mit dem Titel "A framework for distributed digital object services" [1], welches im Jahre 2006 von Robert Kahn und Robert Wilensky veröffentlicht wurde. In diesem Paper wird das Konzept einer offenen Infrastruktur von Repositorien beschrieben, welche die Speicherung und den Zugriff auf Digitale Objekte erlaubt. Diese werden über global eindeutige und persistente Identifier identifiziert und sind eng mit Metadaten verbunden, wobei invariante Teile dieser Metadaten als Schlüsselmetadaten bezeichnet werden.

Mit der Gründung der Research Data Alliance (RDA) im Jahr 2013 wurde diese Idee erneut aufgegriffen und führte zur Bildung verschiedener Interessen- und Arbeitsgruppen die gemeinsam an der Konkretisierung dieses Konzeptes arbeiteten und die Konsensfindung für einzelne Aspekte des FAIR Digital Object Konzepts anstrebten. In den darauffolgenden Jahren wurde eine Vielzahl von Empfehlungen durch verschiedene Arbeitsgruppen veröffentlicht, z.B. zu Data Types und Data Type Registries [2], zu PID Information Types [3] und zu PID Kernel Information [4].

Parallel dazu fand in der Data Fabric Interessengruppe ein ständiger Abgleich der erarbeiteten Ergebnisse mit der angestrebten Vision statt. 2017 wurde dann auf Basis einer dreijährigen Förderung das Robust PID Testbed (RPID) [5] aufgebaut, um erstmalig das FAIR Digital Object Konzept ganzheitlich zu implementieren und seine Anwendbarkeit auf verschiedene Anwendungsfälle zu demonstrieren. Dies führte zu zwei Schlussfolgerungen:

  • Das FAIR Digital Object Konzept ist bereit für eine Implementierung.

  • Zukünftige Implementierungen sollten auf einer langfristigen Grundlage passieren, um eine breite Akzeptanz und die Nachhaltigkeit der Ergebnisse zu sichern.

FAIR Digital Objects in HMC

Mit dem Start von HMC im Jahre 2019 entstand erstmals eine solche langfristige Basis für die Implementierung von FAIR Digital Objects. Mit ihrer inhaltlichen Breite, durch die Unterstützung von sechs verschiedenen Forschungsbereichen und ihrem Potential als langfristige Plattform etabliert zu werden, ist HMC eine ideale Umgebung, um FAIR Digital Objects auf die nächste Stufe zu bringen.

Durch die großartigen Vorarbeiten internationaler Experten des Forschungsdatenmanagements und gestärkt durch internationalen Konsens, der für viele Aspekte von FAIR Digital Objects besteht, konnte die Arbeit in HMC auf Basis einer soliden Grundlage beginnen. Dennoch ist die nachhaltigen Etablierung von FAIR Digital Objects in HMC ein weltweit einmaliges Vorhaben, welches in der Vergangenheit und der Zukunft intensive Arbeit in verschiedenen Richtungen voraussetzt.

Bis Anfang 2023 wurden notwendige Basisdienste, z.B. der Typed PID Maker basierend auf dem PIT Service des RPID Testbeds, neu entwickelt bzw. auf Nachhaltigkeit ausgerichtet, grundlegende Prozesse und Empfehlungen wurden erarbeitet und beschrieben, z.B. im FAIR DO Cookbook, und es wurden erste Werkzeuge entwickelt, um FAIR Digital Objects für verschiedene Zielgruppen nutzbar zu machen, z.B. FAIR-DOscope.

Ein wesentlicher Durchbruch gelang durch die Konsensfindung zu einem grundlegenden Kernel Information Profile zwischen allen HMC Hubs, welches nun auf alle FAIR Digital Objects, die in der Helmholtz Gemeinschaft erstellt werden, einheitlich angewendet werden kann. Basierend auf diesem Helmholtz Kernel Information Profile, welches bereits in einem Demonstrator Anwendung fand, der dazu in der Lage war, mit Hilfe der Metadaten beliebiger Zenodo Datensätze durch ein semi-automatisches Mapping FAIR Digital Objects zu erstellen, können diese nun in eine praktische Anwendung gebracht werden. Durch eine wachsende Anzahl an FAIR Digital Objects, welche existierende und neue (digitale) Inhalte repräsentieren, werden für die Zukunft innovative Möglichkeiten eröffenet, wie man mit diesen, unterstützt durch Computer und Software, großskalig interagieren kann.

Der Aufbau von FAIR Digital Object

Ein FAIR Digital Object wird durch einen persistenten Identifier (PID) global eindeutig identifiziert. Dieser löst Anfragen zu einem maschinen-lesbaren Datensatz an Kern-Metadaten auf, welcher grundlegende Metadaten enthält, die es einer Maschine erlauben, Entscheidungen zur Relevant oder Interpretierbarkeit des referenzierten digitalen Objektes zu treffen.

Kern-Metadaten werden als Schlüssel-Wert-Paare repräsentiert, wobei der Schlüssel eine PID ist, welche auf eine maschinen-lesbare Typdefinition des zugehören Wertes zeigt. Welche Kern-Metadaten für ein FAIR Digital Object zulässig sind wird in einem Kernel Information Profile (KIP) festgelegt. Dieses stellt einen spezielle Typdefinition dar, wird ebenfalls durch eine PID eindeutig identifiziert und referenziert auf eine maschinen-lesbare Beschreibung.

So würde beispielsweise ein FAIR Digital Object, welches dem Helmholtz Kernel Information Profile folgt, ähnlich der unteren Grafik aufgebaut sein.

Die in der Abbildung gezeigten Kern-Metadaten stellen nur eine Teilmenge der im Helmholtz Kernel Information Profile verfügbaren Einträge dar. Zusätzlich zeigt die Abbildung, dass Domain-Erweiterungen vorgesehen sind, welche weitere Kern-Metadaten ergänzen können, um domain-spezifische, maschinelle Entscheidungen zu ermöglichen.

In den vergangenen Jahren wurde neben dem "traditionellen" Ansatz der Verwendung von PIDs und maschinen-lesbaren Datentypen auch eine alternative Art der FAIR Digital Objects basierend auf Linked Data Prinzipien diskutiert. Genannte Vorteile sind dabei, dass man auf etablierten Web-Technolgien aufsetzt und vorhandene Ontologien für die semantische Beschreibung von digitalen Inhalten verwendet werden können. Dagegen ist ein wesentlicher Nachteil, dass solche Lösungen direkt in existierende Infrastrukturen integriert werden müssen, was ihre breite Anwendbarkeit stark einschränkt. Im Gegensatz dazu können "traditionelle" FAIR Digital Objects auf zwei Arten realisiert werden: zum einen als nicht-invasiver Ansatz, aufsetzend auf bestehenden Infrastrukturen, bei welchem auf existierende Inhalte referenziert wird, zum anderen als integrativer Ansatz, wobei Infrastrukturen bestehende PIDs selbst mit Kern-Metadaten befüllen und so native Unterstützung von FAIR Digital Objects erreichen.

Beispiele für FAIR Digital Objects

Im Folgenden findet man eine Sammlung existierender FAIR Digital Objects aus verschiedenen Bereichen. Die Einträge in der Tabelle zeigen lediglich die primären FAIR Digital Objects, welche jeweils auf eine größere Anzahl weiterer Objekte verweisen, die z.B. weitere Metadaten repräsentieren.

Die gezeigten FAIR Digital Objects dienen zum einen als Beispiele, zum anderen können sie auch verwendet werden, um Interaktionsmöglichkeiten mit FAIR Digital Objects zu evaluieren oder neue Tools auf ihnen zu testen.

Title

Context

Source

FAIR-DO Links

X-ray computed tomography dataset of a walnut: scan

(Reconstruction, 5 Children)

Image reconstruction, X-ray CT

Zenodo

FAIR-DOscope

X-ray computed tomography dataset of a walnut: scan

(Aquisition, 5 Children)

Image aquisition, X-ray CT

Zenodo

FAIR-DOscope

Thermal Bridged on Building Rooftops (6 Children)

drone images

Zenodo

FAIR-DOscope

NFFA-EUROPE - SEM Dataset (2 Children)

SEM images, machine learning

b2share

FAIR-DOscope

FAIR Digital Object Demonstrators 2021

Publication

Zenodo

FAIR-DOscope