MIRO-LLMs – LLMs-Enhanced Knowledge Graphs for Integrative Radiooncology and Microbiome Bioinformatics

MIRO-LLMs ist ein von der Helmholtz Metadata Collaboration (HMC) finanziertes Projekt, das gemeinsam vom Max-Delbrück-Centrum (MDC) und dem Deutschen Krebsforschungszentrum (DKFZ) durchgeführt wird. Ziel ist es, FAIR-Datenpraktiken und semantische Interoperabilität in der Radioonkologie (Strahlentherapie) und Mikrobiomforschung voranzutreiben.

Diese Domänen erzeugen hochheterogene Daten – von klinischen und präklinischen Metadaten über molekulare Profile bis hin zu Bildgebungsdaten –, die selten interoperabel oder gemeinsam nutzbar sind. MIRO-LLMs begegnet dieser Herausforderung durch die Entwicklung eines domänenübergreifenden, ontologiegestützten Knowledge Graph (KG), der die strukturierte Integration, Wiederverwendung und Analyse dieser Daten ermöglicht.

Das Projekt baut auf bestehenden Datensätzen aus der Radioonkologie auf, die mithilfe von Standards und etablierten biomedizinischen Ontologien harmonisiert werden. In beiden Domänen werden neue domänenspezifische Konzepte eingeführt und an übergeordnete Ontologien und/oder Schemata angebunden, um die Kompatibilität mit dem Helmholtz Knowledge Graph sicherzustellen. Diese Ausrichtung unterstützt die nachhaltige Wiederverwendung von Daten und erleichtert die Integration mit anderen Helmholtz-Forschungsinfrastrukturen.

Eine wichtige Innovation von MIRO-LLMs ist der Einsatz großer Sprachmodelle (Large Language Models, LLMs), um den Zugang zu semantischen Technologien zu verbessern. Das Projekt untersucht LLM-basierte Methoden zur Übersetzung von Forschungsfragen in natürlicher Sprache in SPARQL-Abfragen. Dadurch können Forschende intuitiv mit Knowledge Graphs interagieren, ohne Expertenwissen in semantischen Abfragesprachen zu benötigen. Dieser Ansatz senkt technische Hürden und verbessert die Nutzbarkeit von FAIR-Dateninfrastrukturen.

MIRO-LLMs verfolgt einen kollaborativen, nutzerzentrierten Ansatz und bindet Fachexpert:innen, Data Stewards und Infrastrukturpartner während des gesamten Projekts eng ein. Über die technische Umsetzung hinaus legt das Projekt Wert auf eine klare und transparente Dokumentation der Arbeitsabläufe, um die Reproduzierbarkeit zu stärken. So trägt MIRO-LLMs zur Mission des HMC bei, indem es die semantische Interoperabilität verbessert, domänenübergreifende Datenfindung ermöglicht und zeigt, wie LLMs den Zugang zu FAIR-biomedizinischen Daten erleichtern können.

Hauptkontaktperson Olga Ximena Giraldo Pasmin
Projektpartner DKFZ, MDC
Forschungsfelder Gesundheit
Projektdauer 01.01.2026 - 31.12.2027