CellTrack: Tracking the cell - metadata for single-cell genomics in biomedicine

CellTrack: Tracking the cell - metadata for single-cell genomics in biomedicine

Die Einzelzellgenomik hat die Grundlagenbiologie und die biomedizinische Forschung grundlegend verändert (Regev et al., 2017). Was fehlt, um robuste Lösungen für klinische Studien, Gesundheitsforschung und Translation zu ermöglichen, ist die umfassende Erfassung aller mit einzelnen Zellen verbundenen Metadaten (Puntambekar et al., 2021). Metadaten sind in diesem Zusammenhang sehr vielschichtig und komplex, wobei technische und biologische Metadaten (auf Probenebene) eng miteinander verknüpft sind. Um diesen Anforderungen gerecht zu werden, sind neue Standards und technische Lösungen erforderlich, um Eigenschaften auf verschiedenen Ebenen zu dokumentieren, zu annotieren und abzufragen, von der zellulären Identität, dem Zustand und dem Verhalten bei Krankheitsbeeinflussung sowie technischen Kovariaten wie Probenstandort und Sequenzierungstiefe bis hin zu Gewebezustand und Patienteninformationen, einschließlich klinischer Kovariaten, anderer Genomik und Bildgebungsmodalitäten sowie des Krankheitsverlaufs.

CellTrack baut auf der Erfolgsgeschichte der Labore von Stegle und Theis auf, die Pionierarbeit bei der Analyse von Einzelzelldaten in der Biomedizin geleistet haben und an großen internationalen Konsortien wie dem Human Cell Atlas (HCA) beteiligt waren. Wir werden auch die am HMGU/DKFZ bestehenden Forschungs- und Infrastrukturen nutzen, die die Verwaltung, Verarbeitung und gemeinsame Nutzung genomischer Daten ermöglichen. Die Aktivitäten in diesem Projekt werden direkt in die sehr sichtbaren nationalen und internationalen Infrastrukturaktivitäten einfließen, insbesondere in das Deutsche Humangenom-Phänomen-Archiv - eine nationale Genomikplattform, die vom NFDI finanziert wird - und in scVerse - eine Gemeinschaftsplattform zur Ableitung von Kerninfrastruktur und interoperabler Software für wichtige Analyseaufgaben in der Einzelzellgenomik.

Die Einzelzellgenomik nähert sich zwar rasch der allgemeinen biologischen und biomedizinischen Verwendung, doch fehlt es in diesem Bereich noch immer an einer konsequenten Integration in die Datenverwaltung, die über Zählmatrizen und vor allem die Verwaltung von Metadaten hinausgeht - dies ist wohl auf die unterschiedliche Größenordnung (Zelle vs. Patient) und den unterschiedlichen Anwendungsbereich (Forschung vs. Kliniken) zurückzuführen. Um diese Probleme anzugehen, schlagen wir vor, (1) ein Metadatenschema, (2) eine Implementierung sowie (3) Anwendungsfälle für eine robuste Verfolgung, Speicherung und Verwaltung von Metadaten in der Einzelzellgenomik zu entwickeln.

Das übergeordnete Ziel von CellTrack ist es, eine konsistente Kodierung von genomischen Metadaten bereitzustellen und dadurch viele der häufigen Fehler im Zusammenhang mit der Zuordnung von Identifikatoren zu reduzieren.

Hauptkontaktperson Oliver Stegle
Projektpartner DKFZ, HMGU

Publications:

Florian Heyl, “Metadata schema for the HCA|organoid data portal”; https://portal.hca-organoid.eu/.

Isaac Virshup, “Access to bioconductor’s EnsDB web resources for Python”; https://github.com/scverse/genomic-features.

Florian Heyl, “heylf/scmulti: Single-cell multiome quality control workflow”; https://github.com/heylf/scmulti.