Wissenschaft

Die drei Säulen von CMMS

Die Forschung bei CMMS ist in drei Säulen aufgebaut, jede ist hier im einzelnen näher beschrieben.

Säule 1 – Entwicklung integrierter theoretischer und experimenteller Ansätze

Eine derzeitige Herausforderung ist die gleichwertige Verzahnung von Theorie und Experiment zur gemeinsamen Formulierung von Ansätzen zur Beschreibung biologischer Prozesse. Eine Schwierigkeit ist bisher, Experimentatoren davon zu überzeugen, dass die verschiedenen Ebenen der Hypothesengewinnung gleichwertig sind und sich ergänzen. Deshalb werden in CMMS Experimente von Experimentatoren und Theoretikern gemeinsam geplant, so dass i) eine ausreichend große Zahl unterschiedlicher verwertbarer Daten in Modellierung und Simulation einfließen, ii) Modellvorhersagen experimentell überprüft und iii) theoretische Methoden und experimentelle Ansätze optimiert werden. Dieser zirkuläre Ansatz führt zu in Modellen verwertbaren Daten, theoretischen Beschreibungen und Algorithmen, neuen Vorhersagen und neuen Informationen als Grundlage weiterer Optimierungsschritte. Die effiziente Verwendung, Weiter- und Neuentwicklung von Datenanalysemethoden (z.B. in der Bildverarbeitung, Omics-Analyse, Dimensionsreduktion, Fitting, Korrelationsanalysen, Statistiken, Maschinenlernen) erfolgt notwendigerweise. Auch werden durch die gemeinsame Planung relevante biologische und medizinische Experimente als Modelle verwandt.

Säule 2 – Mehrskalen-Modellierung und Analyse

In der Mehrskalen-Analyse werden Daten, die aus unabhängig durchgeführten Experimenten, die u.U. mit unterschiedlichen Kontrasten und in mehreren räumlich-zeitlichen Größenordnungen ablaufen, zusammengefügt. Während die Datenanalyse die einzelnen Ebenen miteinander verbindet, müssen Modellierung und Simulation zu Hypothesen führen, die in der Skala eines spezifischen Experimentes durchgeführt werden können. Beispiele sind die Nutzung atomarer Koordinaten mit einer Coarse Grain Methode zur Simulation der Dynamik von Biomolekülen in großen Komplexen und Membranen, oder die Einbeziehung von Daten aus der Bildanalyse hochauflösender mikroskopischer Verfahren in mathematische Modelle zur Beschreibung der Dynamik und Struktur dieser Systeme. Ein grundlegendes Problem ist, dass man anfänglich nicht weiß, welche Genauigkeit der Daten erforderlich ist. Die Entwicklung von Mehrskalen-Analyse-, Modellierungs- und Simulationsmethoden wird kontinuierlich vorangetrieben.

Mehrskalenansätze basieren auf einer Kombination von Methoden, z.B. der numerischen Lösung partieller Differentialgleichungen in komplexen Gebieten oder der Kopplung agentenbasierter Modelle zur Beschreibung von Funktion, Struktur oder Dynamik eines Objekts mit Netzwerken oder Systemen von Differentialgleichungen zur Beschreibung interner Regulationsmechanismen. Die durch Kopplung verschiedener Ansätze entstandenen Modelle sind numerisch anspruchsvoll und häufig existieren noch keine Untersuchungen zur Stabilität und Genauigkeit solcher gekoppelten numerischen Verfahren und über deren Implementierung auf Hochleistungsrechnern. Fortschritte in diesem Gebiet erfordern tiefgehende mathematische Analysen der Modelle und Verfahren, sowie die Entwicklung effizienter Implementierungsstrategien und die optimale Wahl der Rechnerarchitektur. Des Weiteren müssen existierende Methoden zur Mehrskalenintegration weiterentwickelt und durch konkrete Anwendung in Säule 1 zur Modellierung und Simulation von spezifischen Systemen getestet und verbessert werden.

Säule 3 – High performance computing

Eine Vorlage für integrierte Datenstränge vom Mikroskop bis zum Computer(modell) wird entwickelt, bei dem hochauflösende Mikroskope mit Hochleistungsrechnern vernetzt werden. Die Daten und Metadaten verschiedener Licht- und Elektronenmikroskope werden in standardisiertem Format auf den Massenspeichern der HPC abgelegt, wodurch ein effizienter Zugriff ermöglicht wird. Neuronale Netzwerke werden langfristig auf jeder Ebene involviert.

Datensicherheit wird besonders bezüglich möglicher medizinischer Daten gewährleistet. Datenbanken für den effizienten und standardisierten Zugriff auf diese Daten werden entwickelt. Die erste Stufe des Datenpfades ist die automatische Mustererkennung und Selektion irrelevanter Bereiche zur physikalischen Datenreduktion. In weiteren Stufen, wie der Segmentierung, fließen Erfahrungen aus der Teilchenphysik ein.

Ein weiterer Aspekt ist die Visualisierung komplexer Daten. Hierzu sollen standardisierte Werkzeuge entwickelt und in eine Analyseplattform integriert werden, die verschiedene Formate effizient darstellen. Eine generische Simulations- und Analyseplattform soll den Datenimport und -export mit entsprechenden Konvertierungsroutinen integrieren, sowie Datenanalyse und Modellierung, statistische Pakete, Visualisierung, und eine standardisierte Skriptsprache einbeziehen. Da skalenübergreifende Modelle sehr viel Rechenzeit benötigen, ist die Effizienz der Algorithmen von großer Bedeutung. Verschiedene Verfahren der Informatik werden hier verwendet, z.B. die Optimierung der Datenstrukturen, Vektorisierung, Generierung hoher Parallelität und der Einsatz von GPGPUs. Die verschiedenen Ansätze werden weiterentwickelt und in Bibliotheken zusammengefasst.