Auf dem Weg zu reproduzierbarer Wissenschaft mit Jupyter Notebooks

Software spielt in der modernen Wissenschaft eine Schlüsselrolle. Experimente, die große Datenmengen produzieren, benötigen in der Regel eine umfangreiche softwarebasierte Analyse, um ein Verständnis zu gewinnen. Insbesondere simulationsbasierte Forschung liefert Ergebnisse, die ausschließlich auf der computergestützten Generierung von Daten und deren anschließender Analyse basieren.
Magnetische Skyrmionenbildung in einem helimagnetischen Material - ein Simulationsergebnis mit Ubermag aus dem Jupyter Notebook

Das wissenschaftliche Prinzip der Reproduzierbarkeit verlangt bei Publikationen, dass Studien und Prozesse so dokumentiert und archiviert werden, dass sie zu einem späteren Zeitpunkt wiederholt werden können - sowohl von den ursprünglichen Autor*innen als auch von anderen interessierten Forscher*innen. Technisch sollte dies bei den softwaregesteuerten Schritten möglich sein. In der Praxis ist die Reproduzierbarkeit jedoch oft nicht gegeben - aus einer Vielzahl von Gründen.

Nun haben Forscher*innen aus Großbritannien, Frankreich, Norwegen und Deutschland - unter der Leitung von Hans Fangohr aus der neuen Computational Science Unit des MPSD - auf Basis des Forschungsprojekts OpenDreamKit praktische Lösungen für diese Herausforderung veröffentlicht. Sie empfehlen reproduzierbare Arbeitsabläufe, die den Einsatz von Open-Source-Software und die Bereitstellung komplexer Analyse- und Simulationssoftware durch benutzerfreundliche High-Level-Kommandoschnittstellen beinhalten. Diese erlauben es den Wissenschaftlern, für ihre Forschung die Software durch elektronische Notebooks zu steuern, die automatisch jeden Schritt aufzeichnen.

Die Arbeit wird in der Zeitschrift Computing in Science and Engineering veröffentlicht, die eine Tradition in der Veröffentlichung wichtiger methodischer Fortschritte hat. 

Eines der Open-Source-Ergebnisse dieser Arbeit ist die Simulationsumgebung Ubermag für Magnetismus auf der Nanoskala. Die Low-Level-Simulationssoftware, die für eine hohe Ausführungsgeschwindkeit optimiert wurde, ist nur schwer direkt zu benutzen, und die Forscher haben eine High-Level-Python-Schnittstelle entwickelt, um die Simulationen  einfacher zu steuern. Die Ubermag-Software verfügt über Visualisierungsfunktionen, die ein unmittelbares visuelles Feedback zu den Simulationsergebnissen liefern und sich auf natürliche Weise in das Jupyter-Notebook integrieren. Mit diesem Tool-Set kann eine Simulationsstudie nun vom Jupyter-Notebook aus gesteuert werden, welches Kommentare der Forschenden mit Befehlen zur Ausführung der Simulation kombiniert, unmittelbar gefolgt von den erzielten Ergebnissen. Das Notebook wurde so konzipiert, dass es in der Lage ist, dieses mehrformatige und ausführbare Dokument aufzuzeichnen und zu archivieren - und damit einen Sprung nach vorne für die Reproduzierbarkeit der Studie zu machen.

„Um die Reproduzierbarkeit in der Wissenschaft zu verbessern, reicht es nicht aus, Werkzeuge oder Arbeitsabläufe bereitzustellen, die die Ergebnisse reproduzierbarer machen. Diese Werkzeuge müssen auch zur Arbeitsweise der Forschenden passen und idealerweise zu einer verbesserten Forschungserfahrung führen, damit die neuen Methoden auf breiter Ebene akzeptiert und übernommen werden können", sagt Fangohr.

Unter Wissenschaftler*innen, Forschungsgemeinschaften und Verlagen rückt das Thema Reproduzierbarkeit zunehmend in den Fokus. „Ein zusätzlicher Aspekt der Diskussion ist, dass Reproduzierbarkeit zu Wiederverwendbarkeit führt", erklärt Fangohr. Wenn alle Schritte einer Datenanalyse dokumentiert und archiviert sind - idealerweise in einem (möglicherweise langen!) computerausführbaren Skript - so dass sie auf Knopfdruck automatisch wiederholt werden können, dann wird es viel einfacher, eine solche Studie zu erweitern. Derzeit ist es nicht unüblich, dass Doktoranden Monate oder Jahre damit verbringen, zunächst veröffentlichte Ergebnisse als Grundlage zu reproduzieren, bevor sie die Arbeit im zweiten Schritt mit neuen Ergänzungen erweitern können. Mit den hier vorgeschlagenen Arbeitsabläufen und Methoden können wir diese Zeit auf Stunden oder Minuten reduzieren, was unsere kollektive Forschungstätigkeit sehr viel effizienter macht."

Weitere interessante Beiträge

Zur Redakteursansicht