Welchen Effekt High-Performance-Computing-Speicherausfallzeiten (HPC) und eine verringerte Produktivität auf wissenschaftliche Forschungsprojekte haben, erläutert Adam Marko in seinem Gastbeitrag.
HPC-Speicherausfallzeiten sind in der medizinischen Forschung ein No-go
Konstant verfügbare Betriebszeit spielt eine entscheidende Rolle, damit Wissenschaftler mehr Experimente durchführen können und schneller zu wissenschaftlichen Ergebnissen gelangen. Lässt sich die Arbeit jedoch nicht zügig und produktiv erledigen, besteht das Risiko des Scheiterns. Erschwerend kommt hinzu, dass viele HPC-Speichertechnologien anfällig für Ausfallzeiten sind, was sich nachteilig auf die Produktivität auswirkt und Arbeitsfortschritte verzögert.
Wissenschaftler kämpfen heute leider mit den gleichen Problemen, die viele HPC-Anwender schon kennen, nämlich hohe Wartungsanforderungen und regelmäßige Betriebsunterbrechungen, die die Arbeit erschweren. Oft stören System-Ausfallzeiten nicht nur den zeitlichen Ablauf von Projekten, sondern können auch zu Verzögerungen beim Erkenntnisgewinn in der medizinischen Forschung führen.
Schwachstellen bei der HPC-Speicherung
Benutzer gewöhnen sich mit der Zeit an die Tatsache, dass HPC-Speicherinstallationen notorisch schwer zu verwalten sind. Abteilungen mussten daher beträchtliche Personalressourcen für den Umgang mit den Feinheiten des Betriebs solcher komplizierter Speichersysteme aufwenden. Oft waren sie die Einzigen in der Organisation, die solche großen komplizierten Installationen betreiben konnten.
In der HPC-Branche sollte man aber nicht davon ausgehen, dass Manager von Rechenzentren Zeit, Geld und Personal für den Kauf und die Wartung umständlicher, komplexer HPC-Speichersysteme aufwenden wollen. Ein solches Vorgehen ist längst überholt.
Der Wandel bei HPC-Speichern ist schon lange überfällig – jahrelang haben sich die meisten Käufer von Speichersystemen nicht für Bewertungskriterien bezüglich der Gesamt-Betriebskosten interessiert. Das ändert sich gerade, wie die Ergebnisse einer Umfrage von Hyperion Research unter Datenmanagern zeigen, die Panasas in Auftrag gegeben hat:
Fast die Hälfte aller Befragten hatte einmal im Monat Speichersystem-Ausfälle, wobei Anwender HPC-Speicherausfallzeiten für normal halten.
Nach einem Systemausfall benötigen 40 % der HPC-Standorte meist mehr als zwei Tage für die vollständige Wiederherstellung ihres Speichersystems.
Die meistgenannten Herausforderungen beim Betrieb von HPC-Speichern sind die Rekrutierung und Einstellung von qualifiziertem Personal, gefolgt vom Zeit- und Kostenaufwand für Abstimmung und Optimierung der Speichersysteme.
Über 75 % aller Befragten erlebten im letzten Jahr Produktivitätseinbußen aufgrund von Speicherproblemen. Bei einem von acht Standorten geschah dies in den letzten zwölf Monaten mehr als zehnmal.
Manche Ausfälle verursachten Ausfallzeiten mit einer Dauer von bis zu einer Woche. Die Kosten für einen einzigen Tag Ausfallzeit können zwischen 100.000 US-Dollar und mehr als 1 Million US-Dollar liegen.
Offensichtlich wirken sich Probleme bei bestehenden Speicherlösungen auch weiterhin negativ auf die Unternehmensziele aus.
In den Life Sciences sollte man TCO in einem anderem Licht sehen
Es fällt schwer, eine Entscheidung über die Speicherung nicht ausschließlich auf der Grundlage der Minimierung des ursprünglichen Kaufpreises zu treffen. Auf den ersten Blick erscheint ein Open-Source-System preiswert; eine Umfrage ergab jedoch, dass Speicherprobleme nach der Installation häufig auftreten und kostspielig sind. Die Auswirkungen von Ausfallzeiten kosten Unternehmen oft aber mehr als nur Geld. Durch Speicherprobleme verursachte finanzielle Verluste sind für Wissenschaftler nicht immer nachvollziehbar. Die Kosten für den Fortschritt von Forschungsarbeiten sind aber offensichtlich.
Verringerte Produktivität aufgrund von Infrastrukturausfällen führt zu Verzögerungen bei der Ermittlung von Forschungsergebnissen. Auch wenn dies z. B. bei einer Organisation, die ein neues Arzneimittel entwickelt, finanzielle Auswirkungen hat, ist die Berechnung der TCO (Total Cost of Ownership, Gesamt-Betriebskosten) in einem akademischen Umfeld meist schwieriger. Es gibt effektiv keine Messgröße, mit der sich TCO mit den Gesamtkosten verlorener Forschungszeit in einer Organisation genau korrelieren lässt. Hier bietet sich das Konzept der sogenannten Research Cost of Ownership (RCO – Forschungs-bezogene Betriebskosten) an.
Der Effekt von Ausfallzeiten und verringerter Produktivität auf die gesamte wissenschaftliche Arbeit lässt sich durch RCO beschreiben. Auch wenn sich RCO nicht unmittelbar quantifizieren lässt, ist es doch ein wichtiges Kriterium bei der Beschaffung von Speicherkapazität. Forschungsarbeiten sollen einen Beitrag zum kollektiven Wissenskapital der Menschheit leisten. So macht die Menschheit Entdeckungen und treibt die Innovation voran. Kurzsichtige finanzielle Entscheidungen beeinträchtigen dies und wirken sich negativ auf den gesamten globalen Bestand an wissenschaftlichem Wissen aus.
Es ist Zeit, dass sich IT-Mitarbeiter mit den Auswirkungen von Speicherproblemen auf die RCO befassen. Auch wenn man beim Erstkauf einige Euro pro Terabyte einsparen konnte, so können die Kosten für die wissenschaftliche Gemeinschaft doch viel höher sein. Das immer wiederkehrende Drama, bei dem Forscher Ausfallzeiten erleiden, muss offengelegt werden. Vorhersagbarkeit, Belastbarkeit und Zuverlässigkeit sollten der neue Standard werden. Wissenschaft und Forschung sind zu wichtig, als dass man sie durch vermeidbare technische Probleme verzögern dürfte.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel Communications Group GmbH & Co. KG, Max-Planckstr. 7-9, 97082 Würzburg einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.
Jeder überprüft heute seine Infrastruktur, um den besten technologischen Ansatz zu finden, mit dem die Arbeit schnell und zuverlässig erledigt werden kann - und das bedeutet, dass sich die Welt der HPC-Speicher ändern muss. Wenn man es richtig macht, gewinnen alle.
Keine Kompromisse bei RCO
Die Ergebnisse der Umfrage von Hyperion Research sind ein Weckruf für die HPC-Branche: Jeder sollte sich auf die Bereitstellung zugänglicher und zuverlässiger Speicher mit hochleistungsfähigen parallelen Dateisystemen konzentrieren, die die anspruchsvollen Aufgaben der modernen Forschung unterstützen können. Mit einer zuverlässigen, skalierbaren und kommerziell unterstützten Lösung lässt sich dieses Ziel erreichen.
TCO ist eine gut quantifizierbare Rechenmethodik für den Kauf von Speichersystemen; der finanzielle Aspekt macht aber nur einen kleinen Teil des Gesamtbildes aus. Forschungsarbeiten sollen das menschliche Verständnis unserer Welt verbessern. Im Gegensatz zu TCO ist RCO ein eher qualitativer Aspekt, der aber zur Bewertung von Infrastrukturentscheidungen unerlässlich ist. Man denke nur an die immensen Forschungskosten, die bei anhaltenden Speicherproblemen in einer Organisation verloren gehen.
RCO sollte bei Ihrer nächsten Entscheidung in Bezug auf Speichersysteme ein wichtiges Bewertungskriterium sein. Es bedarf agiler, flexibler Speichersysteme, die sich an neue Herausforderungen anpassen können und es Wissenschaftlern ermöglichen, ihre Ziele zu erreichen. Die Konsequenzen daraus sind ernst zu nehmen: Der Zeitbedarf bis zum Erreichen von Ergebnissen ist entscheidend.
*Der Autor: Adam Marko, Direktor für Life Science Solutions bei Panasas, Inc..