Storage Digital Pathology – riesige und sensible Datenmengen speichern

Von lic.rer.publ. Ariane Rüdiger

Pathologische Daten sind platzraubend und gleichzeitig sensibel. Mit einer neuen Technologie lassen sie sich kostensparend zwischen Cloud und On-Prem verteilen, ohne Datenschutzpflichten zu verletzen.

Gewebeschnitte werden in der Pathologie traditionell mit dem Mikroskop angefertigt, lassen sich heute aber auch digital mit Scannern generieren – das Ergebnis sind Bilder im Gigabyte-Bereich.
Gewebeschnitte werden in der Pathologie traditionell mit dem Mikroskop angefertigt, lassen sich heute aber auch digital mit Scannern generieren – das Ergebnis sind Bilder im Gigabyte-Bereich.
(Bild: frei lizenziert / Pixabay)

Gerade medizinische Daten, Proben, Bilder und Befunde gelten als hochsensibel. Gleichzeitig liegen in der Digitalisierung beispielsweise pathologischer Gewebeschnitte erhebliche Chancen, einerseits die Daten breiter zugänglich zu machen und das IT-Budget der Kliniken zu entlasten, andererseits aber dafür zu sorgen, dass sie sicher und geschützt aufbewahrt werden.

Bildergalerie

Denn heute werden beispielsweise in einer der großen deutschen Kliniken, die aber anonym bleiben möchte, vier speziell temperierte Gebäude für die Aufbewahrung von Gewebeschnitten der Pathologie genutzt – ein schon energetisch sehr teures Unterfangen. Diese Schnitte werden immer wieder für Forschungszwecke benötigt. Allerdings nicht so dringend wie etwa Materialien oder Daten, die man braucht, um noch lebende Menschen zu behandeln.

Scannen mit Mikroskop-Auflösung

Mit Scannern, die eine ähnliche Auflösung wie Mikroskope realisieren können, ist es jetzt möglich, diese Gewebeschnitte ohne oder mit vertretbarem Informationsverlust zu digitalisieren. Dabei werden viele horizontale oder vertikale „Scheiben“ aus einer Gewebeprobe gemacht. Jede dieser Scheiben wird gescannt, und jeder Scan hat ein Volumen im Gigabyte-Bereich.

Jedes dieser digitalen Samples muss zehn Jahre und länger sicher und suchbar aufbewahrt werden. „Das bedeutet Datenvolumen von 10 Exabyte jährlich, was wiederum 99 Prozent der bislang existierenden Storage für Gesundheitsdaten entspricht“, rechnet Nikola Apostolov, Head of Business Development beim bulgarischen Datenmanagement-Spezialisten Tiger Technology, vor, was die Digitalisierung dieses Gewebsbestands bedeutet.

Die Firma mit Zentrale in Sofia, Bulgarien, gibt es seit 2005. Sie beschäftigt inzwischen mehr als 60 Mitarbeiter und bedient über 10.000 Kunden weltweit. Wichtigste Kundengruppe war bisher die Medien- und Entertainmentbranche. Sie braucht Spezialtechnologien für sehr große Bestände umfangreicher Files.

Software-Brücke zu Cloud-Storage

Tiger Technologys derzeitiges Kernprodukt ist die Tiger Bridge, eine Art Datenmanagement-Middleware für die dauerhafte Sicherung von Daten, wobei der Fokus darauf liegt, die Datennutzung für die On-Prem-Clients so einfach wie möglich zu gestalten. Das Unternehmen spricht von „On-Premises First Hybrid Storage“.

Damit setzt sich Tiger Technology mit den durch Kosten-, Sicherheits- und prozeduralen Bedenken verursachten Ängsten vor einer Cloud-Migration der Daten auseinander, auf Grund derer Kliniken ihre Daten nicht oder noch nicht dauerhaft in die Cloud verlagern wollen oder können.

Egress-Kosten oft geringer als gedacht

Tiger Bridge analysiert die vorhandenen Daten auf den Storage-Servern und stellt fest, welche davon dringend vor Ort liegen müssen. Der Rest kann auf günstigere Storage-Schichten, etwa Object Storage, in der Cloud verlagert werden.

Dabei spielen die in der Regel beträchtlichen Egress-Kosten, die entstehen, wenn größere in die Cloud verlagerte Datenmengen wieder vor Ort zurückgeholt werden müssen, weil man sie braucht, eine geringere Rolle als oft befürchtet. „Die Menge dieser Daten wird normalerweise auf zehn bis 15 Prozent des Bestands geschützt. Mit unseren analytischen Algorithmen kommen wir allerdings auf sehr viel geringere Werte“, erklärt Apostolov. „Oft geht es nur um ein halbes Prozent. Das sind dann sehr überschaubare Egress-Kosten bei Cloud-Speicherung, über die es sich kaum zu diskutieren lohnt.“

Daten behalten ihr Format

Doch die Storage-Analyse ist nicht das einzige Plus der Tiger Bridge. Der einheitliche Namespace, der über alle Daten, On-Prem und in der Cloud, gelegt wird, kann sehr groß sein. Gleichzeitig werden die Daten, die mit der Tiering-Funktion in die Cloud wandern, im Originalformat gespeichert. Das unterscheidet die Lösung von vergleichbaren Middlewares, die meist ein proprietäres Format für die Cloud-Speicherung verwenden. Das bedeutet bei der Rückholung Zeitverlust und Rechenaufwand.

Zurück zur Klinik-Applikation: Dort hatte man mit Hilfe geeigneter Philipps-Scanner inzwischen begonnen, die pathologischen Gewebsschnitte zu digitalisieren. Als Speicherziel war eine ausreichend sichere, da in Deutschland befindliche und vertraglich zugesichert gegen den US-amerikanischen Patriot Act geschützte, Cloud geplant. Doch die Scanner konnten die Daten nicht direkt in die Cloud überspielen.

Jetzt Newsletter abonnieren

Wöchentlich die wichtigsten Infos zur Digitalisierung im Gesundheitswesen

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Hier trat Tiger Technology in Aktion und baute eine durchgängige Integration zwischen den Philipps-Scannern und der Hyperscaler-Cloud. Sie überträgt in Zukunft Hunderte Terabyte gescannte Daten pro Monat dorthin. Das ergibt pro Jahr ein Petabyte oder gar mehr.

Verknüpfung mit AI-Toolchain

Im weiteren Verlauf des Projekts können nun die in die Cloud überspielten Daten mit einer AI-Toolchain verknüpft werden, um eine Bildanalyse durchzuführen, so dass die Bilder mit entsprechenden Metadaten versehen (getaggt) werden können. Die Tags lassen sich dann auf den Storage-Server zurückspielen, wo sie weiterhin für die Suche zur Verfügung stehen. Die Bilder können vor Ort gelöscht werden, was den Speicherbedarf dort verringert.

Werden pathologische Daten gesucht, können Clients vor Ort auf die Metadaten aller getaggten Bilder zugreifen, so dass am Ende wirklich nur passende Bilder zurückgespielt werden müssen.

Dringend benötigte Daten lassen sich trotz der Cloud-Storage bevorzugt vor Ort speichern. Dafür kann man laut Tiger Technology die vor Ort bereits verwendete Storage als Cache verwenden. Für die Clients am Storage-Server sehen die Daten gleich aus, ob sie nun auf der Cloud oder vor Ort liegen. Die Daten aus der Cloud stehen in ein bis vier Stunden zur Verfügung, was für Forschungszwecke ausreicht.

Perspektive: AI-Qualitätskontrolle

Apostolov: „Das größte Problem bei pathologischen Daten ist allerdings die Qualitätskontrolle. Denn jedes Staubkorn auf der Glasplatte kann bei einer derart hohen Auflösung den Scan ruinieren.“ Diese Aufgabe wird heute teuer und fehleranfällig von Hand erledigt.

Im weiteren Verlauf dieses Projekt könnte die Aufgabe von einer Cloud-AI-Toolchain übernommen werden. Denn diese kann, entsprechend trainiert, mit großer Sicherheit alle Verunreinigungen auf den Scans erkennen und die entsprechenden Scans aussortieren, damit sie noch einmal wiederholt werden.

Kunden sparen, falls sie günstige Archiv-Storage in der Cloud nutzen, bei derartigen Anwendungen nicht nur Storage-Kosten, sondern vor allem die Kosten für den Aufbau eigener AI-Toolchain. Zudem fehlt auf diesem Gebiet oft das Wissen. Tiger Technology gibt für seine Lösung etwa Kosten von einem Drittel der Terabyte-Kosten der entsprechenden Cloud-Storage an.

Die Applikation, die derzeit für das deutsche Klinikum auf- und ausgebaut wird, könnte ähnlich auch in anderen Branchen verwendet werden – überall da, wo komplexe unstrukturierte Daten längerfristig sicher und suchbar archiviert und mit AI-Algorithmen verarbeitet werden müssen.

Aktuelles eBook

NAS oder Cloud-Storage?

eBook NAS oder Cloud-Storage
eBook „NAS oder Cloud-Storage?“
(Bild: Storage-Insider)

Eine der zentralen Fragen für nahezu alle Unternehmen lautet: Wohin mit den großen Datenmengen? Unser neues eBook vergleicht Vor- und Nachteile von NAS-Geräten und Cloud-Speicherlösungen. Diese unterscheiden sich in vielerlei Hinsicht, sei es bei der Skalierbarkeit, Daten- und Zugriffssicherheit und Compliance – doch der Nutzer sollte sich stets die Frage stellen: „Für welche Anwendung benötige ich diesen oder jenen Speichertyp?“

Die Themen im Überblick:

  • Wohin mit der ausufernden Datenflut?
  • Vor-Ort-Speicher in einem verteilten Netzwerk
  • Cloud-Speicher in verteilten Rechenzentren

Dieser Artikel erschien ursprünglich bei unserem Schwesterportal Storage-Insider.

(ID:49017163)