France

Cloud-Plattform Machine Learning optimiert Diagnoseprozesse

Ein Gastbeitrag von Jens Dommel*

Anbieter zum Thema

Das Münchner Leukämielabor will die Diagnose und Behandlung von Leukämie mit modernsten Methoden der Routinediagnostik verbessern. In einem Projekt setzt das Labor deshalb auf eine integrierte Diagnostik auf Basis von maschinellem Lernen und Cloud-Technologie.

Maschinelles Lernen kann Ärzten helfen, bei ihren Diagnosen schneller und präziser zu sein. (Symbolbild)
Maschinelles Lernen kann Ärzten helfen, bei ihren Diagnosen schneller und präziser zu sein. (Symbolbild)
(Bild: ipopba - stock.adobe.com)

Leukämie zählt zu einer Gruppe von Blutkrebsarten, die aufgrund ihrer Heterogenität eine große Herausforderung darstellen. Die Weltgesundheitsorganisation (WHO) definierte 2022 mehr als 70 Leukämie-Subtypen. Laut „Global Burden of Disease“ gab es 2018 weltweit über 310.000 Todesfälle durch Leukämie. Im Sinne einer effektiven Diagnose und Therapie kombinieren Forscher und Ärzte mittlerweile unterschiedliche Verfahren. Dazu zählt auch das sogenannte Next-Generation Sequencing (NGS).

NGS gilt als vielversprechende Methode für die moderne Medizin und nutzt einen algorithmischen Ansatz auf Grundlage molekulargenetischer Merkmale. Dabei werden Abschnitte der menschlichen DNA automatisiert sequenziert und die daraus resultierenden Ergebnisse gleichzeitig ausgegeben. Dies ermöglicht die Sequenzierung von menschlichen Genomen in nur wenigen Tagen und für einen Bruchteil der Kosten des ersten Genoms. Experten auf diesem Gebiet sind allerdings rar, was die Anwendung in der täglichen Routine bisher nicht möglich macht. Doch es gibt mittlerweile Fortschritte, wie das folgende Beispiel zeigt.

Verbesserte Diagnostik auf Basis von ML und Cloud-Technologie

Das Münchner Leukämielabor (MLL) war 2005 von dem Hämatologen Prof. Dr. Dr. Torsten Haferlach und Kollegen gegründet worden, um die Diagnose und Behandlung von Leukämie mit den modernsten Methoden der Routinediagnostik zu verbessern. Seitdem hat es sich zu einer weltweit führenden Einrichtung für Blutkrebsdiagnostik und -forschung entwickelt, die in einem innovativen Umfeld tätig ist. In einem Projekt setzte das MLL in Zusammenarbeit mit Amazon Web Services (AWS) eine integrierte Diagnostik auf Basis von maschinellem Lernen und Cloud-Technologie um.

Die unbegrenzte Datenspeicherung, Rechenleistung und Parallelisierung dieser Cloud-Lösung hilft bei der Nutzung von NGS-Daten. Die verbesserten Kapazitäten ermöglichen dem Münchner Leukämielabor in Forschungsprojekten eine kürzere Zeit bis zur Diagnose und damit auch schnellere individuelle Therapien. Während es früher 15 Minuten dauerte, Panel-NGS-Daten eines einzigen Patienten zu berechnen, lassen sich heute durch den Einsatz der Cloud in der gleichen Zeit mehr als 100 Proben parallel bearbeiten. Dadurch fallen keine Wartezeiten durch begrenzte Analyseressourcen an und das erhöht die Heilungschancen der Patienten signifikant.

Vorbereitung der Daten in der Cloud

Aufgrund des globalen Umfangs der MLL-Forschung müssen die Daten in sicheren Cloud-Diensten gespeichert werden, die gleichzeitig mit den Datenschutzbestimmungen der einzelnen Länder konform sind. Mit AWS ist das möglich. Im vorliegenden Projekt wählte das MLL beispielsweise S3-Buckets in Frankfurt. Dort werden die NGS-Daten verarbeitet – im Falle der DNA sogar mithilfe von WGS (Whole Genome Sequencing) und bei RNA mit dem WTS-Verfahren (Whole Transcriptome Sequencing) sowie einer kundenspezifischen Pipeline. Die SV-Dateien (Structural Variation) extrahierte das Team schließlich für kurze Segmente in fünf Varianten auf Genebene: Insertionen, Deletionen, Duplikationen, Translokationen und Inversionen.

Dieser Ansatz eignete sich auch für CNV-Dateien (Copy Number Variation). Bei WTS-Daten wurde die Genexpression in Form von Read Counts extrahiert und nach der TMM-Methode (Trimmed Mean of M-Values) normalisiert. Auf diese Weise ließen sich aus den fünf Originaltabellen mehr als 70.000 Merkmale generieren. Fehlende Daten wurden je nach Quelle zugerechnet. Bei einigen Typen verwendete das Team zudem den niedrigsten Wert (CNV) oder Null (SNV, SV, Genexpression). Am Ende der Datenverarbeitung verfügte jeder Patient über die gleiche Anzahl von Merkmalen, die sich als Eingabe für ein maschinelles Lernmodell nutzen ließen. Im weiteren Verlauf bewertete das MLL mehrere Strategien zur Kombination der verschiedenen Modalitäten.

Abb. 1: Hier sind alle verarbeiteten Dateien für das Training zu sehen.
Abb. 1: Hier sind alle verarbeiteten Dateien für das Training zu sehen.
(Bild: Amazon Machine Learning Solutions Lab)

Erste Analyse der Subtypen vor der Modellierung

Der Datensatz des MLL enthält Patienten mit 30 verschiedenen Leukämie-Subtypen. Allerdings ist er nicht besonders ausgewogen – einige Subtypen kommen häufiger vor als andere (s. Abb. 2).

Abb. 2: Anzahl der Patienten nach Leukämie-Subtyp.
Abb. 2: Anzahl der Patienten nach Leukämie-Subtyp.
(Bild: Amazon Machine Learning Solutions Lab)

Nach der Konvertierung der verschiedenen Datentypen in eine Tabelle identifizierte das Team die wichtigen Biomarker für die einzelnen Leukämie-Subtypen. Dabei entwickelte es einen Prozess zur Aggregation und Kombination der ursprünglichen Merkmale. Der Datensatz enthielt am Ende etwa 4.500 Zeilen zu den Patienten und 800 Spalten zu den extrahierten Biomarkerdaten, die sich mit anderen wichtigen Merkmalen für jeden Datentyp außerhalb des ursprünglichen Biomarker-Merkmalsatzes kombinieren ließen. Das Genom und Transkriptom jedes Patienten wurde damit also durch einen Vektor mit 800 Einträgen dargestellt.

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Abb. 3: Diese Abbildung zeigt, wie ähnlich die Leukämie-Subtypen einander sind. Jeder Kreis steht für einen Leukämie-Subtyp, und die Zahl gibt den Prozentsatz der Nachbarn an, die demselben Subtyp angehören. Gibt es einen signifikanten Anteil (>= 10 Prozent) von Patienten, die denen einer anderen Entität ähnlicher sind, wird eine Verbindung gezeichnet. Die Breite der Linie gibt an, wie groß der Anteil der Patienten ist, die anderen Gruppen ähneln.
Abb. 3: Diese Abbildung zeigt, wie ähnlich die Leukämie-Subtypen einander sind. Jeder Kreis steht für einen Leukämie-Subtyp, und die Zahl gibt den Prozentsatz der Nachbarn an, die demselben Subtyp angehören. Gibt es einen signifikanten Anteil (>= 10 Prozent) von Patienten, die denen einer anderen Entität ähnlicher sind, wird eine Verbindung gezeichnet. Die Breite der Linie gibt an, wie groß der Anteil der Patienten ist, die anderen Gruppen ähneln.
(Bild: Amazon Machine Learning Solutions Lab)

Unter den 30 unterschiedlichen Leukämie-Subtypen gab es einige, die größere Ähnlichkeiten aufwiesen. Dies stellte eine große Herausforderung bei der Unterscheidung dar – sowohl für die ML-Algorithmen als auch für die danach auswertenden Wissenschaftler. Daher berechnete das Team innerhalb dieses Vektorraums die Entfernungen zwischen jedem Patienten und dem Rest der Proben und zeigte die jeweils nächsten Nachbarn auf, um die Ähnlichkeiten der einzelnen Subtypen genauer zu untersuchen. Anschließend wurden die Subtypen je nach Leukämie-Art zusammengefasst. Das Ergebnis: In einigen Klassen ähnelten sich weniger als 20 Prozent der Patienten eines Subtyps (siehe Abb. 3).

Modellierung für die Vorhersage der Subtypen

Um die Subtypen der Patienten korrekt zu prognostizieren, trainierte das Team einen Multiclass Classifier. Dabei wurde Amazon Sage Maker verwendet – eine Cloud-Plattform für maschinelles Lernen. In Verbindung mit der Pipeline zur Extraktion der Merkmale kam ein System zum Einsatz, das den Subtyp eines Patienten automatisch auf Grundlage der WGS- und WTS-Daten und mithilfe von Amazon Sage Maker Notebooks bestimmt. Die Notebook-Instanzen bieten flexible Umgebungen für die Erstellung von Modellen für maschinelles Lernen und ersparen den Nutzern Zeit und Aufwand für die Verwaltung der zugrunde liegenden Datenverarbeitungsinfrastruktur.

Für den ersten Classifier wurde als Algorithmus LGBM (Light Gradient Boosting Machine) verwendet. Bei der Abstimmung der Hyperparameter des Modells half zusätzlich Amazon Sage Maker HPO (Hyperparameter Optimization). Damit ließ sich die optimale Konfiguration eines Algorithmus ohne manuellen Aufwand durch Bayes'sche Optimierung finden. Die Ergebnisse waren zufriedenstellend. Allerdings schnitt das Verfahren bei ähnlichen Entitäten oder bei Fällen mit sehr wenigen Patienten weniger gut ab. Auch wenn bei einer herkömmlichen Diagnose eine zusätzliche Laboranalyse erforderlich war, fielen die Ergebnisse schlechter aus. Daher generierten die Forscher synthetische Daten, um mit kleinen und unausgewogenen Proben umzugehen.

Abb. 4: Diese Konfusionsmatrix zeigt die Anzahl der richtigen und falschen Vorhersagen des Modells an.
Abb. 4: Diese Konfusionsmatrix zeigt die Anzahl der richtigen und falschen Vorhersagen des Modells an.
(Bild: Amazon Machine Learning Solutions Lab)

Einblick in die Entstehungsprozesse

Essenziell für das MLL war nicht nur die Vorhersage selbst, sondern auch ihre Entstehung. Daher nutzte das Team die SHAP-Python-Bibliothek, um die Prozesse besser zu verstehen. Damit konnte es die Vorhersagen des trainierten Modells analysieren und erhielt Einblick in die für die Klassifizierung verwendeten Merkmale. Die SHAP-Python-Bibliothek wertete die Auswirkungen der Merkmale aus – sowohl bei Stichproben als auch auf globaler Ebene. Abbildung 5 zeigt eine Anwendung von SHAP auf Patientenebene für zwei Personen, bei denen CML diagnostiziert wurde, im Vergleich zur Kohorte mit korrekter CML-Vorhersage. Anhand eines Entscheidungsdiagramms ließ sich beobachten, welche Merkmale am meisten zur Vorhersage des Modells beitragen.

Abb. 5: SHAP-Kraftdiagramm für einen CML-Patienten mit korrekter Vorhersage. Die gelben Linien zeigen ein Entscheidungsdiagramm für jeden Patienten mit CML, davon 117 mit korrekter Vorhersage. Die rote Linie stellt Patienten mit falscher Vorhersage dar.
Abb. 5: SHAP-Kraftdiagramm für einen CML-Patienten mit korrekter Vorhersage. Die gelben Linien zeigen ein Entscheidungsdiagramm für jeden Patienten mit CML, davon 117 mit korrekter Vorhersage. Die rote Linie stellt Patienten mit falscher Vorhersage dar.
(Bild: Amazon Machine Learning Solutions Lab)

Fazit

Mit der Ganzgenomsequenzierung können wir alle Erkenntnisse der Chromosomenanalyse erhalten, zudem lässt sie sich auch zur Mutationserkennung und -analyse einsetzen. Allerdings generiert jede dieser Sequenzierungen pro Patient über 200 GB an Daten, die eine schnelle Speicherung, Verarbeitung und Weitergabe erschweren – beispielsweise an andere Labore oder ärztliches Personal. Hier helfen Cloud-Technologien, die entsprechenden technischen Kapazitäten bereitzustellen.

Dem Münchner Leukämielabor war es dank der Werkzeuge von AWS möglich, zentrale Schritte des Diagnostikprozesses um das Fünffache zu beschleunigen. Das MLL-Team muss sich nicht mehr um das Management der digitalen Infrastruktur kümmern und kann sich vollständig auf seine eigentliche Arbeit, auf die Bewertung der Daten, konzentrieren. Maschinelles Lernen hilft den Ärzten, bei ihren Diagnosen schneller und präziser zu sein. Es verringert die Fehlerwahrscheinlichkeit und führt zu einer höheren Qualität der Analyse. Gerade für die Patienten ist das ein großer Gewinn.

Weitere Artikel zur Zukunft der Medizintechnik finden Sie in unserem Themenkanal Forschung.

* Der Autor: Jens Dommel ist Head of Healthcare EMEA bei Amazon Web Services.

(ID:49016808)