Ein neuartiger dezentraler, föderierter Lernansatz zum Trainieren auf global verteilten, minderwertigen und geschützten privaten medizinischen Daten

Wissenschaftliche Berichte Band 12, Artikelnummer: 8888 (2022) Diesen Artikel zitieren

4400 Zugriffe

2 Zitate

3 Altmetrisch

Details zu den Metriken

Das Training auf mehreren unterschiedlichen Datenquellen ist entscheidend, um eine unvoreingenommene und verallgemeinerbare KI sicherzustellen. Im Gesundheitswesen verbieten Datenschutzgesetze die Übermittlung von Daten außerhalb des Herkunftslandes und verhindern so die Zentralisierung globaler medizinischer Datensätze für die KI-Schulung. Datenzentriertes, siloübergreifendes föderiertes Lernen stellt einen Weg nach vorne für die Schulung verteilter medizinischer Datensätze dar. Bestehende Ansätze erfordern in der Regel die Übertragung von Aktualisierungen eines Trainingsmodells auf einen zentralen Server, was möglicherweise einen Verstoß gegen Datenschutzgesetze darstellt, es sei denn, die Aktualisierungen sind ausreichend verschleiert oder abstrahiert, um eine Rekonstruktion des Datensatzes zu verhindern. Hier stellen wir einen vollständig dezentralen föderierten Lernansatz vor, der Wissensdestillation nutzt und Datenschutz und Datenschutz gewährleistet. Jeder Knoten arbeitet unabhängig, ohne dass auf externe Daten zugegriffen werden muss. Es wurde festgestellt, dass die KI-Genauigkeit dieses Ansatzes mit zentralisiertem Training vergleichbar ist, und wenn Knoten Daten von schlechter Qualität enthalten, was im Gesundheitswesen häufig vorkommt, kann die KI-Genauigkeit die Leistung herkömmlicher zentralisierter Schulungen übertreffen.

Voreingenommenheit in der KI und die daraus resultierenden Einschränkungen der Skalierbarkeit zeichnen sich zunehmend als häufiges Thema im KI-Gesundheitssektor ab. Kürzlich wurde vorgeschlagen, dass diese Einschränkungen eine Folge des Trainings auf „engen“ Datensätzen sind, die nicht die reale klinische Vielfalt oder Patientenvielfalt abbilden1,2. Datenvielfalt und die Verwendung von Daten aus mehreren Quellen haben gezeigt, dass das Potenzial für das Training einer KI, die genauer und verallgemeinerbarer ist, größer ist als die KI, die auf einem größeren (weniger vielfältigen) Datensatz aus einer einzigen Quelle trainiert wird3,4,5,6,7,8.

Im Gesundheitswesen kann der Zugriff auf diese vielfältigen Datensätze eine Herausforderung darstellen. Nicht nur, dass medizinische Daten über viele Institutionen auf der ganzen Welt verteilt sind, auch die zentralisierte Aggregation von Daten für die KI-Schulung wird aufgrund rechtlicher und regulatorischer Hindernisse, die die Übertragung von Daten außerhalb der Herkunftsregion verhindern, zum Schutz der Privatsphäre zunehmend eingeschränkt9,10.

Die Datenqualität kann auch dann eine Herausforderung darstellen, wenn es keine Möglichkeit gibt, die Qualität einzelner verteilter Datensätze zu beurteilen. Bei vielen realen Problemen können Daten aufgrund von Unsicherheit, Subjektivität oder Fehlern von Natur aus von schlechter Qualität sein oder feindlichen Angriffen ausgesetzt sein11,12,13. Dieses Problem wird noch größer, wenn private Daten an jedem Ort nicht manuell eingesehen oder überprüft werden können. Daher ist die Minimierung der negativen Auswirkungen minderwertiger Daten auf die KI-Leistung von größter Bedeutung, und die Fähigkeit jedes Ansatzes, mit realistischen Datenrauschen umzugehen, wird einen Kernbestandteil seiner Skalierbarkeit darstellen.

Diese Studie bewertet die Wirksamkeit des dezentralen KI-Trainingsansatzes, erstens anhand eines nichtmedizinischen Datensatzes mit synthetischem Datenrauschen und zweitens anhand eines medizinischen Datensatzes, um die Generalisierbarkeit über mehrere Standorte hinweg zu messen. Wir verwenden auch Methoden zur Optimierung von Topologien eines musterbasierten Frameworks, die die Festlegung eines Kompromisses zwischen Genauigkeit und Kosten ermöglichen. Wichtig ist, dass wir zeigen, dass die Genauigkeit der KI, die sich aus unserem Ansatz ergibt, mit einem Szenario vergleichbar ist, in dem alle Daten zentralisiert sind. Wenn Knoten außerdem Daten von schlechter Qualität enthalten, was in realen Szenarien häufig vorkommt, kann die Genauigkeit der KI das traditionelle zentralisierte Training übertreffen. Wir kommen zu dem Schluss, dass dezentrales KI-Training sowohl praktisch als auch innerhalb einer gewünschten Toleranz der Generalisierbarkeit skalierbar gemacht werden kann, und das alles unter Wahrung des Datenschutzes.

Dieser Artikel ist wie folgt aufgebaut. Nach der Zusammenfassung verwandter Werke in „Verwandte Werke“. Nachfolgend werden die Ergebnisse im zweiten Abschnitt dargestellt. Die Experimente sind in solche unterteilt, die einen nichtmedizinischen Datensatz („Nichtmedizinischer Datensatz“) berücksichtigen, einschließlich der mit i gekennzeichneten Szenarien. bis iv. und diejenigen, die einen medizinischen Datensatz („medizinischer Datensatz“) berücksichtigen. Die „Diskussion“ wird im dritten Abschnitt vorgestellt. Abschließend werden im vierten Abschnitt die „Methoden“ beschrieben, einschließlich des Versuchsdesigns, des Trainingsverfahrens und der Zusammensetzung der nichtmedizinischen und medizinischen Datensätze als „Experimentdesign und Trainingsverfahren“, „Zusammensetzung nichtmedizinischer Datensätze“ und medizinischer Datensatz Zusammensetzung bzw.

Eine aktuelle Entwicklung, die sich mit den Herausforderungen befasst, die mit dem Training von KI mithilfe verteilter und privater Datensätze verbunden sind, ist das föderierte Lernen14,15. Federated Learning umfasst jeden Ansatz des maschinellen Lernens, bei dem Kunden (z. B. Geräte oder Rechenzentren) mit Zugriff auf ihre eigenen lokalen Datensätze zusammenarbeiten, um ein Problem zu lösen, ohne die Daten im Rohformat auszutauschen, koordiniert von einem zentralen Dienst16. Der Bereich des föderierten Lernens hat sich schnell auf den Bereich des Gesundheitswesens ausgeweitet17,18,19,20,21, insbesondere in medizinischen Anwendungen22,23,24,25 und bietet eine breite Palette von Methoden für das KI-Training über verteilte Geräte oder Datensilos (horizontal). oder stichprobenbasiertes föderiertes Lernen), Rechenzentren innerhalb einer Organisation mit potenziell überlappenden Datensätzen (vertikales oder merkmalsbasiertes föderiertes Lernen)26 und Datensätze, die nicht „unabhängig und identisch verteilt“ (IID)27,28 sind.

Einige föderierte Lerntechniken erfordern eine starke Verschlüsselung, damit Aspekte potenziell sensibler Trainingsparameter für das Training an einen zentralen Server weitergegeben werden können17,29,30,31, was rechenintensiv sein kann und die Praktikabilität und Skalierbarkeit der Technik einschränkt. In Anwendungen wie dem Gesundheitswesen dürfen private medizinische Daten überhaupt nicht legal weitergegeben werden, und es ist ein vollständig dezentralisierter und den Datenschutz wahrender Ansatz erforderlich16,28. Darüber hinaus ist föderiertes Lernen in der Regel auf stapelweise Aktualisierungen eines Modells durch Clients angewiesen, was aufgrund der hohen Netzwerkkosten schwierig auf eine große Anzahl von Rechenzentren zu skalieren sein kann, selbst wenn man sich auf musterbasierte Übertragungsreduzierungs-Frameworks verlässt. wie Ring Reduce32 oder Ring Allreduce33.

Das Ziel dieser Studie bestand darin, einen vollständig dezentralen, datenzentrierten, siloübergreifenden KI-Trainingsalgorithmus zu erstellen, der keine stapelweisen Aktualisierungen eines Modells auf einem zentralen Server erfordert und eine hohe Genauigkeit bei niedrigen Netzwerkkosten erreichen kann. auch bei Nicht-IID-Datensätzen. In diesem Artikel stellen wir eine neuartige, datenunabhängige Implementierung eines robusten dezentralen KI-Trainingsalgorithmus (DAITA) vor. Wir kombinieren mehrere Techniken wie föderiertes Lernen15, Wissensdestillation34 und ein skalierbares musterbasiertes oder gerichtetes azyklisches Graph-Framework (DAG). Unser Algorithmus implementiert eine kostengünstige Vereinfachung des vollständig verteilten Trainings, prüft auf Sicherheitsverstöße und nutzt die Gewichtungsmittelung, um die Rekonstruktion jeglicher Daten zu verhindern.

Zunächst betrachteten wir einen nichtmedizinischen Katzen- und Hundebilddatensatz35, bei dem die Ergebnisse der Bodenwahrheit definitiv bekannt waren und synthetische verrauschte Daten in den Datensatz eingefügt wurden, um reale unausgeglichene Datenverteilungen und Datenszenarien schlechter Qualität zu simulieren. Es wurden verschiedene Knoten- und Clusterkonfigurationen implementiert. Angesichts der besten experimentellen Bedingungen für diesen nicht-medizinischen Datensatz wurde die Technik dann auf einen Embryo-Datensatz angewendet, der von mehreren IVF-Kliniken erhalten wurde, um die Leistung in einem realen Szenario zu testen.

Die Quelle und Zusammensetzung des nichtmedizinischen Datensatzes wird im Abschnitt „Methoden“ unter „Trainingsverfahren“ beschrieben. Die Konfiguration der in den Experimenten verwendeten verteilten Knoten (Datenquellen) und Cluster (Knotengruppen) ist in Abb. 1 dargestellt. Nachfolgend sind die wichtigsten Ergebnisse von drei dezentralen Trainingsszenarien zusammengefasst.

Abbildungen von 5-Knoten- (a), 15-Knoten- (b) mit Einzel-Cluster-Szenarien und jeweils 5-Knoten-in-3-Cluster-Szenario (c).

In diesen Experimenten wurde eine 5-Knoten-1-Cluster-Einstellung, wie in Abb. 1a dargestellt, zusammen mit dem im Abschnitt „Methoden“ beschriebenen „Trainingsverfahren“ verwendet. Ein Modell \({\mathbb{M}}^{1}\) wurde mithilfe eines Transferdatensatzes durch Destillation und unter Verwendung der Vielzahl aller trainierten Generalisten als Lehrermodelle trainiert. Das endgültige Modell und die endgültigen Gewichte wurden auf der Grundlage der Epoche ermittelt, die die höchste ausgeglichene Genauigkeit im Validierungssatz meldete.

Ein zweites Modell \({\mathbb{M}}^{2}\) wurde durch das Ensemble aller trainierten generalistischen Modelle ohne den Einsatz von Wissensdestillation erstellt. Dieser Vorgang kann auf einem separaten Server stattfinden, wo es keine Einschränkung beim Herunterladen des Übertragungsdatensatzes auf den lokalen Computer gibt. Die Ergebnisse dieser beiden Modelle werden mit den Basisergebnissen verglichen, die ein traditionelles Training für alle auf einem Knoten zentralisierten Daten darstellen.

Die in Tabelle 1 gezeigten Ergebnisse bestätigen, dass der dezentrale Trainingsalgorithmus im Vergleich zu den zentralisierten Basisergebnissen eine gute Leistung erbringt. Bei Verwendung eines bereinigten Datensatzes wurde ein minimaler Unterschied in der Genauigkeit zwischen dezentralem Training (\({\mathbb{M}}^{1}\) und \({\mathbb{M}}^{2}\)) gemeldet. und die zentralisierten Basisergebnisse.

Bei Verwendung eines verrauschten Datensatzes zeigt Tabelle 1, dass der dezentrale Trainingsalgorithmus (\({\mathbb{M}}^{1}\)) eine bessere Leistung erbringt (+2,7 % Genauigkeit) als die zentralisierte Basislinie. Das Experiment wurde mehrmals mit unterschiedlichen Datensatzkonfigurationen wiederholt und durch dezentrales Training wurde eine ähnlich verbesserte Genauigkeit erzielt. Dieses Ergebnis war unerwartet und bedeutsam, da es den Nutzen von DAITA für den Datenschutz, die Leistung (Genauigkeit und Generalisierbarkeit) und die Fähigkeit zum robusten Training bei Vorhandensein verrauschter (schlechter) Daten demonstrierte. In den meisten realen Situationen treten wahrscheinlich verrauschte Daten auf, insbesondere in einer dezentralen Situation, in der es mehrere Dateneigentümer und begrenzte Datentransparenz gibt. Dennoch zeigten alle lokalen Spezialistenmodelle im Vergleich zum Baseline-Modell eine geringere Generalisierbarkeit, da sie Zugriff auf viel kleinere Trainingsdatensätze als der Baseline-Trainingssatz haben.

Tabelle 1 zeigt auch, dass das Modell, das ohne Verwendung der Wissensdestillation (\({\mathbb{M}}^{2}\)) trainiert wurde, eine schlechtere Leistung erbrachte (− 1,5 % Genauigkeit) als die Basislinie, da das Ensemble einzelner Generalisten jeweils lokal entsteht Knoten. Daher wird dieser zusätzliche Schritt der Bildung eines Ensembles zunächst außer Acht gelassen, während der Einsatz der Wissensdestillation zur Vereinfachung des experimentellen Designs vorerst im Vordergrund steht und weitere Optionen eines Transfersets untersucht werden.

Da die experimentellen Ergebnisse für den bereinigten Trainingssatz den Basisergebnissen ähneln und nahe an der maximalen Genauigkeit von 100 % liegen, wurden in den folgenden Abschnitten alle Experimente nur mit den verrauschten Trainingsvalidierungsdatensätzen durchgeführt, mit einer niedrigeren Basisgenauigkeit von 75 %. um Unterschiede zwischen verschiedenen dezentralen Trainingsansätzen besser beurteilen zu können. Während die Gesamtgenauigkeit und die ausgewogene Genauigkeit ähnliche Werte aufweisen, wie in der unteren Hälfte von Tabelle 1 dargestellt, zeigt das endgültige, auf dem Übertragungssatz trainierte Modell seine Überlegenheit gegenüber den Basisergebnissen, wenn Wissensdestillation verwendet wird (die Genauigkeiten der Klasse 1 übertreffen die von Klasse 0 aufgrund der unausgewogenen Klassenverteilung und der ungleichmäßigen Menge an Rauschen, die für jede Klasse synthetisiert wird).

Der Algorithmus in „Experimente zum Vergleich bereinigter und verrauschter Datensätze“ erfordert einen separaten Übertragungssatz, in der Praxis ist jedoch möglicherweise kein separater Übertragungssatz verfügbar. In diesem Fall können die vorhandenen Daten an jedem Knoten eine Rolle als Übertragungssatz spielen. In diesem Abschnitt untersuchen wir empirisch verschiedene Möglichkeiten der Wahl des Übertragungssatzes. Abbildung 2 vergleicht die Ergebnisse der folgenden Experimente:

Dc-i: Nachdem das Training an den Daten von 5 Knoten unter Verwendung der in Abb. 1a gezeigten DAG-Topologie und unter Verwendung mehrerer Lehrer-Wissensdestillation durchgeführt wurde, wird \({\mathbb{M}}^{1}\) schließlich trainiert sein letzter Schritt mit den Daten eines einzelnen Knotens (Daten des i-ten Knotens) als Übertragungssatz für \({\mathbb{M}}^{1}\).

Dc-m1: Stellt das optimistische Szenario dar, in dem alle Daten der Knoten gemeinsam erfasst werden können und Dc-m1 das Ergebnis ist, wenn \({\mathbb{M}}^{1}\) auf diesem kollektiven Übertragungssatz trainiert wird.

Dc-m2: Stellt das realistische Szenario zur Wahrung des Datenschutzes dar, bei dem mehrere Übertragungssätze verwendet werden. \({\mathbb{M}}^{1}\) reist zu jedem Knoten und übernimmt wiederum die Daten jedes Knotens als Übertragungssatz. Das endgültige Modell wird anhand der lokalen Daten (als lokaler Übertragungssatz betrachtet) und unter Einbeziehung des Wissens aus der Vielzahl trainierter generalistischer Modelle trainiert. Da der Prozess eine umfangreiche Datenübertragung erfordert, werden das endgültige Modell und alle geschulten Studenten nur für eine Runde an jeden Knoten übertragen (siehe Abb. 1a).

Vergleich dezentraler Modellergebnisse für verschiedene Transferset-Szenarien. Baseline bezeichnet ein Experiment, bei dem alle Daten zentralisiert sind und das Training auf diesem zentralen Knoten stattfindet. Dc-1 bis Dc-4 beziehen sich auf Experimente, bei denen einzelne Knoten (1–4) als einziger Übertragungssatz ausgewählt werden. Dc-m1 gibt ein Szenario an, in dem dezentrales Training stattfindet, der Übertragungssatz jedoch der theoretische zentralisierte Satz aller Daten ist. Dc-m2 gibt ein Szenario an, in dem auf das dezentrale Training ein abschließender Prozess folgt, bei dem alle endgültigen Modelle an jedem Knoten im Term zusammen destilliert werden, mit einer vollständigen Durchquerung aller Knoten.

Beachten Sie, dass die Absicht von Abb. 2 speziell darin besteht, die Leistung in einem bestimmten dezentralen Szenario für verschiedene Übertragungssätze zu vergleichen. Beachten Sie, dass für alle dezentralen Modelle ein gemeinsamer Validierungssatz verwendet wurde und dieser Satz mit dem im Basistraining verwendeten identisch war. Der Validierungssatz wurde auf einem einzelnen Knoten platziert, wo schließlich alle dezentralen Modelle verschoben werden konnten, um über den Validierungssatz zu berichten.

In den Experimenten Dc-1–4 wurde als Übertragungssatz nur ein Datensatz auf einem der Knoten ausgewählt. Dies wird mit einem Szenario im Experiment Dc-m1 verglichen, bei dem ein theoretischer Übertragungssatz aus allen zentralisierten Daten besteht. Im Gegensatz dazu wird im Experiment Dc-m2 ein dezentraler Ansatz zur Wahrung der Privatsphäre durchgeführt, bei dem jedes endgültige Modell an jedem Knoten an jeden anderen Knoten gesendet wird, um die Daten jedes Knotens als Übertragungssatz zu destillieren und so kombinierte Daten als Übertragung zu verwenden gesetzt, ohne die privaten Daten von einem Knoten zu übertragen.

Abbildung 2 zeigt, dass die Leistung fast aller dezentralen KI-Modelle das Basisergebnis übertrifft. Selbst wenn der Übertragungssatz nur die Daten eines einzelnen Knotens umfasst, ähneln die Ergebnisse der Experimente Dc-1 bis Dc-4 immer noch dem Basisergebnis. Im Hinblick auf die Verwendung mehrerer Transfersätze zeigen beide Experimente Dc-m1 und Dc-m2 eine deutliche Verbesserung der Genauigkeit (um 9 % bzw. 11 %) im Vergleich zu den Basisergebnissen. Dies legt nahe, dass eine Kombinationsstrategie für den Transfersatz von Vorteil wäre. Tatsächlich übertrifft das für das Experiment Dc-m2 erstellte Modell die Leistung des Modells für Dc-m1, bei dem die Daten zentralisiert sind. Dies ist darauf zurückzuführen, dass Dc-m2 über Folgendes verfügt: (a) eine Durchlaufreihenfolge durch die Knoten (ein musterbasierter DAG-Ansatz); und (b) ein neuer Hyperparameter, der der Gesamtzahl der Epochen auf jedem Knoten entspricht und angepasst werden kann, um optimale Ergebnisse zu erzielen.

Da Experiment Dc-m2 empirisch als die robusteste und praktikabelste Methode zur Verwendung von Daten als Übertragungssatz angesehen wurde, wurde es in den folgenden Experimenten verwendet.

Um die Skalierbarkeit von DAITA zu testen, wurde ein Szenario mit 15 Knoten untersucht. Es werden zwei Arten von DAG-Topologien berücksichtigt, nämlich 1-Cluster (siehe Abb. 1b) und 3-Cluster (siehe Abb. 1c) mit gleichmäßigen Knotenverteilungen. Die dezentralen Modelle werden mithilfe dieser beiden Clustering-Anordnungen trainiert.

Wir haben speziell den Einfluss der Anzahl der Epochen an jedem Knoten auf die Leistung des dezentralen KI-Modells getestet. Für jede Topologie wurden die endgültigen dezentralen Modelle über 3 bis 20 Epochen trainiert, und die entsprechenden Genauigkeitsergebnisse werden als Dc-\(i\) e bezeichnet, wobei \(i\in \{\mathrm{3,5},\mathrm {8,10,15,20}\}\). Dc-3e bezeichnet beispielsweise den Ansatz, bei dem das endgültige dezentrale Modell einmal an jeden Knoten gesendet und dann lokal mit drei Epochen trainiert wird. Alle gemeldeten Ergebnisse beziehen sich auf das Testset. Der Begriff „Beste Validierung“ in Abb. 3 wird verwendet, um Ergebnisse von Modellen zu bezeichnen, die auf der Grundlage der besten ausgewogenen Genauigkeit des Validierungssatzes ausgewählt wurden. Der Begriff „Best on Test“ wird verwendet, um Ergebnisse zu bezeichnen, die aufgrund der besten ausgewogenen Genauigkeit des Testsatzes ausgewählt werden. Die „Best on Test“-Ergebnisse werden ausschließlich zur Beurteilung der besten Vorhersagefähigkeit des Modells gemeldet.

Vergleich von dezentralen Experimenten mit 15 Knoten, bei denen die Anzahl der Epochen auf Knotenebene für jeden Knoten geändert und verglichen wird. Für das gesamte Training auf Knotenebene von k Epochen vor der Übertragung auf benachbarte Knoten wird das Experiment mit Dc-ke bezeichnet. Ein Clustering-Szenario, bei dem 15 Knoten in 3 Cluster zu je 5 Knoten aufgeteilt werden, wird mit den Ergebnissen eines vollständigen Rings aus 15 Knoten verglichen.

Knotenclustering, auch als 3-Cluster-Szenario bezeichnet, wurde verwendet, um die Skalierbarkeit der dezentralen KI-Technik zu verbessern. Das dezentrale KI-Training wurde innerhalb jedes einzelnen Knotenclusters gleichzeitig durchgeführt, anschließend erfolgte das weitere Training zwischen den Clustern auf hierarchische Weise, wobei jeder Cluster einen einzelnen Knoten darstellt. Dieser Ansatz definiert die DAG, verbessert den Lastausgleich, reduziert die Anzahl der trainierten Generalist-Modelle, die zwischen Knoten übertragen werden müssen, und verbessert somit die Effizienz und Kosten der Datenübertragung sowie die gesamte Trainingszeit.

Die schlechte Leistung beim Knoten-Clustering ist in erster Linie darauf zurückzuführen, dass Cluster-weite generalistische Modelle die Daten jedes Knotens innerhalb eines bestimmten Clusters nur einmal aufrufen, wie in Abb. 3 für ein 3-Cluster-Szenario zu sehen ist. Auch wenn das endgültige dezentrale Modell \({\mathbb{M}}^{c}\) Zugriff auf alle Daten in allen Clustern hat, reicht ein einziger Besuch jedes Knotens nicht aus, um \({\mathbb{M}} angemessen zu trainieren }^{c}\). Die Datengröße des Knotens ist wichtig; Die in Abb. 3 gezeigten Ergebnisse zeigen jedoch, dass die Clusterkonfiguration ein wesentlicher Faktor ist, der zum Rückgang der Genauigkeit beiträgt. Da die Clusterbildung notwendig ist, um die Skalierbarkeit in einer realen Situation sicherzustellen, kann eine größere Anzahl von Clustern die Genauigkeit von \({\mathbb{M}}^{c}\) weiter verringern. Die folgenden Experimente werden bestätigen, dass, wenn \({\mathbb{M}}^{c}\) mehr als einmal zu jedem Knoten innerhalb von Clustern reist, seine Genauigkeit und Generalisierung auf ein Niveau ansteigen kann, das mit den Basisergebnissen vergleichbar ist.

Die Ergebnisse in Tabelle 2 zeigen, dass sich die endgültige Modellgenauigkeit verbessert, wenn \({\mathbb{M}}^{c}\) jeden Knoten mindestens dreimal besucht. Wichtig ist, dass die Genauigkeit von \({\mathbb{M}}^{c}\) die Ergebnisse der Basisgenauigkeit im Durchschnitt um etwa 3 % übertreffen kann. Die Szenarien in Tabelle 2 werden mit Dc-1e-5t und Dc-2e-5t bezeichnet, was bedeutet, dass \({\mathbb{M}}^{c}\) jeden Knoten fünfmal besucht und wie viele Epochen an jedem Knoten vorhanden sind 1 bzw. 2. Eine weitere Beobachtung, die in Abb. 3 nicht dargestellt ist, aber hier zu sehen ist, ist, dass die „Best on Validation“-Genauigkeiten pro Klasse der dezentralen KI-Modelle viel ausgewogener sind als die Basisergebnisse, was einer Verbesserung der Genauigkeit von mindestens 14 % entspricht für Klasse 0. Die dezentrale Trainingstechnik und die wissensbasierte Destillationsintegration haben in diesem Fall gezeigt, dass sie in gewissem Maße in der Lage sind, die unausgewogene Klassenverteilung zu berücksichtigen.

Es besteht ein Kompromiss zwischen den Netzwerkübertragungskosten und der Genauigkeit des endgültigen KI-Modells. Empirisch gesehen weist das endgültige Modell eine höhere Leistung auf, wenn ihm eine ausreichende Anzahl von Trainingsepochen gegeben wird, um aus den Daten an jedem Knoten zu lernen. Infolgedessen abstrahiert ein musterbasierter DAG-Ansatz mit einer einstellbaren Anzahl von Epochen vor der Übertragung des generalistischen Modells auf einen anderen Knoten effektiv das Problem der Optimierung der Netzwerkübertragungskosten im Vergleich zur Genauigkeit einer Hyperparametersuche und ermöglicht so die Angabe eines gewünschten Genauigkeitsschwellenwerts für ein gegebenes Problem unter Beibehaltung der Skalierbarkeit.

Betrachten Sie ein ausgearbeitetes Beispiel, bei dem für unseren dezentralen Trainingsansatz 5 Knoten in einem Ring angeordnet sind (siehe Abb. 1a), was zu einem Modell \({\mathbb{M}}^{c}\) führt. Betrachten Sie zum Vergleich eine 4-Worker- und 1-Master-Client-Server-Architektur für traditionelles verteiltes Training, was zu einem Modell \({\mathbb{M}}^{d}\) führt. Angenommen, jedes Modell wird für 100 Epochen mit einer Stapelgröße von 16 auf dem Datensatz von 4.500 Bildern trainiert.

Unter Verwendung unseres dezentralen Ansatzes schlagen wir vor, dass \({\mathbb{M}}^{c}\) mit Daten von 5 Knoten gleicher Größe (900 Bilder) unter Verwendung von 5-Lehrer-Modellen und Wissensdestillation trainiert wird. Beim Training wird davon ausgegangen, dass \({\mathbb{M}}^{\mathrm{c}}\) zusammen mit den 5 Teacher-Modellen zu jedem Knoten verschoben wird, und es wird für 2 Epochen unter Verwendung lokaler Daten trainiert, bevor es dorthin verschoben wird der nächste Knoten. Da jedes Modell in den lokalen Speicher des Knotens übertragen werden muss, muss jedes Mal eine Modellgewichtsübertragungsoperation durchgeführt werden. Wenn das Modell \({\mathbb{M}}^{\mathrm{c}}\) die gesamte 5-Knoten-Topologie 10 Runden lang durchläuft, trainiert jedes Teacher-Modell auf jedem Knoten für 2 Epochen * 5 Knoten (jedes Teacher-Modell). Züge auf jedem Knoten) * 10 Runden = 100 Gesamtepochen. Dies erfordert 5 Knoten * 10 Runden * (5 Lehrermodelle + 1 endgültiges \({\mathbb{M}}^{\mathrm{c}}\)-Modell) = 300 Modellgewichtsübertragungsoperationen.

Im Fall eines vollständig verteilten Trainings gehen wir davon aus, dass \({\mathbb{M}}^{\mathrm{d}}\) auf 1.125 Bildern trainiert, die jedem der 4 Worker-Knoten zugewiesen sind, wobei der Master-Knoten keine Daten hat, und fungiert als Orchestrator. Für einen verteilten Trainingslauf würde eine Epoche 1125/16 ≈ 70,3 Batches der Größe 16 enthalten. Die Anzahl der für einen einzelnen Batch übertragenen Modellgewichte beträgt 4 Arbeiter * 2 Mal (hin und her) = 8 Transfervorgänge pro Batch zwischen 4 Worker und der 1 Masterknoten. Wenn davon ausgegangen wird, dass \({\mathbb{M}}^{\mathrm{d}}\) mit 100 Epochen trainiert wird, beträgt die Gesamtzahl der Übertragungen des Netzwerkgewichts 70,3 Batches * 8 Übertragungen pro Batch Operationen * 100 Epochen = 56.240 Modellgewichtsübertragungsoperationen. Durch die Verwendung des dezentralen Trainings verringert sich die durchschnittliche Anzahl der Übertragungen um das 187,5-fache, während die Genauigkeit auf einem vergleichbaren Niveau gehalten wird, was einer Reduzierung von 56.000 auf 300 Übertragungen entspricht. Die Anzahl der Datenübertragungen skaliert linear mit der Anzahl der beteiligten Knoten. Der vorgeschlagene wissensbasierte dezentrale Trainingsalgorithmus trägt dazu bei, die Menge der Datenübertragung zu optimieren und letztendlich die Datenübertragungskosten zu minimieren, insbesondere wenn das dezentrale KI-Training mit vielen Knoten skaliert wird.

Die Ergebnisse aus Abbildung 3 (1 Cluster) zeigen, dass die Genauigkeit der dezentralen Modelle die Basislinie übertreffen kann, insbesondere wenn das endgültige Modell mit 5 oder 8 Epochen an jedem Knoten trainiert wird, was einer Verbesserung der Genauigkeit um bis zu 15 % entspricht. Eine interessante Beobachtung ist, dass die Genauigkeit des Testsatzes schlechter wird als die Basisgenauigkeit, wenn das endgültige Modell länger an jedem Knoten verbleibt (dh eine größere Anzahl von Epochen). Dies liegt daran, dass das dezentrale Modell dazu neigt, die Daten des lokalen Knotens zu überpassen und „vergisst“, was es in zuvor durchlaufenen Knoten gelernt hat.

Die Ergebnisse aus Abbildung 3 (3-Cluster) zeigen, dass die Genauigkeit der dezentralen KI-Modelle im Vergleich zum entsprechenden dezentralen KI-Modell mit der 1-Cluster-Einstellung um etwa 10 % abnahm. Die endgültigen Modelle sind auch weniger genau als die Basisergebnisse. Wie bei 1-Cluster verschlechtert sich die Genauigkeit des Testsatzes, wenn das endgültige Modell mit mehr Epochen an jedem Knoten trainiert wird, obwohl die erwarteten Netzwerkübertragungskosten sinken.

Dennoch ist die schlechte Leistung dieser Konfiguration zu erwarten und misst effektiv, inwieweit sich die Clusterbildung von Knoten auf die Generalisierbarkeit und Leistung des endgültigen dezentralen Modells auswirkt. Im Abschnitt „Methoden“ beschreiben wir eine Technik, um schlechte Leistung beim Knoten-Clustering zu beheben, indem wir die Datenübertragungskosten im Vergleich zur Modellgenauigkeit optimieren.

Bei der Betrachtung eines medizinischen Datensatzes konzentrierten wir uns auf das Problem der Bewertung der Lebensfähigkeit von Embryonen im IVF-Bereich, indem wir einen bestehenden Algorithmus namens Life Whisperer Viability verwendeten – eine kommerziell erhältliche ML-Anwendung zur Embryonenselektion7. Ein lebensfähiger Embryo ist definiert als ein Embryo, der nach dem Transfer zu einer klinischen Schwangerschaft bei der IVF-Patientin führt, und ein nicht lebensfähiger Embryo gilt als ein Embryo, der nicht zu einer klinischen Schwangerschaft führt. Bilder von Embryonen wurden in mehreren Kliniken gesammelt. Die Beschreibung dieses medizinischen Datensatzes ist in Tabelle 4 und Abb. 6 im Abschnitt „Methoden“ unter „Zusammensetzung des medizinischen Datensatzes“ dargestellt.

Abbildung 4 zeigt den Arbeitsablauf oder den Prozess der Vorhersage oder Identifizierung eines bestimmten Input-Embryos, der lebensfähig oder nicht lebensfähig ist. Der Prozess lässt sich kurz wie folgt beschreiben. Es gibt Vorverarbeitungs- und Klassifizierungsstufen. In der Vorverarbeitungsphase wurde das trainierte Erkennungsmodell verwendet, um den Eingabeembryo zu erkennen (a), und die Ergebnisse werden als Begrenzungsrahmen (b) dargestellt. Die Bilder wurden dann zugeschnitten, bevor sie in ein anderes Segmentierungsmodell eingespeist wurden, das mit der Embryo-Image-Maske (c) trainiert wurde. Letztendlich erzeugt der Prozess zwei weitere Bilder (Zona pellucida (Zona)-segmentierte und intrazonale Hohlraum (IZC)-segmentierte Bilder). zusätzlich zum zugeschnittenen (Voll-)Bild (d). In der Klassifizierungsphase wurden diese drei Arten von Bildern als Eingabe für das Klassifizierungsmodell verwendet, das als KI-Modell bezeichnet wird (dh ein \({\mathbb{M}}\)-Modell im dezentralen Training). Dieses Klassifikationsmodell würde die zentrale Rolle bei der Vorhersage der lebensfähigen oder nicht lebensfähigen Ergebnisse der eingegebenen Embryobilder spielen.

Der Arbeitsablauf zur Vorhersage/Identifizierung der Lebensfähigkeit eines Embryobildes.

Es wurde eine 5-Knoten-1-Cluster-Konfiguration verwendet, wobei jeder Knoten Daten von verschiedenen Kliniken enthielt. Es wurde eine Reihe von Modelltrainingsläufen mit verschiedenen Optionen von Modellarchitekturen durchgeführt, wobei Parameter, bei denen die Variablen der 3-Level-Verlustfunktion als Ergänzung zu den einstellbaren Hyperparametern des KI-Modells betrachtet wurden (siehe Ergänzende Informationen S1). Für das zentralisierte Training können die beiden Gewichtungsebenen Stichproben- und Klassengewichtung eingesetzt werden, während für das dezentrale Modell alle dreistufigen Gewichtungen anwendbar wären.

Die besten KI-Modelle wurden auf der Grundlage des besten Log-Loss-Werts im Validierungssatz ausgewählt, der eine wichtige Auswahlmetrik darstellt, die die Generalisierbarkeit für medizinische Datensätze robuster angibt als die ausgewogene Genauigkeit.

Die Ergebnisse der bereinigten und verrauschten Testsätze wurden dann erhalten und zwischen den zentralen und dezentralen KI-Grundmodellen (\({\mathbb{M}}^{c}\)) verglichen.

Tabelle 3 zeigt die Genauigkeit pro Klasse und die Gesamtgenauigkeit der Basis- und dezentralen KI-Modelle für den Embryo-Datensatz. Ihre Ergebnisse sind sehr vergleichbar mit leichten Abweichungen zwischen den Genauigkeiten pro Klasse. \({\mathbb{M}}^{c}\) ergab leicht bessere Ergebnisse in Bezug auf die Gesamtgenauigkeit, mit einer etwa 2 % höheren Vorhersagegenauigkeit für lebensfähige Embryonen im Vergleich zu den Basisergebnissen.

Abbildung 5 zeigt die Ergebnisse des \({\mathbb{M}}^{c}\)-Modells für die Daten einzelner klinischer Zentren, zugeordnet im bereinigten Testsatz (links) und im verrauschten Blindtestsatz (rechts). ). Die Genauigkeiten fallen in einem Bereich von 56,67 % bis 87,77 % für Klinikdaten im Testsatz und von 52,55 % bis 70,63 % für Klinikdaten im lauten Blindtestsatz. Ein klinischer Datensatz (MISA), der beim bereinigten Datensatz die schlechteste Leistung erbrachte, ist der kleinste Satz insgesamt und daher ein nicht repräsentativer Datensatz (der 3 % des Testsatzes ausmacht). Dennoch sind die Genauigkeiten zwischen verschiedenen Kliniken insgesamt recht konsistent.

Die Genauigkeitsleistung des dezentralen Modells für einzelne Klinikdaten im bereinigten Testsatz (linkes Diagramm) und im verrauschten Blindtestsatz (rechtes Diagramm).

Das Training verallgemeinerbarer, unvoreingenommener KI-Modelle unter Verwendung unterschiedlicher medizinischer Datensätze aus der realen Welt, die verteilt, privat und von schlechter Qualität sind, stellt erhebliche Herausforderungen in Bezug auf Genauigkeit, Kosten und Skalierbarkeit dar, insbesondere in stark regulierten Märkten wie dem Gesundheitswesen.

Die DAITA-Implementierung beinhaltet die Wissensdestillation und ermöglicht die Durchführung eines skalierbaren Modelltrainings zu deutlich geringeren Kosten im Vergleich zu verteiltem Training, da es ohne den Netzwerkverkehr und die Serverkosten möglich ist, die mit einem stapelweisen Gradientenerfassungsverfahren verbunden sind. Darüber hinaus kann DAITA in einer musterbasierten oder DAG-Struktur organisiert werden, was sich für Automatisierung und Kosten-/Genauigkeitsoptimierung eignet.

Überraschenderweise kann die endgültige Leistung des Modells je nach gewählter Konfiguration sogar die Basisgenauigkeit überschreiten, die mit dem Training auf einem zentralisierten Datensatz auf herkömmliche Weise verbunden ist. Diese Genauigkeitssteigerung bietet eine größere Flexibilität und Auswahl bei Übergangsmodellen von Knoten zu Knoten, und Hyperparameter können so abgestimmt werden, dass der dezentrale Trainingsprozess als Optimierungsproblem behandelt werden kann. In einer Fallstudie zu nichtmedizinischen Bildern wurde bei einem binären Klassifizierungsproblem mit einem bekannten Grad an Fehlkennzeichnung gezeigt, dass die Leistung des KI-Modells bis zu 11 % über der Basisgenauigkeit liegt.

Die gemeldete Leistungssteigerung bei verrauschten Datensätzen lässt sich auf die zusätzliche stabilisierende Fähigkeit föderierter Lernmethoden zurückführen, wie z. B. Destillationstraining über Daten hinweg, die auf mehrere Knoten aufgeteilt sind. Jedes Student-Modell, das mit Eingaben trainiert wird, die von mehreren Teacher-Modellen über jeden Knoten hinweg destilliert wurden, kombiniert das Wissen aus individuellen Verzerrungen, die von jedem Knoten abgeleitet werden, um das Modelltraining zu stabilisieren, und erhält so natürlich einen Vorteil gegenüber dem einfachen Training eines einzelnen Modells auf einem zentralisierten Datensatz .

Es wurde ein medizinischer Bilddatensatz untersucht, der sich auf das binäre Klassifizierungsproblem der Lebensfähigkeit von Embryonen konzentriert. Berücksichtigt wurden eine Reihe separater Kliniken mit unterschiedlichen Arbeitspraktiken sowie unterschiedlichen Rauschpegeln und Bildqualitäten, die viele der in einem realen Szenario auftretenden Herausforderungen abdeckten, die normalerweise die Erstellung eines robusten KI-Modells verhindern würden. Durch die Übernahme einer DAITA-Strategie und die Optimierung für die Gesamtzahl der Epochen auf Knotenebene mit einer dreistufigen Gewichtung – Stichproben-, Klassen- und Knotenebene – wurde eine Leistungssteigerung von bis zu 2 % im Vergleich zur zentralisierten Basislinie beobachtet.

Ein Vergleich mit hochmodernen Deep-Learning-Ergebnissen in der medizinischen Bildgebung, einschließlich Prostata-MRT-Segmentierung21 und Brustmammographie22, zeigt, dass ein konsistenter Trend-Verbundansatz die Leistung von Modellen, die nur an ihrem lokalen Knoten trainiert werden, erheblich verbessern und Ergebnisse melden kann vergleichbar mit dem eines zentralisierten Datensatzes39.

Beachten Sie, dass die Verwendung eines bereinigten Datensatzes zwar zu einem minimalen Unterschied in der Genauigkeit zwischen dem dezentralen Training und der Basislinie führte, die Verwendung eines verrauschten Datensatzes jedoch zu einem viel größeren Unterschied zwischen beiden führte. Wir haben festgestellt, dass DAITA, wenn es mit einer neuartigen Verlustfunktion (siehe Zusatzinformation S1) und mehreren Teacher-Modellen für die Destillation ausgestattet ist, zu einer ähnlichen Genauigkeitssteigerung führt wie Datenbereinigungstechniken39,40.

Es kann auch eine weitere Optimierungsstrategie angewendet werden, bei der die Gesamtzahl der Modellübertragungen pro Epoche auf Knotenebene reduziert werden kann, indem entweder der mit der Anzahl der Epochen auf Knotenebene verbundene Hyperparameter reduziert wird oder indem die DAG der Knoten unterschiedlich behandelt wird Clustering und nur die Übertragung repräsentativer Modelle zwischen den Clustern und nicht zwischen den Knoten. Durch Clustering wird die Gesamtzahl der erforderlichen Modellübertragungen drastisch reduziert, allerdings auf Kosten einer Genauigkeitsverbesserung gegenüber dem Basisergebnis.

Wir stellen fest, dass die Bewältigung von Datenschutzproblemen und lokalisierten Datensätzen immer wichtiger werden, da ML-Techniken auf immer komplexere reale Datensätze im Gesundheitswesen und in anderen Branchen ausgeweitet werden, die sensible Daten beinhalten, mit der Anforderung, dass sie auf verschiedene Datensätze mit unterschiedlichen Verteilungen korrekt verallgemeinert werden müssen , ohne die Privatsphäre zu verletzen.

Beim Training mit verteilten Datensätzen muss eine Strategie gewählt werden, wie die Arbeitslast auf die Rechenknoten aufgeteilt wird. Bei einer Methode, der Datenparallelität, wird der Datensatz in Partitionen aufgeteilt. Zwischen zwei Formen der Datenparallelität, nämlich vollständig verteiltem Training und „Pattern“ (oder DAG-basiertem Training), wie in der Zusatzinformation S1 beschrieben, zeigen wir, dass die Pattern-Methode eine überlegene Skalierbarkeit und Kosteneffizienz aufweist15,16,17. Die Kombination der Pattern-Methode mit der Destillation kann die Effizienz des Trainingsalgorithmus weiter verbessern, sodass ein ML-Ingenieur eine Lösung entweder hinsichtlich der Kosten oder der Genauigkeit optimieren kann.

In diesem Artikel betrachten wir ein N-Knoten-Ringproblem, bei dem jeder der n Knoten einzeln unter einem Small-Data-Problem leidet. Wir trainieren erfolgreich ein leistungsstarkes, verallgemeinerbares Modell auf den n Knoten. Darüber hinaus untersuchen wir einen neuartigen Clustering-Algorithmus, mit dem die Kosten für die Modellübertragung (die quadratisch mit zunehmender Knotenanzahl skalieren) weiter reduziert werden können, indem die Anzahl der Knoten, auf die Teacher-Modelle übertragen werden, auf die Anzahl der Knoten innerhalb eines Clusters beschränkt wird. Diese alternative Topologie vereinfacht den n-Knoten-Ring in m separate Ringcluster, wobei jeder Ring bei Bedarf eine unterschiedliche Anzahl von Knoten enthalten kann und jeder Cluster zur Erstellung eines repräsentativen Modells verwendet wird. Ab diesem Zeitpunkt werden die Cluster praktisch als Knoten behandelt. Im Fall eines 15-Knoten-Rings mit 3 Clustern mit jeweils 5 Knoten begrenzt dies beispielsweise die gesamten Modellübertragungen von \({15}^{2}=225\) auf \(3\times {5 }^{2}+{3}^{2}=84\) Übertragungen pro Schaltung der Knoten. Weitere Informationen finden Sie in den ergänzenden Informationen online S1.

Die Destillation ist eine leistungsstarke Methode, die ein trainiertes Lehrer-/Spezialistenmodell verwendet, um das Training eines Schüler-/Generalistenmodells zu leiten, ohne dass direkt teure Modellgewichtungsaktualisierungen für jede Charge über Knoten hinweg übertragen werden müssen34. Dies wird dadurch erreicht, dass ein Teacher-Modell seine vorhergesagten Ergebnisse (Wahrscheinlichkeiten und Verluste) berechnen kann, während das Student-Modell gleichzeitig auf einem Knoten trainiert, und zwar auf dem eigenen lokalen Datensatz des Knotens (ein sogenannter Übertragungssatz) und einen Beitrag dazu leistet Verlustfunktion des Student-Modells während des Trainings. Die Teacher-Ausgaben (oder Soft Labels) werden mit den Ausgaben des Student-Modells über eine Divergenzfunktion wie die Kullback-Leibler (KL)-Divergenz36 verglichen, die den relativen „Abstand“ zwischen den Ausgabeverteilungen der beiden Modelle vergleicht und den Verlust erhöht Funktion, die zum Trainieren verwendet wird, wie z. B. der Standard-Kreuzentropieverlust. Zur Unterstützung eines Student-Modells können gleichzeitig mehrere Teacher-Modelle mit unterschiedlichen Gewichtungen verwendet werden, und sie müssen nicht die gleiche Art von neuronaler Netzwerkarchitektur aufweisen, was es zu einem leistungsstarken und allgemeinen Ansatz macht. Weitere Einzelheiten zu den Besonderheiten der verwendeten Verlustfunktionen und zum Pseudocode für den Trainingsalgorithmus finden Sie in den Zusatzinformationen S1.

Daher sind wir in der Lage, das Problem des dezentralen Trainings einfach als Optimierungsproblem darzustellen, bei dem wir nun zusätzliche Hyperparameter für die Schüler-Lehrer-Gewichtung einbeziehen (d. h. den Temperatur- und Alpha-Parameter, der steuert, wie stark das Training auf die Eingabe des Lehrermodells ausgerichtet ist). das Student-Modelltraining)36 und die Muster-/DAG-Parameter wie die Anzahl der Epochen, die jeder Student verweilen muss, bevor er auf einen anderen Knoten übertragen wird, und wie viele „Runden“ über alle Knoten hinweg berechnet werden sollen. Die Leistung eines endgültigen destillierten Modells kann anhand eines bestimmten Übertragungsdatensatzes bewertet werden.

Als letzten Schritt betrachten wir einen abschließenden „Abschluss“-Prozess, der eine überlegene Generalisierbarkeit aufweist. Nach dem parallelen Training von n Student-Modellen über eine Topologie hinweg (für n Knoten) werden die endgültigen n Modelle an jedem Knoten zusammen destilliert, wobei der lokale Datensatz jedes Knotens zuvor für k Epochen (auf Knotenebene) als Transferdatensatz behandelt wird Übertragen aller n Modelle auf einen benachbarten Knoten, wobei mindestens ein vollständiger Zyklus der Knoten wiederholt wird. Dieser letzte Prozess ist netzwerkübertragungsintensiver, behandelt jedoch im Wesentlichen den gesamten verteilten Datensatz als Übertragungsdatensatz, anstatt den Datensatz eines einzelnen Knotens als Übertragungsdatensatz zu verwenden, wodurch eine ausgewogenere Leistung erzielt wird.

Zu den Modellarchitekturen, die in den in dieser Arbeit vorgestellten Experimenten verwendet werden, gehören ResNet1837, ResNet50 und DenseNet12138, wobei das vorab trainierte Modell den ImageNet-Datensatz verwendet. Die Netzwerkparameter werden ausgewählt, indem mehrere Läufe mit dem bereinigten Basisdatensatz ausgeführt werden. Die optimalen Werte für Hyperparameter wie Lernrate, Regularisierungsmethoden, Gewichtsabfall, Verlustfunktion oder Chargengröße usw. wurden identifiziert und dann in allen Experimenten für das dezentrale Training verwendet.

Für jede oben betrachtete Architektur wurden die Netzwerkgewichte im Merkmalsraum aus einem auf ImageNet vorab trainierten Modus erhalten, wobei eine Netzwerkoperation durchgeführt wurde, um eine vollständig verbundene Schicht mit einer binären Ausgabe (Katze/Hund oder nicht lebensfähig/lebensfähig) hinzuzufügen , für die nichtmedizinischen bzw. medizinischen Datensätze). Als endgültige Ausgabe wird eine Softmax-Ebene hinzugefügt. Das Training der lokalen Modelle erfolgte mithilfe der PyTorch-Bibliothek (Version 1.3.1 einschließlich Torchvision Version 0.4.2; Adam Paszke, Sam Gross, Soumith Chintala und Gregory Chanan; 1601 Willow Rd, Menlo Park, CA 94025, USA) mit CUDA Unterstützung (Version 9; Nvidia Corporation; 2788 San Tomas Expy, Santa Clara, CA 95051, USA), unter Verwendung von GPU-Instanzen über Amazon Web Services (AWS).

Drei verschiedene DAG-Topologien, nämlich (1) 5-Knoten in 1-Cluster, (2) 15-Knoten in 1-Cluster und (3) 15-Knoten in 3-Cluster (jeweils 5 Knoten), wie ausführlicher beschrieben in Ergänzende Informationen, Abschnitt S1, wurden eingesetzt. Für nicht-medizinische Datensätze wird ein separater Übertragungsdatensatz von 2000 bereinigten Bildern mit gleichen Klassengrößen verwendet, der sich von allen Trainings-, Validierungs- und Testsätzen unterscheidet und für dezentrale Trainingsverfahren verwendet wird. Wenn in den Topologien (2) und (3) mehr Knoten beteiligt sind, wäre die Anzahl der jedem Knoten zugewiesenen Bilder geringer (240 Bilder pro Knoten in der 15-Knoten-Einstellung im Vergleich zu 720 Bildern pro Knoten in der 5-Knoten-Einstellung).

Der für die folgenden Experimente verwendete Datensatz umfasst Bilder von Katzen und Hunden, die aus ImageNet35 stammen, mit der Absicht, ein binäres Klassifizierungsproblem als bekanntes, lösbares Problem zu verwenden, um die neuartige dezentrale KI-Trainingstechnik zu testen. 4500 Bilder (2250 Katzen und 2250 Hunde) wurden für Trainings-/Validierungssätze verwendet, während 4501 Bilder (2253 Katzen und 2248 Hunde) als Testsatz verwendet wurden. Das Training/die Validierung wurde gemischt und im Verhältnis 80/20 aufgeteilt, mit 3600 Bildern im Trainingssatz und 900 Bildern im Validierungssatz. Es wird davon ausgegangen, dass der Validierungssatz von verschiedenen Knoten gemeinsam genutzt werden kann, andernfalls wird davon ausgegangen, dass er von den Daten aller Knoten getrennt bleibt. Diese Originaldatensätze gelten als bereinigt, da keine Bilder von Katzen mit der Bezeichnung „Hund“ vorhanden sind und umgekehrt. Ohne die Einführung von Rauschen in die Trainings- und Validierungsdatensätze würde ein trainiertes Deep-AI-Modell die maximale Genauigkeit des Testsatzes erreichen. Die verrauschten Datensätze würden auch dazu beitragen, die Problemkomplexität zu nutzen und die Unterschiede zwischen dem neuen dezentralen Training und einem konventionelleren zentralisierten Trainingssystem aufzuzeigen. Verschiedene Modelle wurden auf ihre Fähigkeit getestet, bestimmte Lärmpegel zu bewältigen und zu überwinden. Die verrauschten Datensätze wurden erstellt, indem 10 % der „Hund“-Bezeichnungen in „Katze“-Bezeichnungen (Klasse 0) und 50 % der „Katze“-Bezeichnungen in „Hund“-Bezeichnungen (Klasse 1) umgewandelt wurden. Dies führt dazu, dass der Lärmanteil in den Klassen „Katze“ und „Hund“ jeweils 17 % und 36 % beträgt. Die unterschiedlichen Lärmpegel für jede Klasse waren beabsichtigt und führten zu einer unausgewogenen Klassenverteilung und ungleichen Lärmpegeln zwischen zwei Klassen. Der Testsatz wurde sauber gehalten, um die Leistung verschiedener KI-Modelle zuverlässig vergleichen zu können.

Im Szenario mit 5 Knoten in 1 Cluster wird der Trainingsdatensatz gleichmäßig auf die einzelnen Knoten aufgeteilt (720 Trainingsbilder pro Knoten). Die sauberen Daten an jedem Knoten enthalten 360 der Klassen „Katze“ oder „Hund“. Wenn Rauschen eingeführt wird, verfügt jeder Knoten über 216 Bilder von Katzen und 504 Bilder von Hunden. Im 15-Knoten-Szenario stehen an jedem Knoten 240 Bilder zur Verfügung, wobei 72 Bilder als Katze und 168 Bilder als Hund für den Fall verrauschter Daten gekennzeichnet sind. Die Anzahl der von allen Knoten summierten Bilder beträgt weiterhin 3600. Die zentralisierten Modelle wurden auf dem zentralisierten Satz von 3600 Trainingsbildern und 900 Validierungsbildern (sauber oder verrauscht) mit mehreren Hyperparametern und Modellarchitektureinstellungen trainiert und validiert. Das beste Modell wurde ausgewählt und bildete eine Grundlage für den späteren Vergleich mit neuen dezentralen Modellergebnissen.

Anschließend wurde die Wahl des Übertragungssatzes anhand der Daten eines Knotens als Übertragungssatz oder anhand einer Kombination der Daten mehrerer Knoten untersucht. Die Auswirkung der Trainingsdauer (Anzahl der Epochen) eines Student-Modells an jedem Knoten wurde durch Variation der Anzahl der Epochen untersucht, was die Bestimmung praktischer Grenzen für die Gesamtzahl der zu berücksichtigenden „Epochen“ (auf Knotenebene) ermöglicht Abschluss des Trainingsprozesses über mehrere Knoten hinweg mithilfe von Destillationstraining.

In einem anderen Szenario wurde der 15-Knoten mithilfe der oben beschriebenen Clustering-Methode in drei gleiche Cluster aufgeteilt. Der Kompromiss zwischen Datenübertragungskosten (Netzwerkkosten) und Modellgenauigkeit wurde untersucht und lieferte einen Leitfaden zur Optimierung des dezentralen Trainings für Experimente in der realen Welt.

Tabelle 4 zeigt die Datenzuordnung zu jedem Knoten aus einem multizentrischen klinischen Datensatz.

Die Datengrößen variieren zwischen 167 und 587 Bildern über verschiedene Knoten hinweg. Die Gesamtzahl der Bilder für den Trainingssatz beträgt 2193, wobei ein Validierungssatz zufällig gezogen wurde und 20 % des ursprünglichen Trainingssatzes ausmacht. Wenn ein zentralisiertes Modell bereitgestellt wird, werden alle diese knotenbezogenen Daten unabhängig von den Klinikinformationen gemeinsam auf einem einzigen Server abgelegt. Das mithilfe dieses zentralisierten Datensatzes trainierte und anhand des Validierungssatzes validierte Modell bildet die Basisergebnisse, die zum Vergleich mit dem dezentralen Modell verwendet werden, das anhand klinischer 5-Knoten-Daten trainiert wurde.

Das Noisy Blind Test Set enthält inhärente Fehler in der Non-Viable-Klasse. Embryonen, die als nicht lebensfähig gekennzeichnet sind, können lebensfähig sein, aber äußere Faktoren der Patientin (z. B. schwere Endometriose) führen dazu, dass die Patientin nicht schwanger wird. Der Noisy Blind-Datensatz besteht aus 1198 Originalbildern, die von denselben Kliniken gesammelt wurden, die den vier oben genannten Knoten zugeordnet sind, nämlich FANZ, IRH, OVA und MISA (dies ist eine Kombination kleinerer Datensätze von zwei Kliniken) und von fünf anderen nicht sichtbaren Kliniken, einschließlich Alpha Fertility (Alpha), Flinders Fertility Adelaide (Flinders), Institute for Reproductive Health (IRH), Oregon Reproductive Medicine (ORM), Safe Fertility und Washington University in St. Louis (Washington). Daher trägt Node3 (REP-Klinik) nur zum Trainingssatz bei und der laute Blindtestsatz enthält Vertreter von insgesamt 9 Kliniken. Der klinisch realistische (wenn auch verrauschte) Blindtestsatz ermöglichte es uns, die Leistung der KI-Modelle (Genauigkeit und Generalisierbarkeit) innerhalb und zwischen Kliniken praktisch zu bewerten.

Außerdem wurde mithilfe einer neuartigen Datenbereinigungsmethode (UDC)41 aus dem verrauschten Blindtestsatz ein sauberer Testsatz erstellt. Der saubere Testsatz umfasst 913 Bilder, in denen die lebensfähigen Embryonen fast die gleichen wie im ursprünglichen verrauschten Datensatz bleiben, während etwa die Hälfte der nicht lebensfähigen Embryonen als falsch gekennzeichnet identifiziert und entfernt wurden. Der bereinigte Testdatensatz bietet eine unvoreingenommene Bewertung der Leistung des KI-Modells.

Abbildung 6 zeigt die Datengrößen der Kliniken in Prozent. Das Kreisdiagramm auf der linken Seite stellt den Trainingsdatensatz mit 5-Knoten-Zuordnung dar, die Diagramme in der Mitte und auf der rechten Seite stellen die klinischen Datenverteilungen für den bereinigten Testsatz bzw. den verrauschten Blindtestsatz dar. Generell unterscheiden sich die von verschiedenen Kliniken bereitgestellten Bilddaten in der Bildgröße/Auflösung sowie im Kameratyp und der Fokuseinstellung. Die Testsätze sind hinsichtlich der Anzahl der beteiligten Kliniken breiter und enthalten weitgehend ungleich große Datensätze, die von diesen klinischen Zentren bereitgestellt werden. Diese Vielfalt würde einen Klassifikator im Hinblick auf die Generalisierbarkeit über die Daten verschiedener Kliniken hinweg vor erhebliche Herausforderungen stellen.

Die Datengröße der Kliniken wird in Prozent angezeigt. Trainingsdatensatz (links) mit Klinikdaten, die 5 Knoten zugeordnet sind, bereinigter Testsatz (Mitte) und verrauschter Blindtestsatz (rechts).

Aufgrund des retrospektiven Charakters der Analysen und der Anonymisierung aller Daten war diese Studie von der ethischen Prüfung und Genehmigung sowie von der Anforderung einer Einwilligung nach Aufklärung ausgenommen. Die Ausnahme wurde vom Ausschuss Nr. 6467 des Sterling Institutional Review Board (Sterling Independent Services, Inc.) für die Protokoll-ID LW-C-001A bestätigt. Diese Studie wurde gemäß den Richtlinien der Deklaration von Helsinki von 1975 in der jeweils gültigen Fassung durchgeführt.

Datensätze, die während der aktuellen Studie erstellt wurden, sind auf begründete Anfrage beim jeweiligen Autor erhältlich. Nichtmedizinische Datensätze sind öffentlich verfügbar. Medizinische Datensätze sind aus Datenschutzgründen nicht öffentlich zugänglich.

Esteva, A. et al. Ein Leitfaden für Deep Learning im Gesundheitswesen. Nat. Med. 25, 24–29 (2019).

Artikel CAS Google Scholar

Cahan, EM, Hernandez-Boussard, T., Thadaney-Israni, S. & Rubin, DL Die Daten vor den Algorithmus stellen in Big Data für die personalisierte Gesundheitsversorgung. NPJ-Ziffer. Med. 2, 78 (2019).

Fitzgerald, RC Big Data ist für die Früherkennung von Krebs von entscheidender Bedeutung. Nat. Med. 26, 19–20 (2020).

Artikel CAS Google Scholar

Ngiam, KY & Khor, W. Big Data und maschinelle Lernalgorithmen für die Gesundheitsversorgung. Lancet Oncol. 20(5), e262–e273 (2019).

Artikel Google Scholar

McCoy, LG, Banja, JD, Ghassemi, M. & Celi, LA Sicherstellen, dass maschinelles Lernen im Gesundheitswesen für alle funktioniert. BMJ Health Care Inform., 27(3) (2020).

Zou, J. & Schiebinger, L. Sicherstellen, dass biomedizinische KI verschiedenen Bevölkerungsgruppen zugute kommt. EBioMedicine 67, 103358 (2021).

Artikel Google Scholar

VerMilyea, M. et al. Entwicklung eines auf künstlicher Intelligenz basierenden Bewertungsmodells zur Vorhersage der Lebensfähigkeit von Embryonen anhand statischer Bilder, die während der IVF durch optische Lichtmikroskopie aufgenommen wurden. Summen. Reproduktion. 35(4), 770–784 (2020).

Artikel CAS Google Scholar

Ng, D., Lan, Quant. Bildgebung Med. Surg. 11(2), 852–857 (2021).

Artikel Google Scholar

McGraw, D. & Mandl, KD Datenschutz zur Förderung der Nutzung gesundheitsrelevanter digitaler Daten in einem lernenden Gesundheitssystem. NPJ-Ziffer. Med. 4, 2 (2021).

Bradford, L., Aboy, M. & Liddell, K., Internationale Übermittlung von Gesundheitsdaten zwischen der EU und den USA: ein sektorspezifischer Ansatz für die USA, um ein „angemessenes“ Schutzniveau sicherzustellen. J. Law Biosci. 7(1) (2020).

Just, BH et al., „Warum der Patientenabgleich eine Herausforderung darstellt: Forschung zu Datendiskrepanzen im Master-Patientenindex (MPI) in wichtigen Identifizierungsfeldern. Perspect. Health Inf. Manag. 13, Frühjahr (2016).

Zarour, M. et al. Gewährleistung der Datenintegrität von Gesundheitsinformationen im Zeitalter der digitalen Gesundheit. Gesundheitc. Technol. Lette. 8(3), 66–77 (2021).

Artikel Google Scholar

Ehsani-Moghaddam, B., Martin, K. & Queenan, JA Datenqualität im Gesundheitswesen: Ein Bericht über praktische Erfahrungen mit den Daten des kanadischen Sentinel-Überwachungsnetzwerks für die Primärversorgung. Gesundheitsinf. Geschäftsführer J. 50(1/2), 88–92 (2021).

Google Scholar

McMahan, HB, Moore, E., Ramage, D., Hampson, S. & Aguera y Arcas, B. Kommunikationseffizientes Lernen tiefer Netzwerke aus dezentralen Daten. In Proceedings of the 20th International Conference on Artificial Intelligence and Statistics, 1273–1282 (2017).

Bonawitz, K., et al. Auf dem Weg zu föderiertem Lernen im großen Maßstab: Systemdesign. In Proceedings der 2. SysML-Konferenz (2019).

Kairouz, H., et al. Fortschritte und offene Probleme beim föderierten Lernen. Grundlagen und Trends®. Mach. Lernen. 14(1) (2021).

Lim, WYB et al. Föderiertes Lernen in mobilen Edge-Netzwerken: Eine umfassende Umfrage. IEEE-Komm. Überleben. Tutor. 22(3), 2031–2063 (2020).

Artikel Google Scholar

Dayan, I. et al. Föderiertes Lernen zur Vorhersage klinischer Ergebnisse bei Patienten mit COVID-19. Nat. Med. 27, 1735–1743 (2021).

Artikel CAS Google Scholar

Hallock, H., Marshall, SE, 't Hoen, PAC, Nygård, JF, Hoorne, B., Fox, C., Alagaratnam, S. Föderierte Netzwerke für die verteilte Analyse von Gesundheitsdaten. Vorderseite. Gesundheitswesen. 9, 712569 (2021).

Brisimi, TS et al. Föderiertes Lernen von Vorhersagemodellen aus föderierten elektronischen Gesundheitsakten. Int. J. Med. Informieren. 112, 59–67 (2018).

Artikel Google Scholar

Sarma, KV et al. Föderiertes Lernen verbessert die Website-Leistung beim multizentrischen Deep Learning ohne Datenaustausch. Marmelade. Med. Informieren. Assoc. 28(6), 1259–1264 (2021).

Artikel Google Scholar

Roth, HR, et al., Federated Learning for Breast Density Classification: A Real-World Implementation, in Domain Adaptation and Representation Transfer, and Distributed and Collaborative Learning, Springer, 181–191 (2020).

Sheller, MJ et al. Föderiertes Lernen in der Medizin: Erleichterung multiinstitutioneller Zusammenarbeit ohne Austausch von Patientendaten. Wissenschaft. Rep. 10(1), 12598 (2020).

Artikel ADS Google Scholar

Warnat-Herresthal, S. et al. Schwarmlernen für dezentrales und vertrauliches klinisches maschinelles Lernen. Nature 594(7862), 265–270 (2021).

Artikel ADS CAS Google Scholar

Tedeschini, BC et al. Dezentrales föderiertes Lernen für Gesundheitsnetzwerke: Eine Fallstudie zur Tumorsegmentierung. IEEE Access 10, 8693–8708 (2022).

Artikel Google Scholar

Yang, Q., Liu, Y., Chen, T. & Tong, Y. Föderiertes maschinelles Lernen: Konzept und Anwendungen. ACM Trans. Intel. Syst. Technol. 10, 2 (2019).

Google Scholar

McMahan, HB, Moore, E., Ramage, D., Hampson, S. und Arcas, BA Y, Kommunikationseffizientes Lernen tiefer Netzwerke aus dezentralen Daten. Im Int. Konf. Artif. Intel. Stat. AISTATS (2017).

Huang, Y. et al. Personalisiertes, siloübergreifendes, föderiertes Lernen für Nicht-IID-Daten. Proz. AAAI Conf. Artif. Intel. 35(9), 7865–7873 (2021).

Google Scholar

Kaissis, GA et al. Sicheres, die Privatsphäre wahrendes und föderiertes maschinelles Lernen in der medizinischen Bildgebung. Nat. Mach. Intel. 2, 305–311 (2020).

Artikel Google Scholar

Madi, A., et al., Ein sicheres Federated-Learning-Framework mit homomorpher Verschlüsselung und verifizierbarem Computing. Im Jahr 2021: Datenanalyse, Automatisierung, Datenschutz und Sicherheit in Einklang bringen: Eine große Datenherausforderung (RDAAPS), 2021, S. 1–8.

Stripelis, D., et al., Sichere Neuroimaging-Analyse durch föderiertes Lernen mit homomorpher Verschlüsselung. In Proc. SPIE 12088, 17. Internationales Symposium zur Verarbeitung und Analyse medizinischer Informationen, 1208814 (2021).

Rabenseifner, R. Optimierung kollektiver Reduktionsvorgänge. Internationale Konferenz für Computational Science (ICCS) (2004).

Gibiansky, A. HPC-Techniken in Deep Learning integrieren. Abgerufen von http://andrew.gibiansky.com/blog/machine-learning/baidu-allreduce/ (2017). Zugriff am 24. Januar 2022.

Gou, J., Yu, B., Maybank, SJ & Tao, D. Wissensdestillation: Eine Umfrage. Int. J. Comput. Vis. 129, 1789–1819 (2021).

Artikel Google Scholar

Deng, J., et al., Imagenet: Eine umfangreiche hierarchische Bilddatenbank. IEEE Comput. Soc. Konf. Berechnen. Vis. Mustererkennung. 248–255 (2009).

Kullback, S. & Leibler, RA Über Information und Suffizienz. Ann. Mathematik. Stat. 22(1), 79–86 (1951).

Artikel MathSciNet Google Scholar

He, K., Zhang, X., Ren, S. & Sun, J. Deep Residual Learning für die Bilderkennung. IEEE Comput. Soc. Konf. Berechnen. Vis. Mustererkennung. 770–778 (2016).

Huang, G., Liu, Z., Van Der Maaten, L. & Weinberger, KQ Dicht verbundene Faltungsnetzwerke. IEEE Comput. Soc. Konf. Berechnen. Vis. Mustererkennung. 4700–4708 (2017).

NVIDIA Corporation. Föderiertes Lernen für das Gesundheitswesen mit NVIDIA Clara. (2021).

Xue, C., Yu, L., Chen, P., Dou. Q. & Heng, P. -A. Robuste medizinische Bildklassifizierung aus verrauschten, gekennzeichneten Daten mit globaler und lokaler Repräsentation, geleitetem Co-Training. IEEE Trans. Med. Bildgebung (2021).

Dakka, MA et al. Automatisierte Erkennung von Daten schlechter Qualität: Fallstudien im Gesundheitswesen. Wissenschaft. Rep. 11(1), 18005 (2021).

Artikel ADS CAS Google Scholar

Referenzen herunterladen

Dieser Artikel wurde von Presagen Pty Ltd, Südaustralische Regierung: Forschungs-, Kommerzialisierungs- und Startup-Fonds finanziert.

Diese Autoren haben diese Arbeit gemeinsam betreut: JMM Hall und D. Perugini.

Presagen, Adelaide, SA, 5000, Australien

TV Nguyen, MA Dakka, SM Diakiw, M. Perugini, JMM Hall & D. Perugini

School of Computing and Information Technology, University of Wollongong, Wollongong, NSW, 2522, Australien

TV Nguyen

School of Mathematical Sciences, The University of Adelaide, Adelaide, SA, 5005, Australien

MA Dakka

Ovation Fertility, Austin, TX, 78731, USA

MD VerMilyea

Texas Fertility Center, Austin, TX, 78731, USA

MD VerMilyea

Adelaide Medical School, Universität Adelaide, Adelaide, SA, 5000, Australien

M. Perugini

Exzellenzzentrum des Australian Research Council für nanoskalige BioPhotonik, Adelaide, SA, 5005, Australien

JMM-Halle

School of Physical Sciences, The University of Adelaide, Adelaide, SA, 5005, Australien

JMM-Halle

Sie können diesen Autor auch in PubMed Google Scholar suchen

DP erfand das Konzept, TVN entwarf den Algorithmus, MAD und JMMH sowie TVN und DP konzipierten die Experimente, MAD und JMMH und TVN führten die Experimente durch, MV lieferte klinische Daten und klinische Überprüfungen, DP und MAD sowie JMMH und TVN sowie SMD und MP entwarfen das Manuskript und gab eine kritische Prüfung der Ergebnisse.

Korrespondenz mit TV Nguyen.

JMMH, DP und MP sind Miteigentümer von Presagen. SMD und TVN sind Mitarbeiter von Presagen und besitzen Aktienoptionen von Presagen. MAD ist ein ehemaliger Mitarbeiter von Presagen. MDV ist Mitglied des Presagen Clinical and Scientific Advisory Board (CSAB) und besitzt Aktienoptionen von Presagen. MDV wird außerdem von Ovation Fertility bei Konferenzen und der Teilnahme an Tagungen unterstützt und ist Mitglied des Fujifilm Irvine Scientific SAB. Vorläufiger Patentantragsteller: Presagen Pty Ltd. Anmeldedatum: 23. September 2020. Titel: Dezentrale künstliche Intelligenz (KI)/Machine Learning Training System. Nummer: 2021056043. Status: Ausstehend. Vorläufiger Patentantragsteller: Presagen Pty Ltd.. Anmeldedatum: 30. März 2021. Titel: Methode für Künstliche Intelligenz (KI) Modellauswahlnummer: 2021195689 Status: Ausstehend.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Nguyen, TV, Dakka, MA, Diakiw, SM et al. Ein neuartiger dezentraler, föderierter Lernansatz zum Trainieren auf global verteilten, minderwertigen und geschützten privaten medizinischen Daten. Sci Rep 12, 8888 (2022). https://doi.org/10.1038/s41598-022-12833-x

Zitat herunterladen

Eingegangen: 18. Februar 2022

Angenommen: 06. Mai 2022

Veröffentlicht: 25. Mai 2022

DOI: https://doi.org/10.1038/s41598-022-12833-x

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Zeitschrift für assistierte Reproduktion und Genetik (2023)

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.

Blog

Ein neuartiger dezentraler, föderierter Lernansatz zum Trainieren auf global verteilten, minderwertigen und geschützten privaten medizinischen Daten