banner

Nachricht

Sep 15, 2023

Schwach überwachte Erkennung und Klassifizierung von Basalzellkarzinomen anhand einer Grafik

Scientific Reports Band 13, Artikelnummer: 7555 (2023) Diesen Artikel zitieren

328 Zugriffe

3 Altmetrisch

Details zu den Metriken

Die hohen Inzidenzraten von Basalzellkarzinomen (BCC) stellen eine erhebliche Belastung für Pathologielabore dar. Der Standarddiagnoseprozess ist zeitaufwändig und anfällig für Unterschiede zwischen Pathologen. Trotz der Anwendung von Deep-Learning-Ansätzen bei der Einstufung anderer Krebsarten gibt es nur begrenzte Literatur zur Anwendung von Vision Transformern auf BCC auf Whole-Slide-Bildern (WSIs). Insgesamt 1832 WSIs von 479 BCCs, aufgeteilt in Trainings- und Validierungssätze (1435 WSIs von 369 BCCs) und Testsätze (397 WSIs von 110 BCCs), wurden schwach in vier Aggressivitätssubtypen annotiert. Wir verwendeten eine Kombination aus einem grafischen neuronalen Netzwerk und einem visuellen Transformator, um (1) das Vorhandensein eines Tumors zu erkennen (zwei Klassen), (2) den Tumor in Subtypen mit niedrigem und hohem Risiko (drei Klassen) zu klassifizieren und (3) vier zu klassifizieren Subtypen der Aggressivität (fünf Klassen). Unter Verwendung eines Ensemble-Modells, das aus den Modellen der Kreuzvalidierung bestand, wurden Genauigkeiten von 93,5 %, 86,4 % bzw. 72 % bei Zwei-, Drei- bzw. Fünf-Klassen-Klassifizierungen erreicht. Diese Ergebnisse zeigen eine hohe Genauigkeit sowohl bei der Tumorerkennung als auch bei der Einstufung von BCCs. Der Einsatz einer automatisierten WSI-Analyse könnte die Effizienz der Arbeitsabläufe steigern.

Das Basalzellkarzinom ist die häufigste Form von Hautkrebs beim Menschen. Die Inzidenz ist so hoch wie die Inzidenz aller anderen Krebsarten zusammen1. Darüber hinaus nimmt die Zahl der BCC-Fälle weltweit zu2,3,4. Obwohl Metastasierung und Tod selten sind, können BCCs aufgrund des aggressiven und zerstörerischen lokalen Wachstums zu erheblicher Morbidität führen5.

BCCs sind eine heterogene Gruppe von Tumoren mit unterschiedlichen Wachstumsmustern. International werden BCCs basierend auf histopathologischen Merkmalen in zwei große Kategorien eingeteilt: Subtypen mit niedrigem Risiko und Subtypen mit hohem Risiko6. Diese Kategorien können weiter in Unterklassen klassifiziert werden. Schwedische Pathologen klassifizieren BCCs beispielsweise nach dem „Sabbatsberg-Modell“, das drei Risikokategorien umfasst: (a) „gering aggressive“ Subtypen, die weiter in oberflächliche (Typ Ib) und noduläre (Typ Ia) unterteilt werden, und (b ) „mittel-aggressiv“ (Typ II), der weniger aggressive infiltrative Subtypen umfasst, die im Vergleich zu den hochaggressiven Tumoren klarer und oberflächlicher wachsen, und (c) „hochaggressiv“ (Typ III), mehr aggressive, infiltrative und morpheaartige Subtypen7. Die richtige Einschätzung des Subtyps ist entscheidend für die Planung der entsprechenden Behandlung. Es besteht jedoch eine erhebliche interpathologische Variabilität bei der Einstufung von Tumoren8 und der Angabe des Subtyps9,10.

Darüber hinaus führt der zeitaufwändige Prozess der Auswertung histologischer Schnitte in Kombination mit einer zunehmenden Anzahl von Proben zu Verzögerungen bei der Diagnose und erhöht die Kosten11. Um die Diagnosezeit und die Unterschiede zwischen Beobachtern zu reduzieren, wurden Deep-Learning12-Ansätze aktiv untersucht. Deep Learning ermöglicht die Implementierung einer computergestützten Bildanalyse in der Pathologie, was das Potenzial bietet, die Klassifizierungsgenauigkeit zu erhöhen und die Variabilität zwischen Beobachtern zu verringern13,14. Interessanterweise können sogar unbekannte morphologische Merkmale im Zusammenhang mit dem Metastasierungsrisiko, dem krankheitsfreien Überleben und der Prognose aufgedeckt werden15,16.

In frühen Forschungsarbeiten erforderten Methoden der computergestützten Histologie pixelweise Annotationen, d. h. die Abgrenzung spezifischer Regionen auf WSI durch Pathologen17. Die Verwendung einer pixelweisen Annotation ist jedoch zeitaufwändig. Darüber hinaus lassen sich solche Ansätze nicht auf reale Daten verallgemeinern18. Als Alternative ist ein schwach überwachtes Lernrahmenwerk eine weit verbreitete Methode zur WSI-Klassifizierung. Die gängige Technik beim schwach überwachten Lernen ist das Multi-Instanz-Lernen (MIL)19. Dieser Ansatz kann WSI-Level-Labels verwenden, also Labels, die keiner bestimmten Region zugeordnet sind, ohne dass die Leistung darunter leidet20. Die Technik behandelt den Satz von Instanzen (Patches eines WSI) als eine Tasche. Das bloße Vorkommen eines positiven Case-Patches macht den Beutel (WSI) positiv, andernfalls wird er als negativ behandelt. MIL erfordert, dass die WSI in eine Reihe von Patches unterteilt werden, oft ohne dass eine Datenkuratierung erforderlich ist18.

Die späteren Arbeiten haben zunehmend ein selbstüberwachtes kontrastives Lernparadigma zur Extraktion besserer Merkmalsvektoren hinzugefügt. In diesen Paradigmen werden vorab trainierte CNN-Modelle mithilfe eines kontrastiven Lernrahmens auf geschlossene Weise abgestimmt21. Das Hinzufügen dieser Komponenten zu MIL-Ansätzen führt nachweislich zu einer besseren Leistung22,23. Allerdings geht das MIL-Framework grundsätzlich davon aus, dass die Patches unabhängig und identisch verteilt sind, und vernachlässigt die Korrelation zwischen den Instanzen19,24. Die Vernachlässigung der Korrelation wirkt sich auf die Gesamtleistung der Klassifizierungsmodelle aus. Stattdessen kann die räumliche Korrelation mithilfe der grafischen neuronalen Netze erfasst werden, was wiederum die Modellleistung erhöht25,26,27.

Vor kurzem hat Transformers28 einen großen Sprung an der KI-Front gemacht, indem es die Möglichkeit eingeführt hat, Kontext in eine Folge von Tokens in Aufgaben zur Verarbeitung natürlicher Sprache zu integrieren, z. B. GPT-329. Inspiriert durch den Erfolg von Transformatoren in der Verarbeitung natürlicher Sprache schlugen Dosovitskiy et al.30 Vision Transformer (ViT) vor, eine Methode für Bildklassifizierungsaufgaben, die Ausschnitte eines Bildes als Eingabe verwendet. Dies ermöglicht die Erfassung der Reihenfolge von Patches (Tokens) und berücksichtigt die Position von Bildern (Kontext) mithilfe von Positionseinbettungen. Die Berücksichtigung der Positionsbeziehung (Kontextinformationen) zeigt, dass ViT eine bessere Leistung als CNN erbringen kann, insbesondere wenn Merkmale verwendet werden, die aus selbstüberwachten Kontrastmodellen gewonnen wurden. Darüber hinaus erfordern Vision Transformer im Vergleich zu vielen CNN-basierten Ansätzen wesentlich weniger Daten- und Rechenressourcen30,31. Darüber hinaus könnte die relative Widerstandsfähigkeit gegenüber Rauschen, Unschärfe, Artefakten, semantischen Änderungen und Samples außerhalb der Verteilung zu einer besseren Leistung beitragen32.

In medizinischen Bildern wurden Transformatoren bei Bildklassifizierungs-, Segmentierungs-, Erkennungs-, Rekonstruktions-, Verbesserungs- und Registrierungsaufgaben eingesetzt32. Insbesondere in histologischen Bildern wurden Sehtransformatoren erfolgreich für verschiedene Aufgaben im Zusammenhang mit histologischen Bildern eingesetzt, unter anderem bei der Erkennung von Brustkrebsmetastasen und bei der Klassifizierung von Krebssubtypen von Lungen-, Nieren- und Darmkrebs33,34. Angesichts des Erfolgs von Vision Transformern in vielen medizinischen Anwendungen und der Fähigkeit graphischer neuronaler Netze, Korrelationen zwischen Patches zu erfassen, nutzen wir die Kombination von graphischen neuronalen Netzen und Transformern, um BCCs zu erkennen und zu klassifizieren.

Die Genauigkeiten der Ensembles, die aus den 5 Graphtransformator-Modellen im Testsatz bestanden, betrugen 93,5 %, 86,4 % bzw. 72,0 % für die Zwei-Klassen-, Drei-Klassen- bzw. Fünf-Klassen-Klassifizierungsaufgaben. Darüber hinaus erreichte die Sensitivität der Erkennung gesunder Haut und Tumoren 96 % bzw. 91,9 %. Die Leistung der Ensemble-Modelle auf dem Testsatz ist in Tabelle 1 zusammengefasst und die zugehörigen Verwirrungsmatrizen sind in Abb. 1 dargestellt. Abbildung 2 zeigt die durchschnittliche ROC-Kurve der einzelnen Kreuzvalidierungsmodelle im Vergleich zum Testsatz. Heatmaps wurden verwendet, um die Regionen von WSI zu visualisieren, die in hohem Maße mit dem Label verbunden sind. Abbildung 3 zeigt Tumorregionen verschiedener BCC-Subtypen, die durch ein Graph-Transformer-Modell korrekt identifiziert wurden.

Verwirrungsmatrizen der Ensemblemodelle für die drei verschiedenen Klassifizierungsaufgaben (T) auf dem Testsatz. (a) binäre Klassifizierung (T1, Tumor oder kein Tumor), (b) Drei-Klassen-Klassifizierung (T2, kein Tumor und zwei Tumorgrade), (c) Fünf-Klassen-Klassifizierung (T3, kein Tumor und vier Tumorgrade).

Mittlere ROC-Kurven der fünffachen Kreuzvalidierungsmodelle basierend auf einem Testsatz für die verschiedenen Klassifizierungsaufgaben (T). (a) binäre Klassifizierung (T1), (b) Drei-Klassen-Klassifizierung (T2), (c) Fünf-Klassen-Klassifizierung (T3).

Visualisierung von Klassenaktivierungskarten (Zeilen 2 und 3) und entsprechenden H&E-Bildern (Zeilen 1 und 4). Die Klassenaktivierungskarten werden für die binäre Klassifizierungsaufgabe (kein Tumor, Tumor) erstellt, wobei die Tumorbereiche hervorgehoben werden. Für alle vier BCC-Grade werden repräsentative Beispiele gezeigt: (a) oberflächlich, wenig aggressiv, (b) nodulär, wenig aggressiv, (c) mittel aggressiv, (d) hoch aggressiv. Die Zeilen 3 und 4 stellen Nahaufnahmen aus den mit schwarzen Kästchen markierten Bereichen dar. Die Folien wurden zugeschnitten, um den Fokus auf das Gewebe nach der Ausführung des Modells zu legen.

In diesem Artikel haben wir einen Graphtransformator zur Erkennung und Klassifizierung von WSIs der Extraktion mit BCC verwendet. Die entwickelte Deep-Learning-Methode zeigte eine hohe Genauigkeit sowohl bei der Tumorerkennung als auch bei der Einstufung. Der Einsatz einer automatisierten Bildanalyse könnte die Effizienz der Arbeitsabläufe steigern. Angesichts der hohen Empfindlichkeit bei der Tumorerkennung könnte das Modell Pathologen dabei helfen, die Tumorträger enthaltenden Objektträger zu identifizieren und die Tumorregionen auf den Objektträgern anzuzeigen und möglicherweise die für den Diagnoseprozess in der täglichen Praxis benötigte Zeit zu verkürzen. Der Einsatz einer hochpräzisen automatisierten Tumoreinstufung könnte weitere Zeit sparen und möglicherweise die Variabilität zwischen und innerhalb von Pathologen verringern.

Unsere Studie ist eine der ersten, die die Zwei- und Vier-Einstufung des BCC auf WSI mithilfe von Deep-Learning-Ansätzen anwendet. Unsere Methode erreichte hohe AUC-Werte von 0,964–0,965, 0,932–0,975 und 0,843–0,976 in zwei, drei (zwei Klassen) bzw. fünf Klassen (4 Klassen) Klassifizierungen. Zuvor verwendeten Campanella et al.18 einen deutlich größeren Datensatz von insgesamt 44.732 WSIs, darunter 9.962 Objektträger mit einem breiten Spektrum neoplastischer und nicht-neoplastischer Hautläsionen, von denen 1.659 BCCs waren. Sie erzielten eine hohe Genauigkeit bei der Tumorerkennung und schlugen vor, dass bis zu 75 % der Objektträger sicher von der Arbeitsbelastung der Pathologen befreit werden könnten. Interessanterweise verglichen Gao et al.35 WSIs und mit dem Smartphone aufgenommene mikroskopische Augenbilder von BCCs zur Tumorerkennung mit hoher Sensitivität und Spezifität für beide Ansätze. In diesen Studien wurde jedoch keine Tumoreinstufung vorgenommen. Nach unserem besten Wissen gibt es keinen Open-Source-Datensatz zur Einstufung von BCC. Dies macht es schwierig, die Ergebnisse dieser Arbeit mit einer Basislinie zu vergleichen. Ein Vorteil unserer Studie besteht darin, dass die Daten als offener Datensatz vorliegen, was Fortschritte in diesem Bereich ermöglichen wird.

In einer anderen Studie zur BCC-Erkennung wurden die Aufmerksamkeitsmuster der KI mit den Aufmerksamkeitsmustern von Pathologen verglichen und beobachtet, dass die neuronalen Netze ihre Aufmerksamkeit auf größere Gewebebereiche verteilen und dabei das Bindegewebe in ihre Entscheidungsfindung einbeziehen36. Unsere Studie nutzte schwach überwachtes Lernen, bei dem die Beschriftungen auf Folienebene zugewiesen wurden. Dieser Ansatz konzentriert sich nicht auf kleine, pixelweise annotierte Bereiche, sondern gibt dem Algorithmus die Freiheit, größere Bereiche einschließlich des Tumorstromas auszuwerten. Darüber hinaus ist die folienweise Annotation deutlich weniger zeitaufwändig als die pixelweise Annotation.

Eine Einschränkung unserer Studie ist die etwas begrenzte Größe des Datensatzes. Mit zunehmender Anzahl der Klassen nimmt die Leistung deutlich ab. Dies könnte auf eine verringerte Anzahl von WSI pro Klasse im Trainingssatz zurückzuführen sein. Beispielsweise war es für das Modell schwieriger, in 5-Klassen-Klassifizierungsaufgaben zwischen dem BCC-Subtyp Ia und dem Subtyp Ib zu unterscheiden, in 3-Klassen-Klassifizierungsaufgaben war es jedoch relativ einfacher, die niedrig- und hochaggressiven Klassen zu unterscheiden, Abb. 2. Mit der Verfügbarkeit von Bei mehr Daten würde die Leistung höchstwahrscheinlich steigen.

Auch wenn in dieser Arbeit keine systematische Variabilitätsanalyse zwischen Beobachtern durchgeführt wurde, unterschieden sich die beiden Pathologen, die an der Annotation des Datensatzes in vier verschiedene Grade (5-Klassen-Klassifizierung) beteiligt waren, bei 6,7 % der WSIs. Die Anmerkungen zu diesen WSIs wurden im Konsens zusammen mit einem dritten leitenden Pathologen korrigiert, was in realen Situationen nicht der Fall ist. Der Einsatz von Tools wie dem in dieser Arbeit vorgeschlagenen würde wahrscheinlich die Variabilität zwischen Pathologen verringern. Weitere Studien zu diesem Thema sind erforderlich.

Eine Einschränkung in unserer Studie ist das Ungleichgewicht im Datensatz bei verschiedenen Aufgaben. Wir haben mehrere (1–18 Objektträger) pro Tumor eingeschlossen. Jede Folie wurde einzeln klassifiziert. Obwohl wir darauf abzielten, möglichst viele WSIs in jede Tumorgruppe einzubeziehen, gab es Unterschiede zwischen den Gruppen. Die aggressiveren Tumoren waren größer und hatten daher mehr Dias. Auch die Tatsache, dass innerhalb desselben Tumors mehrere BCC-Subtypen vorhanden waren, beeinflusste die Anzahl der WSIs in jeder Gruppe. Da wir mehrere Objektträger desselben Tumors einbezogen haben, zeigten nicht alle Objektträger einen Tumor. Somit repräsentierten insgesamt 744 eingeschlossene Objektträger gesunde Haut, wie in Tabelle 2 gezeigt. Dies führte zu einem Ungleichgewicht im Datensatz, insbesondere in den Aufgaben 2 und 3, wo die größte Gruppe die gesunde Haut war. Darüber hinaus könnte die Tatsache, dass bei einigen BCC-Fällen keine Tumorschnitte zu sehen waren, darauf zurückzuführen sein, dass einige Schnitte aufgrund der schlechten Scanqualität entfernt werden mussten.

Darüber hinaus wiesen viele der WSIs zusammengesetzte Subtypen auf, die manchmal auf demselben Objektträger vorhanden waren. Typischerweise handelt es sich bei solchen Fällen bei Basalzellkarzinomen um eine Mischung mehrerer Typen, d. h. um Fälle mit mehr als einem pathologischen Muster37. Der Anteil der Fälle mit gemischter Histologie kann bis zu 43 % aller Fälle betragen38. Bis zu 70 % der gemischten BCC-Fälle können einen oder mehrere aggressive Subtypen enthalten39. Trotz dieser Merkmale gemischter Muster pro WSI konnten unsere Modelle den schlechtesten BCC-Subtyp pro Folie mit einer Genauigkeit von 86,4 % bei der Drei-Klassen-Klassifizierung und 72,0 % bei den Fünf-Klassen-Klassifizierungsaufgaben erkennen, wie in Tabelle 1 gezeigt .

Darüber hinaus waren auf jedem Objektträger Stiftmarkierungen angebracht, die den Extraktionsindex (entsprechend der Extraktions-ID) angeben, wobei in manchen Fällen die Größe des Gewebes auf dem WSI-Wert übereinstimmen kann. Da der Datensatz auf der Grundlage eines Patientenindex aufgeteilt wird, unterscheiden sich die Stiftmarkierungen im Trainingssatz von denen im Testsatz, und die Ähnlichkeiten der handgeschriebenen Zeichen haben keinen Einfluss auf das Modell. Die Stiftmarkierungen wurden vom Fliesenleger nicht als Gewebe identifiziert und daher nicht in die Übungspflaster aufgenommen. Darüber hinaus wiesen die WSIs unterschiedliche Farben und Artefakte, Schnittkanten, Inkonsistenzen, verstreute kleine Gewebe, Flecken und Löcher auf. Trotz dieser Unterschiede zwischen den WSIs behandelten die Modelle handgeschriebene Zeichen als Hintergrund und andere Variationen als Rauschen.

Nach unserem besten Wissen ist diese Arbeit der erste Ansatz, der Transformatoren bei der Einstufung von BCC auf WSI verwendet. Die Ergebnisse zeigen eine hohe Genauigkeit sowohl bei der Tumorerkennung als auch bei der Einstufung von BCCs. Der erfolgreiche Einsatz solcher Ansätze könnte wahrscheinlich die Effizienz und Robustheit histologischer Diagnoseprozesse steigern.

Der Datensatz wurde im Zeitraum 2019–2020 retrospektiv am Sahlgrenska-Universitätskrankenhaus in Göteborg, Schweden, erhoben. Der vollständige Datensatz enthält 1831 markierte WSI aus 479 BCC-Exzisionen (1 bis 18 Objektträger pro Tumor), Tabelle 2. Die Objektträger wurden mit einem Scanner NanoZoomer S360 Hamamatsu bei 40-facher Vergrößerung gescannt. Die Objektträgeretiketten wurden dann mithilfe eines Open-Source-Pakets namens anonymize-slide40 entfernt.

Die Abmessungen der WSIs reichten von 71.424 bis 207.360 Pixel, die Größen reichten von 1,1 GB bis 5,3 GB (insgesamt 5,6 TB). Darüber hinaus wiesen fast alle Proben mehrere Schnittebenen pro Objektträger auf. Vor dem Scannen wurden die Glasobjektträger mit dem Buchstaben „B“ und bis zu drei Ziffern markiert, die angeben, welche Objektträger denselben Tumor darstellten.

Die gescannten Objektträger wurden dann gemäß dem schwedischen Klassifizierungssystem auf WSI-Ebene in 5 Klassen (kein Tumor und 4 BCC-Tumorgrade) mit Anmerkungen versehen. Wenn mehrere Wachstumsmuster von Tumoren festgestellt wurden, wurden die WSIs nach dem schlimmsten möglichen Subtyp klassifiziert. Die Anmerkungen wurden von zwei Pathologen getrennt durchgeführt. In den Fällen, in denen die beiden Hauptkommentatoren unterschiedliche Meinungen vertraten (6,7 % der WSIs), wurde ein dritter leitender Pathologe hinzugezogen, und eine endgültige Kommentierungsentscheidung wurde als Konsens zwischen den drei Pathologen getroffen.

Der Datensatz wurde für die Verwendung für drei Klassifizierungsaufgaben konzipiert. Die erste Aufgabe (T1) bestand darin, das Vorhandensein von Tumoren durch binäre Klassifizierung (Tumor oder kein Tumor) zu erkennen. Die zweite Aufgabe (T2) wurde in drei Klassen eingeteilt (kein Tumor, Tumor mit geringem Risiko und Tumor mit hohem Risiko, gemäß den Bewertungssystemen der WHO). Die dritte Aufgabe (T3) bestand darin, den Datensatz in 5 Klassen zu klassifizieren (kein Tumor und 4 Grade von BCC; gering aggressiv oberflächlich, gering aggressiv nodulär, mittel aggressiv und hoch aggressiv, in Übereinstimmung mit dem schwedischen Klassifizierungssystem). Bei den zweistufigen Klassifizierungsaufgaben wurden die Bezeichnungen in Fälle mit geringer Aggressivität (Ia und Ib) und hoher Aggressivität (II und III) umgewandelt. Abbildung 4 zeigt Patches von BCCs und ihre entsprechenden Klassen in den drei Klassifizierungsaufgaben (angezeigt als T1, T2 und T3).

Proben von BCC-Subtypen, die in den drei Klassifizierungsaufgaben (T) verwendet werden: T1 (Tumor oder kein Tumor), T2 (kein Tumor und zwei Tumorgrade) und T3 (kein Tumor und vier Tumorgrade), geordnet von einem Pathologen in nach dem „Sabbatsberg-Modell“7. Abhängig von der jeweiligen Klassifizierungsaufgabe wird den Proben in jeder Zeile ein unterschiedlicher Tumorgrad zugeordnet.

Eine Übersicht über die Methode ist in Abb. 5 dargestellt. Da WSIs groß waren, konnten herkömmliche Modelle für maschinelles Lernen sie nicht direkt aufnehmen. Daher wurden die WSIs zunächst in Patches unterteilt. Die WSIs wurden mit OpenSlide41 in 224 x 224 Felder mit 10-facher Vergrößerung ohne Überlappung gekachelt. Die Pflaster mit mindestens 15 % Gewebefläche wurden behalten, andere wurden verworfen. Die Anzahl der Patches lag zwischen 22 und 14.710 Patches pro WSI. Insgesamt wurden 5,2 Millionen Patches für das Trainingsset generiert. Wie oben erwähnt, gab es Unterschiede zwischen den WSIs, einschließlich Farbunterschieden, Artefakten usw. Trotz der Unterschiede zwischen den Patches wurde vor oder nach der Kachelung keine Bildverarbeitung durchgeführt.

Methodenübersicht (angepasst von Zheng et al.27). Das WSI wird zunächst in Patches unterteilt und Funktionen werden durch selbstüberwachtes Lernen extrahiert. Die extrahierten Merkmale werden zu Knoten eines Graphnetzwerks, die wiederum als Eingaben für einen Graphtransformator-Klassifikator dienen.

Sobald die Patches gekachelt waren, wurden die Features mithilfe eines selbstüberwachten Lernframeworks, SimCLR21, extrahiert. Mithilfe eines kontrastiven Lernansatzes wurden die Daten erweitert und Teilbilder wurden dann verwendet, um eine generische Darstellung eines Datensatzes zu generieren. Der Algorithmus verringerte dann den Abstand zwischen demselben Bild und vergrößerte den Abstand zwischen verschiedenen Bildern (negative Paare)21. In diesem Schritt wurde unter Verwendung von Resnet18 als Backbone und aller Patches als Trainingssatz mit Ausnahme der Patches aus dem Hold-Out-Testsatz ein Merkmalsvektor für jeden Patch extrahiert. Für das Training von SimCLR wurde der Adam-Optimierer mit einem Gewichtsabfall von 10–6 und einer Stapelgröße von 512 und 32 Epochen verwendet. Die anfängliche Lernrate von 10–4 wurde mithilfe von Cosinus-Annealing geplant.

Die durch selbstüberwachtes kontrastives Lernen generierten Merkmale wurden zum Aufbau der grafischen neuronalen Netze verwendet. Mittels kontrastivem Lernen wurden Merkmalsvektoren jedes Patches extrahiert. Da jedes Patch über seine Kanten und Ecken mit dem nächstgelegenen Nachbar-Patch verbunden ist, unterbricht die Kachelung die Korrelation zwischen den Patches. Die Korrelation zwischen Patches wird typischerweise über Positionseinbettungen erfasst30. Da histologische Patches in einem 2D-Raum räumlich korreliert sind, könnten die Positionseinbettungen besser über ein Graphennetzwerk erfasst werden27.

Ein Patch ist über 4 Seiten und 4 Ecken mit einem benachbarten Patch verbunden, also insgesamt 8 Kanten. Ein Satz von 8-Knoten-Adjazenzmatrizen wurde verwendet, um eine Diagrammdarstellung eines WSI zu erstellen. Anschließend wird die über die Adjazenzmatrix erfasste Positionseinbettung zum Aufbau eines Graphenfaltungsnetzwerks verwendet. Die Merkmalsvektoren der Patches wurden zu den Knoten der Diagramme.

Zheng et al.27 zeigten Ergebnisse bei Verwendung eines vollständig verbundenen Diagramms, d. h. eines einzelnen Gewebes pro Objektträger. In dieser Arbeit zeigen wir, dass der gleiche Ansatz mit einem nicht zusammenhängenden Diagramm funktioniert, das mehrere Gewebe pro WSI darstellt. Es ist erwähnenswert, dass fast alle WSIs in unserem Datensatz mehrere Gewebe pro Objektträger aufwiesen, d. h. es gab keine Korrelationen zwischen den einzelnen Geweben aufgrund von Nicht-Gewebe-Regionen. Dies führt zu einem unzusammenhängenden Diagramm, wie in Abb. 6 dargestellt. Es ist zu beachten, dass der Abstand zwischen den Komponenten des unzusammenhängenden Diagramms sowie ihre Position im Raum keinen Einfluss auf die Leistung des Modells haben.

Ein Beispiel für ein WSI und sein Graphnetzwerk. (a) WSI mit sechs Gewebeschnitten, (b) sechs getrennten Komponenten eines Graphennetzwerks. Die getrennten Komponenten werden zufällig im Raum platziert. Jeder Knoten stellt einen Patch dar (Patches sind zur besseren Visualisierung in der Abbildung nicht dargestellt).

Sobald das Graph-Faltungsnetzwerk aufgebaut war, wurde das Netzwerk einem ViT zugeführt. Im Allgemeinen wendet der Transformator einen Aufmerksamkeitsmechanismus an, der die Art und Weise nachahmt, wie Menschen wichtige Informationen aus einem bestimmten Bild oder Text extrahieren und dabei die Informationen rund um das Bild oder den Text ignorieren42. Self-attention28 führte eine Funktion ein, die Abfragen, Schlüssel und Wertevektoren verwendet, die aus den Eingabemerkmalen zugeordnet werden. Unter Verwendung dieser Vektoren nutzt es die Selbstaufmerksamkeit mehrerer Köpfe, um verfeinerte Merkmale zu extrahieren, sodass das Bild als Ganzes verstanden werden kann, anstatt sich nur auf einzelne Teile zu konzentrieren. Darüber hinaus wird die Selbstaufmerksamkeitsfunktion von einem Multilayer-Perceptron-Block (MLP) begleitet, der bei der Klassenbestimmung verwendet wird. In dieser Arbeit verwendeten wir die Standard-ViT-Encoder-Architektur zusammen mit einem Graph-Faltungsnetzwerk zur Klassifizierung von BCC-Subtypen.

Darüber hinaus kann der Rechenaufwand für das Training von ViT je nach Eingabegröße hoch sein. Die Anzahl der Patches kann je nach Bildgröße und Gewebegröße im Verhältnis zum WSI groß sein. Dies führte zu einer großen Anzahl von Knoten, die rechentechnisch nur schwer direkt als Eingabe für den Transformator verwendet werden konnten. Um die Anzahl der Knoten so weit zu reduzieren, dass das ViT die Eingaben verarbeiten kann, wurde eine Pooling-Schicht hinzugefügt.

Im kombinierten Trainings- und Validierungssatz gab es 369 Extraktionen (1435 WSIs). Ein zusätzlicher Datensatz von 110 Extraktionen (397 WSIs) wurde separat gescannt, um einen Hold-out-Testsatz zu bilden. Der Testsatz wurde separat gehandhabt und bestand sowohl aus SimCLR- als auch aus Graph-Transformer-Modellen.

Für das Training und die Validierung wurden alle Folien, die sich auf eine bestimmte Extraktion beziehen, immer im selben Satz platziert, um Datenlecks von ähnlichen Folien zu vermeiden. Dies machte eine Aufteilung des Datensatzes auf der Extraktionsebene erforderlich, was zu ungleichmäßigen Aufteilungen für die Kreuzvalidierung führte. Daher wurde für das Training eine fünffache Kreuzvalidierung verwendet. Die Ausgaben der 5 Modelle aus den Kreuzvalidierungsfaltungen wurden durch Mehrheitsentscheidung zu einem Ensemblemodell zusammengefasst, um endgültige Vorhersagen für den Testsatz zu liefern. Dieser Schritt wurde für die Zwei-, Drei- und Fünf-Klassen-Klassifizierungsaufgaben separat durchgeführt, Ergänzungstabelle S1.

Beim Training der Modelle wurden für alle Aufgaben dieselben Hyperparameter verwendet. Die Modelle wurden mit einer MLP-Größe von 128, 3 Selbstaufmerksamkeitsblöcken konfiguriert und mit Batch-Größe 4, 100 Epochen und einem Gewichtsabfall des Adam-Optimierers von 10–5, einer Lernrate von 10–3 und einem Abfall in den Schritten 40 und 80 um 10–1 trainiert . Das Training wurde auf 2 GPUs auf DGX A100 durchgeführt. Das Training des SimCLR-Modells dauerte etwa drei Tage. Das Training für Graphtransformatoren dauerte durchschnittlich etwa 25 Minuten, um zu konvergieren. Für einen bestimmten WSI im Testsatz dauerte es von der Kachelung bis zur Inferenz etwa 30 Sekunden.

Um die vorhergesagten Ergebnisse zu visualisieren und zu interpretieren, wurde eine graphbasierte Klassenaktivierungszuordnung27 verwendet. Die Methode berechnete die Klassenaktivierungskarte von der Klassenbezeichnung zu einer Diagrammdarstellung des WSI unter Verwendung vorberechneter Transformator- und Diagrammrelevanzkarten. Mit dieser Methode wurden Heatmaps über Regionen des WSI gelegt, die mit dem WSI-Label verknüpft sind.

Die im Rahmen der aktuellen Studie generierten und/oder analysierten Datensätze sind unter https://doi.org/10.23698/aida/bccc verfügbar.

Levell, NJ, Igali, L., Wright, KA & Greenberg, DC Basalzellkarzinom-Epidemiologie im Vereinigten Königreich: Der Elefant im Raum. Klin. Exp. Dermatol. 38, 367–369 (2013).

Artikel CAS PubMed Google Scholar

Dika, E. et al. Basalzellkarzinom: Eine umfassende Übersicht. Int. J. Mol. Wissenschaft. 21, 5572 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Cameron, MC et al. Basalzellkarzinom. Marmelade. Acad. Dermatol. 80, 321–339 (2019).

Artikel PubMed Google Scholar

Wong, CSM Basalzellkarzinom. BMJ 327, 794–798 (2003).

Artikel CAS PubMed PubMed Central Google Scholar

Lo, JS et al. Metastasiertes Basalzellkarzinom: Bericht über zwölf Fälle mit Literaturübersicht. Marmelade. Acad. Dermatol. 24, 715–719 (1991).

Artikel CAS PubMed Google Scholar

Elder, DE, Massi, D., Scolyer, RA & Willemze, R. WHO-Klassifikation von Hauttumoren, 4. Aufl. (WHO, Berlin, 2018).

Google Scholar

Jernbeck, J., Glaumann, B. & Glas, JE Basalzellkarzinom. Klinische Bewertung der histologischen Einstufung aggressiver Krebsarten. Lakartidningen 85, 3467–70 (1988).

CAS PubMed Google Scholar

Jagdeo, J., Weinstock, MA, Piepkorn, M. & Bingham, SF Zuverlässigkeit der histopathologischen Diagnose von Keratinozytenkarzinomen. Marmelade. Acad. Dermatol. 57, 279–284 (2007).

Artikel PubMed Google Scholar

Moon, DJ et al. Varianz der Berichterstattung über Basalzellkarzinom-Subtypen je nach Praxiseinstellung. JAMA Dermatol. 155, 854 (2019).

Artikel PubMed PubMed Central Google Scholar

Al-Qarqaz, F. et al. Bei Anfragen und Berichten zur Pathologie des Basalzellkarzinoms fehlen wichtige Informationen. J. Skin Cancer 2019, 1–5 (2019).

Google Scholar

Migden, M. et al. Belastung und Behandlungsmuster von fortgeschrittenem Basalzellkarzinom bei kommerziell versicherten Patienten in einer US-amerikanischen Datenbank von 2010 bis 2014. J. Am. Acad. Dermatol. 77, 55-62.e3 (2017).

Artikel PubMed Google Scholar

LeCun, Y., Bengio, Y. & Hinton, G. Deep Learning. Natur 521, 436–444 (2015).

Artikel ADS CAS PubMed Google Scholar

Niazi, MKK, Parwani, AV & Gurcan, MN Digitale Pathologie und künstliche Intelligenz. Lancet Oncol. 20, e253–e261 (2019).

Artikel PubMed PubMed Central Google Scholar

Komura, D. & Ishikawa, S. Ansätze des maschinellen Lernens für die pathologische Diagnose. Virchows-Bogen. 475, 131–138 (2019).

Artikel CAS PubMed Google Scholar

Knuutila, JS et al. Identifizierung von metastasiertem primär kutanem Plattenepithelkarzinom mithilfe der Analyse ganzer Objektträgerbilder mit künstlicher Intelligenz. Wissenschaft. Rep. 12, 1–14 (2022).

Artikel ADS Google Scholar

Comes, MC et al. Ein Deep-Learning-Modell, das auf ganzen Objektträgerbildern basiert, um das krankheitsfreie Überleben bei Patienten mit kutanem Melanom vorherzusagen. Wissenschaft. Rep. 12, 20366 (2022).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Olsen, TG et al. Diagnostische Leistung von Deep-Learning-Algorithmen, angewendet auf drei häufige Diagnosen in der Dermatopathologie. J. Pathol. Informieren. 9, 32 (2018).

Artikel PubMed PubMed Central Google Scholar

Campanella, G. et al. Computerpathologie auf klinischem Niveau mit schwach überwachtem Deep Learning für ganze Objektträgerbilder. Nat. Med. 25, 1301–1309 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Carbonneau, M.-A., Cheplygina, V., Granger, E. & Gagnon, G. Lernen mit mehreren Instanzen: Eine Übersicht über Problemmerkmale und Anwendungen. Mustererkennung. 77, 329–353 (2018).

Artikel ADS Google Scholar

Ilse, M., Tomczak, J. & Welling, M. Aufmerksamkeitsbasiertes tiefes Lernen mit mehreren Instanzen. In International Conference on Machine Learning 2127–2136 (2018).

Chen, T., Kornblith, S., Norouzi, M. & Hinton, G. Ein einfacher Rahmen für das kontrastive Lernen visueller Darstellungen. In International Conference on Machine Learning 1597–1607 (PMLR, 2020).

Li, J. et al. Ein Modell mit mehreren Auflösungen für die Klassifizierung und Lokalisierung histopathologischer Bilder mit Lernen mehrerer Instanzen. Berechnen. Biol. Med. 131, 104253 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Li, B., Li, Y. & Eliceiri, KW Dual-Stream-Lernnetzwerk mit mehreren Instanzen für die Klassifizierung ganzer Folienbilder mit selbstüberwachtem kontrastivem Lernen. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 14318–14328 (2021).

Zhou, ZH & Xu, JM Zum Zusammenhang zwischen Multi-Instanz-Lernen und halbüberwachtem Lernen. ACM Int. Konf. Proz. Ser. 227, 1167–1174 (2007).

Google Scholar

Tu, M., Huang, J., He, X. & Zhou, B. Lernen mehrerer Instanzen mit graphischen neuronalen Netzen. arXiv-Vorabdruck arXiv:1906.04881 (2019).

Adnan, M., Kalra, S. & Tizhoosh, HR Repräsentationslernen histopathologischer Bilder mithilfe graphischer neuronaler Netze. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops 988–989 (2020).

Zheng, Y. et al. Ein Graphtransformator für die Klassifizierung ganzer Diabilder. arxiv.org (2022).

Vaswani, A. et al. Aufmerksamkeit ist alles, was Sie brauchen. Fortschritte in neuronalen Informationsverarbeitungssystemen 30 (NIPS) (2017).

Brown, TB et al. Sprachmodelle sind Wenig-Schuss-Lernende. Fortschritte in neuronalen Informationsverarbeitungssystemen 33 (NeurIPS) (2020).

Dosovitskiy, A. et al. Ein Bild ist 16x16 Wörter wert: Transformer für die Bilderkennung im Maßstab. arxiv.org (2020).

Deininger, L. et al. Eine vergleichende Studie zwischen Vision Transformern und CNNs in der digitalen Pathologie. arxiv.org (2022).

Li, J. et al. Medizinische Bildgebung mit Transformers verändern? Ein vergleichender Überblick über wichtige Eigenschaften, aktuelle Fortschritte und Zukunftsperspektiven. arxiv.org (2022).

Shao, Z. et al. Transmil: Transformer-basiertes korreliertes Mehrfachinstanzlernen für die Klassifizierung ganzer Folienbilder. In procedure.neurips.cc (2021).

Zeid, MA-E., El-Bahnasy, K. & Abo-Youssef, SE Mehrklassige Klassifizierung von kolorektalen Krebs-Histologiebildern mithilfe von Sehtransformatoren. Im Jahr 2021 zehnte internationale Konferenz über intelligente Computer- und Informationssysteme (ICICIS) 224–230 (IEEE, 2021). https://doi.org/10.1109/ICICIS52592.2021.9694125.

Jiang, YQ et al. Erkennung von Basalzellkarzinomen auf mit dem Smartphone aufgenommenen digitalen Histopathologiebildern mit einem tiefen neuronalen Netzwerk. Br. J. Dermatol. 182, 754–762 (2020).

Artikel CAS PubMed Google Scholar

Kimeswenger, S. et al. Künstliche neuronale Netze und Pathologen erkennen Basalzellkarzinome anhand unterschiedlicher histologischer Muster. Mod. Pathol. 34, 895–903 (2021).

Artikel PubMed Google Scholar

Crowson, AN Basalzellkarzinom: Biologie, Morphologie und klinische Implikationen. Mod. Pathol. 19, S127–S147 (2006).

Artikel PubMed Google Scholar

Cohen, PR, Schulze, KE & Nelson, BR Basalzellkarzinom mit gemischter Histologie: Eine mögliche Pathogenese für wiederkehrenden Hautkrebs. Dermatol. Surg. 32, 542–551 (2006).

CAS PubMed Google Scholar

Kamyab-Hesari, K. et al. Diagnostische Genauigkeit der Stanzbiopsie bei der Subtypisierung von Basalzellkarzinomen. Wiley Online Library 28, 250–253 (2014).

CAS Google Scholar

Gilbert, B. Anonymisierungsfolie. https://github.com/bgilbert/anonymize-slide.

Goode, A., Gilbert, B., Harkes, J., Jukic, D. & Satyanarayanan, M. OpenSlide: Eine herstellerneutrale Softwaregrundlage für die digitale Pathologie. J. Pathol. Informieren. 4, 27 (2013).

Artikel PubMed PubMed Central Google Scholar

Bahdanau, D., Cho, KH & Bengio, Y. Neuronale maschinelle Übersetzung durch gemeinsames Erlernen des Ausrichtens und Übersetzens. 3. Internationale Konferenz über lernende Repräsentationen, ICLR 2015: Conference Track Proceedings (2015).

Referenzen herunterladen

Die Studie wurde durch Zuschüsse des schwedischen Staates im Rahmen der Vereinbarung zwischen der schwedischen Regierung und den Bezirksräten, der ALF-Vereinbarung (Zuschuss ALFGBG-973455), finanziert.

Open-Access-Finanzierung durch die Universität Göteborg.

AI Schweden, Göteborg, Schweden

Film Yacob

KI-Kompetenzzentrum, Sahlgrenska-Universitätskrankenhaus, Göteborg, Schweden

Filmon Yacob, Juulia T. Suvilehto, Lisa Sjöblom und Magnus Kjellberg

Abteilung für Labormedizin, Institut für Biomedizin, Sahlgrenska-Akademie, Universität Göteborg, Göteborg, Schweden

Jan Siarov, Kajsa Villiamsson und Noora Neittaanmäki

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Konzeption und Design: FY, JS, KV, JTS, NN Entwicklung der Methodik: FY, JTS Datenerfassung: JS, KV, NN Annotation des Datensatzes: JS, KV, NN, Analyse und Interpretation von Daten: FY, JTS, JS , KV, NN Verfassen, Begutachtung und Überarbeitung des Manuskripts: FY, JS, KV, JTS, NN, LS, Studienbetreuung: NN, JTS, MK Fördermitteleinwerbung: NN, MK

Korrespondenz mit Noora Neittaanmäki.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Yacob, F., Siarov, J., Villiamsson, K. et al. Schwach überwachte Erkennung und Klassifizierung von Basalzellkarzinomen mittels Graph-Transformer auf Bildern ganzer Objektträger. Sci Rep 13, 7555 (2023). https://doi.org/10.1038/s41598-023-33863-z

Zitat herunterladen

Eingegangen: 20. Januar 2023

Angenommen: 20. April 2023

Veröffentlicht: 09. Mai 2023

DOI: https://doi.org/10.1038/s41598-023-33863-z

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.

AKTIE