banner

Nachricht

Sep 29, 2023

Qualitätsverbesserung der klinischen künstlichen Intelligenz: hin zu einer kontinuierlichen Überwachung und Aktualisierung von KI-Algorithmen im Gesundheitswesen

npj Digital Medicine Band 5, Artikelnummer: 66 (2022) Diesen Artikel zitieren

13.000 Zugriffe

19 Zitate

49 Altmetrisch

Details zu den Metriken

Algorithmen für maschinelles Lernen (ML) und künstliche Intelligenz (KI) haben das Potenzial, Erkenntnisse aus klinischen Daten abzuleiten und die Behandlungsergebnisse für Patienten zu verbessern. Diese hochkomplexen Systeme reagieren jedoch empfindlich auf Veränderungen in der Umgebung und neigen zu Leistungseinbußen. Auch nach ihrer erfolgreichen Integration in die klinische Praxis sollten ML/KI-Algorithmen kontinuierlich überwacht und aktualisiert werden, um ihre langfristige Sicherheit und Wirksamkeit zu gewährleisten. Um KI in der klinischen Versorgung zur Reife zu bringen, plädieren wir für die Schaffung von Krankenhauseinheiten, die für die Qualitätssicherung und Verbesserung dieser Algorithmen verantwortlich sind und die wir als „AI-QI“-Einheiten bezeichnen. Wir diskutieren, wie Tools, die seit langem in der Qualitätssicherung und Qualitätsverbesserung von Krankenhäusern eingesetzt werden, zur Überwachung statischer ML-Algorithmen angepasst werden können. Andererseits sind Verfahren zur kontinuierlichen Modellaktualisierung noch im Entstehen begriffen. Wir beleuchten wichtige Überlegungen bei der Wahl zwischen bestehenden Methoden und Möglichkeiten für methodische Innovationen.

Der Einsatz von künstlicher Intelligenz (KI) und maschinellem Lernen (ML) im klinischen Bereich hat sich in den letzten Jahrzehnten enorm weiterentwickelt, mit zahlreichen Beispielen in der medizinischen Bildgebung, Kardiologie und Akutversorgung1,2,3,4,5,6. Tatsächlich wächst die Liste der KI/ML-basierten Algorithmen, die von der US-amerikanischen Food and Drug Administration (FDA) für den klinischen Einsatz zugelassen wurden, weiterhin rasant7. Trotz der beschleunigten Entwicklung dieser medizinischen Algorithmen war die Akzeptanz in der Klinik begrenzt. Die Herausforderungen auf dem Weg zu einer erfolgreichen Integration gehen weit über die anfängliche Entwicklungs- und Evaluierungsphase hinaus. Da ML-Algorithmen stark datenabhängig sind, besteht ein großes Problem darin, dass ihre Leistung stark davon abhängt, wie die Daten in bestimmten Kontexten und zu bestimmten Zeiten generiert werden. Es kann schwierig sein, vorherzusagen, wie sich diese Modelle im Laufe der Zeit in realen Umgebungen verhalten werden, da ihre Komplexität potenzielle Fehlermöglichkeiten verschleiern kann8. Derzeit verlangt die FDA, dass Algorithmen nach der Zulassung nicht mehr verändert werden dürfen, was wir als „gesperrt“ bezeichnen. Obwohl diese Richtlinie die Einführung schädlicher Modellaktualisierungen verhindert, besteht die Gefahr, dass gesperrte Modelle in hochdynamischen Umgebungen wie dem Gesundheitswesen im Laufe der Zeit an Leistung verlieren. Tatsächlich haben viele einen ML-Leistungsabfall aufgrund der Kombination von Patientenfällen, klinischen Praxismustern, Behandlungsoptionen und mehr dokumentiert9,10,11.

Um die langfristige Zuverlässigkeit und Wirksamkeit KI/ML-basierter klinischer Algorithmen sicherzustellen, ist es von entscheidender Bedeutung, dass wir Systeme für die regelmäßige Überwachung und Wartung einrichten12,13,14. Obwohl die Bedeutung einer kontinuierlichen Überwachung und Aktualisierung in einer Reihe neuerer Veröffentlichungen15,16,17 anerkannt wurde, enthalten die meisten Artikel nur begrenzte Details zur Implementierung solcher Systeme. Tatsächlich handelt es sich bei der ähnlichsten Arbeit möglicherweise um aktuelle Arbeiten, die die Entwicklung produktionsreifer ML-Systeme bei Internetunternehmen dokumentieren18,19. Dennoch unterscheidet sich das Gesundheitswesen dadurch, dass Fehler schwerwiegendere Auswirkungen haben, die Anzahl der Stichproben geringer ist und die Daten tendenziell verrauschter sind.

In dieser Arbeit betrachten wir bestehende Bemühungen zur Qualitätssicherung (QA) und Qualitätsverbesserung (QI) in Krankenhäusern20,21,22 als Vorlage für die Entwicklung ähnlicher Initiativen für klinische KI-Algorithmen, die wir als AI-QI bezeichnen. Indem wir Parallelen zu standardmäßigen klinischen QI-Praktiken ziehen, zeigen wir, wie gut etablierte Werkzeuge der statistischen Prozesskontrolle (SPC) auf die Überwachung klinischer KI-basierter Algorithmen angewendet werden können. Darüber hinaus beschreiben wir eine Reihe einzigartiger Herausforderungen bei der Überwachung von KI-Algorithmen, darunter ein Mangel an Ground-Truth-Daten, KI-induzierte behandlungsbezogene Zensur und eine hohe Dimensionalität der Daten. Die Modellaktualisierung ist eine völlig neue Aufgabe mit vielen Möglichkeiten für technische Innovationen. Wir skizzieren wichtige Überlegungen und Kompromisse bei der Auswahl zwischen Modellaktualisierungsverfahren. Eine effektive Umsetzung von AI-QI erfordert eine enge Zusammenarbeit zwischen Klinikern, Krankenhausverwaltern, Fachleuten der Informationstechnologie (IT), Biostatistikern, Modellentwicklern und Aufsichtsbehörden (Abb. 1). Um unsere Diskussion zu untermauern, werden wir abschließend das Beispiel eines hypothetischen KI-basierten Frühwarnsystems für akute hypotensive Episoden (AHEs) verwenden, das vom von der FDA zugelassenen Edwards' Acumen Hypotension Prediction Index23 inspiriert ist.

Um die dauerhafte Sicherheit und Wirksamkeit der im Krankenhaus eingesetzten KI-basierten Algorithmen zu gewährleisten, benötigen Institutionen optimierte Prozesse zur kontinuierlichen Überwachung der Modellleistung, zur Übermittlung der neuesten Leistungsmetriken an Endbenutzer und zur Überarbeitung des Modells oder sogar zur Aussetzung seiner Verwendung, wenn es zu einem erheblichen Verfall kommt in der Leistung beobachtet wird. Aufgrund seines bereichsübergreifenden Charakters erfordert AI-QI eine enge Zusammenarbeit zwischen Klinikern, Krankenhausverwaltern, Fachleuten der Informationstechnologie (IT), Modellentwicklern, Biostatistikern und Aufsichtsbehörden.

Gemäß der Definition des Center for Medicare and Medicaid Services ist Qualitätsverbesserung (Quality Improvement, QI) der Rahmen zur systematischen Verbesserung der Versorgung durch den Einsatz standardisierter Prozesse und Strukturen, um Abweichungen zu reduzieren, vorhersehbare Ergebnisse zu erzielen und die Ergebnisse für Patienten, Gesundheitssysteme usw. zu verbessern Organisationen. In diesem Abschnitt beschreiben wir, warum klinische KI-Algorithmen versagen können und warum ein strukturierter und integrierter KI-QI-Prozess notwendig ist.

Vereinfacht ausgedrückt erreichen KI-basierte Algorithmen eine hohe Vorhersagegenauigkeit, indem sie Korrelationen zwischen Patientenvariablen und Ergebnissen erkennen. Beispielsweise kann sich ein Modell, das eine bevorstehende AHE vorhersagt, auf Mustern in physiologischen Signalen stützen, die häufig vor einem solchen Ereignis auftreten, wie etwa einem allgemeinen Abwärtstrend des Blutdrucks und einem Anstieg der Herzfrequenz. Korrelationsbasierte Modelle weisen in der Regel eine gute interne Validität auf: Sie funktionieren gut, wenn die Zielpopulation den Trainingsdaten ähnlich ist. Wenn das klinische Umfeld jedoch sehr dynamisch und die Patientenpopulationen heterogen sind, kann ein Modell, das in einem bestimmten Zeitraum oder in einem Krankenhaus gut funktioniert, in einem anderen möglicherweise scheitern. Ein aktuelles Beispiel ist das Aufkommen von COVID-1924, das einen Leistungsabfall in einem ML-Algorithmus zur Bestimmung der Patienten mit einem hohen Risiko einer Krankenhauseinweisung dokumentiert, basierend auf ihrer Darstellung in der Notaufnahme, die auf Eingabevariablen wie Atemfrequenz und Ankunftsmodus beruhte. die von der Ausbreitung von COVID-19 erheblich betroffen waren.

Gemäß der QI-Literatur ist die Variabilität der Leistung auf Systemebene entweder auf Schwankungen „gemeinsamer Ursache“ oder „besonderer Ursache“ zurückzuführen. Unter „Common-Cause-Variation“ versteht man die vorhersehbare und unvermeidbare Variabilität im System. Um mit unserem AHE-Beispiel fortzufahren: Ein Algorithmus, der zukünftige Werte des mittleren arteriellen Drucks (MAP) vorhersagt, macht aufgrund der inhärenten Variabilität des physiologischen Parameters zwangsläufig Fehler. Dieser Fehler ist akzeptabel, solange er den Spezifikationen des Herstellers entspricht, z. B. wird erwartet, dass der beobachtete und vorhergesagte MAP in 95 % der Fälle innerhalb von 5 mmHg liegt. Vor der Modellbereitstellung können Entwickler das Modell kalibrieren und die Variation aufgrund gemeinsamer Ursachen anhand unabhängiger Daten charakterisieren25,26,27. Modellentwickler können auch bekannte Quellen für Variationen aufgrund gemeinsamer Ursache in das Modell integrieren, um dessen Generalisierbarkeit zu verbessern28,29.

Andererseits stellen Schwankungen aus besonderen Gründen eine unerwartete Änderung im System dar. In unserem AHE-Beispiel kann dies auftreten, wenn das Krankenhaus neue Richtlinien zur Behandlung von Hypotonie befolgt, was zu einer Änderung des Zusammenhangs zwischen zukünftigen MAP-Werten und der Medikamentenhistorie führt. In der statistischen Terminologie handelt es sich bei Abweichungen aus besonderen Gründen um unerwartete Leistungseinbußen aufgrund von Verschiebungen in der gemeinsamen Verteilung der Modelleingaben X und der Zielvariablen Y, die prägnanter als Verteilungs- oder Datensatzverschiebungen bezeichnet werden30. Im Allgemeinen können Verteilungsverschiebungen basierend darauf kategorisiert werden, welche Beziehungen sich in den Daten geändert haben, z. B. Änderungen allein in der Verteilung der Eingabevariablen X gegenüber Änderungen in der bedingten Verteilung von Y bei gegebenem X.

Verschiedene Arten von Verteilungsverschiebungen müssen unterschiedlich gehandhabt werden. Manchmal können bevorstehende Verteilungsverschiebungen vorhergesehen werden, beispielsweise gut kommunizierte krankenhausweite Richtlinienänderungen. Um über diese Art von Änderungen auf dem Laufenden zu bleiben, können AI-QI-Bemühungen einen proaktiven Ansatz verfolgen, indem sie sich über aktuelle Ereignisse im Krankenhaus auf dem Laufenden halten und Mailinglisten abonnieren. Krankenhausverwalter und Ärzte können dabei helfen, die Auswirkungen dieser Änderungen auf die Leistung des ML-Algorithmus zu interpretieren. Andere Vertriebsverschiebungen erfolgen unangekündigt und können subtiler sein. Um diese Veränderungen möglichst schnell zu erkennen, bedarf es Verfahren zur Überwachung der Leistung des ML-Algorithmus.

Variationen aus besonderen Gründen können auch als anhaltend oder isoliert charakterisiert werden (dh solche, die eine einzelne Beobachtung betreffen). Der Schwerpunkt dieses Manuskripts liegt auf Ersterem, das die Leistung über einen längeren Zeitraum beeinträchtigen kann. Die Erkennung solcher Verschiebungen auf Systemebene kann normalerweise nicht durch die Analyse jeder Beobachtung einzeln erreicht werden, sondern erfordert stattdessen die Analyse eines Beobachtungsstroms. Im Gegensatz dazu können isolierte Fehler als Ausreißer betrachtet und mithilfe von Shewhart-Kontrollkarten31, einer beliebten Technik in der SPC, sowie allgemeinen Methoden zur Erkennung von Ausreißern32 gezielt angegangen werden.

Wenn die Gründe für einen Rückgang der Systemleistung unklar sind, ist das Ursache-Wirkungs-Diagramm – auch bekannt als Fischgräten- oder Ishikawa-Diagramm – ein formales QI-Werkzeug, das dabei helfen kann, die möglichen Ursachen aufzudecken31. Der „Kopf“ des Diagramms ist der Effekt, der einen Rückgang der Modellleistung darstellt. Potenzielle Ursachen werden in den Zweigen aufgelistet, gruppiert nach den Hauptkategorien. In Abb. 2 zeigen wir ein Beispiel für ein Ursache-Wirkungs-Diagramm für ein AHE-Frühwarnsystem. Ursache-Wirkungs-Diagramme in QI haben viele Ähnlichkeiten mit kausalen gerichteten azyklischen Diagrammen aus der Kausalinferenzliteratur33. Tatsächlich besteht eine kürzlich von der ML-Community unabhängig entwickelte Idee darin, Kausaldiagramme zu verwenden, um zu verstehen, wie sich verschiedene Arten von Datensatzverschiebungen auf die Modellleistung auswirken können29,34.

Jeder Zweig stellt eine Kategorie möglicher Ursachen dar. Der Effekt wird als Modellleistung definiert, die anhand der Fläche unter der Betriebskennlinie des Empfängers (AUC) gemessen wird.

Im Allgemeinen können wir mögliche Ursachen für einen Leistungsabfall in (i) Änderungen in der Verteilung der Zielvariablen Y, (ii) Änderungen in der Verteilung der Modelleingaben X und (iii) Änderungen in der Beziehung zwischen X und Y einteilen . Unter Verwendung der statistischen Terminologie beziehen sich (i) und (ii) auf Verschiebungen in der Randverteilung von Y bzw. X und (iii) auf Verschiebungen in der bedingten Verteilung von Y∣X oder X∣Y. Diese potenziellen Ursachen können auf der Grundlage semantisch bedeutsamer Untergruppen der Modelleingaben, wie beispielsweise physiologischer Signale, die mit demselben Gerät gemessen werden, weiter unterteilt werden. Während Änderungen in Bezug auf jede Eingabevariable beschrieben werden sollten, sollte den Variablen mit hoher Merkmalsbedeutung besondere Aufmerksamkeit geschenkt werden, da Verschiebungen bei solchen Merkmalen mit größerer Wahrscheinlichkeit zu größeren Leistungsverschiebungen führen.

Das Ziel der KI-Überwachung besteht darin, einen Alarm auszulösen, wenn Abweichungen aus besonderen Gründen vorliegen, und Teams dabei zu helfen, notwendige Korrekturen am Modell oder am Datengenerierungs-/-erfassungsprozess zu erkennen. Sowohl Abweichungen aufgrund häufiger als auch besonderer Ursachen können zu Leistungseinbußen führen. Daher sind statistische Verfahren erforderlich, um zwischen beiden zu unterscheiden. Hier stellen wir statistische Kontrollkarten vor, ein Standardwerkzeug in SPC, das dabei hilft, verschiedene Arten von Verschiebungen zu visualisieren und zu erkennen. Dieser Abschnitt konzentriert sich auf gesperrte Modelle. Wir werden die sich entwickelnden Algorithmen später besprechen.

Ausgehend von einer Reihe von Beobachtungen zeichnet ein typisches Kontrolldiagramm eine zusammenfassende Statistik über die Zeit auf und zeigt Kontrollgrenzen an, um den normalen Wertebereich für diese Statistik anzugeben. Wenn die Kartenstatistik die Kontrollgrenzen überschreitet, wird ein Alarm ausgelöst, der auf das wahrscheinliche Vorliegen einer Abweichung aus besonderen Gründen hinweist. Nachdem ein Alarm ausgelöst wurde, sollte das Krankenhaus die Grundursache untersuchen und feststellen, ob Korrekturmaßnahmen ergriffen werden müssen und wenn ja, welche. Dies erfordert eine enge Zusammenarbeit vieler Akteure, darunter des ursprünglichen Modellentwicklers, Gesundheitsdienstleistern, IT-Experten und Statistikern.

Sorgfältig gestaltete Kontrollkarten stellen sicher, dass die Fehlalarmrate unter einem vorab festgelegten Schwellenwert liegt, und minimieren gleichzeitig die Verzögerung bei der Erkennung wichtiger Änderungen. Um Entscheidungen darüber zu treffen, welche Verfahren am besten geeignet sind und wie sie umgesetzt werden sollen, ist statistische Unterstützung erforderlich.

Als nächstes beschreiben wir Methoden zur Erkennung von Verschiebungen in der Randverteilung von Y; Dies ist mathematisch gesehen am einfachsten, da Y typischerweise niedrigdimensional ist. Darauf aufbauend beschreiben wir Methoden zur Erkennung von Verschiebungen in der Randverteilung von X, gefolgt von Methoden für bedingte Verteilungen. Tabelle 1 enthält eine Zusammenfassung der in diesem Abschnitt beschriebenen Methoden.

Wenn beschriftete Daten verfügbar sind, können Kontrolldiagramme verwendet werden, um Änderungen in der Verteilung von Y zu überwachen. Für ein eindimensionales Ergebnis Y können wir univariate Kontrolldiagramme verwenden, um Änderungen in zusammenfassenden Statistiken wie Mittelwert, Varianz und Rate von zu überwachen Fehlen. Im Kontext unseres AHE-Beispiels können wir damit Veränderungen in der Prävalenz von AHE oder dem durchschnittlichen MAP-Wert überwachen. Wenn Y ein Vektor mehrerer Ergebnisse ist, besteht eine einfache Lösung darin, für jedes einzelne separate Kontrolldiagramme zu erstellen. Zu den häufig verwendeten Regelkarten, die in diese Kategorie fallen, gehören Shewhart-Regelkarten, CUSUM-Regelkarten (Cumulative Sum)35 und EWMA-Regelkarten (Exponential Weighted Moving Average)31. In der Praxis kann die Verteilung von Y vielen Schwankungsquellen unterliegen, beispielsweise der Saisonalität. Eine Lösung besteht darin, den erwarteten Wert jeder Beobachtung anhand bekannter Variabilitätsquellen zu modellieren und SPC-Methoden anzuwenden, um die Residuen zu überwachen.

Statistische Kontrollkarten können auch verwendet werden, um Änderungen in der Randverteilung der Eingabevariablen zu überwachen. Ein großer Vorteil dieser Diagramme besteht darin, dass sie auch dann problemlos implementiert werden können, wenn das Ergebnis schwer zu messen ist oder erst mit großer Verzögerung beobachtet werden kann.

Wir haben univariate Kontrollkarten bereits im vorherigen Abschnitt beschrieben; diese können auch zur individuellen Überwachung der Eingangsgrößen genutzt werden. Wenn es wichtig ist, die Beziehung zwischen den Eingabevariablen zu überwachen, sollte man stattdessen multivariate Kontrolldiagramme wie das multivariate CUSUM und EWMA (MCUSUM bzw. MEWMA) und Hotellings T2 36 verwenden. Wenn X hochdimensional ist, können herkömmliche SPC-Methoden dies tun überhöhte Fehlalarmraten oder geringe Leistung zur Erkennung von Veränderungen. Dies kann durch Variablenauswahl37, Dimensionsreduktionstechniken38 oder Histogramm-Binning39 behoben werden. Bei komplexen Datentypen wie physiologischen Wellenformen, medizinischen Bildern und klinischen Notizen können Darstellungslernmethoden die Daten in einen niedrigerdimensionalen Vektor umwandeln, der für die Eingabe in herkömmliche Kontrolldiagramme geeignet ist40,41. Von grundlegender Bedeutung für die Erkennung von Verteilungsverschiebungen ist die Quantifizierung des Abstands zwischen zwei Verteilungen. Neuere Arbeiten haben neue Abstandsmaße zwischen hochdimensionalen multivariaten Wahrscheinlichkeitsverteilungen vorgeschlagen, wie etwa die Wasserstein-Distanz, f-Divergenzen42 und kernbasierte Maße43,44.

Angesichts der Komplexität von ML-Algorithmen wurde in einer Reihe von Artikeln vorgeschlagen, ML-Erklärbarkeitsmetriken zu überwachen, wie z. B. die Variablenwichtigkeit (VI)18,24. Die Idee ist, dass diese Metriken eine besser interpretierbare Darstellung der Daten ermöglichen. Dennoch ist es wichtig, diese Diagramme nicht zu überinterpretieren. Da die meisten in der ML-Literatur definierten VI-Metriken die Bedeutung jedes Merkmals quantifizieren, wie es vom vorhandenen Modell zugewiesen wird, deuten Verschiebungen in diesen Metriken lediglich auf eine Änderung in der Verteilung der Eingabevariablen hin; Sie geben nicht notwendigerweise Aufschluss darüber, ob und wie sich die Beziehung zwischen Eingabe- und Zielvariablen geändert hat. Beispielsweise weist ein Anstieg des durchschnittlichen VI einer bestimmten Variablen darauf hin, dass sich ihre Verteilung in Richtung von Werten verschoben hat, denen eine höhere Bedeutung zugewiesen wird, diese Variable jedoch möglicherweise tatsächlich weniger prädiktiv für Y geworden ist. Stattdessen schlagen wir vor, die Variablenbedeutung auf Populationsebene zu überwachen45 Überwachung der Beziehung zwischen X und Y mithilfe der im folgenden Abschnitt beschriebenen Techniken.

Schließlich können statistische Kontrolldiagramme verwendet werden, um Änderungen in der Beziehung zwischen X und Y zu überwachen. Der intuitivste Ansatz besteht vielleicht darin, Leistungsmetriken zu überwachen, die zum Trainieren oder Testen des ursprünglichen Modells verwendet wurden46. Im AHE-Beispiel kann man sich dafür entscheiden, den mittleren quadratischen Fehler (MSE) zwischen den vorhergesagten und den beobachteten MAP-Werten oder die Fläche unter der Betriebskennlinie des Empfängers (AUC) bei vorhergesagten AHE-Risiken und den beobachteten AHE-Ereignissen zu überwachen. Durch die Verfolgung einer Vielzahl solcher Metriken können verschiedene Aspekte der Vorhersageleistung gemessen werden, beispielsweise Modellunterscheidung, Kalibrierung und Fairness. Leistungsmetriken, die als durchschnittlicher Verlust über einzelne Beobachtungen definiert sind (z. B. MSE), können mithilfe univariater Kontrolldiagramme überwacht werden, wie im vorherigen Abschnitt beschrieben. Leistungsmetriken, die nur mithilfe einer Reihe von Beobachtungen geschätzt werden können (z. B. AUC), erfordern stattdessen die Gruppierung von Beobachtungen und die Überwachung stapelweiser Zusammenfassungen.

Während Verfahren zur Überwachung von Leistungsmetriken einfach und intuitiv sind, besteht ihr größter Nachteil darin, dass die Leistung aufgrund von Änderungen in der Rand- oder Bedingungsverteilung sinken kann. Beispielsweise kann ein Rückgang der Vorhersagegenauigkeit unseres AHE-Frühwarnsystems entweder auf eine Veränderung der Patientenpopulation (eine Verschiebung von X) oder eine Veränderung der Epidemiologie (eine Verschiebung von Y∣X) zurückzuführen sein. Für die Ursachenanalyse ist es wichtig, zwischen beiden zu unterscheiden. Als nächstes beschreiben wir Verfahren zum Erkennen, ob eine Änderung ausschließlich in den bedingten Verteilungen aufgetreten ist.

Um Änderungen in der bedingten Verteilung Y∣X zu überwachen, kann man Verallgemeinerungen des CUSUM-Verfahrens wie das Shiryaev-Roberts-Verfahren47,48 und den Generalized Likelihood Ratio Test (GLRT)49,50 anwenden. Kurz gesagt überwachen diese Methoden Unterschiede zwischen dem ursprünglichen Modell und dem umgerüsteten Modell für einen möglichen Änderungspunkt. Durch die Überwachung des Unterschieds zwischen diesen beiden Modellen reagieren diese Methoden nur auf Änderungen in der bedingten Verteilung. Darüber hinaus kann man eine breitere Klasse sogenannter verallgemeinerter M-Fluktuationstests in Betracht ziehen, die dem Benutzer mehr Flexibilität bei der Entscheidung geben, welche Metriken verfolgt werden sollen51. Bei der Entscheidung zwischen Überwachungsverfahren ist es wichtig, die zugrunde liegenden Annahmen zu verstehen. Beispielsweise können Verfahren zur Überwachung parametrischer Modelle nicht zur direkten Überwachung komplexer KI-Algorithmen wie neuronaler Netze verwendet werden, wohl aber zur Überwachung parametrischer Rekalibrierungsmodelle (z. B. logistische Rekalibrierung52). Neuere Arbeiten haben versucht, gängige Annahmen zu lockern, einschließlich nichtparametrischer Erweiterungen53,54 und Methoden für den Umgang mit hochdimensionalem X55,56,57.

In bestimmten Fällen könnte man stattdessen an der Überwachung von X∣Y interessiert sein. Dies ist beispielsweise relevant, wenn der ML-Algorithmus anhand eines Röntgenbildes X die Krankheitsdiagnose Y vorhersagt, da sich die Krankheit im Laufe der Zeit unterschiedlich manifestieren kann und sich die resultierenden Bilder ändern können. Wenn Y nur wenige Werte annimmt, kann man die Verteilung von X innerhalb jeder Schicht mit den im vorherigen Abschnitt beschriebenen Methoden individuell überwachen. Wenn Y viele Werte annimmt oder stetig ist, kann man die oben genannten Verfahren zur Überwachung von Änderungen in Y∣X verwenden, wobei wir die Reihenfolge von X und Y vertauschen. Für hochdimensionales X sollte man vor der Anwendung von eine Dimensionsreduktion anwenden Verwenden Sie diese Methoden und überwachen Sie stattdessen die bedingte Beziehung zwischen den reduzierten Features und Y.

Trotz der zunehmenden Verwendung von Kontrollkarten im Gesundheitswesen ist es wichtig zu erkennen, dass viele dieser Methoden ursprünglich für die industrielle Fertigung entwickelt wurden, wo die Daten viel einheitlicher sind und man den Datenerfassungsprozess viel genauer steuern kann. In früheren Arbeiten wurde beschrieben, wie Unterschiede zwischen gesundheitsbezogenen Kontrollkartenanwendungen und industriellen Anwendungen behoben werden können58. Wenn diese Methoden zur Überwachung klinischer KI-Algorithmen eingesetzt werden, ergeben sich neue Herausforderungen und Chancen. Hier stellen wir zwei solcher Herausforderungen vor, aber es gibt noch viele weitere, die wir in diesem Manuskript nicht ansprechen können.

Eine große Herausforderung in vielen Situationen ist die Latenz zwischen den vom Algorithmus generierten Vorhersagen und der Zielvariablen. Beispielsweise erfordern Ergebnisse wie Mortalität oder die Entwicklung eines sekundären Malignoms typischerweise eine lange Nachbeobachtungszeit. In solchen Fällen wird es schwierig, rechtzeitig auf Änderungen in der Algorithmusleistung zu reagieren. Eine mögliche Lösung besteht darin, zu überwachen, wie gut ein KI-Algorithmus Ersatzergebnisse vorhersagt. Änderungen an diesem Stellvertretermaß würden als „Kanarienvogel“ dafür dienen, dass etwas schief gelaufen ist. Betrachten Sie als Beispiel einen Algorithmus zur Vorhersage des 30-Tage-Überlebens eines Patienten. Wir können die AUC des Algorithmus überwachen, um einen näheren Endpunkt wie das 5-Tage-Überleben des Patienten vorherzusagen und so die Erkennungsverzögerung zu verkürzen. Modellentwickler können AI-QI auch erleichtern, indem sie Algorithmen bereitstellen, die Vorhersagen sowohl für das interessierende Ergebnis als auch für diese Ersatzergebnisse ausgeben. Wir stellen fest, dass Ersatzergebnisse im Kontext von AI-QI nicht unbedingt dieselben formalen Eigenschaften erfüllen müssen, die zur Messung der Behandlungswirksamkeit verwendet werden59,60, da die Kosten eines Fehlalarms in unserem Umfeld viel geringer sind.

Eine weitere Herausforderung ist das KI-induzierte Confounding. Das heißt, wenn KI-basierte Algorithmen klinisch umsetzbare Vorhersagen liefern, können Ärzte ihren Behandlungsplan basierend auf den Vorhersagen des Algorithmus anpassen. Zurück zu unserem Beispiel eines AHE-Frühwarnsystems: Wenn der ML-Algorithmus eine Warnung generiert, dass innerhalb der nächsten 30 Minuten wahrscheinlich ein AHE auftritt, kann das Krankenhauspersonal als Reaktion darauf eine Behandlung mit Flüssigkeiten und/oder Vasopressoren verabreichen. Wenn der Patient 30 Minuten später keine blutdrucksenkende Episode erlebt, stellt sich die Frage: War der Algorithmus falsch oder hat die verordnete Intervention die Umstände verändert? In solchen Situationen müssen wir die Rolle menschlicher Faktoren61 und verwirrender medizinischer Interventionen (CMIs) berücksichtigen, da wir das kontrafaktische Ergebnis nicht beobachten können, das eingetreten wäre, wenn die Vorhersage nicht verfügbar gewesen wäre. Obwohl es ohne KI-basierte Vorhersagen zu Verwirrungen kommt62,63, werden die CMIs viel schwerwiegender, wenn Kliniker KI-Algorithmen in ihrem Entscheidungsprozess nutzen64,65,66. Tatsächlich gilt: Je effektiver die KI ist, desto schneller scheint sich die Leistung des KI-Algorithmus zu verschlechtern.

Aus statistischer Sicht besteht der beste Ansatz zur Erlangung einer unvoreingenommenen Schätzung der Modellleistung in der zufälligen Auswahl einer Untergruppe von Patienten, für die Anbieter keine KI-basierten Vorhersagen erhalten. Allerdings muss die Ethik eines solchen Ansatzes geprüft werden, und in der Krankenhaus-QI werden in der Regel nur geringfügige Abweichungen vom Pflegestandard berücksichtigt. Eine andere Möglichkeit besteht darin, sich auf fehlende Daten und kausale Schlussfolgerungstechniken zu verlassen, um Störfaktoren auszugleichen66,67. Während dadurch die Frage der medizinischen Ethik umgangen wird, sind kausale Schlussfolgerungsmethoden auf starke Annahmen angewiesen, um gültige Schlussfolgerungen zu ziehen. Dies kann bei der Analyse von Datenströmen schwierig sein, da bei solchen Methoden die Annahmen zu jedem Zeitpunkt gültig sein müssen. Derzeit gibt es keine endgültigen Lösungen und weitere Forschung ist erforderlich.

Hier präsentieren wir eine Simulation, um zu veranschaulichen, wie SPC zur Überwachung der Leistung eines AHE-Frühwarnsystems verwendet werden kann (Abb. 3). Angenommen, der Algorithmus prognostiziert zukünftige MAP-Werte und verlässt sich auf den Basis-MAP und die Herzfrequenz (HR) als Eingabevariablen. Der Arzt wird benachrichtigt, wenn der MAP in den nächsten 15 Minuten voraussichtlich unter 65 mmHg sinken wird.

Stellen Sie sich einen hypothetischen MAP-Vorhersagealgorithmus vor, der das Risiko eines Patienten für die Entwicklung einer akuten Hypotonie-Episode basierend auf zwei Eingabevariablen vorhersagt: Basis-MAP und Herzfrequenz (HR). In den oberen beiden Zeilen werden Änderungen der beiden Eingabevariablen mithilfe des CUSUM-Verfahrens überwacht, wobei die dunkle Linie die Diagrammstatistik und die hellen Linien die Kontrollgrenzen darstellen. Die dritte Zeile zielt darauf ab, Änderungen in der bedingten Beziehung zwischen den Ergebnis- und Eingabevariablen zu erkennen, indem die Residuen mithilfe des CUSUM-Verfahrens überwacht werden. Ein Alarm wird ausgelöst, wenn eine Diagrammstatistik ihre Kontrollgrenzen überschreitet.

In der Simulation beobachten wir zu jedem Zeitpunkt einen neuen Patienten. Zum Zeitpunkt 30 treten zwei Verschiebungen auf: Wir führen eine kleine Verschiebung des durchschnittlichen Basislinien-MAP und eine größere Verschiebung der bedingten Beziehung zwischen dem Ergebnis und den beiden Eingabevariablen ein. Wir erstellen Kontrollkarten, um Änderungen im mittleren Basislinien-MAP und -HR sowie in der bedingten Beziehung Y∣X zu erkennen. Mit der Überwachungssoftware des Strucchange R-Pakets68 konstruieren wir Kontrollgrenzen, sodass die Fehlalarmrate in jeder Kontrollkarte 0,05 beträgt. Die Kartenstatistik überschreitet die Kontrollgrenzen zum Zeitpunkt 35, was einer Verzögerung von fünf Zeitpunkten entspricht. Nachdem ein Alarm ausgelöst wurde, sollte das Krankenhaus eine Ursachenanalyse einleiten. Unter Bezugnahme auf das Ursache-Wirkungs-Diagramm in Abb. 2 kann man schlussfolgern, dass sich der bedingte Zusammenhang aufgrund einer Veränderung in der Epidemiologie, wie beispielsweise dem Auftreten von COVID-19 in der Patientenpopulation, geändert hat. Wenn erwartet wird, dass diese Änderung in der bedingten Beziehung dauerhaft ist, muss das AI-QI-Team das Modell wahrscheinlich aktualisieren.

Das Ziel der Modellaktualisierung besteht darin, beobachtete Einbrüche in der Modellleistung zu korrigieren, das Auftreten solcher Einbrüche zu verhindern und im Laufe der Zeit sogar die Modellleistung zu verbessern. Durch die Analyse eines Stroms von Patientendaten und -ergebnissen haben diese Verfahren das Potenzial, sich kontinuierlich an Verteilungsverschiebungen anzupassen. Wir stellen fest, dass Modellaktualisierungsverfahren im Gegensatz zur KI-Überwachung nicht unbedingt zwischen Abweichungen aufgrund häufiger und besonderer Ursachen unterscheiden müssen. Dennoch ist es oft hilfreich zu verstehen, auf welche Art von Variation die jeweilige Änderung abzielt, da dies Aufschluss darüber geben kann, ob weitere Korrekturmaßnahmen ergriffen werden müssen (z. B. Aktualisierung der Datenvorverarbeitung anstelle des Modells).

Verfahren zur Modellaktualisierung dürfen nicht auf die leichte Schulter genommen werden, da immer das Risiko besteht, dass die vorgeschlagenen Änderungen stattdessen die Leistung beeinträchtigen. Angesichts der Komplexität der kontinuierlichen Modellaktualisierung beschränken sich aktuelle reale Aktualisierungen des klinischen Vorhersagemodells im Allgemeinen auf einmalige Ad-hoc-Aktualisierungen69,70. Dennoch hängt die langfristige Nutzbarkeit von KI-Algorithmen von Verfahren ab, die regelmäßige Modellaktualisierungen einführen, die garantiert sicher und effektiv sind. Vor diesem Hintergrund erwägen Regulierungsbehörden derzeit verschiedene Lösungen für dieses sogenannte „Update-Problem“71. Beispielsweise hat die US-amerikanische FDA vorgeschlagen, dass der Modellanbieter ein Algorithm Change Protocol (ACP) bereitstellt, ein Dokument, das beschreibt, wie Änderungen generiert und validiert werden15. Dieser Rahmen steht im Einklang mit den Richtlinien der Europäischen Arzneimittel-Agentur für allgemeine Medizinprodukte, die von den Anbietern bereits die Bereitstellung von Änderungsmanagementplänen und eine Überwachung nach dem Inverkehrbringen verlangen72.

Im Folgenden beleuchten wir einige der wichtigsten Überlegungen bei der Gestaltung/Auswahl eines Modellaktualisierungsverfahrens. Tabelle 2 enthält eine Zusammenfassung der unten beschriebenen Methoden.

Die Wahl der Leistungsmetriken ist bei der Modellaktualisierung ebenso wie bei der ML-Überwachung von entscheidender Bedeutung. Der Grund dafür ist, dass Modellaktualisierungsverfahren, die Garantien in Bezug auf einen Satz von Leistungsmetriken bieten, möglicherweise nicht vor der Verschlechterung anderer schützen. Beispielsweise bieten viele Ergebnisse in der Online-Lernliteratur Garantien dafür, dass die Leistung des sich entwickelnden Modells im Durchschnitt der Zielgruppe über einen Zeitraum von mehreren Jahren besser sein wird als die des ursprünglichen Modells. Obwohl dies eine erste Schutzebene gegen ML-Leistungsabfall darstellt, bedeuten solche Garantien nicht, dass das sich entwickelnde Modell in jeder Subpopulation oder zu jedem Zeitpunkt überlegen sein wird. Daher ist es wichtig zu verstehen, wie die Leistung durch das Online-Lernverfahren quantifiziert wird und welche Garantien es bietet. Statistische Unterstützung ist erforderlich, um sicherzustellen, dass das ausgewählte Modellaktualisierungsverfahren die gewünschten Leistungsanforderungen erfüllt.

Ein weiteres Beispiel ergibt sich aus dem Umfeld der prädiktiven Polizeiarbeit, bei der ein Algorithmus versucht, Polizisten in einer Stadt zu verteilen, um Straftaten zu verhindern:73 zeigte, wie eine kontinuierliche Neuschulung des Algorithmus anhand beobachteter Kriminalitätsdaten zusammen mit einer naiven Leistungsmetrik zu außer Kontrolle geratenem Feedback führen kann Schleifen, bei denen die Polizei unabhängig von der tatsächlichen Kriminalitätsrate immer wieder in dieselben Viertel zurückgeschickt wird. Diese Herausforderungen haben die Forschung dazu angespornt, Leistungsmetriken zu entwickeln, die die algorithmische Fairness aufrechterhalten oder sogar fördern und der Entstehung schädlicher Rückkopplungsschleifen widerstehen74,75,76.

Bei der Entscheidung zwischen verschiedenen Arten von Modellaktualisierungen muss man deren „Modellkomplexität“ und den Kompromiss zwischen Bias und Varianz berücksichtigen77,78. Die einfachste Art der Modellaktualisierung ist die Neukalibrierung, bei der vom ursprünglichen Modell erzeugte kontinuierliche Bewertungen (z. B. vorhergesagte Risiken) auf neue Werte abgebildet werden. Beispiele hierfür sind Platt-Skalierung, Temperaturskalierung und isotonische Regression79,80,81,82. Umfangreichere Modellrevisionen transformieren Vorhersagen aus dem ursprünglichen Modell, indem sie andere Variablen berücksichtigen. Beispielsweise führt eine Überarbeitung des Logistikmodells zu einer Regression des Ergebnisses gegenüber der Vorhersage des ursprünglichen Modells und anderen verschiebungsanfälligen Variablen83. In diese Kategorie fallen auch Verfahren, die nur die oberste Schicht eines neuronalen Netzes feinabstimmen.

Die komplexesten Modellaktualisierungen sind solche, die das Modell von Grund auf neu trainieren oder an ein völlig anderes Modell anpassen. Wenn man sich für eine höhere Komplexität entscheidet, gibt es einen Kompromiss: Man kann sich besser vor komplexen Verteilungsverschiebungen schützen, aber die resultierenden Aktualisierungen reagieren empfindlich auf Rauschen in den Daten und können ohne sorgfältige Kontrolle der Modellkomplexität überangepasst sein. Da die Datengeschwindigkeit im medizinischen Bereich tendenziell langsam ist, können einfache Modellaktualisierungen oft sehr effektiv sein84.

Dennoch können komplexere Modellaktualisierungen letztendlich nützlich sein, da immer mehr Daten anfallen. Verfahren wie die Online-Kreuzvalidierung85 und die Bayes'sche Modellmittelung86 können dabei helfen, im Laufe der Zeit dynamisch die am besten geeignete Modellkomplexität auszuwählen.

Eine weitere Designüberlegung ist die Entscheidung, wann und wie oft Modellaktualisierungen erfolgen. Im Großen und Ganzen gibt es zwei Ansätze: einen „reaktiven“ Ansatz, der das Modell nur als Reaktion auf Probleme aktualisiert, die durch kontinuierliche Überwachung erkannt werden, und einen „kontinuierlichen Aktualisierungs“-Ansatz, der das Modell aktualisiert, auch wenn keine Probleme erkannt wurden. Letzteres kommt in der klinischen Praxis weitaus seltener vor, obwohl es mehrfach Forderungen nach regelmäßigen Modellaktualisierungen gibt87,88,89. Der Vorteil der kontinuierlichen Aktualisierung besteht darin, dass sie die Modellleistung verbessern (nicht nur aufrechterhalten) kann, schnell auf Änderungen in der Umgebung reagieren, die Anzahl der Patienten reduzieren kann, die einem schlecht funktionierenden Algorithmus ausgesetzt sind, und möglicherweise das Vertrauen der Ärzte stärken kann.

Dennoch gibt es viele Herausforderungen bei der Implementierung kontinuierlicher Aktualisierungsverfahren13. Beispielsweise kann es bei Verfahren, die Modelle nur anhand der aktuellsten Daten neu trainieren, zu einem Phänomen kommen, das als „katastrophales Vergessen“ bekannt ist und bei dem die Integration neuer Daten in das Modell in der Vergangenheit erlerntes Wissen überschreiben kann. Andererseits können sich Verfahren, die Modelle auf der Grundlage aller zuvor gesammelten Daten neu trainieren, möglicherweise nicht an wichtige zeitliche Verschiebungen anpassen und sind rechenintensiv. Um zu entscheiden, wie viele Daten zum erneuten Trainieren des Modells verwendet werden sollen, kann man das Online-Lernverfahren anhand retrospektiver Daten simulieren, um das Risiko eines katastrophalen Vergessens und die Relevanz früherer Daten abzuschätzen (siehe Beispiel 10). Eine weitere Herausforderung besteht darin, dass viele Online-Aktualisierungsmethoden keine aussagekräftigen Leistungsgarantien über realistische Zeithorizonte bieten. Theoretische Garantien für die Aktualisierung komplexer ML-Algorithmen wie neuronaler Netze sind besonders schwer zu ermitteln. Stattdessen wird in neueren Arbeiten die Verwendung von „Metaverfahren“ vorgeschlagen, die von einem Black-Box-Online-Lernverfahren vorgeschlagene Änderungen genehmigen und sicherstellen, dass die genehmigten Änderungen bestimmte Leistungsgarantien erfüllen. Unter diesen Methoden bietet das Online-Hypothesentesten die stärksten Garantien90,91. Ein anderer Ansatz besteht darin, kontinuierliche Aktualisierungsverfahren für parametrische Modelle zu verwenden, für die theoretische Eigenschaften abgeleitet werden können, zum Zweck der Modellrevision, beispielsweise bei der Online-Logistik-Rekalibrierung/-Revision92 und der Online-Modellmittelung93.

Die Leistung erlernter Modellaktualisierungen hängt von der Qualität der Trainingsdaten ab. Daher stützten sich viele veröffentlichte Studien zu einmaligen Modellaktualisierungen auf die manuelle Kuratierung von Trainingsdaten und die Durchführung einer umfassenden Datenvalidierung69,87. Dieser Prozess kann sehr arbeitsintensiv sein. Beispielsweise70 beschrieb, wie sorgfältiges experimentelles Design erforderlich war, um ein Risikovorhersagemodell für Delir bei Patienten auf der Intensivstation zu aktualisieren. Da das Ergebnis subjektiv war, mussten typische Probleme der Inter- und Intra-Rater-Zuverlässigkeit berücksichtigt werden. Darüber hinaus könnten Vorhersagen des eingesetzten KI-Algorithmus die Ergebnisbewertung beeinflussen, so dass die Prüfer für den Algorithmus und seine Vorhersagen blind sein mussten.

Dennoch wird es mit zunehmender Häufigkeit von Modellaktualisierungen einen Bedarf an einer stärker automatisierten Datenerfassung und -bereinigung geben. Leider sind die am leichtesten verfügbaren Datenströme im medizinischen Bereich Beobachtungsdaten und unterliegen unter anderem Verwirrung, strukturellen Verzerrungen, Fehlen und Fehlklassifizierungen der Ergebnisse94,95. Weitere Forschung ist erforderlich, um zu verstehen, wie Modelle kontinuierlich aus realen Datenströmen lernen können. Die Unterstützung durch Kliniker und die IT-Abteilung wird entscheidend für das Verständnis der Datenherkunft und ihrer möglichen Auswirkungen auf Online-Lernverfahren sein.

Um die klinische KI zur Reife zu bringen, müssen KI-Systeme kontinuierlich überwacht und aktualisiert werden. Wir haben allgemeine statistische Rahmenbedingungen für die Überwachung der Algorithmenleistung und wichtige Überlegungen beim Entwurf von Modellaktualisierungsverfahren beschrieben. Bei der Erörterung von AI-QI haben wir hervorgehoben, dass es sich um eine bereichsübergreifende Initiative handelt, die die Zusammenarbeit zwischen Modellentwicklern, Klinikern, IT-Experten, Biostatistikern und Regulierungsbehörden erfordert. Um diese Bemühungen voranzutreiben, fordern wir klinische Unternehmen dringend auf, AI-QI-Teams zu bilden, die die kontinuierliche Überwachung und Wartung von AI/ML-Systemen vorantreiben. Indem sie als „Klebstoff“ zwischen diesen verschiedenen Einheiten fungieren, werden AI-QI-Teams die Sicherheit und Wirksamkeit dieser Algorithmen nicht nur auf Krankenhausebene, sondern auch auf nationaler oder multinationaler Ebene verbessern.

Klinische QI-Initiativen werden in der Regel auf Abteilungs-/Abteilungsebene geleitet. Da AI-QI viele Arten von Fachwissen und Ressourcen erfordert, die über die einer bestimmten klinischen Abteilung hinausgehen, sind wir der Meinung, dass AI-QI-Einheiten klinische Abteilungen umfassen sollten. Eine solche Gruppe kann in bestehenden Strukturen untergebracht sein, beispielsweise in einer Abteilung für Biostatistik oder Epidemiologie. Alternativ könnten Krankenhäuser versuchen, spezielle klinische KI-Abteilungen einzurichten, die die Bemühungen zur Entwicklung, Bereitstellung und Wartung von KI-Modellen in der klinischen Versorgung zentralisieren würden96. Unabhängig davon, wo diese Einheit angesiedelt ist, hängt der Erfolg dieses Teams davon ab, dass es über wichtige analytische Fähigkeiten verfügt, wie z. B. strukturierte Datenerfassung, Datenverwaltung, statistische und maschinelle Lernkompetenz sowie klinische Workflow-Integration. Vieles davon geht davon aus, dass das Krankenhaus einen ausreichenden Grad an analytischer Reife erreicht hat (siehe z. B. HIMSS „Adoption Model for Analytics Maturity“) und baut auf Tools auf, die von der IT-Abteilung des Krankenhauses entwickelt wurden. Tatsächlich wird die IT-Abteilung ein wichtiger Partner beim Aufbau dieser Datenpipelines und der Darstellung von Modellleistungsmessungen am Arbeitsplatz des Klinikers sein.

Bei der Entscheidung, ob ein KI-System in die klinische Praxis eingeführt werden soll, wird es für Krankenhäuser auch wichtig sein, zu klären, wie die Verantwortlichkeiten für die Modellüberwachung und -aktualisierung zwischen dem Modellentwickler und dem AI-QI-Team aufgeteilt werden. Dies ist besonders relevant, wenn der Algorithmus proprietär ist; Die Aufteilung der Verantwortung kann flexibler sein, wenn der Algorithmus von einem internen Team entwickelt wird. Wie sollte das Modell beispielsweise gestaltet sein, um die Überwachung zu erleichtern, und welche Tools sollte ein Modellanbieter zur Überwachung seines Algorithmus bereitstellen? Welche Tools und Trainingsdaten sollte der Modellanbieter außerdem für die Aktualisierung des Modells bereitstellen? Eine Möglichkeit besteht darin, dass der Modellanbieter die volle Verantwortung für die Bereitstellung dieser Tools für das AI-QI-Team übernimmt. Der Vorteil dieser Option besteht darin, dass sie die Belastung des AI-QI-Teams minimiert und der Modellanbieter Daten von mehreren Institutionen nutzen kann, um die Modellüberwachung und -wartung zu verbessern97,98. Dies wirft jedoch potenzielle Interessenkonflikte auf, da der Modellanbieter nun für die Überwachung der Leistung seines eigenen Produkts verantwortlich ist. Eine zweite Möglichkeit besteht darin, dass die lokale AI-QI-Einheit im Krankenhaus die vollständige Verantwortung übernimmt. Dies hat den Vorteil, dass das Krankenhaus völlige Freiheit bei der Überwachungspipeline hat, beispielsweise bei der Auswahl der Metriken, die am relevantesten sind. Der Nachteil besteht jedoch darin, dass man nicht mehr auf Daten anderer Institutionen zurückgreifen kann, was besonders nützlich sein kann, um gute algorithmische Modifikationen zu erlernen. Eine dritte und wahrscheinlichste Option besteht darin, dass die Verantwortung zwischen dem AI-QI-Team des Krankenhauses und dem Modellanbieter geteilt wird. Beispielsweise übernehmen die Krankenhäuser die Verantwortung für die Einführung standortspezifischer Anpassungen und der Hersteller übernimmt die Verantwortung für die Bereitstellung umfangreicherer Modellaktualisierungen, die nur anhand standortübergreifender Daten erlernt werden können.

Zusätzlich zur Überwachung auf Krankenhausebene durch das AI-QI-Team werden Regulierungsbehörden maßgeblich dazu beitragen, die langfristige Sicherheit und Wirksamkeit von KI-basierten Algorithmen auf nationaler oder internationaler Ebene sicherzustellen. Aktuelle Vorschläge erfordern, dass Algorithmenanbieter die Leistungsüberwachung anführen15. Obwohl der Anbieter sicherlich eine wichtige Rolle bei der Gestaltung der Überwachungspipeline spielen wird, sollte das Überwachungsverfahren selbst von einer unabhängigen Stelle durchgeführt werden, um Interessenkonflikte zu vermeiden. Zu diesem Zweck könnten bestehende Post-Market-Überwachungssysteme wie die Sentinel-Initiative99 der FDA angepasst werden, um KI-basierte Algorithmen im Gesundheitswesen zu überwachen und den Umfang dieser Programme nicht nur auf die Pharmakoüberwachung, sondern auch auf „Technovigilenz“ auszudehnen100,101. Darüber hinaus können AI-QI-Teams als wichtige Partner in dieser landesweiten Initiative fungieren, indem sie Daten und Erkenntnisse über die Leistung lokaler Modelle austauschen. Wenn an mehreren Standorten erhebliche Leistungsschwankungen festgestellt werden, sollte die Regulierungsbehörde die Möglichkeit haben, die Lizenz des KI-Algorithmus zurückzustellen.

Im Allgemeinen gibt es nur sehr wenige Studien, die die Wirksamkeit kontinuierlicher Überwachungs- und Wartungsmethoden für KI-basierte Algorithmen, die auf medizinische Datenströme angewendet werden, bewertet haben, was möglicherweise auf einen Mangel an öffentlichen Datensätzen mit Zeitstempeln zurückzuführen ist. In den meisten Studien wurden entweder simulierte Daten oder Daten aus einem einzelnen, privaten medizinischen Datensatz berücksichtigt52,92,93. Obwohl sich große öffentlich zugängliche Datensätze wie die Datenbank Medical Information Mart for Intensive Care (MIMIC)102 in Richtung der Veröffentlichung genauerer Zeitstempel bewegen, haben zufällige Datumsverschiebungen, die zur De-Identifizierung von Daten verwendet werden, den unglücklichen Nebeneffekt, dass sie die in der Datenbank vorhandenen zeitlichen Verschiebungen dämpfen Daten. Wie man ML-Überwachungs- und Aktualisierungsverfahren anhand zeitgestempelter Daten validieren und gleichzeitig die Privatsphäre der Patienten wahren kann, bleibt ein offenes Problem.

Schließlich stehen derzeit nur wenige Softwarepakete für die Überwachung und Wartung von KI-Algorithmen zur Verfügung103,104,105. Die existierenden sind begrenzt, entweder hinsichtlich der Art der Algorithmen, der Datentypen und/oder der statistischen Garantien, die sie bieten. Es besteht ein dringender Bedarf, robuste Open-Source-Softwarepakete für AI-QI zu erstellen und Krankenhäuser auf ihrem Weg zur KI-Bereitschaft zu unterstützen.

Die Datenfreigabe ist auf diesen Artikel nicht anwendbar, da während der aktuellen Studie keine Datensätze generiert oder analysiert wurden.

Code für das Beispiel der Überwachung eines AHE-Frühwarnsystems ist in den ergänzenden Materialien enthalten.

Hannun, AY et al. Erkennung und Klassifizierung von Arrhythmien auf kardiologischer Ebene in ambulanten Elektrokardiogrammen mithilfe eines tiefen neuronalen Netzwerks. Nat. Med. 25, 65–69 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Esteva, A. et al. Ein Leitfaden für Deep Learning im Gesundheitswesen. Nat. Med. 25, 24–29 (2019).

Artikel CAS PubMed Google Scholar

Pirracchio, R. et al. Big Data und gezieltes maschinelles Lernen in Aktion, um medizinische Entscheidungen auf der Intensivstation zu unterstützen. Anaesth. Crit Care Pain Med. 38, 377–384 (2019).

Artikel PubMed Google Scholar

Liu, S. et al. Reinforcement Learning zur klinischen Entscheidungsunterstützung in der Intensivpflege: umfassende Übersicht. J. Med. Internet Res. 22, e18477 (2020).

Artikel PubMed PubMed Central Google Scholar

Adegboro, CO, Choudhury, A., Asan, O. & Kelly, MM Künstliche Intelligenz zur Verbesserung der Gesundheitsergebnisse auf der neonatologischen Intensivstation und der Intensivstation: eine systematische Überprüfung. Hosp Pediatr 12, 93–110 (2022).

Artikel PubMed Google Scholar

Choudhury, A. & Asan, O. Rolle der künstlichen Intelligenz bei den Ergebnissen der Patientensicherheit: systematische Literaturrecherche. JMIR Med Inform. 8, e18599 (2020).

Artikel PubMed PubMed Central Google Scholar

Benjamens, S., Dhunnoo, P. & Meskó, B. Der Stand der auf künstlicher Intelligenz basierenden (von der FDA zugelassenen) medizinischen Geräte und Algorithmen: eine Online-Datenbank. NPJ Digit Med 3, 118 (2020).

Artikel PubMed PubMed Central Google Scholar

Sculley, D. et al. Maschinelles Lernen: Die hochverzinsliche Kreditkarte für technische Schulden. In Advances In Neural Information Processing Systems, vol. 28 (Hrsg. Cortes, C., Lawrence, N., Lee, D., Sugiyama, M. & Garnett, R.) (Curran Associates, Inc., 2015).

Davis, SE, Lasko, TA, Chen, G., Siew, ED & Matheny, ME Kalibrierungsdrift in Regressions- und maschinellen Lernmodellen für akute Nierenverletzungen. Marmelade. Med. Informieren. Assoc. 24, 1052–1061 (2017).

Artikel PubMed PubMed Central Google Scholar

Chen, JH, Alagappan, M., Goldstein, MK, Asch, SM & Altman, RB Abnehmende Relevanz klinischer Daten für zukünftige Entscheidungen in datengesteuerten stationären klinischen Auftragssätzen. Int. J. Med. Informieren. 102, 71–79 (2017).

Artikel PubMed PubMed Central Google Scholar

Nestor, B. et al. Funktionsrobustheit in instationären Gesundheitsakten: Vorbehalte hinsichtlich der Leistung einsetzbarer Modelle bei gängigen klinischen maschinellen Lernaufgaben. Maschinelles Lernen für das Gesundheitswesen 106, 381–405 (2019).

Google Scholar

Yoshida, E., Fei, S., Bavuso, K., Lagor, C. & Maviglia, S. Der Wert der Überwachung klinischer Entscheidungsunterstützungsinterventionen. Appl. Klin. Informieren. 9, 163–173 (2018).

Artikel PubMed PubMed Central Google Scholar

Lee, CS & Lee, AY Klinische Anwendungen des kontinuierlichen maschinellen Lernens. Lancet Digital Health 2, e279–e281 (2020).

Artikel PubMed Google Scholar

Vokinger, KN, Feuerriegel, S. & Kesselheim, AS Kontinuierliches Lernen in Medizinprodukten: Der Aktionsplan der FDA und darüber hinaus. Lancet Digital Health 3, e337–e338 (2021).

Artikel PubMed Google Scholar

US-amerikanische Lebensmittel- und Arzneimittelbehörde. Vorgeschlagener Regulierungsrahmen für Änderungen an auf künstlicher Intelligenz/maschinellem Lernen (KI/ML) basierender Software als Medizinprodukt (SaMD): Diskussionspapier und Bitte um Feedback. Technik. Rep. (2019).

Liu, Y., Chen, P.-HC, Krause, J. & Peng, L. Wie man Artikel liest, die maschinelles Lernen nutzen: Benutzerhandbücher zur medizinischen Literatur. JAMA 322, 1806–1816 (2019).

Artikel PubMed Google Scholar

Finlayson, SG et al. Der Kliniker- und Datensatzwandel in der künstlichen Intelligenz. N. engl. J. Med. 385, 283–286 (2021).

Artikel PubMed PubMed Central Google Scholar

Breck, E., Cai, S., Nielsen, E., Salib, M. & Sculley, D. Das ML-Testergebnis: Eine Rubrik für ML-Produktionsbereitschaft und technischen Schuldenabbau. In: 2017 IEEE International Conference on Big Data (Big Data), 1123–1132 (ieeexplore.ieee.org, 2017).

Amershi, S. et al. Softwareentwicklung für maschinelles Lernen: eine Fallstudie. In: 2019 IEEE/ACM 41st International Conference on Software Engineering: Software Engineering in Practice (ICSE-SEIP), 291–300 (2019).

Benneyan, JC, Lloyd, RC & Plsek, PE Statistische Prozesskontrolle als Instrument zur Forschung und Verbesserung der Gesundheitsversorgung. Qual. Sicher. Health Care 12, 458–464 (2003).

Artikel CAS PubMed PubMed Central Google Scholar

Thor, J. et al. Anwendung der statistischen Prozesskontrolle zur Verbesserung der Gesundheitsversorgung: systematische Überprüfung. Qual. Sicher. Health Care 16, 387–399 (2007).

Artikel PubMed PubMed Central Google Scholar

Backhouse, A. & Ogunlayi, F. Qualitätsverbesserung in der Praxis. BMJ 368, m865 (2020).

Artikel PubMed PubMed Central Google Scholar

Hatib, F. et al. Maschinell lernender Algorithmus zur Vorhersage von Hypotonie basierend auf einer hochpräzisen Analyse der arteriellen Druckwellenform. Anaesthesiology 129, 663–674 (2018).

Artikel PubMed Google Scholar

Duckworth, C. et al. Verwendung von erklärbarem maschinellem Lernen zur Charakterisierung von Datenabweichungen und zur Erkennung neu auftretender Gesundheitsrisiken bei der Aufnahme in die Notaufnahme während COVID-19. Wissenschaft. Rep. 11, 23017 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Rubin, DL Künstliche Intelligenz in der Bildgebung: Die Rolle des Radiologen. Marmelade. Slg. Radiol. 16, 1309–1317 (2019).

Artikel PubMed PubMed Central Google Scholar

Gossmann, A., Cha, KH & Sun, X. Leistungsverschlechterung tiefer neuronaler Netze für die Läsionsklassifizierung in der Mammographie aufgrund einer Verteilungsverschiebung: eine Analyse basierend auf einer künstlich erzeugten Verteilungsverschiebung. In: Medical Imaging 2020: Computer-Aided Diagnosis, Bd. 11314, (Hrsg. Hahn, HK & Mazurowski, MA)1131404 (Internationale Gesellschaft für Optik und Photonik, 2020).

Cabitza, F. et al. Die Wichtigkeit, extern zu sein. methodische Erkenntnisse zur externen Validierung maschineller Lernmodelle in der Medizin. Berechnen. Methodenprogramme Biomed. 208, 106288 (2021).

Artikel PubMed Google Scholar

Subbaswamy, A., Schulam, P. & Saria, S. Fehler aufgrund von Datensatzverschiebungen verhindern: Lernen von Vorhersagemodellen, die transportieren. In: Proc. Forschung zum maschinellen Lernen Bd. 89 (Hrsg. Chaudhuri, K. & Sugiyama, M.) 3118–3127 (PMLR, 2019).

Schölkopf, B. et al. Über kausales und antikausales Lernen. In: Proc. 29. Internationale Konferenz zur Internationalen Konferenz zum maschinellen Lernen, ICML'12 459–466 (Omnipress, 2012).

Quionero-Candela, J., Sugiyama, M., Schwaighofer, A. & Lawrence, ND Datensatzverschiebung im maschinellen Lernen (The MIT Press, 2009).

Montgomery, D. Einführung in die statistische Qualitätskontrolle (Wiley, 2020).

Aggarwal, CC Eine Einführung in die Ausreißeranalyse. In: Ausreißeranalyse 1–34 (Springer, 2017).

Greenland, S., Pearl, J. & Robins, JM Kausaldiagramme für die epidemiologische Forschung. Epidemiology 10, 37–48 (1999).

Artikel CAS PubMed Google Scholar

Castro, DC, Walker, I. & Glocker, B. Kausalität ist in der medizinischen Bildgebung wichtig. Nat. Komm. 11, 3673 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Page, ES Kontinuierliche Inspektionspläne. Biometrie 41, 100–115 (1954).

Artikel Google Scholar

Bersimis, S., Psarakis, S. & Panaretos, J. Multivariate statistische Prozesskontrolldiagramme: ein Überblick. Qual. Zuverlässig. Ing. Int. 23, 517–543 (2007).

Artikel Google Scholar

Zou, C. & Qiu, P. Multivariate statistische Prozesskontrolle mit LASSO. Marmelade. Stat. Assoc. 104, 1586–1596 (2009).

Artikel Google Scholar

Qahtan, AA, Alharbi, B., Wang, S. & Zhang, X. Ein PCA-basiertes Änderungserkennungs-Framework für mehrdimensionale Datenströme: Änderungserkennung in mehrdimensionalen Datenströmen. In: Proc. 21. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining 935–944 (Association for Computing Machinery, 2015).

Boracchi, G., Carrera, D., Cervellera, C. & Macciò, D. QuantTree: Histogramme zur Änderungserkennung in multivariaten Datenströmen. In: Proc. 35. Internationale Konferenz über maschinelles Lernen Vol. 80 (Hrsg. Dy, J. & Krause, A.) 639–648 (PMLR, 2018).

Rabanser, S., Günnemann, S. & Lipton, Z. Lautes Scheitern: Eine empirische Untersuchung von Methoden zur Erkennung von Datensatzverschiebungen. In: Fortschritte in neuronalen Informationsverarbeitungssystemen Vol. 32 (Hrsg. Wallach, H., Larochelle, H., Beygelzimer, A., d'Alché-Buc, F., Fox, E. & Garnett, R.) 1396–1408 https://proceedings.neurips.cc /paper/2019/file/846c260d715e5b854ffad5f70a516c88-Paper.pdf (Curran Associates, Inc., 2019).

Qiu, P. Big Data? Statistische Prozesskontrolle kann helfen! Bin. Stat. 74, 329–344 (2020).

Artikel Google Scholar

Ditzler, G. & Polikar, R. Hellinger Distanzbasierte Drifterkennung für instationäre Umgebungen. In: 2011 IEEE Symposium on Computational Intelligence in Dynamic and Uncertain Environments (CIDUE) 41-48 (2011).

Gretton, A., Borgwardt, K., Rasch, M., Schölkopf, B. & Smola, A. Eine Kernelmethode für das Zwei-Stichproben-Problem. In: Fortschritte in neuronalen Informationsverarbeitungssystemen Vol. 19 (Hrsg. Schölkopf, B., Platt, J. & Hoffman, T.) (MIT Press, 2007).

Harchaoui, Z., Moulines, E. & Bach, F. Kernel-Change-Point-Analyse. In Advances in Neural Information Processing Systems Vol. 21 (Hrsg. Koller, D., Schuurmans, D., Bengio, Y. & Bottou, L.) (Curran Associates, Inc., 2009).

Williamson, BD & Feng, J. Effiziente nichtparametrische statistische Schlussfolgerung auf die Bedeutung von Populationsmerkmalen unter Verwendung von Shapley-Werten. In: Proc. der 37. International Conference on Machine Learning Vol. 119 (Hrsg. Daumé. H. III & Singh, A.) 10282–10291 (PMLR, 2020).

Nishida, K. & Yamauchi, K. Erkennen von Konzeptabweichungen mithilfe statistischer Tests. In: Discovery Science 264–269 https://doi.org/10.1007/978-3-540-75488-6_27 (Springer Berlin Heidelberg, 2007).

Shiryaev, AN Über optimale Methoden bei schnellsten Erkennungsproblemen. Theorie wahrscheinlich. Appl. 8, 22–46 (1963).

Artikel Google Scholar

Roberts, SW Ein Vergleich einiger Kontrollkartenverfahren. Technometrics 8, 411–430 (1966).

Artikel Google Scholar

Siegmund, D. & Venkatraman, ES Verwendung der generalisierten Likelihood-Ratio-Statistik zur sequentiellen Erkennung eines Änderungspunkts. Ann. Statistik 23, 255–271 (1995).

Google Scholar

Lai, TL & Xing, H. Sequentielle Änderungspunkterkennung, wenn die Parameter vor und nach der Änderung unbekannt sind. Seq. Anal. 29, 162–175 (2010).

Artikel Google Scholar

Zeileis, A. & Hornik, K. Verallgemeinerte m-Fluktuationstests für Parameterinstabilität. Stat. Neerl. 61, 488–508 (2007).

Artikel Google Scholar

Davis, SE, Greevy, RA Jr., Lasko, TA, Walsh, CG & Matheny, ME Erkennung von Kalibrierungsdrift in klinischen Vorhersagemodellen zur Information über die Modellaktualisierung. J. Biomed. Informieren. 112, 103611 (2020).

Artikel PubMed PubMed Central Google Scholar

Zou, C. & Tsung, F. Wahrscheinlichkeitsverhältnisbasierte, verteilungsfreie EWMA-Kontrollkarten. J. Commod. Wissenschaft. Technol. Qual. 42, 174–196 (2010).

Artikel Google Scholar

Shin, J., Ramdas, A. & Rinaldo, A. Nichtparametrische iterierte Logarithmus-Erweiterungen des sequentiellen generalisierten Likelihood-Ratio-Tests. IEEE J. Sel. Bereiche in Inform. Theorie 2, 691–704 (2021).

Artikel Google Scholar

Leonardi, F. & Bühlmann, P. Rechnerisch effiziente Änderungspunkterkennung für hochdimensionale Regression Preprint unter https://doi.org/10.48550/ARXIV.1601.03704 (arXiv, 2016).

Enikeeva, F. & Harchaoui, Z. Hochdimensionale Änderungspunkterkennung unter spärlichen Alternativen. Ann. Stat. 47, 2051–2079 (2019).

Artikel Google Scholar

Liu, L., Salmon, J. & Harchaoui, Z. Score-basierte Änderungserkennung für Gradienten-basierte Lernmaschinen. In: ICASSP 2021–2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 4990–4994 (2021).

Woodall, WH Die Verwendung von Kontrollkarten im Gesundheitswesen und bei der Überwachung der öffentlichen Gesundheit. J. Qual. Technol. 38, 89–104 (2006).

Artikel Google Scholar

Huang, Y. & Gilbert, PB Vergleich von Biomarkern als wichtigste Ersatzendpunkte. Biometrie 67, 1442–1451 (2011).

Artikel PubMed PubMed Central Google Scholar

Price, BL, Gilbert, PB & van der Laan, MJ Schätzung des optimalen Ersatzes basierend auf einer randomisierten Studie. Biometrie 74, 1271–1281 (2018).

Asan, O. & Choudhury, A. Forschungstrends bei Anwendungen künstlicher Intelligenz im Gesundheitswesen mit menschlichen Faktoren: Mapping-Überprüfung. JMIR Hum. Faktoren 8, e28236 (2021).

Artikel PubMed PubMed Central Google Scholar

Paxton, C., Niculescu-Mizil, A. & Saria, S. Entwicklung von Vorhersagemodellen mithilfe elektronischer Krankenakten: Herausforderungen und Fallstricke. AMIA Annu. Symp. Proz. 2013, 1109–1115 (2013).

PubMed PubMed Central Google Scholar

Dyagilev, K. & Saria, S. Lernen (prädiktiver) Risikoscores bei Zensur aufgrund von Interventionen. Mach. Lernen. 102, 323–348 (2016).

Artikel Google Scholar

Lenert, MC, Matheny, ME & Walsh, CG Prognosemodelle werden Opfer ihres eigenen Erfolgs sein, es sei denn. Marmelade. Med. Informieren. Assoc. 26, 1645–1650 (2019).

Artikel PubMed PubMed Central Google Scholar

Perdomo, J., Zrnic, T., Mendler-Dünner, C. & Hardt, M. Performative Vorhersage. In Proc. der 37. International Conference on Machine Learning Vol. 119 (Hrsg. Daumé. H. III & Singh, A.) 7599–7609 http://proceedings.mlr.press/v119/perdomo20a/perdomo20a.pdf (PMLR, 2020).

Liley, J. et al. Die Modellaktualisierung nach Interventionen führt paradoxerweise zu einer Verzerrung. Int. Konf. Artif. Intel. Statistik 130, 3916–3924 (2021).

Google Scholar

Imbens, GW & Rubin, DB Causal Inference in Statistics, Social, and Biomedical Sciences (Cambridge University Press, 2015).

Zeileis, A., Leisch, F., Hornik, K. & Kleiber, C. strucchange: ein R-Paket zum Testen von Strukturänderungen in linearen Regressionsmodellen. J. Statistical Softw. 7, 1–38 (2002).

Artikel Google Scholar

Harrison, DA, Brady, AR, Parry, GJ, Carpenter, JR & Rowan, K. Neukalibrierung von Risikovorhersagemodellen in einer großen multizentrischen Kohorte von Aufnahmen auf Intensivstationen für Erwachsene im Allgemeinen im Vereinigten Königreich. Krit. Pflege Med. 34, 1378–1388 (2006).

Artikel PubMed Google Scholar

van den Boogaard, M. et al. Neukalibrierung des Delir-Vorhersagemodells für Intensivpatienten (PRE-DELIRIC): eine multinationale Beobachtungsstudie. Intensivmedizin. 40, 361–369 (2014).

Artikel PubMed Google Scholar

Babic, B., Gerke, S., Evgeniou, T. & Cohen, IG Algorithmen zum regulatorischen Lockdown in der Medizin. Science 366, 1202–1204 (2019).

Artikel CAS PubMed Google Scholar

Europäische Arzneimittel-Agentur. Verordnung (EU) 2017/745 des Europäischen Parlaments und des Rates. Technik. Rep. (2020).

Ensign, D., Friedler, SA, Neville, S., Scheidegger, C. & Venkatasubramanian, S. Außer Kontrolle geratene Rückkopplungsschleifen in der vorausschauenden Polizeiarbeit. In: Rechenschaftspflicht und Transparenz Bd. 81 (Hrsg. Friedler, SA & Wilson, C.) 160–171 (PMLR, 2018).

Hashimoto, T., Srivastava, M., Namkoong, H. & Liang, P. Fairness ohne Demografie bei der Minimierung wiederholter Verluste. In Proc. 35. Internationale Konferenz über maschinelles Lernen Vol. 80 (Hrsg. Dy, J. & Krause, A.) 1929–1938 (PMLR, 2018).

Liu, LT, Dean, S., Rolf, E., Simchowitz, M. & Hardt, M. Delayed Impact of Fair Machine Learning Vol. 80, 3150-3158 (PMLR, 2018).

Chouldechova, A. & Roth, A. The frontiers of fairness in machine learning Preprint unter https://doi.org/10.48550/ARXIV.1810.08810 (arXiv, 2018).

Hastie, T., Tibshirani, R. & Friedman, J. Die Elemente des statistischen Lernens (Springer, 2009) .

James, G., Witten, D., Hastie, T. & Tibshirani, R. Eine Einführung in das statistische Lernen (Springer, 2021).

Platt, J. Probabilistische Ausgaben für Support-Vektor-Maschinen und Vergleiche mit regulierten Likelihood-Methoden. Adv. Large Margin Classifiers 10, 61–74 (1999).

Google Scholar

Niculescu-Mizil, A. & Caruana, R. Vorhersage guter Wahrscheinlichkeiten mit überwachtem Lernen. In: Proc. 22. internationale Konferenz über maschinelles Lernen, ICML'05 625–632 (Association for Computing Machinery, 2005).

Guo, C., Pleiss, G., Sun, Y. & Weinberger, KQ Zur Kalibrierung moderner neuronaler Netze. Int. Konf. Mach. Lernen 70, 1321–1330 (2017).

Google Scholar

Chen, W., Sahiner, B., Samuelson, F., Pezeshk, A. & Petrick, N. Kalibrierung medizinisch-diagnostischer Klassifikatorwerte auf die Wahrscheinlichkeit einer Erkrankung. Stat. Methoden Med. Res. 27, 1394–1409 (2018).

Artikel PubMed Google Scholar

Steyerberg, EW Klinische Vorhersagemodelle: Ein praktischer Ansatz zur Entwicklung, Validierung und Aktualisierung (Springer, 2009). .

Steyerberg, EW, Borsboom, GJJM, van Houwelingen, HC, Eijkemans, MJC & Habbema, JDF Validierung und Aktualisierung prädiktiver logistischer Regressionsmodelle: eine Studie zu Stichprobengröße und -schrumpfung. Stat. Med. 23, 2567–2586 (2004).

Artikel PubMed Google Scholar

Benkeser, D., Ju, C., Lendle, S. & van der Laan, M. Online-Kreuzvalidierungsbasiertes Ensemble-Lernen. Statistik Med. 37, 249–260 (2018).

Artikel Google Scholar

McCormick, TH Dynamische logistische Regression und dynamische Modellmittelung für die binäre Klassifizierung. Biometrie 68, 23–30 (2012).

Strobl, AN et al. Verbesserung der Risikobewertung von Prostatakrebs bei Patienten: Übergang von statischen, global angewendeten zu dynamischen, praxisspezifischen Risikorechnern. J. Biomed. Informieren. 56, 87–93 (2015).

Artikel PubMed PubMed Central Google Scholar

Futoma, J., Simons, M., Panch, T., Doshi-Velez, F. & Celi, LA Der Mythos der Generalisierbarkeit in der klinischen Forschung und maschinellen Lernens im Gesundheitswesen. Lancet Digit Health 2, e489–e492 (2020).

Artikel PubMed PubMed Central Google Scholar

Vokinger, KN, Feuerriegel, S. & Kesselheim, AS Kontinuierliches Lernen in Medizinprodukten: Der Aktionsplan der FDA und darüber hinaus. Lancet Digit Health 3, e337–e338 (2021).

Artikel PubMed Google Scholar

Viering, TJ, Mey, A. & Loog, M. Lernende (mehr) monoton machen. In: Fortschritte in der intelligenten Datenanalyse XVIII (Hrsg. Berthold, MR, Feelders, Ad & Krempl, G.) 535–547 https://doi.org/10.1007/978-3-030-44584-3_42 (Springer International Publishing , 2020).

Feng, J., Emerson, S. & Simon, N. Genehmigungsrichtlinien für Modifikationen an auf maschinellem Lernen basierender Software als medizinisches Gerät: eine Studie zum Bio-Creep. Biometrie (2020).

Feng, J., Gossmann, A., Sahiner, B. & Pirracchio, R. Bayesianische logistische Regression für die Online-Neukalibrierung und Überarbeitung von Risikovorhersagemodellen mit Leistungsgarantien. Marmelade. Med. Informieren. Assoc. (2022).

Feng, J. Lernen, Aktualisierungen von Algorithmen für maschinelles Lernen sicher zu genehmigen. In: Proc. Konferenz über Gesundheit, Inferenz und Lernen, CHIL'21 164–173 (Association for Computing Machinery, 2021).

Kohane, IS et al. Was jeder Leser über Studien mit Daten aus elektronischen Patientenakten wissen sollte, aber möglicherweise nicht zu fragen wagt. J. Med. Internet Res. 23, e22219 (2021).

Artikel PubMed PubMed Central Google Scholar

Beesley, LJ et al. Die entstehende Landschaft der Gesundheitsforschung basierend auf Biobanken, die mit elektronischen Gesundheitsakten verknüpft sind: vorhandene Ressourcen, statistische Herausforderungen und potenzielle Chancen. Stat. Med. 39, 773–800 (2020).

Artikel PubMed Google Scholar

Cosgriff, CV, Stone, DJ, Weissman, G., Pirracchio, R. & Celi, LA Die Abteilung für klinische künstliche Intelligenz: eine Voraussetzung für den Erfolg. BMJ Health Care Inform. 27, e100183 (2020).

Artikel PubMed PubMed Central Google Scholar

Sheller, MJ et al. Föderiertes Lernen in der Medizin: Erleichterung multiinstitutioneller Zusammenarbeit ohne Austausch von Patientendaten. Wissenschaft. Rep. 10, 12598 (2020).

Artikel PubMed PubMed Central CAS Google Scholar

Warnat-Herresthal, S. et al. Schwarmlernen für dezentrales und vertrauliches klinisches maschinelles Lernen. Natur 594, 265–270 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

US-amerikanische Lebensmittel- und Arzneimittelbehörde. Sentinel-System: 5-Jahres-Strategie 2019-2023. Technik. Rep. (2019).

Harvey, H. & Cabitza, F. Algorithmen sind die neuen Medikamente? Überlegungen zu einer Kultur der Folgenabschätzung und Wachsamkeit. In: IADIS International Conference ICT, Society and Human Beings 2018 (Hrsg. Macedo, M. & Kommers, P.) (Teil von MCCSIS 2018) (2018).

Cabitza, F. & Zeitoun, J.-D. Der Beweis für den Pudding: Lob einer Kultur der realen Validierung medizinischer künstlicher Intelligenz. Ann Transl Med 7, 161 (2019).

Artikel PubMed PubMed Central Google Scholar

Johnson, AE et al. MIMIC-III, eine frei zugängliche Datenbank für die Intensivpflege. Sci Data 3, 160035 (2016).

Artikel CAS PubMed PubMed Central Google Scholar

Zeileis, A., Leisch, F., Hornik, K. & Kleiber, C. strucchange: ein R-Paket zum Testen von Strukturänderungen in linearen Regressionsmodellen. J. Statistical Softw. Artikel 7, 1–38 (2002).

Google Scholar

Bifet, A., Holmes, G., Kirkby, R. & Pfahringer, B. MOA: umfangreiche Online-Analyse. J. Mach. Lernen. Res. 11, 1601–1604 (2010).

Google Scholar

Montiel, J., Read, J., Bifet, A. & Abdessalem, T. Scikit-multiflow: ein Multi-Output-Streaming-Framework. J. Mach. Lernen. Res. 19, 1–5 (2018).

Google Scholar

Referenzen herunterladen

Die Autoren danken Charles McCulloch, Andrew Auerbach, Julian Hong und Linda Wang sowie den anonymen Gutachtern für hilfreiches Feedback. Dr. Bishara wird von der Foundation for Anesthesia Education and Research finanziert.

Abteilung für Epidemiologie und Biostatistik, University of California, San Francisco, CA, USA

Jean Feng

Bakar Computational Health Sciences Institute, University of California San Francisco, San Francisco, CA, USA

Jean Feng, Andrew Bishara und Romain Pirracchio

Abteilung für Biostatistik, University of California, Berkeley, CA, USA

Rachael V. Phillips, Ivana Malenica und Alan E. Hubbard

Abteilung für Anästhesie, University of California, San Francisco, CA, USA

Andrew Bishara & Romain Pirracchio

Institut für Medizintechnik und Wissenschaft, Massachusetts Institute of Technology, Abteilung für Medizin, Beth Israel Deaconess Medical Center; Abteilung für Biostatistik, Harvard TH Chan School of Public Health, Boston, MA, 02115, USA

Leo A. Celi

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

JF: Konzeptualisierung, Recherche, Manuskripterstellung und -bearbeitung, Betreuung; RVP: Recherche, Manuskripterstellung und Bearbeitung; IM: Recherche, Manuskripterstellung und -bearbeitung; AB: Recherche, Manuskriptbearbeitung; AH: Manuskriptbearbeitung; LC: Manuskriptbearbeitung; RP: Konzeption, Manuskripterstellung und -redaktion, Betreuung

Korrespondenz mit Jean Feng.

Dr. Bishara ist Mitbegründer von Bezel Health, einem Unternehmen, das Software zur Messung und Verbesserung von Interventionen zur Qualität der Gesundheitsversorgung entwickelt. Andere Autoren erklären, dass keine konkurrierenden Interessen bestehen.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht durch gesetzliche Vorschriften zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Feng, J., Phillips, RV, Malenica, I. et al. Qualitätsverbesserung der klinischen künstlichen Intelligenz: hin zu einer kontinuierlichen Überwachung und Aktualisierung von KI-Algorithmen im Gesundheitswesen. npj Ziffer. Med. 5, 66 (2022). https://doi.org/10.1038/s41746-022-00611-y

Zitat herunterladen

Eingegangen: 16. November 2021

Angenommen: 29. April 2022

Veröffentlicht: 31. Mai 2022

DOI: https://doi.org/10.1038/s41746-022-00611-y

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Naturmedizin (2023)

Kommunikationsmedizin (2023)

npj Digitale Medizin (2022)

Zeitschrift für digitale Bildgebung (2022)

AKTIE