banner

Nachricht

Sep 11, 2023

Maschinelles Lernen identifiziert einfache Frühwarnregeln für Ausbrüche des menschlichen Puumala-Hantavirus

Wissenschaftliche Berichte Band 13, Artikelnummer: 3585 (2023) Diesen Artikel zitieren

523 Zugriffe

2 Altmetrisch

Details zu den Metriken

Infektionen mit dem Humanen Puumala-Virus (PUUV) in Deutschland schwanken mehrjährig und folgen den Schwankungen der Größe der Rötelmauspopulation. Wir haben eine Transformation auf die jährlichen Inzidenzwerte angewendet und eine heuristische Methode etabliert, um ein unkompliziertes, robustes Modell für das binäre menschliche Infektionsrisiko auf Bezirksebene zu entwickeln. Das Klassifizierungsmodell basierte auf einem maschinellen Lernalgorithmus und erreichte eine Sensitivität von 85 % und eine Präzision von 71 %, obwohl nur drei Wetterparameter aus den Vorjahren als Eingaben verwendet wurden, nämlich die Bodentemperatur im April zweier Jahre zuvor und im September des Vorjahres Jahr und die Sonnenscheindauer im September von zwei Jahren zuvor. Darüber hinaus haben wir den PUUV-Ausbruchsindex eingeführt, der die räumliche Synchronität lokaler PUUV-Ausbrüche quantifiziert, und ihn auf die sieben gemeldeten Ausbrüche im Zeitraum 2006–2021 angewendet. Schließlich haben wir das Klassifizierungsmodell verwendet, um den PUUV-Ausbruchsindex zu schätzen und dabei eine maximale Unsicherheit von 20 % zu erreichen.

Durch den Klimawandel ausgelöste Umweltbedingungen spielen eine immer größere Rolle bei der Ausbreitung zoonotischer Infektionskrankheiten, indem sie die natürlichen Lebensräume der Tiere verändern, die Nahrungsverfügbarkeit beeinflussen und sogar Veränderungen in der Artenverteilung vorantreiben. In diesem Rahmen haben wir ein einfaches wetterbasiertes Modell für das Infektionsrisiko des humanen Puumala Orthohantavirus (PUUV) in Deutschland entwickelt.

Das PUUV ist das häufigste Hantavirus in Europa und wird durch Rötelmäuse (Clethrionomys glareolus, syn. Myodes glareolus) übertragen. Das PUUV kann leichtes bis mittelschweres hämorrhagisches Fieber mit Nierensyndrom (Nephropathia epidemica) mit einer Todesrate von 0,1–0,4 % verursachen1. Die menschlichen PUUV-Infektionen schwanken mehrjährig. In jüngster Zeit wurden in Deutschland über mehrere Jahre jährlich \(>{1000}\) Fälle gemeldet2, die im Allgemeinen und in großem Maßstab durch die Intensität von Buchenmasten (Fagus spec.) verursacht wurden, wie in der Vergangenheit für Belgien3,4 und für Deutschland5 gezeigt ,6.

Die zugrunde liegenden Mechanismen für die Übertragungsrate von PUUV auf den Menschen scheinen zu komplex, um direkt modelliert zu werden, da sie von der Häufigkeit der Rötelmauspopulationen, ihrer PUUV-Prävalenz und der Interaktion zwischen Mensch und Rötelmaus abhängen. die alle zeitlich schwanken und lokal variieren. Dennoch können Wetterbedingungen als Prädiktoren für das menschliche PUUV-Infektionsrisiko verwendet werden, da die Fluktuation der Rötelmauspopulationen stark mit den Wetterparametern der beiden Vorjahre korreliert7, wohingegen die PUUV-Prävalenz hauptsächlich von der Rötelmaushäufigkeit abhängt3,8. 9.

Wir haben deutsche Kreise mit signifikanten Zahlen an menschlichen Infektionen und Inzidenzen im Zeitraum 2006–2021 ausgewählt und die Korrelationen der jährlichen PUUV-Inzidenz mit monatlichen Wetterparametern auf Kreisebene untersucht. Wir haben eine Datentransformation durchgeführt, die die räumliche Synchronität der zeitlichen Fluktuation der PUUV-Inzidenz hervorhebt. Diese Transformation ermöglichte die Entwicklung eines binären Klassifizierungsmodells auf Basis von Support Vector Machines (SVM) für die bezirksbezogenen Ausbrüche, das landesweit anwendbar ist und ausschließlich auf leicht zugänglichen Wetterparametern basiert. Darüber hinaus haben wir den PUUV-Ausbruchsindex (POI) als Indikator für das jährliche menschliche PUUV-Infektionsrisiko eingeführt. Der POI ermöglicht erstmals eine eindeutige Definition eines PUUV-Ausbruchs unter Berücksichtigung des lokalen Ausmaßes der PUUV-Inzidenz. Die Definition des POI ist unabhängig von der Gesamtzahl der jährlichen Infektionen, ihre Werte korrelieren jedoch stark. Schließlich haben wir das binäre Klassifizierungsmodell auf den POI angewendet und gezeigt, dass nur drei Werte von Wetterparametern ausreichen, um eine gute Schätzung zu erhalten. Das kombinierte POI-Modell kann als einfache Faustregel zur Erkennung von Hochrisikojahren angewendet werden. Ein solches Modell kann verwendet werden, um die Ausbrüche von PUUV zu interpretieren, aber auch, um Näherungen über die Dynamik von Nagetieren zu erhalten. Dies ist von großer Bedeutung, um Strategien und Entscheidungen zum Schutz der menschlichen Gesundheit und der Pflanzen zu unterstützen.

Basierend auf den lokalen Infektions- und Inzidenzwerten haben wir 66 Kreise in Deutschland ausgewählt, in denen PUUV in den Jahren 2006–2021 ständig präsent war (Abb. 1). Auf die ausgewählten Bezirke entfallen 10.090 menschliche PUUV-Infektionen, 89,9 % der in diesem Zeitraum landesweit insgesamt gemeldeten Infektionen (Abb. 1, roter Verlauf). Die Bezirke sind in vier Cluster eingeteilt, die mit dem hypothetischen Rand des Verbreitungsgebiets der Evolutionslinie der Westlichen Rötelmaus übereinstimmen10 und alle bisher entdeckten PUUV-molekularen Gruppen umfassen11,12,13. Der erste Cluster (Abb. 1, cyanfarbener Umriss) umfasst 10 Landkreise zwischen Niedersachsen und Nordrhein-Westfalen, an der Grenze zu den Niederlanden, und entspricht den Kladen Münsterland und Teutoburger Wald. Der zweite Cluster (Abb. 1, grüner Umriss) umfasst zwei Kreise im Südwesten Nordrhein-Westfalens, beide aus dem Kreis Rheinland. Der größte Cluster (Abb. 1, violetter Umriss) umfasst 50 Landkreise in einem zentralen vertikalen Korridor mit einer Länge von etwa 450 km und einer maximalen Breite von etwa 200 km, der sich von Hessen und Thüringen über Bayern bis in den Süden Baden-Württembergs erstreckt. Württemberg an der Grenze zur Schweiz. Dieser Cluster umfasst die PUUV-Molekülgruppen Nordost-Essen, Spessartwald, Schwäbische Alb und Thüringer Wald. Der letzte Cluster (Abb. 1, blauer Umriss) schließlich umfasst 4 Landkreise in Ostbayern an der Grenze zur Tschechischen Republik mit der PUUV-Molekülgruppe des Bayerischen Waldes.

Auswahl der Bezirke für die Analyse. Die 66 ausgewählten Landkreise in ganz Deutschland werden in Abhängigkeit von ihrer gesamten PUUV-Infektionen in den Jahren 2006–2021 im roten Verlauf dargestellt. Der Farbbalken ist im Bereich [0, 50] linear und zur besseren Sichtbarkeit logarithmisch skaliert im Bereich [50, 650]. Es gab 26 Kreise aus Baden-Württemberg (BW), 16 aus Bayern (BY), 8 aus Hessen (HE), 3 aus Niedersachsen (NI), 10 aus Nordrhein-Westfalen (NW), 1 aus Rheinland-Pfalz ( RP) und 2 aus Thüringen (TH). Dicke schwarze Linien trennen die Bundesländer; Dicke farbige Linien trennen vier Cluster der nachgewiesenen PUUV-Molekülkladen, wie im Text beschrieben. Weitere Bezirke werden im Grauverlauf mit gleicher Farbbalkenskalierung dargestellt. Die Karte wurde mit dem Geopandas-Paket v0.9.0 (https://geopandas.org) in Python v3.8.5 generiert. Weitere Informationen zu den Rohdaten, der Verarbeitung und der Visualisierung finden Sie im Abschnitt Methoden.

Es gab 12 Kreise, die Kombinationen eines Stadtbezirks mit seinem benachbarten oder umliegenden Landkreis darstellen, wie in der Ergänzungstabelle 1 dargestellt. Die einzigen Stadtbezirke, die getrennt blieben, waren Köln, Münster und Stuttgart, deren Fläche deutlich groß ist.

Wir haben eine Log-Transformation auf die Inzidenzwerte angewendet, gefolgt von einer individuellen binären Klassifizierung für jeden Bezirk. Die daraus resultierenden zwei Klassen wurden als „geringes Risiko“ und „hohes Risiko“ bezeichnet. Zu einem lokalen „Ausbruch“ kam es in einem Jahr, in dem die Inzidenz in einem Landkreis in die Hochinzidenzklasse der erfassten Werte eingestuft wurde. Die Inzidenz in den Bezirken lag in den Jahren ohne Ausbruch bei Null oder wurde im Vergleich zu den aufgezeichneten Werten in diesem bestimmten Bezirk als niedrig angesehen. Von den insgesamt 1056 Beobachtungen (16 Jahre \(\times\) 66 Bezirke) wurden 682 als niedriges Risiko (65 %) und 374 als hohes Risiko (35 %) eingestuft. In Beobachtungen der Hochrisikoklasse wurden insgesamt 8779 Infektionen registriert, was 87 % der in dieser Analyse berücksichtigten Gesamtinfektionen (bzw. 78 % der Gesamtinfektionen in Deutschland im Zeitraum 2006–2021) entspricht.

Da die binäre Klassifizierung bezirksbasiert erfolgte, kann je nach Bezirk derselbe Inzidenzwert einem geringen Risiko oder einem hohen Risiko zugeordnet werden (Abb. 2).

Die jährlichen Inzidenzwerte in den ausgewählten Landkreisen von 2006 bis 2021. Die 66 Landkreise sind nach der maximalen jährlichen Inzidenz geordnet. Der Bereich mit niedrigem Risiko wird durch blaue Dreiecke (auf der linken Seite des Diagramms) angezeigt. Der Hochrisikobehälter wird durch rote Rauten (auf der rechten Seite des Diagramms) angezeigt. Die ausgefüllten Dreiecke und Rauten geben den Durchschnittswert für jede Klasse an. Die durchgezogenen Linien markieren den Inzidenzbereich für jeden Abschnitt. Die weißen Lücken zwischen der blauen und der roten Linie zeigen die Trennung zwischen den beiden Klassen für jeden Bezirk an. Die x-Achse ist im Bereich [0, 1] linear und im Bereich [1, 110] logarithmisch skaliert, um die Sichtbarkeit zu erhöhen. Die Namenskonvention entspricht der deutschen Version von SurvStat@RKI 2.0. LK: Landkreis (vom Deutschen Landkreis) und SK: Stadtbezirk (vom Deutschen Stadtkreis).

Basierend auf den lokalen Ausbrüchen haben wir den PUUV-Ausbruchsindex (POI) als Indikator für das jährliche menschliche PUUV-Infektionsrisiko in Deutschland, also für den globalen PUUV-Ausbruch, entwickelt. Der Wert jedes Jahres im POI wurde als Anteil der Bezirke definiert, denen für dieses Jahr ein hohes Infektionsrisiko zugewiesen wurde (Tabelle 1):

Jahre mit \(>{900}\) insgesamt gemeldeten Infektionen in den ausgewählten Bezirken haben einen POI-Wert von \(>\text{50\%}\).

Unser anfänglicher Vorhersagepool umfasste monatliche Wetterparameter der beiden Vorjahre. Wir haben das Variablentripel ausgewählt, das zum optimalen Klassifizierungsmodell für die binarisierte logarithmisch transformierte Inzidenz führte: die Bodentemperatur im April vor zwei Jahren (V2_ST_4), die Gesamtsonnenscheindauer im September vor zwei Jahren (V2_SD_9) und die Bodentemperatur im September des Vorjahres (V1_ST_9). Das resultierende Modell hatte eine Genauigkeit von 82,6 %, eine Sensitivität von 84,8 %, eine Präzision von 71,4 %, eine Spezifität von 81,4 % und einen F1-Score von 0,775. Die Elemente der Verwirrungsmatrix waren: richtig Negative \({\text{TN}}={555}\) (53 % der insgesamt 1056 Beobachtungen), falsch Negative \({\text{FN}}={57} \) (5 %), falsch positive Ergebnisse \({\text{FP}}={127}\) (12 %) und richtig positive Ergebnisse \({\text{TP}}={317}\) (30 % ). 5/7 der Einstufungen für hohes Risiko waren korrekt (Präzision) und fast 6/7 der tatsächlichen Hochrisiko-Beobachtungen wurden korrekt klassifiziert (Sensitivität). Die Falsch-Negativ-Beobachtungen summierten sich auf 301 Infektionen, was 3,5 % der Infektionen bei echten Hochrisikobeobachtungen (bzw. 3,0 % der Gesamtinfektionen) entspricht.

Für die Paare (V2_SD_9, V1_ST_9) und (V2_ST_4, V1_ST_9) waren die beiden Risikoklassen gut linear trennbar, mit Sensitivität \(>\text{77\%}\) und Präzision \(>\text{67\%}\ ) (Abb. 3a,b). Die Wetterparameter sind größtenteils räumlich einheitlich. Somit bildeten die Beobachtungen jedes Jahres Cluster im 3D-Eingaberaum unseres Modells. Die Werte der Wettervariablen für diese „Clusterzentren“ waren die Jahresmittelwerte für ganz Deutschland.

Ansichten des Modells. 2D-Streudiagramme mit allen 1056 Beobachtungen von 2006 bis 2021 für die drei Variablenpaare im ausgewählten 3D-Modell. V1_ST_9 in (a) und (b): die mittlere Bodentemperatur im September des Vorjahres, V2_SD_9 in (a) und (c): die gesamte Sonnenscheindauer im September von zwei Jahren zuvor und V2_ST_4 in (b) und ( c): die mittlere Bodentemperatur im April von zwei Jahren zuvor. Gelb (Hex-Farbcode #FDE725FF) entspricht Beobachtungen mit geringem Risiko, während Indigo (Hex-Farbcode #440154FF) Beobachtungen mit hohem Risiko entspricht. Die überlagerten roten X-Marker geben die über ganz Deutschland gemittelten Werte der Variablen jedes Jahres an, sogenannte Clusterzentren. Die roten Rautenmarkierungen geben die Durchschnittswerte über Deutschland für das Jahr 2022 (ausgefüllte Markierungen) und für das Jahr 2023 (unausgefüllte Markierungen) an.

Aufgrund der Clusterung der Wettervariablen und der Trennung der Daten pro Jahr ordnete das Modell alle Bezirke jedes Jahres derselben Risikoklasse zu. Die einzigen Ausnahmen waren 2006 und 2021, die Jahre, deren Cluster der planaren Klassengrenze am nächsten lagen. Für das Jahr 2006 wurden 58 Bezirke in die geringe Risikoklasse und 8 in die hohe Risikoklasse eingestuft. Für das Jahr 2021 wurden 40 Bezirke in die Hochrisikoklasse und 26 in die Niedrigrisikoklasse eingestuft. Alle Beobachtungen aus den Jahren 2007, 2010, 2012, 2015, 2017 und 2019 wurden in die Hochrisikoklasse eingestuft, was sie als PUUV-Ausbruchsjahre bezeichnet; wohingegen alle Beobachtungen aus den Jahren 2008, 2009, 2011, 2013, 2014, 2016, 2018 und 2020 in die geringe Risikoklasse eingestuft wurden.

Die höchste jährliche Genauigkeit lag 2009 bei 98 % (1 FN). Für sieben weitere Jahre wurde eine jährliche Genauigkeit von \(>\text{90\%}\) erreicht, d. Die niedrigste jährliche Genauigkeit betrug 41 % für 2015 (39 FP), gefolgt von 65 % für 2021 (12 FP und 11 FN). Für 2014 waren die einzigen falschen Klassifizierungen falsch-negative Ergebnisse (15 FN, 77 % Genauigkeit). Die höchste Genauigkeit wurde in Baden-Württemberg (90 %) erreicht, die niedrigste in Nordrhein-Westfalen (66 %) und Niedersachsen (69 %). Es wurden 6 Landkreise aus Baden-Württemberg, 2 aus Bayern und 1 aus Hessen mit 100 %iger Genauigkeit ermittelt. Weitere 15 Bezirke hatten nur eine falsche Einstufung (9 FP und 6 FN). Die meisten falsch-negativen Ergebnisse kamen mit 7 FN bzw. 6 FN aus den Kreisen Borken und Bentheim. Auch unter den Kreisen hatte Borken mit 44 % (7 FN und 2 FP) die geringste Genauigkeit.

Nach unserem Klassifizierungsmodell trennte eine Hyperebene die beiden Risikoklassen. Diese Hyperebene war eine planare Grenze im 3D-Raum:

Basierend auf dieser Ebene könnten wir das binäre Infektionsrisiko in Bezug auf V1_ST_9 definieren, die letzte Wettervariable, die vor der Vorhersage verfügbar wird:

wobei wir die Koeffizienten auf drei signifikante Ziffern gerundet haben. In Gl. (2)–(4) sind die Einheiten für die Temperaturen ST °C und für die Sonnenscheindauer SD Stunden. Um Rundungsfehler zu minimieren, sollte ST eine Genauigkeit von mindestens zwei Dezimalstellen und SD eine Genauigkeit von mindestens einer Dezimalstelle haben.

Der Abstand der Clusterzentren von der planaren Grenze des Klassifizierungsmodells (Gl. 2) kann als qualitatives Maß für das globale PUUV-Infektionsrisiko dienen. Abbildung 4 zeigt den POI für 2006–2021 in Bezug auf den Abstand des entsprechenden Clusterzentrums von der planaren Grenze. Die Beobachtungen bilden zwei Gruppen: für \({\text{Abstand}}_{\text{t}}>-\text{0,03}\) (ein positiver Abstand bedeutet, dass die Beobachtung über der Grenze in Bezug auf V1_ST_9 liegt; daher besteht für dieses Jahr ein hohes Infektionsrisiko) und für \({\text{Entfernung}}_{\text{t}}<-\text{0,37}\) (eine negative Entfernung bedeutet, dass die Beobachtung unter der liegt Grenze in Bezug auf V1_ST_9; daher besteht für dieses Jahr ein geringes Infektionsrisiko). Wir verglichen die Mittelwerte der Gruppen mittels einer einfaktoriellen ANOVA mit der Funktion f_oneway aus der SciPy-Bibliothek14. Basierend auf dem F-Wert von 97 und dem p-Wert von 1,1 × 10−7 kamen wir zu dem Schluss, dass die Mittelwerte der beiden Gruppen statistisch signifikant unterschiedlich waren.

Schätzung des PUUV-Ausbruchindex anhand des Klassifizierungsmodells. Aufgetragen ist der Anteil der Bezirke mit hohem Risiko für jedes Jahr, der als PUUV-Ausbruchsindex definiert wurde, in Abhängigkeit von der Entfernung von der planaren Grenze der Clusterzentren, also der durch die Durchschnittswerte der Wetterparameter definierten Punkte über Deutschland für dieses Jahr. Die roten gestrichelten Linien zeigen eine stückweise konstante Anpassung an die Daten (Pseudo-R2 = 0,87, berechnet nach 15). Der rot schattierte Bereich zeigt die Unsicherheit an. Der gehashte Bereich für Abstände im Intervall \(\text{[}-\text{0,37,}-\text{0,03]}\) stellt die erhöhte Unsicherheit über die Position der Diskontinuität dar.

Als Anpassung haben wir eine stückweise konstante Funktion angewendet; Für jede Gruppe haben wir einen konstanten Wert für den POI angenommen, der durch den Durchschnitt der aufgezeichneten Werte dieser Gruppe definiert ist. Der Standardfehler des Mittelwerts betrug 2,21 % für die Gruppe mit niedrigem Risiko (\({\text{Distanz}}_{\text{t}}<-\text{0,37}\)) und 6,77 % für die Gruppe mit hohem Risiko -Risikogruppe (\({\text{Entfernung}}_{\text{t}}>-\text{0,03}\)). Für Abstände im Intervall \(\text{[}-\text{0,37,}-\text{0,03]}\), bei denen der Schritt auftrat und keine Beobachtung verfügbar war, konnte keine Schätzung erstellt werden. Mit einer Unsicherheit, die dem Dreifachen des Standardfehlers des Mittelwerts entspricht, könnten wir den POI für das Jahr \({\text{t}}\) wie folgt schätzen:

Wir haben eine strenge und umfassende Methode angewendet, um das optimale Tripel von Wettervariablen für ein Modell auszuwählen, das das menschliche PUUV-Infektionsrisiko vorhersagt. Das resultierende Klassifizierungsmodell hatte eine hohe Erklärungskraft mit einer Sensitivität von fast 85 % und einer Präzision von mehr als 70 %. Obwohl unsere Methode in Bezug auf ein bestimmtes Leistungskriterium möglicherweise nicht das globale Maximum liefert, vermeidet sie die Einbeziehung stark korrelierter Variablen und weist zwangsläufig eine hohe Empfindlichkeit und Präzision auf. Ein Klassifikator mit nur zwei Variablen wäre einfacher und leichter zu verstehen. Obwohl das Hinzufügen einer dritten Variablen die Leistung nur geringfügig erhöht, wird das Modell dadurch robuster und weniger anfällig für versteckte Variablen. Durch eine weitere Vergrößerung der Dimensionen dürfte die Trennung der beiden Risikoklassen einfacher sein, auch wenn es keinen Hinweis darauf gibt, dass die Klassen tatsächlich perfekt linear trennbar sind. Die Wetterparameter des aktuellen Jahres beeinflussen sowohl die Rötelmauspopulationen16,17 als auch die menschlichen Aktivitäten18 sowie deren Wechselwirkung und dürften daher die gemeldeten Infektionen in einer Weise beeinflussen, die nicht durch ein Vorhersagemodell mit Variablen aus dem Jahr erfasst werden kann in den letzten Jahren. Unser Klassifikator ist im Wesentlichen ein Vorhersagemodell für die Buchensamenproduktion und die Rötelmaushäufigkeit. Daher kann es auch für Nagetiermanagement- und Pflanzenschutzstrategien eingesetzt werden.

Unsere Analyse geht davon aus, dass die Korrelationen zwischen den Wetterparametern und den menschlichen PUUV-Infektionen für alle Bezirke gleich sind und zeitinvariant sind, also zeitlich konstant bleiben, was es ermöglicht, jede Beobachtung als unabhängig zu betrachten. Eine weitere zugrunde liegende Annahme war, dass die Überwachung der Hantavirus-Erkrankungen und die Auswirkungen etwaiger Gegenmaßnahmen in jedem Bezirk konstant bleiben, sich jedoch von Bezirk zu Bezirk unterscheiden können.

Unsere Methode zeigt einen starken Einfluss des Infektionsrisikos durch die Wetterparameter im April und September zweier Jahre zuvor und im September davor. Darüber hinaus war in allen Variablenpaaren mit der optimalen Performance eine Wettervariable aus dem vergangenen September enthalten, was die frühestmögliche Vorhersage auf Anfang Oktober des Vorjahres platziert. Dies soll genügend Zeit geben, Gegenmaßnahmen vorzubereiten und Gesundheitsbehörden, Risikogruppen und Ärzte für die Gefährdung durch das Virus zu sensibilisieren.

Die Wettervariablen von zwei Jahren zuvor standen höchstwahrscheinlich im Zusammenhang mit der Buchensamenproduktion des Vorjahres, die wiederum die Nahrungsverfügbarkeit bestimmt und das Wachstum der Rötelmauspopulationen regelt4,6. Eine erhöhte Bodentemperatur im Herbst des Vorjahres könnte zu einer größeren Anfangspopulation für das nächste Jahr führen, indem sie die letzten Wochen der Brutsaison erleichtert und die Überlebensrate der Nagetiere erhöht.

Dieses Modell schätzt das PUUV-Infektionsrisiko und ist daher im Vergleich zu den gemeldeten Infektionen oder Inzidenzen wahrscheinlich positiv verzerrt. Daher müssen wir möglicherweise Überschätzungen (falsch positive Ergebnisse) akzeptieren. Eine genaue Untersuchung mehrerer Unterschätzungen (falsch-negative Ergebnisse) finden Sie in der Ergänzenden Anmerkung 1. Wir gehen davon aus, dass viele Unterschätzungen aus Niedersachsen und Nordrhein-Westfalen nicht auf einen lokalen Ausbruch zurückzuführen waren, sondern vielmehr durch einen Anstieg der PUUV-Basislinie verursacht wurden in bestimmten Bezirken, aufgrund von Änderungen im Meldesystem und einer erhöhten Sensibilisierung in den örtlichen Gesundheitsämtern. Eine weitere Möglichkeit besteht darin, dass die PUUV-Saison in Norddeutschland im Vergleich zu den anderen PUUV-Clustern früher beginnt. Schließlich könnten diese Infektionen mit einer PUUV-Ausbreitung aus den benachbarten Niederlanden in Zusammenhang stehen.

Die Binarisierung der Inzidenz lässt auf eine räumliche Synchronisierung der PUUV-Ausbrüche in Deutschland schließen. Dies widerspricht einem aktuellen Bericht über mangelnde Synchronität im Jahr 201919, stimmt aber gut mit früheren Studien überein11,20. Die Einführung des POI ermöglicht die eindeutige Definition eines Ausbruchsjahres, was wiederum die Übertragung von Prognoseergebnissen durch Medien und andere öffentliche Kommunikation erleichtern kann. Ein hoher Wert des POI deutet für einen Großteil der Bezirke auf ein erhöhtes Risiko hin. Diese Methode kann leicht erweitert werden, um Ausbrüche jeder zoonotischen Infektionskrankheit mit zeitlicher Fluktuation und räumlicher Inhomogenität zu beschreiben.

Unser Klassifizierungsmodell kann als einfache Faustregel für die Erkennung von Jahren mit hohem Risiko angewendet werden, obwohl es nicht streng als Vorhersagemodell entwickelt und als solches noch nicht validiert ist. Durch die Kombination mit dem POI können wir Ausbruchsjahre vorhersagen. Diese Methode bietet keine detaillierten räumlichen Informationen, da sie Wetterparameter verwendet, die Konstellationen bilden und daher über große Gebiete hinweg als räumlich einheitlich angesehen werden können. Dennoch kann eine solche Vorhersage den Stand der Vorbereitung verbessern und das Bewusstsein für die Viruserkennung und das Infektionsrisiko des Menschen schärfen. Wir haben dieses Konzept angewendet, um das PUUV-Infektionsrisiko in Deutschland im Jahr 2022 abzuschätzen. Die Werte für die Zentrencluster 2022 (Abb. 3) wurden weder in den Jahren 2006–2021 noch in den Jahren davor 2002–2005 beobachtet. Daher werden die diesjährigen Inzidenzwerte eine Verfeinerung der Koeffizienten des Modells ermöglichen und seine Unsicherheit verringern. Der Abstand des Zentrumsclusters 2022 von der linearen Grenze des Modells beträgt \(-\text{1,08}\), daher wird ein geringes globales PUUV-Infektionsrisiko erwartet. Durch Anwendung von Gl. (5) beträgt der prognostizierte Wert im POI \(\text{7,7\%}\pm \text{6,6\%}\), d. h. nur etwa 1–10 Bezirke werden voraussichtlich eine relativ hohe Zahl an Infektionen melden im Jahr 2022. Der Abstand des Zentrumsclusters 2023 von der linearen Grenze des Modells beträgt \(-\text{0,35}\); Dieser Wert liegt innerhalb des Intervalls erhöhter Unsicherheit von Gl. (5) und erlaubt keine definitive Abschätzung des globalen PUUV-Infektionsrisikos. Anwenden von Gleichungen. (3) und (4) Auf Kreisebene liegen 11 Kreise aus Niedersachsen und Nordrhein-Westfalen in der Hochrisikoklasse und dürften daher im Jahr 2023 relativ hohe Infektionszahlen vermelden. Dies führt zu einem erwarteten POI von 16,7 %.

Landbedeckungs- und Landnutzungsdaten wurden in diesem Modell nicht berücksichtigt, wurden jedoch zuvor als mögliche allgemeine Prädiktoren für die PUUV-Prävalenz der Rötelmaus21 und die PUUV-Inzidenz des Menschen gemeldet17,22. Wir gehen davon aus, dass diese Effekte in die bezirksbezogene Inzidenztransformation einfließen, d. h. die Landbedeckung oder Landnutzung kann zwar das lokale Ausmaß der PUUV-Inzidenz bestimmen, sie haben jedoch keinen Einfluss auf die Wahrscheinlichkeit eines Ausbruchs.

Zukünftig kann dieser Ansatz um räumliche Informationen ergänzt werden, indem eine zeitvariable und räumlich uneinheitliche Variable, z. B. die Buchenmastintensität oder die Buchenblütenintensität, als Proxys für die Buchensamenproduktion einbezogen wird. Eine solche Variable kann den Abstand zwischen den Beobachtungen von 2006 und 2021 auf gegenüberliegenden Seiten der Entscheidungsgrenze vergrößern; zwei Jahre mit relativ ähnlichen Wetterkonstellationen, aber deutlich unterschiedlichen Inzidenzwerten. Die Jahre 2014 und 2015 sind die Ausreißer, die scheinbar nicht vernünftig in die Klassen mit geringem Risiko und hohem Risiko passen, was auf die Existenz einer dritten Klasse mit mittlerem Risiko schließen lässt. Die derzeit verfügbaren Beobachtungen reichen jedoch nicht aus, um eine solche Klasse zu unterscheiden.

Wir haben die Datenerfassung, -verarbeitung, -analyse und -visualisierung mit Python23 Version 3.8 mit den Paketen Numpy24, Pandas25, Geopandas26, Matplotlib27, Selenium, Beautiful Soup28, SciPy14 und scikit-learn29 durchgeführt. Die für bestimmte Aufgaben verwendeten Funktionen werden explizit erwähnt, um Validierungs- und Replikationsstudien zu ermöglichen.

Die Hantavirus-Erkrankung ist in Deutschland seit 2001 meldepflichtig. Das Robert Koch-Institut erhebt anonymisierte Daten von den Gesundheitsämtern der Kommunen und Länder und bietet über die SurvStat-Anwendung2 eine frei verfügbare, eingeschränkte Version seiner Datenbank für Forschungs- und Informationszwecke an. Wir haben die gemeldeten laborbestätigten menschlichen PUUV-Infektionen (\({\text{n}}=\text{11,228}\) von 2006 bis 2021, Stand: 07.02.2022, abgerufen. Aus den für jeden Fall verfügbaren Attributen haben wir die feinste zeitliche und räumliche Auflösung ermittelt, also die Woche und das Jahr der Benachrichtigung, zusammen mit dem Bezirk (in der englischen Version der SurvStat-Schnittstelle „County“ genannt).

Um eine Verzerrung durch Unterberichterstattung zu vermeiden, beschränkte sich unser Datensatz seit 2006 auf PUUV-Infektionen. Die Jahre 2006–2021 umfassen 91,9 % der Gesamtfälle von 2001 bis 2021. Die menschliche PUUV-Inzidenz wurde als Anzahl der Infektionen pro 100.000 Menschen berechnet unter Verwendung von Bevölkerungsdaten von Eurostat30. Für jedes Jahr haben wir die für den 1. Januar dieses Jahres gemeldete Bevölkerung verwendet. Auch für 2021 wurde die Einwohnerzahl des Jahres 2020 herangezogen.

In die Analyse haben wir nur Bezirke einbezogen, in denen die Gesamtinfektionen \(\ge {2}\) und die maximale jährliche Inzidenz \(\ge {2}\) im Zeitraum 2006–2021 betrugen. Die von der SurvStat-Anwendung bereitgestellten räumlichen Informationen zu den Infektionen beziehen sich auf den Bezirk, in dem die Infektion gemeldet wurde. Daher entspricht der gemeldete Bezirk in den meisten Fällen dem Wohnort der infizierten Person, der vom Infektionsbezirk abweichen kann. Um Unterschiede zwischen gemeldetem Wohnort und Infektionsort teilweise auszugleichen, haben wir die meisten kreisfreien Städte mit den umliegenden Landkreisen zusammengefasst. Die zugrunde liegende Annahme war, dass die meisten in kreisfreien Städten gemeldeten Infektionen im benachbarten oder umliegenden Landkreis auftraten. Darüber hinaus gibt es in einigen Stadt- und Landkreisen das gleiche Gesundheitsamt. In der Ergänzungstabelle 1 sind die zusammengefassten Bezirke aufgeführt.

Vom Deutschen Wetterdienst31 haben wir Raster der folgenden monatlichen Wetterparameter über Deutschland von 2004 bis 2021 abgerufen: mittlere tägliche Lufttemperatur – Tmean, minimale tägliche Lufttemperatur – Tmin und maximale tägliche Lufttemperatur – Tmax (alle Temperaturen sind die monatlichen Durchschnittswerte von die entsprechenden Tageswerte, in 2 m Höhe über dem Boden, in °C); Gesamtniederschlag in mm – Pr, Gesamtsonnenscheindauer in Stunden – SD, mittlere monatliche Bodentemperatur in 5 cm Tiefe unter unbedecktem typischem Standortboden in °C – ST und Bodenfeuchtigkeit unter Gras und sandigem Lehm in Prozent pflanzennutzbares Wasser – SM . Die Datensatzversion für Tmean, Tmin, Tmax, Pr und SD war v1.0; für ST und SM war die Datensatzversion 0. × . Die räumliche Auflösung betrug 1 × 1 km2.

Die Datenerfassung wurde mit dem Selenium-Paket durchgeführt. Die Verarbeitung basierte auf dem Geopandas-Paket26 unter Verwendung einer Geodaten-Vektorebene für die Bezirksgrenzen Deutschlands32. Jedes Raster wurde verarbeitet, um den Durchschnittswert des Parameters für jeden Bezirk zu erhalten. Wir haben zunächst die Funktion inside verwendet, um eine Maske basierend auf den im Bezirk enthaltenen Gitterzentren zu definieren; Anschließend haben wir diese Maske auf das Raster angewendet. Bei dieser als „Zentralpunkt-Rasterisierung“ bezeichneten Methode33 wurde jedes Rechteck des Gitters einem einzelnen Bezirk zugeordnet, nämlich demjenigen, der seinen Mittelpunkt enthielt. Der typische Verarbeitungsfehler wurde auf etwa 1 % geschätzt, was mit dem von Bregt et al.33 berichteten Rasterfehler übereinstimmt; Wir gehen davon aus, dass dieser Fehler höchstwahrscheinlich deutlich geringer ist als die Unsicherheiten der Gitter selbst, die durch Berechnung, Interpolation und fehlerhafte oder fehlende Beobachtungen verursacht werden.

Unsere Analyse wurde auf Bezirksebene auf der Grundlage der jährlichen Infektionen durchgeführt, die durch die Aggregation der wöchentlichen Fälle ermittelt wurden. Aus jedem monatlichen Wetterparameter haben wir 24 Datensätze für alle Monate der beiden Vorjahre erstellt. Jede Beobachtung in unserem Datensatz charakterisierte einen Bezirk in einem Jahr. Sein Ziel wurde durch die Transformation der jährlichen Inzidenz ermittelt, wie im folgenden Abschnitt beschrieben. Jede Beobachtung umfasste alle 168 verfügbaren Prädiktoren der Wetterparameter (7 Parameter × 24 Monate), im Folgenden „Variablen“ genannt. Die Notation für die Benennung der Variablen folgt dem Format Vx__, wobei „Vx“ V1 oder V2 sein kann, das einem bzw. zwei Jahren zuvor entspricht; ist die Abkürzung des Wetterparameters (siehe vorheriger Unterabschnitt: „Wetterdaten“); und ist der numerische Wert des Monats, also von 1 bis 12.

Die Beobachtungen für zusammengefasste Kreise behielten die Bezeichnung Landkreis. Für ihre Infektionen und Populationen haben wir die Einzelwerte aggregiert und die Inzidenz neu berechnet. Für ihre Wettervariablen haben wir die mit der Fläche gewichteten Mittelwerte der einzelnen Bezirke zugeordnet.

Um die Auswirkungen zu berücksichtigen, die das Auftreten einer hohen bezirksbezogenen Inzidenz verursachen, haben wir die Inzidenz auf Bezirksebene diskretisiert. Die auf ihren Maximalwert skalierte Inzidenz für jeden Bezirk zeigte Extremwerte für Minima und Maxima. Etwa 49 % aller Beobachtungen lagen im Bereich [0, 0,1) und 8 % im Bereich [0,9, 1] (Abb. 5). Daher haben wir uns speziell dafür entschieden, die skalierte Inzidenz mit zwei Bins zu diskretisieren, also zu binarisieren.

Histogramme der jährlichen PUUV-Inzidenz von 2006 bis 2021, skaliert auf ihren Maximalwert für jeden der ausgewählten Bezirke. Links: Rohinzidenz. Rechts: Log-transformierte Inzidenz gemäß Gl. (6).

Wir haben zunächst eine logarithmische Transformation auf die Inzidenzwerte34 angewendet, die in Gl. (6).

Das Hinzufügen einer positiven Konstante stellte einen nicht unendlichen Wert für die Inzidenz von Null sicher, wobei 1 so ausgewählt wurde, dass die logarithmische Inzidenz nicht negativ ist, und eine Inzidenz von null in eine logarithmische Inzidenz von null umgewandelt wurde. Diese Transformation zielte darauf ab, den Einfluss von Inzidenzwerten ungleich Null zu erhöhen; Werte, die nicht ausgeprägt sind, aber dennoch auf ein Infektionsrisiko ungleich Null hinweisen. Seine Wirkung wird im rechten Diagramm von Abb. 5 demonstriert, wo die positive Schiefe der Originaldaten reduziert wird, d. h. niedrige Inzidenzwerte werden auf höhere Werte verteilt, was danach zu gleichmäßigeren Klassenhöhen im Bereich [0,05, 0,95] führt Die Verwandlung. Formal wird in diesem Fall durch die Log-Transformation eine gleichmäßigere Verteilung der nicht extremen Inzidenzwerte erreicht.

Für die Binarisierung führten wir eine unbeaufsichtigte Clusterbildung der logarithmisch transformierten Inzidenz separat für jeden Bezirk durch und verwendeten dabei die Funktion KBinsDiscretizer des scikit-learn-Pakets29. Unsere ausgewählte Strategie war das K-Means-Clustering mit zwei Bins, da es keinen vordefinierten Schwellenwert erfordert und mit der gleichen festen Anzahl von Bins für jeden Bezirk arbeiten kann, indem die Clusterschwerpunkte automatisch entsprechend angepasst werden.

Wir haben uns nur auf die Variablenkombinationen konzentriert, die zu einer linearen Entscheidungsgrenze für die Klassifizierung unseres ausgewählten Ziels führten. Wir haben Support Vector Machines (SVM)35 mit einem linearen Kernel ausgewählt, da sie hohe Leistung mit geringer Modellkomplexität kombinieren, indem sie die Entscheidungsgrenze als lineare Gleichung der Variablen zurückgeben. Darüber hinaus ist SVM geometrisch motiviert36 und dürfte weniger anfällig für Ausreißer und Überanpassungen sein als andere Klassifizierungsalgorithmen für maschinelles Lernen, wie etwa die logistische Regression. Für den gesamten Modellierungsprozess wurde der Regularisierungsparameter C auf 1 gesetzt, also der Standardwert in der angewandten SVC-Methode des Scikit-Learn-Pakets29, und die Gewichte für beide Risikoklassen wurden ebenfalls auf 1 gesetzt.

Unser Ziel war es, möglichst wenige Wetterparameter als Variablen für ein Klassifizierungsmodell mit ausreichender Leistung zu verwenden. Um die optimale Variablenkombination zu identifizieren, haben wir zunächst eine SVM mit einem linearen Kernel für alle 2-Variablen-Kombinationen der monatlichen Wettervariablen aus V2 und V1 angewendet, also 168 Variablen (7 Wetterparameter × 2 Jahre × 12 Monate). Lediglich für diesen Schritt wurden die Variablen auf ihre Minimal- und Maximalwerte skaliert, was die Verarbeitungszeit deutlich verkürzte. Bei allen folgenden Schritten wurde auf den Skalierer verzichtet, da die unskalierten Unterstützungsvektoren für das endgültige Modell benötigt wurden. Von den insgesamt 14.028 Modellen für jedes einzelne Paar (\(\frac{168!}{2!\cdot \left(168-2\right)!}\)) haben wir die 100 Modelle mit dem besten F1-Score behalten, dh des harmonischen Mittelwerts von Empfindlichkeit und Präzision, und zählte das Vorkommen jeder Jahr-Monat-Kombination in den Variablen. Der beste F1-Score war 0,752 für das Paar (V1_Tmean_9 und V2_Tmax_4); und die beste Empfindlichkeit betrug 83 % für das Paar (V2_Tmax_9 und V1_ST_9).

Die Jahr-Monats-Kombinationen mit mehr als 10 % Vorkommen waren: V1_9 (September des Vorjahres, mit 49 % Vorkommen), V2_9 (September zwei Jahre zuvor, mit 12 %) und V2_4 (April zwei Jahre zuvor, mit 10). %). Um Sätze mit stark korrelierten Variablen zu vermeiden, haben wir 3-Variablenkombinationen gebildet, mit genau einer Variablen aus jeder Jahr-Monats-Kombination (dreifaches kartesisches Produkt). Aus den insgesamt 343 Modellen (73 Kombinationen, d. h. 7 Wetterparameter für 3 Jahr-Monat-Kombinationen) haben wir das Modell mit der besten Empfindlichkeit und mindestens 70 % Präzision ausgewählt, d. h. den Variablensatz (V2_ST_4, V2_SD_9 und V1_ST_9). . Wir sind der Ansicht, dass die Kriterien für diese Auswahl nicht besonders entscheidend sind; und wir erwarten für die meisten Variablensätze mit einem hohen F1-Score eine vergleichbare Leistung, da die Variablen für jede Dimension des kartesischen Produkts stark korreliert waren. Die acht Variablensätze mit mindestens 70 % Präzision und mindestens 80 % Sensitivität sind in der Ergänzungstabelle 2 aufgeführt.

Der SVM-Klassifikator verfügt über zwei Hyperparameter: den Regularisierungsparameter C und die Klassengewichte. Durch Verringern von C wird die Entscheidungsgrenze weicher und es sind mehr Fehlklassifizierungen zulässig. Andererseits werden durch die Erhöhung der Gewichtung der Hochrisikoklasse die Fehlklassifizierungen von Hochrisikobeobachtungen stärker bestraft, was voraussichtlich die Empfindlichkeit erhöht und die Präzision verringert. Die gleichzeitige Anpassung beider Hyperparameter stellt sicher, dass das resultierende Modell die optimale Leistung in Bezug auf die bevorzugte Metrik aufweist. Um jedoch eine Überanpassung zu vermeiden, hielten wir eine weitere Modelloptimierung mit diesen beiden Hyperparametern für überflüssig. Der Vollständigkeit halber haben wir SVM-Modelle auf verschiedene Werte der Hyperparameter untersucht und festgestellt, dass das globale Maximum für den F1-Score im Bereich von 0,001 für C und 1,5 für die Gewichtung der Hochrisikoklasse liegt. Unsere ausgewählten Werte C = 1 und die Gewichtung der Hochrisikoklasse gleich 1 ergeben den zweitbesten F1-Score, der ein lokales Maximum mit vergleichbarer Leistung darstellt und größtenteils unempfindlich gegenüber der Auswahl von C aus dem Bereich [0,2, 5,5] ist.

Die Hinzufügung einer vierten Variablen aus V1_6 (Juni des Vorjahres) führte zu einem Modell mit höherer Sensitivität, aber geringerer Präzision und Spezifität (für V1_Pr_6). Der höchste F1-Score wurde für das Vierfache erreicht (V2_ST_4, V2_SD_9, V1_ST_9, V1_Pr_6). Aufgrund der erhöhten Komplexität ohne wesentliche Verbesserung der Leistung hielten wir eine weitere Erweiterung unseres Variablentripletts für unnötig.

Die Daten, die die Ergebnisse dieser Studie stützen, sind auf begründete Anfrage beim entsprechenden Autor erhältlich.

Informationen zur verwendeten Software und Paketen finden Sie im Hauptmanuskript. Der Code, der die Ergebnisse dieser Studie unterstützt, ist auf begründete Anfrage beim entsprechenden Autor erhältlich. Für dieses Papier stehen ergänzende Informationen zur Verfügung.

Krüger, DH, Schonrich, G. & Klempa, B. Humanpathogene Hantaviren und Infektionsprävention. Summen. Impfstoff. 7, 685–693 (2011).

Artikel PubMed PubMed Central Google Scholar

Robert Koch Institute. SurvStat@RKI 2.0, https://survstat.rki.de. (deadline: 2022-02-07).

Tersago, K. et al. Hantavirus-Krankheit (Nephropathia epidemica) in Belgien: Auswirkungen der Baumsamenproduktion und des Klimas. Epidemiol. Infizieren. 137, 250–256 (2009).

Artikel CAS PubMed Google Scholar

Clement, J. et al. Zusammenhang zwischen steigenden Hantavirus-Inzidenzen und dem Klimawandel: Die Mastverbindung. Int. J. Gesundheit Geogr. 8, 1 (2009).

Artikel PubMed PubMed Central Google Scholar

Reil, D. et al. Welche Umweltbedingungen sprechen für einen Hantavirus-Ausbruch im Jahr 2015 in Deutschland? Zoonosen Public Health 63, 83–88 (2016).

Artikel CAS PubMed Google Scholar

Reil, D. et al. Hantaviren in Deutschland: Aktuelle Erkenntnisse zu Erreger, Reservoir, Verbreitung und Prognosemodellen. Berl. Munch. Tierarztl. Wochenschr. 131, 453–464 (2018).

Google Scholar

Imholt, C. et al. Quantifizierung der vergangenen und zukünftigen Auswirkungen des Klimas auf Ausbruchsmuster von Rötelmäusen (Myodes glareolus). Schädlingsbekämpfer Wissenschaft. 71, 166–172 (2015).

Artikel CAS PubMed Google Scholar

Khalil, H. et al. Dynamik und Treiber der Hantavirus-Prävalenz in Nagetierpopulationen. Von Vektoren übertragene zoonotische Krankheit. 14, 537–551 (2014).

Artikel PubMed Google Scholar

Reil, D. et al. Puumala-Hantavirus-Infektionen in Rötelmauspopulationen: Wirts- und Virusdynamik in Mitteleuropa. BMC Ecol. 17, 9 (2017).

Artikel PubMed PubMed Central Google Scholar

Drewes, S. et al. Wirtsbedingtes Fehlen von Infektionen mit dem humanen Puumala-Virus in Nord- und Ostdeutschland. Emerg. Infizieren. Dis. 23, 83–86 (2017).

Artikel CAS PubMed PubMed Central Google Scholar

Ettinger, J. et al. Mehrere synchrone Ausbrüche des Puumala-Virus, Deutschland, 2010. Emerg. Infizieren. Dis. 18, 1461–1464 (2012).

Artikel PubMed PubMed Central Google Scholar

Faber, M. et al. Molekulare und epidemiologische Merkmale menschlicher Puumala- und Dobrava-Belgrad-Hantavirus-Infektionen, Deutschland, 2001 bis 2017. Euro Surveill. 24, 1800675 (2019).

Artikel PubMed PubMed Central Google Scholar

Hofmann, J., Loyen, M., Faber, M. & Krüger, D. H. Hantavirus-Erkrankungen: Ein update. Dtsch. Med. Wochenschr. 147, 312–318 (2022).

Artikel CAS PubMed Google Scholar

Virtanen, P. et al. SciPy 1.0: Grundlegende Algorithmen für wissenschaftliches Rechnen in Python. Nat. Methoden 17, 261–272 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Schabenberger, O. & Pierce, FJ Zeitgenössische statistische Modelle für die Pflanzen- und Bodenwissenschaften (CRC Press, 2002).

MATH Google Scholar

Gubler, DJ et al. Klimavariabilität und -veränderung in den Vereinigten Staaten: Mögliche Auswirkungen auf durch Vektoren und Nagetiere übertragene Krankheiten. Umgebung. Gesundheitsperspektive. 109, 223–233 (2001).

PubMed PubMed Central Google Scholar

Vanwambeke, SO et al. Räumliche Dynamik einer zoonotischen Orthohantavirus-Erkrankung anhand heterogener Daten zu Nagetieren, Nagetierinfektionen und Erkrankungen des Menschen. Wissenschaft. Rep. 9, 2329 (2019).

Artikel ADS PubMed PubMed Central Google Scholar

Piechotowski, I. et al. Entstehung des Hantavirus in Süddeutschland: Nagetiere, Klima und menschliche Infektionen. Parasit. Res. 103 (Ergänzung 1), 131–137 (2008).

Artikel Google Scholar

Binder, F. et al. Heterogene Puumala-Orthohantavirus-Situation in Endemiegebieten in Deutschland im Sommer 2019. Transbound Emerg. Dis. 67, 502–509 (2020).

Artikel PubMed Google Scholar

Cunze, S. et al. Räumliche und zeitliche Muster von Infektionen mit dem humanen Puumala-Virus (PUUV) in Deutschland. PeerJ 6, e4255 (2018).

Artikel PubMed PubMed Central Google Scholar

Khalil, H. et al. Räumliche Vorhersage und Validierung zoonotischer Gefahren durch Mikrohabitateigenschaften: Wo nistet sich das Puumala-Hantavirus ein? BMC-Infektion. Dis. 17, 523 (2017).

Artikel PubMed PubMed Central Google Scholar

Heyman, P., Thoma, BR, Marie, JL, Cochez, C. & Essbauer, SS Auf der Suche nach Faktoren, die Hantavirus-Epidemien vorantreiben. Vorderseite. Physiol. 3, 237 (2012).

Artikel PubMed PubMed Central Google Scholar

Van Rossum, G. & Drake, FL Python 3 Referenzhandbuch. (CreateSpace, 2009).

Harris, CR et al. Array-Programmierung mit NumPy. Natur 585, 357–362 (2020).

Artikel ADS CAS PubMed PubMed Central Google Scholar

McKinney, W. Datenstrukturen für statistische Berechnungen in Python. in Proceedings of the 9th Python in Science Conference, Bd. 445, 56–61 (2010).

Jordahl, K. GeoPandas: Python-Tools für geografische Daten. https://github.com/geopaths/geopaths (2014).

Hunter, JD Matplotlib: Eine 2D-Grafikumgebung. Berechnen. Wissenschaft. Ing. 9, 90–95 (2007).

Artikel Google Scholar

Richardson, L. Schöne Suppendokumentation. https://www.crummy.com/software/BeautifulSoup/bs4/doc/ (2007).

Pedregosa, F. et al. Scikit-learn: Maschinelles Lernen in Python. J. Mach. Lernen. Res. 12, 2825–2830 (2011).

MathSciNet MATH Google Scholar

Eurostat (Statistisches Amt der Europäischen Union). Bevölkerungsveränderung – Demografisches Gleichgewicht und Rohölraten auf regionaler Ebene (NUTS 3), Online-Datenbank. https://ec.europa.eu/eurostat/databrowser/view/demo_r_gind3/default/table. (Letzte Aktualisierung der Daten: 12.03.2021, 23:00 Uhr, abgerufen am 15.03.2021).

DWD-Klimadatenzentrum (CDC). https://opendata.dwd.de/. (Letzter Abruf: 05.01.2022).

Esri Deutschland. „Kreisgrenzen 2017“, vom Bundesamt für Kartographie und Geodäsie (BKG). https://opendata-esri-de.opendata.arcgis.com/datasets/affd8ace4c204981b5d32070f9547eb9_0. (Letzte Aktualisierung: 17.03.2020, Abgerufen: 15.03.2021), verwendet gemäß der Datenlizenz Deutschland – Namensnennung – Version 2.0 verfügbar unter http://www.govdata.de/dl-de/by- 2:0.

Bregt, AK, Denneboom, J., Gesink, HJ & Van Randen, Y. Bestimmung des Rasterfehlers, eine Fallstudie mit der Bodenkarte der Niederlande. Int. J. Geogr. Inf. Syst. 5, 361–367 (1991).

Artikel Google Scholar

Esther, A., Imholt, C., Perner, J., Schumacher, J. & Jacob, J. Korrelationen zwischen Wetterbedingungen und der Dichte der Feldmaus (Microtus arvalis), identifiziert durch Regressionsbaumanalyse. Grundanwendung Ökologisch. 15, 75–84 (2014).

Artikel Google Scholar

Cortes, C. & Vapnik, V. Support-Vektor-Netzwerke. Mach. Lernen. 20, 273–297 (1995).

Artikel MATH Google Scholar

Bennett, K. & Bredensteiner, E. Dualität und Geometrie in SVM-Klassifikatoren. in Proceedings of the 17th International Conference on Machine Learning, 57–64 (2000).

Referenzen herunterladen

Die Autoren danken Christian Imholt für die Diskussion und den Rat. Wir danken außerdem Paul Beilmann und Johannes Kauffmann für die technische Unterstützung sowie Anke Geduhn für Kommentare zum Manuskript. Diese Studie wurde vom Umweltbundesamt in Auftrag gegeben und vom Bundesministerium für Umwelt, Naturschutz und Reaktorsicherheit im Rahmen des Ressortforschungsplans – Forschungskennzeichen 3720 48 401 0 gefördert.

Open-Access-Förderung ermöglicht und organisiert durch Projekt DEAL.

Julius-Kühn-Institut (JKI) – Bundesforschungsinstitut für Kulturpflanzen, Institut für Pflanzenschutz in Gartenbau und Forsten / Institut für Epidemiologie und Pathogendiagnostik, Nagetierforschung, Toppheideweg 88, 48161, Münster, Deutschland

Orestis Kazasidis & Jens Jacob

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

OK und JJ haben die Studie konzipiert. OK entwickelte die Theorie, führte die Analyse durch und schrieb das Manuskript. OK und JJ haben das Manuskript überarbeitet und bearbeitet. JJ sicherte sich die Finanzierung.

Korrespondenz mit Orestis Kazasidis.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Kazasidis, O., Jacob, J. Maschinelles Lernen identifiziert einfache Frühwarnregeln für Ausbrüche des menschlichen Puumala-Hantavirus. Sci Rep 13, 3585 (2023). https://doi.org/10.1038/s41598-023-30596-x

Zitat herunterladen

Eingegangen: 15. Juli 2022

Angenommen: 27. Februar 2023

Veröffentlicht: 3. März 2023

DOI: https://doi.org/10.1038/s41598-023-30596-x

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.

AKTIE