banner

Nachricht

Aug 31, 2023

Anwendungen des maschinellen Lernens bei der Klassifizierung von Pinienkernen

Wissenschaftliche Berichte Band 12, Artikelnummer: 8799 (2022) Diesen Artikel zitieren

1128 Zugriffe

2 Zitate

2 Altmetrisch

Details zu den Metriken

Pinienkerne sind nicht nur ein wichtiges Mittel zur Vermehrung und Aufforstung von Pinien, sondern auch die häufig verzehrte Nuss mit hohem Nährwert. Aufgrund der morphologischen Ähnlichkeit der Arten ist es jedoch schwierig, die Pinienkerne voneinander zu unterscheiden. Daher ist es wichtig, die Qualität der Pinienkerne zu verbessern und das Verfälschungsproblem schnell und zerstörungsfrei zu lösen. In dieser Studie wurden sieben Pinienkerne (Pinus bungeana, Pinus yunnanensis, Pinus thunbergii, Pinus armandii, Pinus massoniana, Pinus elliottii und Pinus taiwanensis) als Untersuchungsarten verwendet. 210 Nahinfrarotspektren (NIR) wurden von den sieben Arten von Pinienkernen mit fünf Methoden des maschinellen Lernens (Decision Tree (DT), Random Forest (RF), Multilayer Perceptron (MLP), Support Vector Machine (SVM) und Naive Bayes) gesammelt (NB)) wurden zur Identifizierung von Pinienkernarten verwendet. 303 Bilder wurden verwendet, um morphologische Daten zu sammeln und ein Klassifizierungsmodell zu erstellen, das auf fünf CNN-Modellen (Convolutional Neural Network) (VGG16, VGG19, Xception, InceptionV3 und ResNet50) basiert. Die experimentellen Ergebnisse der NIR-Spektroskopie zeigen, dass MLP das beste Klassifizierungsmodell ist und die Genauigkeit nahe bei 0,99 liegt. Ein weiteres experimentelles Ergebnis von Bildern zeigt, dass das beste Klassifizierungsmodell InceptionV3 ist und die Genauigkeit nahe bei 0,964 liegt. Vier wichtige Wellenbereiche, 951–957 nm, 1.147–1.154 nm, 1.907–1.927 nm, 2.227–2.254 nm, stehen in engem Zusammenhang mit der Klassifizierung von Pinienkernen. Diese Studie zeigt, dass maschinelles Lernen für die Klassifizierung von Pinienkernen wirksam ist und Lösungen und wissenschaftliche Methoden für eine schnelle, zerstörungsfreie und genaue Klassifizierung verschiedener Arten von Pinienkernen bereitstellt.

Es gibt mehr als 113 offiziell anerkannte Pinus Linn-Arten, die hauptsächlich auf der Nordhalbkugel verbreitet sind1, 2 und einen wichtigen Teil der Waldökosysteme bilden. Pinienkerne sind die Samen von Kiefern, eine häufig verzehrte Nuss und ein wichtiges Mittel zur Aufforstung und Fortpflanzung3. Pinienkerne sind reich an Eiweiß, Fettsäuren, Mineralien und Vitaminen. Sie enthalten außerdem Ölsäure, Linolensäure und andere ungesättigte Fettsäuren, die die Vorbeugung von Herz-Kreislauf-Erkrankungen erleichtern4. Die Artenerkennung von Pinienkernen ist wichtig für die Lebensmittelsicherheit und die Qualität von Pinienkernen. In den letzten Jahren hat der steigende Preis für Pinienkerne enorme wirtschaftliche Vorteile gebracht. Die weltweite Produktion von Pinienkernen beträgt im Zeitraum 2020–2021 etwa 381.700 Tonnen. China ist das wichtigste Import- und Exportland für Pinienkerne weltweit. Angesichts der optischen Ähnlichkeit zwischen Pinienkernen ist die Wahrscheinlichkeit einer Produktverfälschung sehr hoch und das Verfälschungsproblem hat große Auswirkungen auf Gesundheit und Wirtschaft. Daher stellt die einfache, schnelle und zerstörungsfreie Erkennung verfälschter Produkte in Pinienkernen eine Herausforderung für die Lebensmittelsicherheit von Pinienkernen dar.

Zu den derzeit gängigen Methoden zur Artenidentifizierung gehören morphologische Analyse5, molekulare Markertechnologie6,7,8,9, Proteinelektrophorese10, Flüssigkeitschromatographie11, Spektralanalyse12,13,14 und Bilderkennung15. Die morphologische Analyse erfordert ein hohes Maß an Fachwissen, das nicht leicht zu erwerben ist, und daher ist die Rate der genauen Identifizierung aufgrund der großen morphologischen Ähnlichkeit zwischen einigen Arten gering16. Obwohl die Verwendung molekularer Marker eine höhere Erkennungsrate und eine höhere Genauigkeit liefert, handelt es sich um eine destruktive Methode, die zeitaufwändig ist und durch die Anzahl der veröffentlichten Marker in den öffentlichen Datenbanken begrenzt ist. Daher erstellt diese Studie maschinelle Lernmodelle für die Klassifizierung von Pinienkernen auf der Grundlage von Nahinfrarotspektroskopie (NIR) und Bildern.

Die NIR-Spektroskopie ist eine Methode, die molekulare Schwingungen im Infrarotspektrum im Material nutzt. Bei der NIR-Spektroskopie sendet das NIR-Gerät Infrarotlicht aus, das in die Probe eindringt. Hier wird es reflektiert, gebrochen, gestreut und absorbiert und trägt schließlich die Probeninformationen zurück in den Detektor. Diese Methode ist bequem, schnell, zerstörungsfrei und kostengünstig. Es wurde in vielen landwirtschaftlichen Bereichen eingesetzt, einschließlich der Forschung zur Produktion von Weizen17, Sojabohnen18, Augenbohnen19 und Reis12. Bisher gibt es nur wenige Berichte über die Anwendung der NIR-Spektroskopie in der Forstwirtschaft und Pinienkernforschung. Konkret sammelten Tigabu et al.20 sichtbare NIR-Spektraldaten von Pinus sylvestris-Nüssen in verschiedenen Gebieten und verarbeiteten die Spektraldaten mittels multiplikativer Streukorrektur (MSC). Die Mutternquelle wurde durch Soft Independent Modeling of Class Analogy (SIMCA) und Partial Least Squares Discriminant Analysis (PLS-DA) erstellt. Loewe et al.21 sammelten NIR-Spektraldaten von Pinus pinea aus dem Mittelmeerraum aus chilenischen Plantagen zur Klassifizierung. Moscetti et al.22 sammelten die NIR-Spektraldaten der Nüsse von P. pinea und Pinus sibirica in verschiedenen Regionen und erstellten ein Spektralklassifizierungsmodell unter Verwendung der Methoden PLS-DA und Interval PLS-DA (IPLS-DA). Allerdings müssen die Auswirkungen anderer verschiedener Klassifizierungsmodelle bei weiteren Pinienkernarten noch weiter diskutiert werden.

Auf Bildern basierendes maschinelles Lernen wurde erfolgreich zur Identifizierung von Reisschädlingen23, zur Schadenserkennung von Dendrolimus punctatus Walker24 und in anderen Bereichen der Land- und Forstwirtschaft eingesetzt. Deep Learning, eine Art maschinelles Lernen, nutzt hierarchische Analysen und mehrstufige Berechnungen, um Ergebnisse zu erzielen. Deep Convolutional Neural Network (CNN) wurde erfolgreich in der Bilderkennung für Anwendungen wie die Tomatenpesto-Erkennung25 und die Fischbilderkennung26 eingesetzt. Moscetti et al.22 sammelten die Bilddaten der Nüsse von P. pinea und P. sibirica in verschiedenen Regionen, führten eine Merkmalsextraktion durch, erhielten 10 Merkmale basierend auf Bilddaten und verwendeten diese Merkmale, um ein bildbasiertes Klassifizierungsmodell zu erstellen. Obwohl die Machbarkeit der Klassifizierung von Pinienkernen auf der Grundlage manuell extrahierter Bildmerkmale nachgewiesen wurde, ist das automatische Klassifizierungsmodell dennoch einer weiteren Erforschung weiterer Pinienkernarten wert.

Daher fördert der Einsatz moderner Computertechnologie zur Klassifizierung von Pinienkernen die Forschung zur zerstörungsfreien, schnellen und genauen Klassifizierung von Pinienkernen erheblich. In dieser Studie wird die Technologie des maschinellen Lernens übernommen und das Anwendungspotenzial des maschinellen Lernens bei der Klassifizierung von Pinienkernen überprüft. Die Beiträge der aktuellen Arbeit sind: (1) Molekulare Marker wurden zur Identifizierung von Pinienkernarten verwendet; (2) NIR-Spektroskopie und Bilder von 7 Pinienkernen (zwei Arten essbarer Pinienkerne (Pinus bungeana und Pinus armandii) und fünf häufig vorkommende Arten (Pinus yunnanensis, Pinus thunbergii, Pinus massoniana, Pinus elliottii und Pinus taiwanensis)) wurden gesammelt. (3) Die NIR-Spektroskopie verwendet fünf Methoden des maschinellen Lernens zur Klassifizierung, während die Bilderkennung fünf CNN-Modelle auswählt. Diese Studie überprüft das Potenzial des maschinellen Lernens bei der Klassifizierung von Pinienkernen und bietet eine praktische Methode zur schnelleren, zerstörungsfreien und genauen Identifizierung von Pinienkernarten.

Die zusammengesetzten ITS2- und rbcL-Sequenzen wurden durch Vergleich mit der GenBank-Datenbank (https://www.ncbi.nlm.nih.gov/search/all/?term=blast) als molekulare Marker verwendet. Tabelle 1 zeigt, dass die Länge der ITS2-Sequenz zwischen 477 und 482 bp liegt, während die Länge des rbcL-Gens zwischen 677 und 720 bp liegt (Tabelle 2). Die GenBank-Zugangsnummern lauten OK274058-OK274066 und OK271114-OK271122. Die Ergebnisse zeigen, dass P. massoniana, P. armandii, P. thunbergii und P. bungeana erkannt wurden, während P. taiwanensis (Synonym ist Pinus hwangshanensis) nicht erkannt wurde. Im Vergleich zu den ITS2-Gensequenzen von P. yunnanensis und P. elliottii gab es in der GenBank nicht die gleichen Arten. Es ist offensichtlich, dass ITS2 und rbcL die geeigneten molekularen Marker für die Artenerkennung einiger Pinienkerne sind und molekulare Analysen durch die in der GenBank öffentlich verfügbaren Daten begrenzt sind. Anschließend wurden nach Rücksprache mit dem Kunming-Institut für Botanik der Chinesischen Akademie der Wissenschaften die Etiketten erneut erstellt, um die Zuverlässigkeit und Authentizität der Pinienkernarten zu bestätigen.

Die gesammelten Pinienkern-NIR-Spektren wurden analysiert und sind in Abb. 1 dargestellt. Aus allen ursprünglichen NIR-Spektren (Abb. 1a) geht hervor, dass die Amplitude, Spitzen und Täler der NIR-Spektren der sieben Pinienkerne ähnliche Veränderungen aufweisen. Unter ihnen liegt der Wert von P. armandii im Vergleich zum gesamten Bereich an einer höheren Position (was den höchsten Absorptionswert anzeigt) und der Wert von P. massoniana an einer niedrigeren Position. Die normalisierten NIR-Spektren (Abb. 1b) zeigen, dass das NIR-Spektrum jeder Pinienkerne nach der Normalisierung deutlicher ist und die Änderungen zwischen den Pinienkernenwerten deutlicher beobachtet werden können. Unter ihnen sind P. armandii und P. bungeana im Bereich von 9.000–4.000 cm−1 (1.111–2.500 nm) stark gemischt.

NIR-Spektraldaten von Pinienkernen. (a) Alle ursprünglichen NIR-Spektren; (b) Die normalisierten NIR-Spektren, R steht für Reflexionsvermögen und log(1/R) steht für Absorption. Vertikale gerade Streifen stellen die empfindlichen Banden bei 10.506,29–10.452,29 cm−1, 8712,813–8658,815 cm−1, 5241,572–5187,575 cm−1 und 4489,471–4435,474 cm−1 (951–957 nm, 1.147–1.154 nm) dar , 1.907–1.927 nm , 2.227–2.254 nm), ausgewählt durch Verschieben von Schiebefenstern.

Zehn unabhängige Analysen wurden an normalisierten und nicht normalisierten NIR-Spektraldaten unter Verwendung der fünf traditionellen Modelle des maschinellen Lernens durchgeführt, d. h. Decision Tree (DT), Random Forest (RF), Multilayer Perceptron (MLP), Support Vector Machine (SVM) und Naive Bayes (NB) (Tabelle 3). Aus Tabelle 3 geht hervor, dass die Klassifizierung von Pinienkernen mithilfe dieser Modelle effektiv ist. Wenn die Daten nicht normalisiert sind, beträgt die Genauigkeit der DT- und RF-Klassifizierungsmodelle mehr als 0,83. Für normalisierte Daten beträgt die Klassifizierungsgenauigkeit der fünf Modelle > 0,80, wobei MLP und SVM eine Genauigkeit von > 0,93 liefern. Durch die Vorverarbeitung der Daten wurde die Leistung der MLP- und SVM-Modelle erheblich verbessert, die Genauigkeit des MLP-Modells erreicht 0,99, während die des SVM-Modells 0,94 erreicht. Insgesamt zeigen diese Ergebnisse, dass das RF-Modell eine bessere Klassifizierungsmethode ist, wenn die Daten nicht normalisiert sind, während das MLP-Modell für normalisierte Daten am besten geeignet ist.

Die Präzision (Pre) und der F1-Score (F1) sind in Tabelle 4 (nicht normalisierte Daten) und Tabelle 5 (normalisierte Daten) dargestellt. In Tabelle 4 sind die Präzision und der F1-Score von P. armandii und P. bungeana höher, und die Präzision von P. bungeana ist mit 0,97 am höchsten. Allerdings sind die Präzision und der F1-Score von P. taiwanensis und P. massoniana recht niedrig und erreichen Präzisionswerte von 18 % bzw. 22 %. In Abb. 1a ist die Unterscheidung zwischen P. armandii und P. bungeana deutlich, während P. taiwanensis und P. massoniana weniger deutlich und daher schwieriger zu klassifizieren sind. Tabelle 5 zeigt jedoch, dass die Präzision und die F1-Werte der sieben Pinienkernarten nach der Normalisierung erheblich verbessert werden. Dies weist darauf hin, dass die Datennormalisierung ein notwendiger Schritt für die Spektraldatenverarbeitung ist.

Für die Datensätze image_clip (beschnittene Bilder), image_trans (transformierte Bilder) und image_gray (transformierte Graustufenbilder) wurden drei Vorverarbeitungsmethoden ausgeführt. Die image_clip-Daten werden verwendet, um die Ergebnisse des Deep-Learning-Modells anhand der Originaldaten zu untersuchen. image_trans und image_gray werden durch Erweitern der image_clip-Transformation erhalten. Die Modelle VGG16, VGG19, Xception, ResNet50 und InceptionV3 wurden mit den Optionen 100 Epochen ausgewählt und Genauigkeit und Verlust wurden als Bewertungsindikatoren verwendet. Die Abbildungen 2, 3 und 4 zeigen die Genauigkeits- und Verlustwerte der fünf trainierten und verifizierten Modelle. Aus diesen Zahlen geht hervor, dass Xception und InceptionV3 im Vergleich zu den Modellen VGG16, VGG19 und ResNet50 die beste Leistung bei höchster Genauigkeit und geringstem Verlust aufweisen. Darüber hinaus übertrifft image_trans unter den drei Vorverarbeitungsmethoden image_gray und image_clip. Daher eignen sich die Modelle Xception und InceptionV3 am besten für die bildbasierte Klassifizierung von Pinienkernen. Bilder sollten transformiert, aber nicht auf Graustufen eingestellt werden (Tabelle 6).

Genauigkeit und Verlust für fünf verschiedene Modelle unter Verwendung von image_clip-Daten.

Genauigkeit und Verlust für fünf verschiedene Modelle unter Verwendung von image_trans-Daten.

Genauigkeit und Verlust für fünf verschiedene Modelle unter Verwendung von image_gray-Daten.

Frühere Studien haben gezeigt, dass die Gattung Pinus in der frühen Kreidezeit (116–83 Mya) entstand und sich in zwei Untergattungen Pinus (P. massoniana, P. thunbergii, P. yunnanensis, P. taiwanensis und P. massoniana usw.) und Strobus aufspaltete (P. armandii und P. bungeana usw.)2, 27. Während der langen Evolutionsgeschichte hat es möglicherweise viele Ereignisse wie Plattenbewegungen, Meer-Land-Übergänge und Klimaveränderungen erlebt2, 28, 29. Die chemische Zusammensetzung der Pflanze Organe sind das Ergebnis der Interaktion zwischen Pflanzen und der Umwelt im langen Evolutionsprozess30,31,32. Unsere Ergebnisse legen nahe, dass die Arten P. armandii und P. bungeana der Untergattung Strobus in den Regionen 9.000–4.000 cm−1 (1.111–2.500 nm) höhere Banden aufweisen als andere fünf Arten der Untergattung Pinus (Abb. 1). In früheren Studien wurde festgestellt, dass diese Banden mit Proteinen, Aminosäuren, Feuchtigkeit, Lipiden und Kohlenhydraten assoziiert sind20, 22. Bemerkenswerterweise zeigten unsere Ergebnisse auch, dass drei empfindliche Banden (1.147–1.154 nm, 1.907–1.927 nm, 2.227–2.254 nm) in diesen Regionen (1.111–2.500 nm) haben großen Einfluss auf die Modellgenauigkeit basierend auf der Schiebefenstermethode (Abb. 1). Im Gegensatz zur Untergattung Pinus waren die Arten P. armandii und P. bungeana der Untergattung Strobus hauptsächlich in Nordchina verbreitet (Tabelle S1). Der Unterschied einiger Stoffe könnte durch bestimmte geografische Verteilung und Umweltbedingungen wie Höhe, durchschnittliche Jahrestemperatur, Bodeneigenschaften, Niederschlag und Sonnenschein verursacht werden22. Im Vergleich zu früheren Studien, die auf SVM-, RF- und PLS-DA-Methoden zur Saatgutklassifizierung 12, 18 basierten, zeigten unsere Ergebnisse, dass das MLP-Modell eine hervorragende Leistung zeigte, was erklärt werden könnte, dass die gesammelten NIR-Spektren aufgrund unterschiedlicher Chemikalien eine unterschiedliche Empfindlichkeit gegenüber dem Modell aufwiesen Komponenten.

Wir fanden auch einige morphologische Unterschiede zwischen zwei Untergattungen in Bildern von Pinienkernen. Die Samen der Untergattung Strobus haben wahrscheinlich eine glattere Form und Textur als die Untergattung Pinus (Abb. 7), was der Merkmalsextraktion des maschinellen Lernmodells förderlich wäre. Frühere Studien haben gezeigt, dass die Modelle PLS-DA und IPLS-DA gute Ergebnisse bei der Erkennung mehrerer Sorten zweier Arten erzielten22. Unsere Ergebnisse deuten jedoch darauf hin, dass das InceptionV3-Modell bei den Pinienkernbildern von sieben Arten mit der schnellsten Konvergenzgeschwindigkeit und der höchsten Genauigkeit am besten abschneidet. Es wurde festgestellt, dass das ähnliche Modell erfolgreich zur Diagnose von Nährstoffmängeln in Reis33 und zur Klassifizierung mehrerer Unkrautarten34 eingesetzt wird. Die unterschiedliche Erkennungsgenauigkeit mehrerer Modelle kann mit den morphologischen Merkmalen (Form, Farbe und Textur) von Nüssen zwischen Datensätzen zusammenhängen.

Es gibt unterschiedliche Vorteile bei drei Erkennungsmethoden für molekulare Marker, NIR und Bilder (Abb. 5). Im Hinblick auf die Genauigkeit weisen molekulare Marker höhere Erkennungsraten auf als NIR und Bilder. Die molekulare Markierung dauert jedoch lange und ist durch experimentelle Ausrüstung und öffentliche Referenzdatenbanken begrenzt. Aus Kostengründen ist die Bildanalyse möglicherweise besser, da sie bequem, schnell und frei von Umgebungseinschränkungen ist. Diese Methode erfordert jedoch eine große Menge an Bildern und weist eine geringere Erkennungsrate auf. In Bezug auf die Leistung ist die NIR-Spektroskopie aufgrund ihrer höheren Erkennungsrate und der geringeren erzeugten Datenmenge möglicherweise besser, sie ist jedoch kostspielig und erfordert spezielle Geräte. In Zukunft würden wir den Ansatz des Ensemble-Lernens nutzen, indem wir mehrere Merkmale von Molekülen, NIR und Bildern für mehr Arten zusammenführen.

Radardiagramm der Analysekosten, Komplexität und Leistung. Zeit: die für die Analysen benötigte Zeit; Kosten: der finanzielle Aufwand für die Durchführung der Analysen; Einschränkung: der Grad der begrenzenden Faktoren der Versuchsbedingungen; Datenkapazität: die aus den Analysen gewonnene Datenmenge; Genauigkeit: die Genauigkeit der Identifizierung. Die Skala stellt hier einen Wert dar, wobei 0 den niedrigsten Wert und 1,0 den höchsten Wert angibt.

Basierend auf den vorliegenden Studienergebnissen überprüft diese Studie die potenzielle Anwendung von Modellen des maschinellen Lernens auf der Grundlage von NIR-Spektroskopie und Bildern zur Erkennung verschiedener Pinienkernarten. Wir haben sieben Arten von Pinienkernen als Forschungsobjekt gesammelt und Klassifizierungsmodelle basierend auf NIR-Spektroskopie und Bilddaten erstellt. Im Vergleich zu anderen Modellen erzielten MLP und InceptionV3 nachweislich einen besseren Klassifizierungseffekt. Gleichzeitig zeigen empfindliche NIR-Banden die Korrelation mit einigen speziellen molekularen Schwingungen funktioneller Gruppen. Die Ergebnisse werden Lösungen und wissenschaftliche Methoden für die bequeme, schnelle und zerstörungsfreie Klassifizierung verschiedener Arten von Pinienkernen liefern und eine neue Idee auf dem Gebiet der Artenklassifizierung sowie ein methodisches und technisches Referenzschema liefern.

Die akademische Erlaubnis zum Sammeln und Untersuchen von Pinienkernen wurde vom Direktor des Key Laboratory of Southwest Mountain Forest Resources Conservation and Utilization des Bildungsministeriums der Southwest Forestry University erteilt. Die Studie erfüllte alle relevanten Richtlinien.

Wird bei der Untersuchung von P. bungeana | verwendet Junying Jiao 01 |, P. armandii | Kunming-Institut für Botanik, Chinesische Akademie der Wissenschaften, ZuoZh271 |, P. yunnanensis | Kunming-Institut für Botanik, Chinesische Akademie der Wissenschaften, MY259|, P. thunbergia | Kunming-Institut für Botanik, Chinesische Akademie der Wissenschaften, Lilan898 |, P. massoniana | Kunming-Institut für Botanik, Chinesische Akademie der Wissenschaften, LWY2020020 |, P. elliottii | Junying Jiao 02 |und P. taiwanensis | Kunming-Institut für Botanik, Chinesische Akademie der Wissenschaften, Jiangxc0597 | wurden vom Kunming-Institut für Botanik, der Chinesischen Akademie der Wissenschaften und den Vorbereitungsanlagen für Setzlingsarbeitsstationen im Yunnan-Wald hergestellt. Die in der Studie verwendeten Pinienkerne wurden von Junying Jiao, Direktor des Key Laboratory of Forest Resources Conservation and Utilization in Southwest Mountainous Region des Ministeriums für Bildung, College of Forestry, Southwest Forestry University, offiziell identifiziert. P. bungeana und P. elliottii wurden im Herbarium der Southwest Forestry University mit den Code-Zugangsnummern 0000651 und 0,000,652 registriert und aufbewahrt. P. armandi, P. yunnanensis, P. thunbergia, P. massoniana und P. taiwanensis wurden in der Keimplasmabank des Kunming-Instituts für Botanik der Chinesischen Akademie der Wissenschaften mit der Code-Zugangsnummer ZuoZh271, MY259, Lilan898, LWY2020020 registriert und aufbewahrt und Jiangxc0597.

Von jeder Art wurden etwa 1,5 kg Nüsse ausgewählt und einer Vorbehandlung für Bild- und NIR-Spektroskopieanalysen unterzogen. Die Samenoberfläche wurde mit destilliertem Wasser abgespült und fehlerhafte Nüsse entfernt. Die gereinigten Pinienkerne wurden dann in einem Ofen (Modell DHG-9245A, Shanghai Hengke Instrument Co., Ltd., Shanghai, China) 8 Stunden lang bei 40 °C getrocknet. Nach der Vorverarbeitung wurden die Nüsse zur anschließenden Aufnahme von NIR-Spektren zufällig in 30 Gruppen eingeteilt. Eine oder zwei Nüsse aus jeder Gruppe wurden fotografiert, um die Ursprungsbilder zu erhalten (Tabelle 7).

Um Pinienkernarten zu identifizieren, wurden die Primer von ITS2 und rbcL auf der Grundlage der bekannten Sequenzen in einer früheren Studie35 entworfen (Tabelle 8). Fragmentgene wurden mit einem ABI 3730-Sequenziergerät lokalisiert und sequenziert. Das SeqMan-Tool wurde verwendet, um die überlappenden Fragmente zusammenzusetzen.

Die NIR-Spektren wurden mit dem Antaris Fourier Transform NIR-Spektrometer (Thermo Fisher Scientific, Massachusetts, USA) aufgenommen, das mit einem InGaAs-Detektor mit diffuser Ulbrichtkugel, einem 7,78-cm-Quarzprobenbecher und einem Probendrehtisch im Bereich von 12.800 bis 3.800 cm ausgestattet war 1 (781 nm-2632 nm) bei einer Auflösung von 8 cm−1. Die Proben wurden 48 Mal gescannt und es wurden 2335 Banden erhalten. Die Daten wurden mit log(1/R) transformiert, um die Absorption darzustellen.

Die NIR-Spektren wurden mithilfe einer Min-Max-Normalisierungsmethode normalisiert, um die durch Ausreißer verursachten nachteiligen Auswirkungen zu eliminieren. Die Originaldaten wurden unter Verwendung von Gl. auf den Bereich von 0 und 1 normiert. (1).

wobei x die Absorptionswerte darstellt, min(x) und max(x) die niedrigsten bzw. höchsten Absorptionswerte darstellen.

Die Bilder der Pinienkerne wurden mit einem LEICA EZ4-Mikroskop mit weißem Hintergrund und achtfacher Vergrößerung durch ein Huawei Mate 30-Mobiltelefon mit einer ultraempfindlichen 40-MP-Kamera (Weitwinkel, f/1.8) aufgenommen, die Autofokus und manuellen Fokus unterstützt. Der Aufnahmewinkel wurde auf 90° eingestellt, die Höhe betrug 50 cm und es wurden 52 Bilder für jede Pinienkernart aufgenommen.

Bei der Bildaufnahme kommt es zu Unregelmäßigkeiten. Dazu gehören die Größenvariation von Pinienkernen, inkonsistente Positionen und das Erscheinungsbild der Farbe, die sich alle auf die Erkennungsmodelle und die Genauigkeit der Klassifizierung auswirken. Daher umfasste die Bildvorverarbeitung zur Standardisierung die folgenden zwei Schritte:

(1) Kantenerkennung und -beschneidung

Die Kantenposition der Pinienkerne wurde mit der Sobel-Methode auf der OpenCV-Plattform ermittelt. Nachdem die oberen, unteren, linken und rechten Scheitelpunkte des Samens definiert waren, wurde das Bild durch einen Matrixrahmen zugeschnitten, der die vier Scheitelpunkte verbindet (Abb. 6). Um einen einheitlichen Bildhintergrund zu erhalten (Abb. 6d), war teilweise ein weiterer manueller Zuschnitt erforderlich (Abb. 6e).

Sobel-Kantenerkennungs- und Clipping-Prozess.

(2) Datenerweiterung und Bildgrauskala

Die ausgeschnittenen Bilder wurden mithilfe der Funktionen „Spiegeln“ und „Größe ändern“ in OpenCV ausgerichtet. Die Formel (2) wurde verwendet, um diese ausgerichteten Bilder in Graustufenbilder umzuwandeln (Abb. 7). In dieser Studie wurde die Farbkonvertierungsfunktion von OpenCV verwendet: CV_BGR2GRAY, um die Bildgraustufenverarbeitung durchzuführen.

Ergebnisse der Bildvorverarbeitung für Pinienkerne jeder Art. Bilder wurden beschnitten, gespiegelt, in der Größe geändert und farblich in Graustufen umgewandelt.

Um das Klassifizierungsmodell für Pinienkerne weiter zu untersuchen, wurden zwei experimentelle Ansätze verwendet (Abb. 8). Der erste Ansatz umfasste traditionelle Methoden des maschinellen Lernens wie DT, RF, MLP, SVM und NB, die zur Klassifizierung von Nüssen auf der Grundlage der NIR-Spektroskopie verwendet wurden. Das auf NIR-Spektren basierende Klassifizierungsmodell umfasst fünf Schritte (Abb. 8a). Die Daten wurden zunächst aufbereitet und dann im Verhältnis 8:2 in einen Trainingssatz und einen Validierungssatz aufgeteilt. Anschließend wurden die Lernmethoden DT, RF, MLP, SVM und NB zur Erstellung von Klassifizierungsmodellen verwendet. Nach dem Training und der Validierung wurden die Genauigkeit (Acc), Pre und F1 als Leistungsbewertungsindikatoren für jedes Klassifizierungsmodell ausgewählt.

Experimenteller Entwurfsprozess für Bilderkennung und NIR-Spektroskopie. (a) Prozess der Erstellung eines traditionellen Klassifizierungsmodells für maschinelles Lernen unter Verwendung von NIR-Spektroskopiedaten. (b) Prozess der Erstellung eines Deep-Learning-Klassifizierungsmodells unter Verwendung von Bilddaten.

Beim zweiten Ansatz wurden fünf CNN-Modelle (VGG16, VGG19, Xception, InceptionV3 und ResNet50) konstruiert und trainiert, um die Bilder von Pinienkernen zu klassifizieren (Abb. 8b). Erstens hatten die Originalbilder im Datensatz unterschiedliche Größen. Vor dem Experiment wurden die Originalbilder vorverarbeitet und dann in die Größe 224 × 224 geschnitten. Zweitens wurden die Pinienkernbilder im Verhältnis 8:2 in einen Trainingssatz und einen Validierungssatz aufgeteilt. Anschließend wurden die Modelle VGG16, VGG19, Xception, ResNet50 und InceptionV3 zum Training und zur Validierung auf die experimentelle Plattform geladen. Die Epochen wurden auf 100 eingestellt, die Optimierungsmethode Stochastic Gradient Descent (SGD) wurde übernommen und die anfängliche Lernrate wurde auf 0,005 eingestellt. Die Lernrate ändert sich mit den Trainingsdrehungen, mit einer Dämpfung von 1e-6 pro Drehung, und der Impulsparameter wurde auf 0,9 eingestellt. Die Verlustfunktion war sparse_categorical_crossentropy und die Aktivierungsfunktion war Rectified Linear Units (ReLU). Schließlich wurden Acc, Pre und F1 für die Modellbewertung ausgewählt.

Diese beiden experimentellen Ansätze wurden entwickelt, um die Leistung verschiedener Modelle zu vergleichen und zu analysieren, um zu bewerten, welches Modell für zukünftige Forschungen zur Klassifizierung von Pinienkernen am besten geeignet ist. CNN-Modelle wurden mit den Python-Bibliotheken Keras-nightly 2.6.0, TensorFlow-nightly-GPU 2.6.0 und Scikit-learn 0.24.2 erstellt, die in Python v.3.7 ausgeführt werden.

Die in dieser Studie präsentierten Daten und Codes sind unter https://github.com/SWFU-JiangLiu/Recognition-of-pine-nuts.git verfügbar. Die GenBank-Zugangsnummern lauten OK271114-OK271122 und OK274058-OK274066.

Gernandt, DS, Lopez, GG, Garcia, SO & Liston, A. Phylogenie und Klassifizierung von Pinus. Taxon 54, 29–42 (2005).

Artikel Google Scholar

Jin, WT et al. Phylogenomische und ökologische Analysen offenbaren die räumlich-zeitliche Entwicklung globaler Kiefern. Proz. Natl. Acad. Wissenschaft. USA https://doi.org/10.1073/pnas.2022302118 (2021).

Artikel PubMed PubMed Central Google Scholar

Wang, Y. Nahrhafte Trockenfrüchte und Pinienkerne. Shanxi alt 58, 58 (2016).

Guo, X. Winterpinienkerne zur Beseitigung von Krankheiten. Greening and Life 44, 44 (2014).

Zhu, D. et al. Die Identifizierung einzelner Sojabohnensamensorten durch Laserlicht-Rückstreubildgebung. Sens. Lett. 10, 399–404 (2012).

Artikel Google Scholar

Zhang, C. et al. Anwendung von SSR-Markern zur Reinheitsprüfung kommerzieller Hybrid-Sojabohnen (Glycine max L.). J. Agrar. Wissenschaft. Technol. 16, 1389–1396 (2014).

Google Scholar

Iqbal, A., Sadaqat, HA, Khan, AS & Amjad, M. Identifizierung von Sonnenblumenhybriden (Helianthus annuus, Asteraceae) mithilfe von Simple-Sequence-Repeat-Markern. Genet. Mol. Res. 10, 102–106. https://doi.org/10.4238/vol10-1gmr918 (2011).

Artikel CAS PubMed Google Scholar

Oliveira de Oliveira, L. et al. Molekulare Marker in Carya illinoinensis (Juglandaceae): Von der genetischen Charakterisierung bis zur molekularen Züchtung. J. Hortic. Wissenschaft. Biotechnologie. 96, 560–569. https://doi.org/10.1080/14620316.2021.1892534 (2021).

Artikel CAS Google Scholar

Pandit, R., Travadi, T., Sharma, S., Joshi, C. & Joshi, M. DNA-Meta-Barcoding unter Verwendung eines rbcL-basierten Mini-Barcodes zeigte das Vorhandensein nicht spezifizierter Pflanzenarten in ayurvedischen Polykräuterformulierungen. Phytochem. Anal. 32, 804–810. https://doi.org/10.1002/pca.3026 (2021).

Artikel CAS PubMed Google Scholar

Rao, P. et al. Sortenidentifizierung in Reis (Oryza sativa) durch chemische Tests und Gelelektrophorese löslicher Samenproteine. Indischer J. Agric. Wissenschaft. 82, 304–311 (2012).

CAS Google Scholar

Peng, Z. et al. Anwendung der denaturierenden Hochleistungsflüssigkeitschromatographie zur Identifizierung von Reissorten und zur Beurteilung der Samenreinheit. Mol. Züchten. https://doi.org/10.1007/s11032-015-0429-8 (2016).

Artikel Google Scholar

Kong, W., Zhang, C., Liu, F., Nie, P. & He, Y. Identifizierung von Reissamensorten mittels nahinfraroter Hyperspektralbildgebung und multivariater Datenanalyse. Sensoren (Basel) 13, 8916–8927. https://doi.org/10.3390/s130708916 (2013).

Artikel ADS Google Scholar

Yang, X., Hong, H., You, Z. & Cheng, F. Spektrale und bildintegrierte Analyse hyperspektraler Daten zur Sortenklassifizierung von Wachsmaissamen. Sensoren (Basel) 15, 15578–15594. https://doi.org/10.3390/s150715578 (2015).

Artikel ADS Google Scholar

Liu, J., Li, Z., Hu, F., Chen, T. & Zhu, A. Eine zerstörungsfreie THz-Spektroskopie-Identifizierungsmethode für transgene Baumwollsamen basierend auf GA-SVM. Opt. Quant. Elektron. 47, 313–322. https://doi.org/10.1007/s11082-014-9914-2 (2014).

Artikel CAS Google Scholar

Pourreza, A., Pourreza, H., Abbaspour-Fard, M.-H. & Sadrnia, H. Identifizierung von neun iranischen Weizensamensorten durch Texturanalyse mit Bildverarbeitung. Berechnen. Elektron. Landwirtschaft. 83, 102–108. https://doi.org/10.1016/j.compag.2012.02.005 (2012).

Artikel Google Scholar

Boelt, B. et al. Multispektrale Bildgebung – ein neues Werkzeug zur Bewertung der Saatgutqualität?. Saatgutwissenschaft. Res. 28, 222–228. https://doi.org/10.1017/s0960258518000235 (2018).

Artikel Google Scholar

Kandala, CVK, Govindarajan, KN, Puppala, N., Settaluri, V. & Reddy, RS Identifizierung von Weizensorten mit einem Parallelplatten-Kapazitätssensor unter Verwendung der linearen Diskriminanzanalyse nach Fisher. J. Sens. 1–5, 2014. https://doi.org/10.1155/2014/691898 (2014).

Artikel Google Scholar

Zhu, S. et al. Eine schnelle und hocheffiziente Methode zur Identifizierung von Sojasaatgutsorten: Hyperspektrale Bilder kombiniert mit Transferlernen. Molecules 25, 152. https://doi.org/10.3390/molecules25010152 (2019).

Artikel CAS PubMed Central Google Scholar

ElMasry, G. et al. Einsatz von Computer Vision und multispektralen Bildgebungstechniken zur Klassifizierung von Kuherbsensamen (Vigna unguiculata). Pflanzenmethoden 15, 24. https://doi.org/10.1186/s13007-019-0411-2 (2019).

Artikel PubMed PubMed Central Google Scholar

Tigabu, M., Oden, PC & Lindgren, D. Identifizierung von Samenquellen und Eltern von Pinus sylvestris L. mithilfe von Reflexionsspektren im sichtbaren Nahinfrarotbereich und multivariater Analyse. Bäume 19, 468–476. https://doi.org/10.1007/s00468-005-0408-5 (2005).

Artikel Google Scholar

Loewe Munoz, V., Balzarini, M., Delard Rodriguez, C., Alvarez Contreras, A. & Navarro-Cerrillo, RM Wachstum von Zirbelkiefern (Pinus pinea L.) aus europäischen Provenienzen in Zentralchile. iForest Biogeosci. Für. 10, 64–6 https://doi.org/10.3832/ifor1984-009 (2017).

Artikel Google Scholar

Moscetti, R. et al. Erkennung von Pinienkernarten mittels NIR-Spektroskopie und Bildanalyse. J. Food Eng. 292, 110357. https://doi.org/10.1016/j.jfoodeng.2020.110357 (2021).

Artikel CAS Google Scholar

Shi, J., Liu, Z., Zhang, L., Zhou, W. & Huang, J. Hyperspektrale Erkennung von Reis, der durch eine auf Reisblattwalzen basierende 013-Unterstützungsvektormaschine beschädigt wurde. Kinn. J. Rice Sci. 23, 331–334 (2009).

CAS Google Scholar

Xu, Z. et al. Dendrolimus punctatus Walker-Schadenserkennung basierend auf Fisher-Diskriminanzanalyse und zufälligem Wald. Spektroskopie Spektraler Analsex. 38, 2888–2896 (2018).

CAS Google Scholar

Rangarajan, AK, Purushothaman, R. & Ramesh, A. Klassifizierung von Tomatenpflanzenkrankheiten mithilfe eines vorab trainierten Deep-Learning-Algorithmus. Procedia Comput. Wissenschaft. 133, 1040–1047 (2018).

Artikel Google Scholar

Hridayami, P., Putra, IKGD & Wibawa, KS Fischartenerkennung mithilfe des tiefen Faltungs-Neuronalen Netzwerks VGG16. J. Comput. Wissenschaft. Ing. 13, 124–130. https://doi.org/10.5626/jcse.2019.13.3.124 (2019).

Artikel Google Scholar

Zhao, YJ, Cao, Y., Wang, J. & Xiong, Z. Transkriptomsequenzierung von Pinus kesiya var. langbianensis und vergleichende Analyse in der Pinus-Phylogenie. BMC Genomics 19, 725. https://doi.org/10.1186/s12864-018-5127-6 (2018).

Artikel CAS PubMed PubMed Central Google Scholar

Herold, N., You, Y., Müller, RD & Seton, M. Empfindlichkeit des Klimamodells gegenüber Veränderungen in der miozänen Paläotopographie. Australisch. J. Earth Sci. 56, 1049–1059. https://doi.org/10.1080/08120090903246170 (2009).

Artikel ADS CAS Google Scholar

Golonka, J. et al. Paläogeographische Rekonstruktionen und Beckenentwicklung der Arktis. Mar. Haustier. Geol. 20, 211–248. https://doi.org/10.1016/s0264-8172(03)00043-6 (2003).

Artikel Google Scholar

Fidan, H. et al. Chemische Zusammensetzung von Pinus nigra Arn. unreife Samen aus Bulgarien. Pflanzen https://doi.org/10.3390/plants11030245 (2022).

Artikel PubMed PubMed Central Google Scholar

Sahin, U., Anapali, O. & Ercisli, S. Physikalisch-chemische Eigenschaften einiger im Gartenbau verwendeter Substrate. EUR. J. Hortic. Wissenschaft. 67, 55–60 (2002).

CAS Google Scholar

Liu, W. et al. Einfluss von Umweltfaktoren auf die Wirkstoffproduktion und antioxidative Aktivität in Potentilla fruticosa L. und deren Qualitätsbewertung. Wissenschaft. Rep. 6, 28591. https://doi.org/10.1038/srep28591 (2016).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Xu, Z. et al. Verwendung tiefer Faltungs-Neuronalnetze zur bildbasierten Diagnose von Nährstoffmängeln in Reis. Berechnen. Intel. Neurosci. 2020, 7307252. https://doi.org/10.1155/2020/7307252 (2020).

Artikel PubMed PubMed Central Google Scholar

Olsen, A. et al. DeepWeeds: Ein Bilddatensatz für Unkrautarten mit mehreren Klassen für Deep Learning. Wissenschaft. Rep. 9, 2058. https://doi.org/10.1038/s41598-018-38343-3 (2019).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Gong, H. et al. Mikroskopische und molekulare Identifizierung von Kiefernnadeln. J. Zhejiang Univ. (Med. Sci.) 47, 300–306 (2018).

Google Scholar

Referenzen herunterladen

Diese Arbeit wird von der Yunnan Zhuoyao Technology Company unterstützt.

Diese Arbeit wurde durch Projekte der National Natural Science Foundation (31960142) unterstützt; Schlüssellabor für die Erhaltung und Nutzung von Waldressourcen in den Südwestbergen Chinas, Bildungsministerium (KLESWFU-201905), Stiftung für wissenschaftliche Forschung der Bildungsabteilung von Yunnan (2022Y559) und Digitalisierung, Entwicklung und Anwendung biotischer Ressourcen (202002AA10007).

Diese Autoren trugen gleichermaßen bei: Biaosheng Huang und Jiang Liu.

Hochschule für Big Data und Intelligente Technik, Southwest Forestry University, Kunming, 650224, Yunnan, China

Biaosheng Huang, Jiang Liu, Jing Lu, Danjv Lv, Jiawei Mao und Youjie Zhao

Schlüssellabor für die Erhaltung und Nutzung von Waldressourcen in den Südwestbergen Chinas, Bildungsministerium, Southwest Forestry University, Kunming, 650224, Yunnan, China

Biaosheng Huang & Youjie Zhao

Hochschule für Forstwirtschaft, Southwest Forestry University, Kunming, 650224, Yunnan, China

Junying Jiao

Hochschule für Mathematik und Physik, Southwest Forestry University, Kunming, 650224, Yunnan, China

Yan Zhang

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

BSH und JL (Jiang Liu) haben diese Studie entworfen und den Haupttext des Manuskripts verfasst. JYJ kaufte und behielt die Pinienkerne. JL (Jing Lu) und JWM sammelten die Daten, analysierten die Daten und erstellten Zahlen. YJZ und YZ halfen bei der Interpretation der Ergebnisse. DJL, YJZ und YZ halfen bei der Bearbeitung der Sprache. Alle Autoren trugen zur Interpretation der Ergebnisse und zum Verfassen des Manuskripts bei.

Korrespondenz mit Youjie Zhao oder Yan Zhang.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Huang, B., Liu, J., Jiao, J. et al. Anwendungen des maschinellen Lernens bei der Klassifizierung von Pinienkernen. Sci Rep 12, 8799 (2022). https://doi.org/10.1038/s41598-022-12754-9

Zitat herunterladen

Eingegangen: 18. November 2021

Angenommen: 16. Mai 2022

Veröffentlicht: 25. Mai 2022

DOI: https://doi.org/10.1038/s41598-022-12754-9

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Lebensmittelanalytische Methoden (2023)

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.

AKTIE