Seite weiterempfehlenSeite drucken

Warum Würfel wichtig werden – Big Data in Precision Agriculture

Datenwürfel sind ins Zentrum der Aufmerksamkeit geraten, da sie hocheffiziente, genaue Zeitreihenanalysen auf „Big Data“ versprechen. Werden sie diese Erwartungen erfüllen können? Wir fassen Konzepte, Werkzeuge und Standards zusammen.

Autor: Prof. Dr. Peter Baumann, Jacobs University und rasdaman GmbH

Würfeln um Wetterwissen, das ist sicher nicht die Art von Agrarwirten, die sich heute neben hohen Erträgen auch ökologische Nachhaltigkeit als Ziel gesetzt haben. Vielmehr ist Faktenauswertung gefragt, unter Einbeziehung aller Parameter. Precision Agriculture unterstützt dabei, indem sie verschiedene Technologien in unterschiedlichen Phasen der landwirtschaftlichen Wertschöpfungskette verknüpft: von Automatisierungsverfahren über Geo-Mapping bis zur Big Data Analyse, um Klima- und Bodendaten besser auszuwerten und die Landwirtschaft effizienter zu gestalten.  

Besonders die Analyse langjähriger, fein aufgelöster Zeitreihen spielt eine zentrale Rolle für zuverlässige Aussagen, ist jedoch bisher mühsam und langsam. Jetzt rücken Datenwürfel (engl.: datacubes) als neues Paradigma ins Zentrum der Aufmerksamkeit, sollen sie doch Echtzeit-Webdienste auf Klima- und Satellitendaten im Petabyte-Bereich leisten und damit einen substanziellen neuen Erkenntnisgewinn in der Landwirtschaft liefern.

Precision Farming mit Datenwürfeln

Erste Unternehmen nutzen bereits die Datenwürfel-Technologie für innovative Dienste. CloudEO bietet bereits ein „Geo infrastructure as a Service“ Angebot; jüngst wurde dies um „Datacube Analytics“ auf Basis von rasdaman erweitert.

Das griechische Startup EOfarm bietet auf Basis der open-source Technologie von rasdaman standard-basiertes Smart Farming sowie Wasser-Qualitätsanalysen kommerziell an. Auf Landsat8, Sentinel und RapidEye Daten werden Mehrwert-Informationen wie Farb-Komposite, Kanalverhältnisse und Indizes wie der NDVI, Oberflächentemperatur, sowie entsprechende Zeitreihen über beliebigen Ausschnitten gebildet; alle Berechnungen finden ad hoc aus den Basisdaten heraus statt.

Abb. 1: Smart Farming auf Datenwürfeln (Quelle: EOfarm)

Einen Schritt weiter geht man im BMEL-geförderten Forschungsprojekt“Die Diagnose im Feld – Big Data basierte Ursachenklärung für satellitenerfasste Standortunterschiede“, kurz: BigPicture. Dort arbeiten Spatial Business Integration GmbH  und rasdaman GmbH daran, aus den mit Satellitensensoren in einer Vielzahl von landwirtschaftlichen Feldern erfassten Pflanzensymptomen eindeutige Diagnosen ihrer Ursachen und entsprechende Behandlungsentscheidungen abzuleiten. Ein wesentlicher Fortschritt soll dadurch erzielt werden, dass die in den Satellitenbildern erfassten Feldmuster mit Hilfe weiterer Parameter, wie Geometrie, Lage, Boden-, Wetter- und Feldbewirtschaftungsparameters, im großen Maßstab mit etwa 500 Bauern  charakterisiert werden. Ziel ist, die Prozesskette von Satellitenbildrohdaten bis hin zur informations-basierten Maßnahmenentscheidung zu schließen. Die Verwertung der Projektergebnisse fokussiert auf den Markt der Präzisionslandwirtschaft und hier auf die Ertragssicherung bei ressourceneffizienter, umweltschonender und nachhaltiger Agrarproduktion.

Abb. 2: Hochaufgelöste Bodenanalyse aus Fernerkundung, via Datenwürfel verknüpfbar mit weiteren Zeitreihen-Quellen wie langfristige, feinaufgelöste Wetterdaten (Quelle: BigPicture).

Daten- und Dienste-Standards

Raum-zeitliche Rasterdaten werden in der Standardisierung durch das Konzept on Coverages erfaßt, welche die Modellierung sowohl regulärer als auch irregulärer Raster erlauben. Die abstrakten Konzepte sind in ISO 19123 (identisch zu OGC Abstract Topic 6) niedergelegt; daraus leiten sich konkrete, interoperable Strukturen in ISO 19123-2 (identisch zum OGC Coverage Implementation Schema, CIS) ab. Zu diesem Datenmodell ist mit dem OGC Web Coverage Service (WCS) ein maßgeschneidertes Dienste-Modell verfügbar, welches ein breites Spektrum an Funktionalität bietet – von Download über flexible Extraktion bis hin zur komplexen server-seitigen Analyse durch die „Geo Datacube“ Sprache Web Coverage Processing Service (WCPS). INSPIRE hat WCS als Coverage Download Service, mit WCPS als optionaler Komponente, im Dezember 2016 verabschiedet. Damit steht ein modulares, mächtiges Funktionspaket zur Verfügung, welches von allen wesentlichen Geo-Standardisierungsgremien identisch unterstützt wird. Inzwischen steht dazu eine ständig wachsende Palette von Tutorials zur Verfügung. Als Einstieg in die Materie ist das OGC-Wiki der Coverages Working Group zu empfehlen [3], es bietet vielfältige weiterführende Links. Abb. 3 zeigt die Ausschnittsbildung als WCS-Basis-Funktionalität.

Abb. 3: Ausschnittsbildung (subsetting) mit WCS (vonl inks nach rechts): 3D-Achsen, 2D-Trimming aus 2D-Bild, 3D-Trimming aus 3D-Würfel, 2D-x/y-Slicing aus 3D-Würfel, 1D-Zeitreihe aus 3D-Würfel; alle Operationen sind frei kombinierbar in einem Web-Request (Quelle: OGC, modifiziert).

Wie Datenwürfel schnell werden

Existierende Archive sind auf die Zeitreihenanalyse schlecht vorbereitet. Satellitenbilder sind üblicherweise als 2D-Bilder abgelegt, mit einem Zeitstempel lediglich in den Metadaten; Zeitreihenanalyse sind damit prohibitiv langsam. Klimadaten können im Prinzip von Institutionen wie ECMWF und DWD abgerufen werden, jedoch werden multidimensionale Daten im Spezialformat GRIB2 geliefert, welches GIS-Werkzeuge normalerweise nicht unterstützen.

In keinem Fall wird Prozessierung im Server angeboten – dies jedoch ist essenziell bei „Big Data“, wie das Prinzip des „ship code to data“ lehrt. Hier helfen Dienste auf Basis der WCS und WCPS Standards: der Server erhält genaue Instruktionen in einer standardisierten Syntax und liefert exakt das gewünschte Ergebnis – im Beispiel von Abb. 4 lassen sich Megabytes auf Kilobytes reduzieren, welche entsprechend schneller geliefert werden.

Abb. 4: Performance-Vergleich im offenen Portal www.earthlook.org: Download eines Falschfarben-Bildes von einem Apache-Webserver (links) bzw. Schwellwert über dem Vegetationsindex (NDVI) desselben Bildes aus rasdaman (rechts).

Darüber hinaus lassen sich durch effiziente Implementierungstechniken, welche z.B. die Performance-Probleme von Sprachen wie Python vermeiden, Echtzeit-Analysen auf Multi-Terabyte großen Datenwürfeln in Echtzeit durchführen, wie das beispielsweise die offizielle OGC Referenzimplementierung von WCS und WCPS, rasdaman [6], zeigt. Diese skalierbare Datacube Engine ist u.a. im ESA EO Datacube auf mehr als einem Petabyte an Datenwürfeln im Einsatz.

In EarthServer [8] arbeitet ECMWF daran, sein 220 PB Klimaarchiv über die offenen Datenwürfel-Standards anzubieten. Weiterhin ermöglicht rasdaman die Föderation von Datenzentren, wie im obigen Beispiel dargestellt. Interessanterweise wurde die innovative Datenwürfel-Anfragesprache von rasdaman auch in der neuen ISO SQL-Erweiterung MDA (Multi-Dimensional Arrays) übernommen. Abb. 5 zeigt Beispiele der EarthServer-Dienste, u.a. die Bestimmung von Starkregen-Risiko durch eine Anfrage an ECMWF, welches Regenfalldaten einbringt, aber zum Einrechnen von Landsat8-Daten eine (für den Anwender nicht sichtbare) Teilanfrage an den Föderationspartner NCI in Canberra, Australien generieren muss; das Ergebnis wird in einem virtuellen Globus dargestellt.

Abb. 5: Zeitreihen-Datenanalyse mit rasdaman in EarthServer: Wassertransport (links), wolken-bereinigte Oberflächentemperatur (mitte), Visualisierung einer Starkregen-Risikoanalyse durch die EarthServer-Partner ECMWF und NCI Australia (rechts) (Quelle: EarthServer).

In vollem Gang

Bereits im August diesen Jahres hat eine Initiative aus rasdaman GmbH, NASA, DigitalGlobe und weiteren OGC-Mitgliedern die Charter für eine Datacube Working Group vorgelegt; diese „Datacube.DWG“ dürfte also sehr bald ihre Arbeit aufnehmen. Nach Auffassung von Marie-Francoise Voidrot, OGC-Europe, sollte eine erste Aufgabe wohl darin bestehen, die existierenden Datenwürfel-Projekte auf Basis des OGC/ISO/INSPIRE Coverage-Standards zu klassifizieren.

Erst jüngst, von 19. Bis 20. September, fand – von der EarthServer-Initiative, ECMWF organisiert und von der ESA ausgerichtet – ein Datacube Workshop statt [5][4], dem eine große Zahl ranghoher Vertreter aus Forschung, Industrie und europäischer Kommission beiwohnten. Vortragende aus Australien, Europa und USA trugen Facetten dieses Paradigmenwechsels vor.

Alea iacta est

Datenwürfel haben sehr schnell ihren Siegeszug angetreten. Das Zauberwort, die „Killer-Applikation“, sind Zeitreihen-Analysen, welche durch die explizite Zeitachse im Würfel besonders einfach und effizient werden. Datenwürfel-Projekte entstehen daher in großer Zahl, etwa Australian Geoscience Datacube, Open Datacube, ESA EO Earth Datacube, und weitere. Während solche Vielfalt den Markt belebt, erschwert sie natürlich auch die Auswahl des optimalen Werkzeugs. Hier helfen die OGC Datenwürfel-Standards rund um den WCS: sie definieren Konzepte für den Datenzugang, kategorisieren Funktionalitäten und helfen damit beim Produktvergleich. In Ausschreibungen können Ämter gezielt Funktionalitätspakete fordern, indem sie eine Liste von WCS-Erweiterungen fordern. Anbieter können darauf ebenso gezielt antworten und über die OGC-Conformance-Tests die Erfüllung der Ausschreibungsbedingungen einfach und schnell nachweisen.

Wie bereits seit 2012 weist die EarthServer-Initiative auch jetzt den nächsten Schritt: Föderationen von Datenwürfeln. Dabei wählt der Anwender zu kombinierende Daten aus und schickt seine Anfrage an ein Föderations-Datencenter. Dieses Datencenter bestimmt selbständig, von woher die nicht lokal vorhandenen Daten genommen werden, und schickt Teilanfragen an die entsprechenden Föderationspartner, um bereits vor Ort eine Selektion und Prozessierung vorzunehmen. Lediglich diese Teilergebnisse gehen zurück über die Leitung, werden integriert und dem Anwender als

 „Alea iacta est“ könnte also schon bald zum Motto der modernen Landwirte werden.

Referenzen

2372 - Warum Würfel wichtig werden – Big Data in Precision Agriculture
PR

Kommentare


Keine Kommentare

Kommentar verfassen?



Captcha-Code eingeben: