Multi-modal data fusion and information transfer for geospatial semantics
Geodaten-Interpretation anhand multi-modaler Datenfusion und -Übertragung
Dominik Laupheimer
This paper provides a concise overview of the dissertation ”On the Information Transfer Between Imagery, Point Clouds, and Meshes for Multi-Modal Semantics Utilizing Geospatial Data” (Laupheimer 2022). The key innovation is a novel integrative backbone infrastructure associating pixels from imagery, 3D points of photogrammetric/LiDAR clouds, and surface elements of meshes. Using the mesh as the core modality allows occlusion-aware projection of 3D points into image space. The entity-level linking enables seamless sharing of features and labels across modalities without manual intervention. This reduces manual annotation efforts significantly as proven by preparing the Hessigheim 3D benchmark (Kölle et al. 2021). At the same time, the feature sharing enhances both the performance and confidence of machine learning classifiers. The proposed methodology, known for its simplicity and generality, will benefit from advances in data acquisition, automatic surface reconstruction, and classifier design, making it a powerful tool for future developments.
Dieser Beitrag ist eine kompakte Zusammenfassung der Dissertation „On the Information Transfer Between Imagery, Point Clouds, and Meshes for Multi-Modal Semantics Utilizing Geospatial Data“ (Laupheimer 2022). Die Hauptinnovation besteht in einer neuartigen integrativen Backbone-Infrastruktur, die Pixel aus Bildern, 3D-Punkte aus photogrammetrischen/LiDAR-Punktwolken und Oberflächenelemente von Meshes miteinander verknüpft. Die explizite Verknüpfung dieser verschiedenen Entitäten ermöglicht den automatisierten Austausch von Merkmalen und Labels zwischen den Modalitäten. Dadurch wird der manuelle Annotationsaufwand erheblich reduziert, wie die Aufbereitung des Hessigheim-3D-Benchmarks belegt (Kölle et al. 2021). Gleichzeitig steigert der intermodale Austausch von Merkmalen die Genauigkeit und die Zuverlässigkeit von Methoden des maschinellen Lernens. Die vorgestellte Methodik überzeugt durch ihre Einfachheit und Allgemeingültigkeit. Die Nutzung des Meshs als zentrale Modalität ermöglicht es, die Projektion auf ausschließlich sichtbare 3D-Punkte in den Bildraum zu beschränken. Zukünftige Fortschritte in der Datenerfassung, der automatischen Oberflächenrekonstruktion und im Bereich des maschinellen Lernens werden die vorgestellte Datenfusion und den damit einhergehenden intermodalen Informationsaustausch daher noch leistungsstärker machen.
Keywords: Multi-Modality, data fusion, LiDAR, photogrammetry, semantics, geospatial data
Schlüsselwörter: Multi-Modalität, Datenfusion, LiDAR, Photogrammetrie, Semantik, Geodaten
DOI: 10.14627/gis.Science.2024.2.3