Exploiting Large-Scale Pre-trained Vision Foundation Models in 3D Point Cloud Segmentation
Nutzung von vortrainierten Vision Foundation Models bei der 3D-Punktwolkensegmentierung
Keno Moenck, Thorsten Schüppstuhl
The recent upstream of large-scale pre-trained Vision Foundation Models (VFM) follows the success of Large Language Models (LLM), e. g., the GPT series. Models like the Segment Anything Model (SAM) or Contrastive Language-Image Pre-training (CLIP) demonstrate strong generalization capabilities and open a new area of tasks, including various downstream tasks. The research vision community mainly focuses on the 2D and text modality, resulting in textual or visual promptable models capable of zero-shot object recognition or segmentation, which applications and transfer to the 3D domain are subject to current research. This article overviews approaches in leveraging large-scale pre-trained VFMs in the 3D domain. Moreover, we dive deeper into the application of the SAM and propose an approach for class-agnostic 3D segmentation in large-scale scenes.
Der jüngste Aufschwung großer, vortrainierter Vision Foundation Models (VFM) folgt dem Erfolg von Large Language Models (LLM), z. B. der GPT-Serie. Modelle wie das Segment Anything Model (SAM) oder Contrastive Language-Image Pre-training (CLIP) zeigen starke Generalisierungsfähigkeiten und ermöglichen direkt oder durch datengünstiges Nachtrainieren neue Bildverarbeitungsaufgaben. Die Forschungsgemeinschaft im Bereich der Bildverarbeitung konzentriert sich überwiegend auf die 2D- und Textmodalität, welches zu textuell- oder visuell-promtable Modellen führte, die in der Lage sind, Objekte auch ohne weiteres domänenspezifisches Training zu detektieren oder zu segmentieren. Anwendungen hier, aber auch die Übertragung auf die 3D-Domäne sind Gegenstand aktueller Forschungsbemühungen. Dieser Beitrag gibt einen Überblick über die Nutzung von vortrainierten VFMs im 3D-Bereich. Darüber Hinaus wird näher auf die Anwendung des SAM eingegangen und ein weiterer Ansatz zur klassenagnos- tischen 3D-Segmentierung in geräumigen Szenen aufgezeigt
Keywords: Vision Foundation Model, VFM, SAM, 3D segmentation
Schlüsselwörter: Vision Foundation Model, VFM, SAM, 3D segmentation
DOI: 10.14627/avn.2025.4.2
Der Volltext der aktuellen Artikel (< 3 Monate) aus dem Artikelarchiv steht für
avn-Abonnenten
nach dem Login
zur Verfügung.