Analyzing the impact of grey data quality in the training phase of deep learning models for dwelling extraction in refugee camps
Auswirkungen von „grauen Daten“ in der Trainingsphase von Deep-Learning-Modellen zur Detektion von Gebäuden in Flüchtlingslagern
Vanessa Streifeneder, Yunya Gao
Providing humanitarian help in refugee camps can be difficult due to the political situation and the spatial-temporal dynamics in such camps. Remote sensing techniques combined with artificial intelligence are nowadays used to support non-governmental organizations (NGOs) by detecting and classifying dwellings. One problem is the availability of samples to train deep learning models. A solution is using ‘grey data’ including semantic and geometrical noise for training. The impact of noisy sample data on a U-net model performance was analyzed in this research. Besides, the implementation of a so-called Cyclical Learning Rate (CLR) was tested to detect and delete noisy samples. Depending on the amount and the category of noise, grey data could improve the F1-score by up to 16 % by providing more samples for drop-shaped dwellings. Still, especially annotation errors decreased the model accuracy drastically. Although, a slight enlarging of the dwelling delineation led to better detection of dwellings characterized by a lower contrast to the ground. For instance, for tukuls, the F1-score was increased by 2 % and the producer accuracy for small structures by 30 %. Implementing a CLR could improve the accuracy by up to 20 % for certain dwelling classes, but only if the percentage of noisy samples was not over 50 %. Overall, this method is time-consuming and has to be further optimized to obtain better results and be used operationally.
Weltweit finden Menschen Zuflucht in Flüchtlingslagern. Die politische Situation, aber auch die dynamische Entwicklung der Flüchtlingslager erschwert es, humanitäre Hilfe zu leisten. Heutzutage werden Nichtregierungsorganisationen (NGOs) durch eine Kombination aus Fernerkundung und künstlicher Intelligenz unterstützt, die es möglich macht, Zelte zu detektieren und zu klassifizieren. Ein Problem sind jedoch mangelnde Trainingsdaten. Eine Lösung sind sogenannte ‚graue Daten‘, die jedoch semantische und geometrische Unsicherheiten besitzen. Die Auswirkung dieser grauen Daten auf die Modellleistung wurde analysiert und die Implementierung einer sogenannten zyklischen Lernrate (ZL) getestet, um Daten mit einer hohen Unsicherheit zu erkennen und zu löschen. Hierfür wurde ein U-net-Modell verwendet. Abhängig von der Menge an fehlerhaften Trainingsdaten, aber auch vom Fehlertyp konnten graue Daten die Modellgenauigkeit sogar verbessern, zum Beispiel durch leicht vergrößerte Objektgrenzen wurde der F1-Score von tropfenförmigen Zelten um 16 % verbessert. Allerdings verschlechterten besonders Klassifizierungsfehler die Modellperformanz. Bei Tukuls (Hütten) wurde beispielsweise der F1-Score um 2 % verbessert und bei kleinen Gebäuden (small structures) verbesserte sich die Producer Accuracy um 30 %. Das Voranstellen einer ZL führte zur Verbesserung der Modellperformanz bei manchen Klassen von bis zu 20 %, solange nicht ein großer Teil der Trainingsdaten fehlerhaft waren. Diese Methode ist jedoch zeitaufwendig und muss für bessere Ergebnisse sowie den operationellen Einsatz optimiert werden.
Keywords: Humanitarian help, deep learning, Cyclic Learning Rate, grey data, training phase, model performance
Schlüsselwörter: Humanitäre Hilfe, Deep Learning, zyklische Lernrate, graue Daten, Trainingsphase, Modellperformanz