Adversarial Attacks, insbesondere Universal Adversarial Perturbations (UAPs), stellen eine grosse
Herausforderung für die Robustheit von Deep Learning Modellen dar. Diese Thesis konzentriert
sich auf die Entwicklung und Implementierung von UAPs und die Evaluierung von
Adversarial Training als Verteidigungsmechanismus gegen solche Angriffe, insbesondere für die
Modelle ResNet, DenseNet und EfficientNetV2.
Unser Anwendungsfall zielt auf die Erkennung kritischer Krankheiten durch binäre Klassifikationsmodelle.
Im Gegensatz zum Ansatz von Moosavi-Dezfooli et al. lösen wir das Optimierungsproblem
der Generierung von UAPs durch eine selbstdefinierte Loss-Funktion, welche die
Inverse der Binary Cross Entropy und die L2-Matrizennorm verwendet. Bei der Generierung
der UAPs werden gezielt positiv gelabelte Bilder angegriffen, um deren falsch-negativ Rate zu
erhöhen.
Die Analyse zeigt, dass die Addition von UAPs die Recall-Metriken verschlechtern und dass
Robustifizierung oft nicht in der Lage ist, die ursprüngliche Modellperformance zu erreichen.
Obwohl Adversarial Training die Robustheit erhöht, bleiben die Modelle anfällig für neu generierte
UAPs. Robustifizierung erzwingt in einigen Fällen grössere Perturbationen, dadurch wird
die Zeitintensität der UAP-Generierung erhöht.
Insbesondere im Gesundheitswesen, aber auch in anderen Bereichen, kann eine erhöhte falsch-negativ
Rate gefährliche Folgen haben. Daher ist weitere Forschung auf dem Gebiet der Adversarial Attacks
und ihrer Robustifizierung von entscheidender Bedeutung. Diese Thesis unterstreicht
die Notwendigkeit, die Widerstandsfähigkeit gegen Adversarial Attacks zu verbessern.
Python, PyTorch, Bildklassifikation, Computer Vision, Deep Learning, Adversarial Attacks, Universal Adversarial Perturbation
Der ausgewählte MRI-Scan zeigt eine sagittale Ansicht des Kopfes. In der Visualisierung wurde
UAP der Modelle ResNet18 auf dieses Bild angewandt. Das resultierende perturbierte Bild führt
zu einer falsch-negativen Klassifikation durch das Modell.
Bei der Analyse konnte beobachtet werden, dass die UAPs pro Modell unterschiedlich er
scheinen, jedoch diese UAPs beim gleichen Modell zwischen den Robustifizierungsdurchläufen
Ähnlichkeiten aufweisen.
Die Addition einer UAP führt stets zur Verschlechterung der Metriken. Der ursprüngliche
Zielwert der Metriken (Metriken ohne UAP Attacke) kann trotz Robustifizierung oft nicht
vollständig erreicht werden, was die Herausforderung der vollständigen Robustifizierung unterstreicht.
Obwohl die Robustifizierung auf den aktuellen UAPs hauptsächlich gut funktioniert, können
neue UAPs generiert werden, welche das Modell ähnlich gut täuschen können, wie die vorherigen
Perturbationen vor der Robustifizierung. Dies zeigt die fortwährende Anfälligkeit der Modelle
gegenüber neuen UAPs.
Bei einigen Modellen funktioniert die Robustifizierung, und die Perturbationen müssen grösser
gemacht werden, damit sie das Modell weiterhin täuschen können, bis der aktuell gewählte
Regularisierungsparameter zu hoch ist und das Modell keinen Angriff mehr generieren kann.
Damit erhöht sich auch die Zeitintensität, diese UAPs zu generieren. Dies lässt sich jedoch mit
dem Senken des Regularisierungsparameters und somit der Generation grösserer Perturbationen
umgehen.
1 Semester, 360 Stunden aufgeteilt auf 2 Personen
Institut für Data Science, Fachhochschule Nordwestschweiz FHNW
Bahnhofstrasse 5
CH-5210 Windisch
Torres Gamez, Gabriel
gabriel.torresgamez@students.fhnw.ch
Tran, Si Ben
siben.tran@students.fhnw.ch
Perruchoud, Daniel
daniel.perruchoud@fhnw.ch
Heule, Stephan
stephan.heule@fhnw.ch