nw  

24FS_I4DS27: Adversarial Attacks - Wie kann KI überlistet werden?

nw
Zusammenfassung

Adversarial Attacks, insbesondere Universal Adversarial Perturbations (UAPs), stellen eine grosse Herausforderung für die Robustheit von Deep Learning Modellen dar. Diese Thesis konzentriert sich auf die Entwicklung und Implementierung von UAPs und die Evaluierung von Adversarial Training als Verteidigungsmechanismus gegen solche Angriffe, insbesondere für die Modelle ResNet, DenseNet und EfficientNetV2.

Unser Anwendungsfall zielt auf die Erkennung kritischer Krankheiten durch binäre Klassifikationsmodelle. Im Gegensatz zum Ansatz von Moosavi-Dezfooli et al. lösen wir das Optimierungsproblem der Generierung von UAPs durch eine selbstdefinierte Loss-Funktion, welche die Inverse der Binary Cross Entropy und die L2-Matrizennorm verwendet. Bei der Generierung der UAPs werden gezielt positiv gelabelte Bilder angegriffen, um deren falsch-negativ Rate zu erhöhen.

Die Analyse zeigt, dass die Addition von UAPs die Recall-Metriken verschlechtern und dass Robustifizierung oft nicht in der Lage ist, die ursprüngliche Modellperformance zu erreichen. Obwohl Adversarial Training die Robustheit erhöht, bleiben die Modelle anfällig für neu generierte UAPs. Robustifizierung erzwingt in einigen Fällen grössere Perturbationen, dadurch wird die Zeitintensität der UAP-Generierung erhöht.

Insbesondere im Gesundheitswesen, aber auch in anderen Bereichen, kann eine erhöhte falsch-negativ Rate gefährliche Folgen haben. Daher ist weitere Forschung auf dem Gebiet der Adversarial Attacks und ihrer Robustifizierung von entscheidender Bedeutung. Diese Thesis unterstreicht die Notwendigkeit, die Widerstandsfähigkeit gegen Adversarial Attacks zu verbessern.

Schlüsselbegriffe

Python, PyTorch, Bildklassifikation, Computer Vision, Deep Learning, Adversarial Attacks, Universal Adversarial Perturbation

Ergebnisse

Der ausgewählte MRI-Scan zeigt eine sagittale Ansicht des Kopfes. In der Visualisierung wurde UAP der Modelle ResNet18 auf dieses Bild angewandt. Das resultierende perturbierte Bild führt zu einer falsch-negativen Klassifikation durch das Modell.

nw

Bei der Analyse konnte beobachtet werden, dass die UAPs pro Modell unterschiedlich er scheinen, jedoch diese UAPs beim gleichen Modell zwischen den Robustifizierungsdurchläufen Ähnlichkeiten aufweisen.

nw

Die Addition einer UAP führt stets zur Verschlechterung der Metriken. Der ursprüngliche Zielwert der Metriken (Metriken ohne UAP Attacke) kann trotz Robustifizierung oft nicht vollständig erreicht werden, was die Herausforderung der vollständigen Robustifizierung unterstreicht. Obwohl die Robustifizierung auf den aktuellen UAPs hauptsächlich gut funktioniert, können neue UAPs generiert werden, welche das Modell ähnlich gut täuschen können, wie die vorherigen Perturbationen vor der Robustifizierung. Dies zeigt die fortwährende Anfälligkeit der Modelle gegenüber neuen UAPs.

nw

Bei einigen Modellen funktioniert die Robustifizierung, und die Perturbationen müssen grösser gemacht werden, damit sie das Modell weiterhin täuschen können, bis der aktuell gewählte Regularisierungsparameter zu hoch ist und das Modell keinen Angriff mehr generieren kann. Damit erhöht sich auch die Zeitintensität, diese UAPs zu generieren. Dies lässt sich jedoch mit dem Senken des Regularisierungsparameters und somit der Generation grösserer Perturbationen umgehen.

Projektdaten

1 Semester, 360 Stunden aufgeteilt auf 2 Personen

Auftraggeber
nw

Institut für Data Science, Fachhochschule Nordwestschweiz FHNW

Bahnhofstrasse 5

CH-5210 Windisch

Projektteam

Torres Gamez, Gabriel
gabriel.torresgamez@students.fhnw.ch


Tran, Si Ben
siben.tran@students.fhnw.ch

Kontakt

Perruchoud, Daniel
daniel.perruchoud@fhnw.ch


Heule, Stephan
stephan.heule@fhnw.ch

<< zurück