Die Komplexität von Image-Captioning-Systemen auf Basis von grossen Textmodellen (GPT, Llama) erschwert deren Interpretierbarkeit. Diese Arbeit untersucht Methoden zur Verbesserung der Transparenz und Nachvollziehbarkeit solcher Systeme.
Python, Hugging Face, Transformers, Image Captioning, Interpretierbarkeit, Logitlens, Causal Tracing, MMLLM, LLM
Die Zielsetzung dieser Arbeit besteht darin, die Interpretierbarkeit von multimodalen Modellen, die sowohl Bilder als auch Texte verarbeiten, zu untersuchen. Insbesondere wird analysiert, ob und wo spezifische Informationen, insbesondere Relationen zwischen Subjekten und Objekten, im Modell gespeichert sind. Dazu wird ein bestehendes Modell heruntergeladen, weitertrainiert und auf einem spezifischen Datensatz evaluiert. Die Arbeit fokussiert sich auf die Analyse des Textmodells innerhalb des multimodalen Modells und verwendet Methoden wie Causal Tracing und Logitlens, um die Lokalisierung der Relationen zu überprüfen. Die zentrale Forschungsfrage lautet, ob Relationen in einem Multimodalen Large Language Modell (MMLLM) verstanden und lokalisiert werden können.
Machine Learning-Modelle werden zunehmend komplexer und leistungsfähiger, insbesondere in der Bild- und Textverarbeitung, wie das multimodale Modell GPT-4o zeigt. Trotz dieser Fortschritte bleibt die Interpretierbarkeit der Modelle hinter den Erwartungen zurück, was in kritischen Bereichen wie dem Bankwesen und der Medizin problematisch ist, da nachvollziehbare Entscheidungen erforderlich sind. Die Explainable AI (erklärbare KI) gewinnt daher an Bedeutung, um die Funktionsweise von KI-Systemen verständlicher zu machen. Ein spezieller Bereich ist das Image Captioning, das Bilder und Texte kombiniert. Diese multimodalen Modelle stehen vor ähnlichen Herausforderungen hinsichtlich der Interpretierbarkeit und erfordern eine Analyse, um die Relevanz der Bild- und Textkomponenten für spezifische Aufgaben besser zu verstehen.
Die zentrale Frage dieser Arbeit war, ob Relationen von einem MMLLM verstanden werden und ob sowie wie diese lokalisiert werden können. Die Antwort darauf ist, dass die hier getesteten Relationen in einfachen Fragestellungen verstanden werden. Es ist zu beachten, dass die Modelle sensibel auf die Fragestellung und den Text reagieren, was genutzt werden kann, um Biases zu eliminieren. Zudem kann lokalisiert werden, wo im Modell welche Prozesse stattfinden. Causal Tracing erweist sich dabei als eine geeignete Methode. Das Modell kann in vier Teile untergliedert werden: der Vision Transformer, der einen grossen Einfluss auf die Antwort hat; die ersten Layer des LLMs, die sich auf die relevanten Aspekte im Text (und im encodierten Bild) konzentrieren; die Layer sieben bis 14, die alle Informationen zusammenführen; und die letzten Layer, die die Antworten generieren. Diese Struktur trifft auf die hier untersuchten Fragen zu, könnte jedoch möglicherweise nicht auf die Relationen beschränkt sein. Dies sollte in zukünftigen Arbeiten weiter untersucht werden.
Frühlingssemester 2024, 12 ECTS, 1 Person
Fernando Benites
Institut für Data Science I4DS
Bahnhofstrasse 5
5210 Windisch
Cédric Künzi
Fernando Benites, fernando.benites@fhnw.ch