Grounded by Knowledge
A study on Dense Caption generation and Scene Graph extraction from images using Vision-Language Models
Grounded by Knowledge
Eine Studie zur Generierung Dense Captions und Szenegraph-Extraktion aus Bildern mittels Vision-Language-Modellen

Visualization of the project workflow
Visualisierung des Projektablaufs
Initial situation
Knowledge graphs have established themselves as a versatile method for representation of information. Through their graph-based structure, entities and relations can be mapped, which is useful for search queries and data integration. Scene graphs, as a specialized subset of knowledge graphs focused on visual relationships, represent a promising approach for machine-readable image representation, though their reliable generation remains challenging. In parallel, advances in Computer Vision and Natural Language Processing have greatly advanced automated image description (captioning). Usually, however, only short captions are generated that don't capture all relevant objects, actions or relationships. In contrast, Dense Captions aim to recognize and name numerous details of an image - thus providing significantly more information.
Ausgangslage
Wissensgraphen haben sich als vielseitige Methode zur Informationsdarstellung etabliert. Durch ihre graphbasierte Struktur können Entitäten und Beziehungen abgebildet werden, was für Suchanfragen und Datenintegration nützlich ist. Szenengraphen, als spezialisierte Teilmenge von Wissensgraphen mit Fokus auf visuelle Beziehungen, stellen einen vielversprechenden Ansatz für maschinenlesbare Bilddarstellung dar, wobei ihre zuverlässige Generierung weiterhin eine Herausforderung bleibt. Parallel dazu haben Fortschritte in Computer Vision und Natural Language Processing die automatisierte Bildbeschreibung (Captioning) stark vorangebracht. Üblicherweise werden jedoch nur kurze Bildunterschriften generiert, die nicht alle relevanten Objekte, Aktionen oder Beziehungen erfassen. Im Gegensatz dazu zielen Dense Captions darauf ab, zahlreiche Details eines Bildes zu erkennen und zu benennen - und liefern damit deutlich mehr Informationen.
Project goal
The main goal of this work is to investigate and improve the creation of Dense Captions using current Vision-Language Models. Building on this, it analyzes to what extent the Dense Captions can be used for creating scene graphs. Additionally we investigated the performance of current Vision-Language Models at direct scene graph generation.
The project addresses the following research questions:
- How well are current Vision-Language Models suited for generating Dense Captions?
- Which prompt engineering strategies can measurably improve the quality of Dense Captions?
- To what extent can correct (Subject, Predicate, Object) triplets be automatically derived from Dense Captions?
- Which metrics are suitable for evaluating the quality of the resulting triplets for use in knowledge graphs?
Projektziel
Das Hauptziel dieser Arbeit ist die Untersuchung und Verbesserung der Erstellung von Dense Captions unter Verwendung aktueller Vision-Language-Modelle. Darauf aufbauend wird analysiert, inwieweit die Dense Captions für die Erstellung von Szenengraphen genutzt werden können. Zusätzlich untersuchten wir die Leistung aktueller Vision-Language-Modelle bei der direkten Szenengraph-Generierung.
Das Projekt befasst sich mit folgenden Forschungsfragen:
- Wie gut eignen sich aktuelle Vision-Language-Modelle für die Generierung von Dense Captions?
- Welche Prompt-Engineering-Strategien können die Qualität von Dense Captions messbar verbessern?
- Inwieweit können korrekte (Subjekt, Prädikat, Objekt) Tripel automatisch aus Dense Captions abgeleitet werden?
- Welche Metriken eignen sich zur Bewertung der Qualität der resultierenden Tripel für die Verwendung in Wissensgraphen?
Reference Image
One of ten carefully selected test images from the ImageInWords dataset, featuring a complex zoo enclosure scene that was used to evaluate the performance of different extraction methods.
Referenzbild
Eines von zehn sorgfältig ausgewählten Testbildern aus dem ImageInWords-Datensatz, das eine komplexe Zoogehege-Szene zeigt, die zur Bewertung der Leistung verschiedener Extraktionsmethoden verwendet wurde.
Dense Caption Graph
Best performing graph generated using the two-stage approach: first creating Dense Captions, then extracting triplets. Generated by MiniCPM, showing detailed relationship extraction and strong semantic consistency.
Dense Caption Graph
Bestleistender Graph, erstellt mit dem zweistufigen Ansatz: zuerst Erstellung von Dense Captions, dann Extraktion von Tripeln. Generiert von MiniCPM, zeigt detaillierte Beziehungsextraktion und starke semantische Konsistenz.
Direct Extraction Graph
Best performing graph from direct triplet extraction, generated by Pixtral. While more efficient, this approach always resulted in fewer and more often less accurate relationship extractions compared to the two-stage method.
Direkt Extrahierten Graph
Bestleistender Graph aus der direkten Tripel-Extraktion, generiert von Pixtral. Während dieser Ansatz effizienter ist, führte er im Vergleich zur zweistufigen Methode stets zu weniger und häufig weniger präzisen Beziehungsextraktionen.
Solution developed and its benefits
The research demonstrated that the two-stage method of first generating Dense Captions and then extracting triplets delivers better results in terms of fact density and comprehensive coverage of image contents. Key findings include:
- Higher accuracy and completeness in image content capture
- Lower rate of hallucinations and inconsistent triplets
- Better performance in complex scenes
- More reliable knowledge graph generation
- Improved semantic relationship extraction
- Better handling of spatial relationships
- More consistent entity references
Entwickelte Lösung und ihre Vorteile
Die Forschung zeigte, dass die zweistufige Methode der ersten Generierung von Dense Captions und anschließender Extraktion von Tripeln bessere Ergebnisse hinsichtlich Faktendichte und umfassender Abdeckung der Bildinhalte liefert. Zu den wichtigsten Erkenntnissen gehören:
- Höhere Genauigkeit und Vollständigkeit bei der Erfassung von Bildinhalten
- Geringere Rate von Halluzinationen und inkonsistenten Tripeln
- Bessere Leistung bei komplexen Szenen
- Zuverlässigere Wissensgraph-Generierung
- Verbesserte semantische Beziehungsextraktion
- Bessere Handhabung räumlicher Beziehungen
- Konsistentere Entitätsreferenzen
Key terms
- Dense CaptioningDetailed image description generation focusing on multiple aspects and details
- Vision Language ModelsAI models combining image understanding and text generation
- Knowledge GraphsStructured representation of entities and their relationships
- Scene GraphsGraph-based representation of visual relationships in images
- Triplet ExtractionDeriving subject-predicate-object relationships from text
- Graph GenerationCreating structured knowledge graphs from extracted triplets
Schlüsselbegriffe
- Dense CaptioningDetaillierte Bildbeschreibungsgenerierung mit Fokus auf multiple Aspekte und Details
- Vision-Language-ModelleKI-Modelle, die Bildverständnis und Textgenerierung kombinieren
- WissensgraphenStrukturierte Darstellung von Entitäten und ihren Beziehungen
- SzenengraphenGraphbasierte Darstellung visueller Beziehungen in Bildern
- Tripel-ExtraktionAbleitung von Subjekt-Prädikat-Objekt-Beziehungen aus Text
- Graph-GenerierungErstellung strukturierter Wissensgraphen aus extrahierten Tripeln
Project Team
Rami Tarabishi
BSc Data Science
Fabian Jordi
BSc Data Science
Continues as IP6
Advisors
Dr. Fernando Benites
Jonas Grüter
Projektteam
Rami Tarabishi
BSc Data Science
Fabian Jordi
BSc Data Science
Fortsetzung als IP6
Betreuer
Dr. Fernando Benites
Jonas Grüter