Fakultät Informatik/MathematikForschungsaustausch

28.05.2026 |  15:30  -  16:30 Uhr

Thema: Von großen Vision‑ zu Weltmodellen: Effizientes Bildverstehen mit modernen Deep-Learning-Architekturen

Inhalt: Aufbauend auf der Transformer-Architektur moderner Large Language Models (LLMs) haben sich in der Bildverarbeitung Large Vision Models (LVMs) etabliert. Durch die Kombination visueller und sprachlicher Informationen entstanden daraus multimodale Vision-Language Models (VLMs), die komplexe semantische Zusammenhänge in Bilddaten erfassen können. Gleichzeitig sind diese Modelle mit hohen Anforderungen an Daten, Rechenleistung und Trainingszeit verbunden. Aktuelle Forschungsansätze wie sogenannte „World Models“ adressieren diese Herausforderungen durch effizientere und stärker generalisierende Lernverfahren. Der Vortrag stellt verschiedene moderne Modellarchitekturen vor und diskutiert deren Eigenschaften, Vor- und Nachteile sowie Einsatzmöglichkeiten in unterschiedlichen Anwendungsdomänen.

Weitere Informationen

Ort:
Z 355
Referent:
Oliver Mothes, Fakultät Informatik/Mathematik, HTWD