10. September 2024 von Oleg Smolanko
GenAI und ihre Anwendung
Generative Künstliche Intelligenz (GenAI) hat die Technologieerfahrung revolutioniert. Dies wurde mit der Veröffentlichung der Transformer- und Attention-Architekturen in "Attention ist All You Need" deutlich, die einen entscheidenden Wendepunkt markierte. Im Kern ermöglicht GenAI maschinengestützte Kreativität, indem Systeme in die Lage versetzt werden, selbstständig Inhalte zu generieren, sei es in Form von Text-zu-Text, Image-zu-Text/Text-zu-Image oder Video-zu-Text/Text-zu-Video. Doch was genau verbirgt sich hinter diesem spannenden Gebiet der KI? Wie bereits erwähnt, beschäftigt sich GenAI mit der Entwicklung von Modellen, die in der Lage sind, neue Daten und Inhalte zu generieren. Eine ausführliche Definition sowie Einblicke und Abgrenzungen zu KI, Deep Learning und Machine Learning finden Sie im Artikel "Generative AI what? ".
Die Bedeutung von GenAI
Aber warum ist GenAI so wichtig? Die Antwort liegt in der Fähigkeit dieser Systeme, neue Ideen zu generieren, Lösungen zu entwickeln und innovative Ansätze in verschiedenen Branchen voranzutreiben. Ein noch wichtigerer Grund für die große Popularität von GenAI ist die multimodale Fähigkeit dieser Modelle, das heißt, ein Sprachmodell, das bisher unsere Fragen beantworten konnte, kann nun nicht nur auf Textdaten reagieren, sondern auch auf visuelle Daten, zum Beispiel für ein Eingabebild kann dieses Modell Objekterkennung, Segmentierung etc. durchführen oder für Videoeingabe die Erkennung von Konzepten aus visuellen Signalen mit nur allgemeinem Wissen.
Anwendungen von GenAI gibt es bereits in vielen Bereichen, sei es in der Medizin, wo Modelle helfen, komplexe Diagnosen zu erstellen, oder in der Sprach- und Bildverarbeitung. Doch wie weit können diese Modelle gehen und welche Anwendungsfälle können damit abgedeckt werden? Dieser Blog-Beitrag geht ausführlich auf diese Frage ein und gibt einen Überblick über die Anwendungsfälle von GenAI, insbesondere den Umgang mit visuellen Daten und die Einsatzmöglichkeiten in der Computer Vision.
Im Wesentlichen ermöglicht GenAI die Generierung neuer Inhalte auf der Grundlage von Datenanalysen. Im Gegensatz zu herkömmlichen KI-Ansätzen, die auf vorhandenen Daten basieren, ermöglicht GenAI die Erzeugung neuer, originärer Inhalte. Diese Modelle lernen Muster und Strukturen aus vorhandenen Daten und können selbstständig ähnliche, aber neuartige Inhalte generieren.
Einer der wichtigsten Bereiche der GenAI ist das maschinelle Sehen. Eine umfassende Definition von Computer Vision sowie die Einordnung dieser Disziplin in die Gruppe des Deep Learning findet sich in diesem Blog-Beitrag zum Thema „Computer Vision für Deep Learning - eine kurze Einführung “.
Diese Modelle verwenden multimodale Ansätze, um sowohl visuelle als auch sprachliche Informationen zu verarbeiten. Dadurch können sie beispielsweise nicht nur Objekte in einem Bild erkennen, sondern auch den Kontext und die Beziehung zwischen diesen Objekten beschreiben. Dies ermöglicht eine genauere Analyse visueller Inhalte.
Computer Vision und GenAI: Ein Überblick
Die multimodale Fähigkeit dieser Modelle wird besonders effektiv in Computer Vision umgesetzt, um ihre Einsatzmöglichkeiten zu verstärken oder sogar vollständig zu übernehmen. Diese Modelle sind auch als " Visual LLMs" bekannt und werden in drei verschiedenen Kategorien unterteilt, basierend auf ihren Inputdaten. Es gibt Modelle, die:
- 1. ausschließlich mit statischen Bildern arbeiten
- 2. sowohl statische Bilder als auch Videos ohne Ton verarbeiten können
- 3. und auch mit Audiodaten umgeben können.
Ein beispielhaftes Modell in diesem Kontext ist das Video-LLaMa-Modell, ein multimodales Sprachmodell, das sowohl visuelle als auch auditive Inhalte eines Videos verstehen kann. Eine praktische Demonstration dieses Modells mit verschiedenen visuellen Verständnisfragen ist im beigefügten Bild dargestellt.
Abhängig vom Eingabeformat - Video oder Bild - bietet das Video-LLaMa, das mit beiden Formaten umgehen kann, eine Palette von Möglichkeiten - von der Interpretation visueller Daten bis hin zur Erfassung der zeitlichen Dynamik in Videos.
Neben dem Video-LLaMa gehören zu den Modellen, die ausschließlich mit statischen Bildern arbeiten, Varianten wie ChatGPT, insbesondere Mini-GPT4, die LLaVA-Modellreihe - darunter LLaVA-Plus, LLaVA-Med oder LLaVA sowie BLIP-2. Wie im Bild zu sehen ist, können diese Modelle am Beispiel von VideoChat verschiedene Aufgaben des maschinellen Sehens bewältigen. Das Modell ist in der Lage, Aufgaben wie Objekterkennung oder Objektidentifikation durchzuführen und auf Basis von Eingabebildern unterschiedliche Inhalte zu generieren, darunter Rezepte, Memes, Werbetexte oder literarische Texte. Darüber hinaus wird die Bandbreite der erkannten Objekte für die Objekterkennung und Objektidentifikation ständig erweitert. Darüber hinaus findet GenAI, wie bereits in der Einleitung erwähnt, auch Anwendung in der Medizin. Ein Beispiel in dieser Kategorie ist das Modell LLaVA-Med, das auf visuellen biomedizinischen Daten basiert und Question Answering in Form von Konversationen oder detaillierten Beschreibungen durchführen kann.
Es gibt jedoch auch Modelle, die sowohl statische Bilder als auch Videodaten ohne Ton verarbeiten können, etwa Video-ChatGPT und VideoChat. Einige Beispiele dieser Modelle sind in der folgenden Abbildung dargestellt. Darüber hinaus unterstützen diese Modelle die Beantwortung von Fragen auf der Grundlage von Bild- und Videoeingaben.
Wie die Beispiele zeigen, sind diese Modelle vielseitig einsetzbar und können eine Vielzahl von Aufgaben bewältigen. Von Video Understanding über Konversationsaufgaben bis hin zur Interpretation von Memes oder Rezepten zeigen sie ihre beeindruckende Leistungsfähigkeit mit nur visuellem Input. Einige Modelle sind sogar in der Lage, einen handgeschriebenen Entwurf in eine komplette Website umzuwandeln.
GenAI und ihre Zukunft: Wo führt der Weg hin?
Aber wir stehen erst am Anfang dieser Ära. Die Frage, wie weit diese Modelle noch gehen können, liegt in der Zukunft. Ihr bisheriges Potential lässt Raum für Spekulationen, welche innovativen Höhen sie noch erreichen können. Auf der anderen Seite, wenn wir einen Blick auf die schnelle Evolution dieser Modelle in der Computer Vision werfen, wird deutlich, dass der Fortschritt in einem erstaunlichen Tempo voranschreitet. Von den traditionellen Computer Vision Modellen wie AlexNet oder ResNet Architekturen über Vision-Transformer (ViT) bis hin zu den heutigen Visual LLMs war die Entwicklung bemerkenswert schnell. Vision Transformer ist eine innovative Architektur für maschinelles Sehen, die auf dem Transformer-Modellansatz basiert. Im Gegensatz zu CNNs verzichten Vision Transformer auf feste Hierarchien von Merkmalsextraktionsblöcken. Stattdessen behandeln sie das Bild als eine Sequenz von Patches, wodurch das Vision-Transformer-Modell sowohl globale als auch lokale Informationen effizient erfassen kann. Das Transformer-Modell selbst hat eine breitere Anwendung und wurde 2017 von Vaswani et al eingeführt. Es hat sich als bahnbrechend für die Verarbeitung von Sequenzen in verschiedenen Anwendungen wie maschinelle Übersetzung, Textgenerierung und Aufgaben im Bereich der Verarbeitung natürlicher Sprache erwiesen. Im Vergleich zu früheren Architekturen verwendet der Transformer nicht den "recurrent" Operator in Recurrent Neural Networks (RNNs) oder den "convolution" Operator in Convolutional Neural Network (CNNs). Stattdessen verwendet der Transformer den Attention-Mechanismus, der es dem Modell ermöglicht, auf alle Teile der Eingabesequenz gleichzeitig zuzugreifen. Dies verbessert die Effizienz und Parallelisierbarkeit im Vergleich zu RNNs erheblich. Transformatoren können sowohl für die Verarbeitung sequentieller als auch nicht-sequentieller Daten, wie zum Beispiel Bilder in Vision-Transformer-Architekturen, verwendet werden.
Angesichts dieser Entwicklung der visuellen LLMs stellt sich die Frage: Brauchen wir diese traditionellen Modelle im Kontext der Computer Vision überhaupt noch? Die Antwort kann nicht pauschal gegeben werden. Die "State of the Art"-Modelle waren in der Tat ViT-basierte Modelle, die einige Aufgaben des maschinellen Sehens übernommen haben, ohne dass ein spezifisches Training von CNNs notwendig war. Ein Beispiel hierfür ist das ViLT-Modell, das, wie in dem Papier gezeigt wird, unter anderem Objekterkennung durchführen kann.
Andererseits ist es wichtig, die Architekturen all dieser visuellen LLMs genauer zu betrachten. ViT-basierte Komponenten sind ein integraler Bestandteil dieser Modelle. Diese traditionellen Modelle spielen nach wie vor eine wichtige Rolle in der laufenden Entwicklung visueller LLMs. Experimente mit Architekturen wurden bisher nur in begrenztem Umfang durchgeführt.
Eine signifikante und sinnvolle Änderung der Architektur könnte jedoch dazu beitragen, die Leistungsfähigkeit dieser visuellen LLMs erheblich zu steigern. Die Fähigkeit, visuelle Daten nicht nur zu verstehen, sondern sie auch in einen sprachlichen Kontext zu stellen, hat die Grenzen des Machbaren erweitert. Die Dynamik dieser Fortschritte lässt vermuten, dass wir in Zukunft noch viele erstaunliche Entwicklungen erwarten können.
Fazit: GenAI als Wegbereiter für die Zukunft der KI
GenAI und multimodale Modelle haben eine beeindruckende Vielseitigkeit gezeigt, die sich in verschiedenen Bereichen wie dem maschinellen Sehen oder der Sprachverarbeitung manifestiert. Diese Modelle bieten kreative Lösungen und Innovationsmöglichkeiten. Die zukünftige Entwicklung bleibt offen und es wird spekuliert, welche Höhen diese Modelle in ihrer Innovationsfähigkeit noch erreichen können. Die rasante Entwicklung von traditionellen Computer Vision Modellen hin zu Visual LLMs lässt weitere Fortschritte erwarten. GenAI steht nicht nur für Technologie, sondern für eine facettenreiche Reise durch Kreativität und Innovation.