30. Jänner 2024 von Tim Bunkus
Generative AI what?
Spätestens seit „ChatGPT“ ist Generative KI in aller Munde, aber was ist Generative KI und wie unterscheidet sie sich von Machine oder Deep Learning? In diesem Blog-Beitrag gehe ich der KI auf den Grund.
Künstliche Intelligenz – buzzword seit 1956
Der Begriff „KI“ wurde erstmals 1956 von dem Informatiker John McCarthy geprägt, der ihn als “die Wissenschaft und Technik, intelligente Maschinen zu schaffen” beschrieb. Seitdem hat sich die KI zu einem interdisziplinären Forschungsgebiet entwickelt, das sich mit der Simulation, dem Verständnis und der Verbesserung des intelligenten Verhaltens von Maschinen befasst.
Die Ursprünge der KI lassen sich bis zu den Anfängen der Informatik und Mathematik zurückverfolgen. Bereits im 17. Jahrhundert entwickelte der Philosoph und Mathematiker Gottfried Wilhelm Leibniz eine universelle Sprache der Logik, die er “characteristica universalis” nannte. Er träumte von einer Maschine, die logische Schlüsse ziehen und Wissen generieren kann. Im 20. Jahrhundert wurden die Grundlagen der modernen KI durch die Arbeiten von Alan Turing, Claude Shannon, Norbert Wiener und anderen gelegt, die sich mit Berechenbarkeit, Informationstheorie, Kybernetik und künstlichen neuronalen Netzen beschäftigten.
Um das große Feld der Künstlichen Intelligenz greifbar zu machen, unterscheidet man heute drei große KI-Methoden: Machine Learning, Deep Learning und Generative KI, die sich nacheinander entwickelt haben und aufeinander aufbauen. Im Folgenden sind die einzelnen Methoden näher beschrieben:
Machine Learning – einfache, lernende Algorithmen
Machine Learning (ML) ist ein Teilgebiet der KI, das sich mit der Entwicklung von Algorithmen und Modellen befasst, die aus Daten lernen können, ohne explizit programmiert zu werden. ML ist die treibende Kraft hinter der ersten Welle der KI, die in den 1980er Jahren begann und sich hauptsächlich auf statistische Methoden stützte. Die Statistik ist die treibende Kraft hinter ML, da sie es ermöglicht, Muster und Zusammenhänge in großen Datenmengen zu erkennen und Vorhersagen zu treffen.
Vorteile der Erklärbarkeit von ML-Modellen
Ein Vorteil von ML-Modellen ist, dass sie in vielen Fällen erklärbar sind, d.h. man kann nachvollziehen, wie sie zu einer bestimmten Entscheidung oder Empfehlung gekommen sind. Dies ist wichtig, um das Vertrauen und die Akzeptanz der Nutzer zu erhöhen, Verantwortlichkeit und Transparenz zu gewährleisten und mögliche Fehler oder Verzerrungen zu korrigieren. Erklärbarkeit ist besonders relevant für Anwendungsbereiche mit hohen ethischen oder rechtlichen Anforderungen, wie zum Beispiel in der Medizin, im Finanzwesen oder in der öffentlichen Verwaltung.
Heutige Anwendungsgebiete von ML
ML wird heute in einer Vielzahl von Bereichen eingesetzt, um komplexe Probleme zu lösen oder zu optimieren. Einige Beispiele sind
- Empfehlungssysteme, die personalisierte Vorschläge für Produkte, Dienstleistungen oder Inhalte ermöglichen.
- Anomalieerkennung, die es ermöglicht, ungewöhnliche oder verdächtige Muster oder Aktivitäten in Daten zu erkennen.
- Predictive Analytics - ermöglicht die Vorhersage künftiger Ereignisse oder Trends auf der Grundlage historischer Daten.
Deep Learning - komplexe lernende Algorithmen
Deep Learning (DL) ist ein weiterer Teilbereich der KI, der sich mit der Entwicklung künstlicher neuronaler Netze befasst, die aus mehreren Schichten miteinander verbundener künstlicher Neuronen bestehen. DL ist die treibende Kraft hinter der zweiten Welle der KI, die seit den 2010er Jahren stattfindet und hauptsächlich auf der Verfügbarkeit großer Datenmengen und leistungsstarker Rechenressourcen basiert. Künstliche neuronale Netze sind Nachbildungen menschlicher Denkprozesse, mit denen komplexe nichtlineare Funktionen modelliert und erlernt werden können.
Skalierbare Komplexität, aber Verlust an Erklärbarkeit
Ein Vorteil von DL ist die skalierbare Komplexität, das heißt die Fähigkeit, immer komplexere und abstraktere Merkmale aus Daten zu extrahieren und darzustellen. Dies führt zu höherer Genauigkeit und Leistung in vielen Anwendungsbereichen, insbesondere in solchen, die mit unstrukturierten Daten wie Text, Bild oder Ton zu tun haben. Ein Nachteil von DL ist jedoch der Verlust an Erklärbarkeit, da es mathematisch sehr schwierig ist nachzuvollziehen, wie künstliche neuronale Netze zu einer bestimmten Entscheidung oder Empfehlung gekommen sind. Dies kann zu einem Mangel an Vertrauen, Transparenz und Verantwortlichkeit sowie zu möglichen Fehlern oder Verzerrungen führen.
Aktuelle Anwendungsbereiche von Deep Learning
DL wird heute in einer Vielzahl von Bereichen eingesetzt, um neue Möglichkeiten zu schaffen oder bestehende Lösungen zu verbessern. Einige Beispiele sind
- Computer Vision, die es ermöglicht, visuelle Informationen zu verarbeiten und zu verstehen.
- Verarbeitung natürlicher Sprache
Generative AI – komplexe, informationserzeugende Algorithmen
Generative AI (GenAI) ist eine weitere Untergruppe der KI, die sich mit der Entwicklung von Modellen befasst, die in der Lage sind, neue Daten oder Inhalte zu erzeugen, die denen ähneln, die sie gelernt haben. GenAI ist die treibende Kraft hinter der dritten Welle der KI, die in den 2020er Jahren beginnt und hauptsächlich auf der Entwicklung sogenannter Transformer-Modelle basiert.
Die Transformer kommen
Die Transformer-Architektur ist eine neue Art von künstlichen neuronalen Netzen, die 2017 in dem Papier “Attention is all you need” vorgestellt wurde. Die Transformer-Architektur basiert auf dem Konzept der Aufmerksamkeit, das es ermöglicht, die relevantesten Teile einer Eingabe zu identifizieren und zu gewichten, um eine Ausgabe zu erzeugen. Die Transformer-Architektur besteht aus zwei Hauptkomponenten: dem Encoder und dem Decoder. Der Encoder wandelt die Eingabe in eine Reihe von Vektoren um, die die semantischen und syntaktischen Informationen der Eingabe enthalten. Der Decoder erzeugt die Ausgabe aus den Vektoren des Encoders, indem er sowohl auf die Eingabe als auch auf die bisher erzeugte Ausgabe achtet.
Vektoren - als mathematische Sortierhelfer
Allen Machine- und Deep-Learning-Verfahren ist gemeinsam, dass die Modelle letztlich mathematische Operationen durchführen. Da diese Operationen auf Zahlen basieren, muss jede unstrukturierte Information wie Text, Bild oder Ton zunächst in Zahlen umgewandelt werden. Dabei wird jeder Informationseinheit, beispielsweise einem Wort, einem Pixel oder einer Amplitude, ein Vektor zugeordnet, der die Eigenschaften dieser Einheit enthält. Durch die Verwendung von Vektoren können die Informationen in einem gemeinsamen (mathematischen) Raum dargestellt werden, in dem die Ähnlichkeit oder Beziehung zwischen den Informationen durch den Abstand oder den Winkel zwischen den Vektoren gemessen werden kann.
Durch die Verwendung von Vektoren können nicht nur Textinformationen, sondern auch andere Arten von Informationen wie Audio, Bilder oder sogar Proteine dargestellt werden. Dies eröffnet neue Möglichkeiten für GenAI, verschiedene Arten von Informationen zu erzeugen oder zu verarbeiten, die nicht auf natürlicher Sprache basieren. Einige Beispiele sind
- Jukebox: Ein Modell, das in der Lage ist, Musik zu erzeugen, indem es ein großes Musikkorpus im Voraus lernt und dann auf verschiedene Aufgaben wie Musikstil, Musiktext oder Musikkomposition angewendet wird.
- CLIP (Contrastive Language-Image Pre-training): Ein Modell, das in der Lage ist, Bilder zu verstehen, indem es ein großes Bild-Text-Korpus vorab lernt und dann auf verschiedene Aufgaben wie Bildklassifikation, Bildsuche oder Bildbeschriftung angewendet wird.
- AlphaFold: Ein Modell, das in der Lage ist, die dreidimensionale Struktur von Proteinen vorherzusagen, indem es vorab einen großen Proteinkorpus lernt und dann auf verschiedene Aufgaben wie Protein-Design, Protein-Interaktion oder Protein-Funktion angewandt wird.
Multimodale Modelle - die Alleskönner
Multimodale Modelle sind GenAI-Modelle, die in der Lage sind, mehrere Arten von Informationen gleichzeitig zu erzeugen oder zu verarbeiten, wie zum Beispiel Text und Bild, Text und Ton oder Bild und Ton. Dies erfordert ein hohes Maß an Komplexität und Integration der Modelle, da sie in der Lage sein müssen, die verschiedenen Informationen zu kombinieren und zu koordinieren, um eine kohärente und sinnvolle Ausgabe zu erzeugen.
Anwendungsfälle Generativer KI
Die Einsatzmöglichkeiten von Generativer KI sind äußerst vielfältig und können durch die Kombination mit klassischem Machine- und Deep Learning, semantischer Suche und Wissensdatenbanken zu wahren Alleskönnern im KI-Umfeld werden. Zur besseren Einordnung unterscheiden wir grundsätzlich drei Arten von Anwendungsgebieten:
Domain Knowledge Agents
Ein Domain Knowledge Agent ist ein GenAI-Modell, das in der Lage ist, Wissen zu erzeugen oder zu vermitteln, indem es eine bestimmte Domäne vorab lernt und dann auf verschiedene Aufgaben wie Wissensvermittlung, Wissensprüfung oder Wissensgenerierung angewendet wird.
GenAI in der Anwendungsentwicklung
GenAI in der Anwendungsentwicklung ist die Verwendung von GenAI-Modellen, um die Entwicklung von Anwendungen zu unterstützen oder zu beschleunigen, indem verschiedene Aspekte der Anwendung wie Design, Funktion oder Inhalt erzeugt oder verbessert werden.
Copiloting für Text- und Bildproduktion
Copiloting für die Text- und Bildproduktion ist die Verwendung von GenAI-Modellen, um die Produktion von Text- oder Bildinhalten zu unterstützen oder zu verbessern, indem verschiedene Aspekte der Inhalte wie Qualität, Kreativität oder Relevanz erzeugt oder optimiert werden.
Ausblick und Fazit
Generative KI ist ein spannendes und innovatives Forschungsfeld, das immer mehr Modelle mit speziellen Fähigkeiten hervorbringt, die verschiedene Arten von Informationen erzeugen oder verarbeiten können. Diese Modelle haben das Potenzial, die gesamte Kommunikation zu integrieren und zu revolutionieren, indem sie neue Möglichkeiten für Interaktion, Kollaboration und Kreativität bieten. Dies bedeutet jedoch nicht, dass die „klassischen“ Methoden des maschinellen Lernens und des Deep Learning ihre Daseinsberechtigung verlieren, da sie nach wie vor für spezielle Aufgaben oder Anforderungen geeignet sind, die ein höheres Maß an Erklärbarkeit, Robustheit oder Effizienz erfordern.
Denken wir an Gottfried Wilhelm Leibniz und seinen Traum von der Maschine, die Wissen erzeugt und logische Schlüsse ziehen kann, so sehen wir, dass uns die Iteration von KI-Methoden diesem Traum immer näher bringt. GenAI ist noch nicht in der Lage, eine universelle oder allgemeine Intelligenz zu zeigen, die auf jede Situation oder jedes Problem angewendet werden kann, aber wir sind in der Lage, durch die (menschlich) intelligente Kombination verschiedener KI-Methoden eine Vielzahl von unternehmensspezifischen Herausforderungen zu bewältigen.