1. Charakter der Vorlesung
Die Vorlesung verbindet zwei Perspektiven:
- Projektorientiertes Lernen: Studierende wählen, recherchieren, implementieren, dokumentieren und präsentieren selbstständig ein KI-Thema.
- Technische Übersicht moderner KI-Methoden: neuronale Netzwerkarchitekturen, generative Modelle, NLP, Transformer, Metric Learning, CLIP und Reinforcement Learning.
Im Vergleich zur Einführungsveranstaltung liegt der Fokus weniger auf ML-Grundlagen und mehr auf modernen Architekturen, Forschungsarbeiten und Design-Patterns des zeitgenössischen Deep Learning.
2. Lernziele und Kompetenzen
Die Studierenden sollen befähigt werden, eigenständig an einem ML/KI-Problem zu arbeiten:
- eigenständige Literaturrecherche,
- realistischer Projektplan,
- Prototypimplementierung,
- drittverwendbare Implementierung,
- wissenschaftliches Schreiben,
- Präsentation der Ergebnisse,
- Verständnis moderner KI-Methoden aus Deep Learning, generativer Modellierung, NLP und RL.
3. Prüfungsformat und Projektstruktur
Portfolio-Prüfung. Teams bis zwei Personen. Deliverables: GitHub-Code-Submission, Präsentation, Poster-Session, mündliche Quizzes, klare Dokumentation individueller Beiträge. Bewertungskriterien: strukturierte Arbeitsweise, funktionaler und lesbarer Code, wissenschaftlich korrekte Dokumentation und Präsentationsqualität.
4. Projektideen und Themen
Mögliche Projektthemen umfassen:
- Deepfake-Generierung,
- Halluzinationsdetektion in LLM-Ausgaben,
- RAG-basierte Chatbots,
- Sentimentanalyse,
- Bildkolorierung,
- Altersschätzung aus Gesichtsbildern,
- Natural-Language-Bildsuche mit CLIP,
- Infinite Zoom mit Stable Diffusion,
- Blumengenerierung mit VAEs und WGANs,
- Lunar Lander mit Reinforcement Learning und Deep Q-Learning,
- Vision Transformers von Grund auf,
- LLM-basierte Textzusammenfassung.
5. Wissenschaftliches Poster und Kommunikation
Poster als wissenschaftliches Standardkommunikationsformat. Ein gutes Poster enthält: Titel, Motivation, technischen Inhalt, Experimente, Ausblick und QR-Codes für Code und Papers. Die Vorlesung betont, dass ein Poster keine Miniversion einer Ausarbeitung ist — es kommuniziert die wichtigste Botschaft auf einen Blick.
6. Bausteine moderner neuronaler Architekturen
Faltung
Faltungsmasken erkennen Muster in Daten. In modernen CNNs werden diese Masken gelernt.
Pooling und Strided Convolution
Pooling-Schichten reduzieren die räumliche Auflösung. Moderner Ansatz: Strided Convolution statt separater Pooling-Schicht.
Aktivierungsfunktionen
Nicht-lineare Aktivierungsfunktionen sind notwendig. ReLU und Varianten werden gegenüber Sigmoid/Tanh bevorzugt, da sie besseren Gradientenfluss ermöglichen.
Vollverbundene Schichten
Für finale Klassifikationsköpfe geeignet, aber rechnerisch aufwändig für hochdimensionale räumliche Daten.
7. CNNs, Embeddings und Klassifikation
CNNs bilden Bilder auf hochdimensionale Embedding-Räume ab. Klassifikation wird als Ähnlichkeitsvergleich zwischen Bild-Embedding und Klassenrepräsentanten interpretiert. Cosine-Loss für kleine Datensätze.
8. Regularisierung, Normalisierung und Attention
- Network in Network: Einfache lineare Filter durch ausdrucksstärkere lokale Netze ersetzen,
- Dropout: Zufälliges Deaktivieren von Neuronen, um Co-Adaptation zu reduzieren,
- Batch Normalization: Normalisierung über Mini-Batch-Merkmalsdimensionen,
- Layer Normalization: Normalisierung innerhalb einer Merkmalsschicht,
- Attention: Gewichtete Summen von Values, wobei die Gewichte aus Query-Key-Ähnlichkeit stammen (Scaled Dot-Product Attention).
9. Optimierungsverfahren
- SGD mit Momentum: Trägheit für schnellere Konvergenz,
- Nesterov Accelerated Gradient: Gradientenauswertung an vorausschauender Position,
- AdaGrad: parameterspezifische Lernraten,
- RMSProp / AdaDelta: exponentielles Smoothing statt unbegrenzter Akkumulation,
- Adam: Schätzung erster und zweiter Gradientenmomente für adaptive Updates.
10. Wichtige CNN-Architekturen
- AlexNet: ImageNet-Durchbruch mit ReLU, Multi-GPU, überlappenden Pooling-Schichten,
- VGG19: tiefes CNN mit 19 Schichten,
- GoogLeNet / Inception: Inception-Module für Multi-Skalenverarbeitung,
- ResNet: Residualverbindungen für stabile Gradienten in sehr tiefen Netzen.
11. Objektdetektion und semantische Segmentierung
Detektion
- R-CNN → Fast R-CNN → Faster R-CNN: zunehmend effiziente Region-Proposal-basierte Detektion,
- YOLO: Gitterbasis-Detektion für Echtzeit-Erkennung.
Segmentierung
U-Net für dichte Pixelklassifikation, besonders in der biomedizinischen Bildverarbeitung.
12. Ensemble-Methoden und Wissenstransfer
- Bagging: Mehrere Modelle auf Bootstrap-Datensätzen,
- Boosting: Iteratives Training mit höheren Gewichten für falsch klassifizierte Beispiele,
- Knowledge Distillation: Übertragung des Verhaltens eines großen Teacher-Modells auf ein kleineres Student-Modell.
13. Gewichtsinitialisierung
- Xavier/Glorot-Initialisierung: ausgewogene Vorwärts- und Rückwärtsvarianz,
- He-Initialisierung: für rektifizierte Aktivierungen.
14. Neural Style Transfer
Bildinhalt als CNN-Schicht-Aktivierungen. Stil als Gram-Matrix der Merkmalskorrelationen. Adaptive Instance Normalization (AdaIN) für Echtzeit-Stilübertragung.
15. Diskriminative und generative Modelle
- Diskriminative Modelle: modellieren bedingte Wahrscheinlichkeiten P(Y|X),
- Generative Modelle: modellieren gemeinsame Verteilungen P(X,Y) und können neue Beobachtungen sampeln.
Überblick über Familien generativer Modelle: Diffusionsmodelle, GANs, VAEs, flow-basierte Modelle, energiebasierte Modelle.
16. Hopfield-Netze und Boltzmann-Maschinen
Hopfield-Netze als assoziative Speichersysteme: binäre Neuronen, symmetrische Gewichte, iterative Updates. Boltzmann-Maschinen als stochastische Erweiterungen. Restricted Boltzmann Machines als praktisch trainierbare Variante.
17. Autoencoder und Variational Autoencoder
Encoder-Decoder-Architektur für latente Repräsentationen. VAEs: strukturierte latente Verteilung (Normalverteilung), Rekonstruktionsverlust + KL-Divergenz als kombiniertes Trainingsziel.
18. Generative Adversarial Networks
GANs als Nullsummenspiel zwischen Generator und Diskriminator. Instabiles Standardtraining motiviert den Wasserstein-GAN-Ansatz mit Wasserstein-Distanz und Gradient Penalty. Bedingte GANs (cGANs) für kontrollierte Generierung.
19. Transformer und CLIP
Transformer als Sequenzmodelle mit Self-Attention statt Rekurrenz. Multi-Head-Attention und positionelle Kodierung. Vision Transformers (ViT) für bildbasierte Aufgaben.
CLIP für multimodale Bild-Text-Einbettungen: gemeinsamer Einbettungsraum durch kontrastives Lernen mit Bild-Text-Paaren ermöglicht Zero-Shot-Klassifikation und natürlichsprachliche Bildsuche.
20. Reinforcement Learning
Belohnungssignale, Policies und Value-Funktionen. Deep Q-Learning (DQN): Q-Funktion als neuronales Netz approximiert, Replay-Buffer und Target-Netz für stabileres Training. Policy-Gradient-Methoden. Anwendungsbeispiel: Lunar Lander.
