Advances in AI

1. Charakter der Vorlesung

Die Vorlesung verbindet zwei Perspektiven:

Projektorientiertes Lernen: Studierende wählen, recherchieren, implementieren, dokumentieren und präsentieren selbstständig ein KI-Thema.
Technische Übersicht moderner KI-Methoden: neuronale Netzwerkarchitekturen, generative Modelle, NLP, Transformer, Metric Learning, CLIP und Reinforcement Learning.

Im Vergleich zur Einführungsveranstaltung liegt der Fokus weniger auf ML-Grundlagen und mehr auf modernen Architekturen, Forschungsarbeiten und Design-Patterns des zeitgenössischen Deep Learning.

2. Lernziele und Kompetenzen

Die Studierenden sollen befähigt werden, eigenständig an einem ML/KI-Problem zu arbeiten:

eigenständige Literaturrecherche,
realistischer Projektplan,
Prototypimplementierung,
drittverwendbare Implementierung,
wissenschaftliches Schreiben,
Präsentation der Ergebnisse,
Verständnis moderner KI-Methoden aus Deep Learning, generativer Modellierung, NLP und RL.

3. Prüfungsformat und Projektstruktur

Portfolio-Prüfung. Teams bis zwei Personen. Deliverables: GitHub-Code-Submission, Präsentation, Poster-Session, mündliche Quizzes, klare Dokumentation individueller Beiträge. Bewertungskriterien: strukturierte Arbeitsweise, funktionaler und lesbarer Code, wissenschaftlich korrekte Dokumentation und Präsentationsqualität.

4. Projektideen und Themen

Mögliche Projektthemen umfassen:

Deepfake-Generierung,
Halluzinationsdetektion in LLM-Ausgaben,
RAG-basierte Chatbots,
Sentimentanalyse,
Bildkolorierung,
Altersschätzung aus Gesichtsbildern,
Natural-Language-Bildsuche mit CLIP,
Infinite Zoom mit Stable Diffusion,
Blumengenerierung mit VAEs und WGANs,
Lunar Lander mit Reinforcement Learning und Deep Q-Learning,
Vision Transformers von Grund auf,
LLM-basierte Textzusammenfassung.

5. Wissenschaftliches Poster und Kommunikation

Poster als wissenschaftliches Standardkommunikationsformat. Ein gutes Poster enthält: Titel, Motivation, technischen Inhalt, Experimente, Ausblick und QR-Codes für Code und Papers. Die Vorlesung betont, dass ein Poster keine Miniversion einer Ausarbeitung ist — es kommuniziert die wichtigste Botschaft auf einen Blick.

6. Bausteine moderner neuronaler Architekturen

Faltung

Faltungsmasken erkennen Muster in Daten. In modernen CNNs werden diese Masken gelernt.

Pooling und Strided Convolution

Pooling-Schichten reduzieren die räumliche Auflösung. Moderner Ansatz: Strided Convolution statt separater Pooling-Schicht.

Aktivierungsfunktionen

Nicht-lineare Aktivierungsfunktionen sind notwendig. ReLU und Varianten werden gegenüber Sigmoid/Tanh bevorzugt, da sie besseren Gradientenfluss ermöglichen.

Vollverbundene Schichten

Für finale Klassifikationsköpfe geeignet, aber rechnerisch aufwändig für hochdimensionale räumliche Daten.

7. CNNs, Embeddings und Klassifikation

CNNs bilden Bilder auf hochdimensionale Embedding-Räume ab. Klassifikation wird als Ähnlichkeitsvergleich zwischen Bild-Embedding und Klassenrepräsentanten interpretiert. Cosine-Loss für kleine Datensätze.

8. Regularisierung, Normalisierung und Attention

Network in Network: Einfache lineare Filter durch ausdrucksstärkere lokale Netze ersetzen,
Dropout: Zufälliges Deaktivieren von Neuronen, um Co-Adaptation zu reduzieren,
Batch Normalization: Normalisierung über Mini-Batch-Merkmalsdimensionen,
Layer Normalization: Normalisierung innerhalb einer Merkmalsschicht,
Attention: Gewichtete Summen von Values, wobei die Gewichte aus Query-Key-Ähnlichkeit stammen (Scaled Dot-Product Attention).

9. Optimierungsverfahren

SGD mit Momentum: Trägheit für schnellere Konvergenz,
Nesterov Accelerated Gradient: Gradientenauswertung an vorausschauender Position,
AdaGrad: parameterspezifische Lernraten,
RMSProp / AdaDelta: exponentielles Smoothing statt unbegrenzter Akkumulation,
Adam: Schätzung erster und zweiter Gradientenmomente für adaptive Updates.

10. Wichtige CNN-Architekturen

AlexNet: ImageNet-Durchbruch mit ReLU, Multi-GPU, überlappenden Pooling-Schichten,
VGG19: tiefes CNN mit 19 Schichten,
GoogLeNet / Inception: Inception-Module für Multi-Skalenverarbeitung,
ResNet: Residualverbindungen für stabile Gradienten in sehr tiefen Netzen.

11. Objektdetektion und semantische Segmentierung

Detektion

R-CNN → Fast R-CNN → Faster R-CNN: zunehmend effiziente Region-Proposal-basierte Detektion,
YOLO: Gitterbasis-Detektion für Echtzeit-Erkennung.

Segmentierung

U-Net für dichte Pixelklassifikation, besonders in der biomedizinischen Bildverarbeitung.

12. Ensemble-Methoden und Wissenstransfer

Bagging: Mehrere Modelle auf Bootstrap-Datensätzen,
Boosting: Iteratives Training mit höheren Gewichten für falsch klassifizierte Beispiele,
Knowledge Distillation: Übertragung des Verhaltens eines großen Teacher-Modells auf ein kleineres Student-Modell.

13. Gewichtsinitialisierung

Xavier/Glorot-Initialisierung: ausgewogene Vorwärts- und Rückwärtsvarianz,
He-Initialisierung: für rektifizierte Aktivierungen.

14. Neural Style Transfer

Bildinhalt als CNN-Schicht-Aktivierungen. Stil als Gram-Matrix der Merkmalskorrelationen. Adaptive Instance Normalization (AdaIN) für Echtzeit-Stilübertragung.

15. Diskriminative und generative Modelle

Diskriminative Modelle: modellieren bedingte Wahrscheinlichkeiten P(Y|X),
Generative Modelle: modellieren gemeinsame Verteilungen P(X,Y) und können neue Beobachtungen sampeln.

Überblick über Familien generativer Modelle: Diffusionsmodelle, GANs, VAEs, flow-basierte Modelle, energiebasierte Modelle.

16. Hopfield-Netze und Boltzmann-Maschinen

Hopfield-Netze als assoziative Speichersysteme: binäre Neuronen, symmetrische Gewichte, iterative Updates. Boltzmann-Maschinen als stochastische Erweiterungen. Restricted Boltzmann Machines als praktisch trainierbare Variante.

17. Autoencoder und Variational Autoencoder

Encoder-Decoder-Architektur für latente Repräsentationen. VAEs: strukturierte latente Verteilung (Normalverteilung), Rekonstruktionsverlust + KL-Divergenz als kombiniertes Trainingsziel.

18. Generative Adversarial Networks

GANs als Nullsummenspiel zwischen Generator und Diskriminator. Instabiles Standardtraining motiviert den Wasserstein-GAN-Ansatz mit Wasserstein-Distanz und Gradient Penalty. Bedingte GANs (cGANs) für kontrollierte Generierung.

19. Transformer und CLIP

Transformer als Sequenzmodelle mit Self-Attention statt Rekurrenz. Multi-Head-Attention und positionelle Kodierung. Vision Transformers (ViT) für bildbasierte Aufgaben.

CLIP für multimodale Bild-Text-Einbettungen: gemeinsamer Einbettungsraum durch kontrastives Lernen mit Bild-Text-Paaren ermöglicht Zero-Shot-Klassifikation und natürlichsprachliche Bildsuche.

20. Reinforcement Learning

Belohnungssignale, Policies und Value-Funktionen. Deep Q-Learning (DQN): Q-Funktion als neuronales Netz approximiert, Replay-Buffer und Target-Netz für stabileres Training. Policy-Gradient-Methoden. Anwendungsbeispiel: Lunar Lander.

Course Overview

flag Learning Objectives

calendar_month Logistics

Weekly Syllabus

Project-Based Learning & KI-CON

CNN Building Blocks

Embeddings & Metric Learning

Regularization & Normalization

Optimization Algorithms

Modern Architectures

Object Detection

Segmentation & Knowledge Distillation

Neural Style Transfer

Generative Models I

Generative Models II: GANs

Transformers & CLIP

Reinforcement Learning

KI-CON – Poster Conference

Lecture Notes