arrow_back Lehrveranstaltungen
calendar_month Wintersemester

Advances in AI

Moderne neuronale Architekturen, GANs, Diffusionsmodelle, NLP und Style Transfer.

Moderne ArchitekturenGANsTransformerStyle Transfer
Advances in AI

Kursübersicht

flag Lernziele

  • check_circle Moderne Deep-Learning-Architekturen analysieren und vergleichen
  • check_circle Generative Modelle (VAEs, GANs) konzipieren und implementieren
  • check_circle Ein eigenständiges KI-Projekt entwickeln und als wissenschaftliches Poster auf der KI-CON präsentieren
  • check_circle Transformer-Architekturen und Grundlagen des Reinforcement Learning anwenden

calendar_month Organisatorisches

Zeit

Mo 09:15 – 12:30

Raum

11.3.002

Semester

Wintersemester

Prüfungsleistung

Teilnahme an KI-CON

Wochenplan

Woche 1

Projektbasiertes Lernen & KI-CON

Lehrformat, Portfolio-Prüfung, KI-CON Poster-Konferenz, Projektthemen.

Woche 2

CNN-Bausteine

Faltung, Pooling und Aktivierungsfunktionen im Detail; Rezeptive Felder.

Woche 3

Embeddings & Metric Learning

Cosine-Loss, Siamese-Netzwerke, Contrastive Learning.

Woche 4

Regularisierung & Normalisierung

Dropout, Batch Normalization, Layer Normalization, Attention-Mechanismen.

Woche 5

Optimierungsalgorithmen

Momentum, Adam-Optimizer, Lernraten-Scheduling, Gewichtsinitialisierung.

Woche 6

Moderne Architekturen

AlexNet, VGG, ResNet, Inception – Architekturentscheidungen und Benchmarks.

Woche 7

Objektdetektion

R-CNN, Fast/Faster R-CNN, YOLO – von Region-Proposals zu Echtzeit-Detektion.

Woche 8

Segmentierung & Wissensdestillation

U-Net, Encoder-Decoder-Architekturen, Ensemble-Methoden, Knowledge Distillation.

Woche 9

Neural Style Transfer

Gram-Matrix, Content/Style-Loss, Anwendungen in der Bildgenerierung.

Woche 10

Generative Modelle I

Hopfield-Netze, Boltzmann-Maschinen, Autoencoder, Variational Autoencoders (VAEs).

Woche 11

Generative Modelle II: GANs

GAN-Training, Trainingsinstabilität, WGAN, Wasserstein-Distanz.

Woche 12

Transformer & CLIP

Self-Attention, Vision Transformer (ViT), CLIP: Vision-Language-Modelle.

Woche 13

Reinforcement Learning

Grundlagen des RL, Markov-Entscheidungsprozesse, Policy-Gradient-Methoden.

Woche 14

KI-CON – Poster-Konferenz

Präsentation der Abschlussprojekte als wissenschaftliche Poster (Prüfungsleistung).

Vorlesungsinhalte

1. Charakter der Vorlesung

Die Vorlesung verbindet zwei Perspektiven:

  1. Projektorientiertes Lernen: Studierende wählen, recherchieren, implementieren, dokumentieren und präsentieren selbstständig ein KI-Thema.
  2. Technische Übersicht moderner KI-Methoden: neuronale Netzwerkarchitekturen, generative Modelle, NLP, Transformer, Metric Learning, CLIP und Reinforcement Learning.

Im Vergleich zur Einführungsveranstaltung liegt der Fokus weniger auf ML-Grundlagen und mehr auf modernen Architekturen, Forschungsarbeiten und Design-Patterns des zeitgenössischen Deep Learning.


2. Lernziele und Kompetenzen

Die Studierenden sollen befähigt werden, eigenständig an einem ML/KI-Problem zu arbeiten:

  • eigenständige Literaturrecherche,
  • realistischer Projektplan,
  • Prototypimplementierung,
  • drittverwendbare Implementierung,
  • wissenschaftliches Schreiben,
  • Präsentation der Ergebnisse,
  • Verständnis moderner KI-Methoden aus Deep Learning, generativer Modellierung, NLP und RL.

3. Prüfungsformat und Projektstruktur

Portfolio-Prüfung. Teams bis zwei Personen. Deliverables: GitHub-Code-Submission, Präsentation, Poster-Session, mündliche Quizzes, klare Dokumentation individueller Beiträge. Bewertungskriterien: strukturierte Arbeitsweise, funktionaler und lesbarer Code, wissenschaftlich korrekte Dokumentation und Präsentationsqualität.


4. Projektideen und Themen

Mögliche Projektthemen umfassen:

  • Deepfake-Generierung,
  • Halluzinationsdetektion in LLM-Ausgaben,
  • RAG-basierte Chatbots,
  • Sentimentanalyse,
  • Bildkolorierung,
  • Altersschätzung aus Gesichtsbildern,
  • Natural-Language-Bildsuche mit CLIP,
  • Infinite Zoom mit Stable Diffusion,
  • Blumengenerierung mit VAEs und WGANs,
  • Lunar Lander mit Reinforcement Learning und Deep Q-Learning,
  • Vision Transformers von Grund auf,
  • LLM-basierte Textzusammenfassung.

5. Wissenschaftliches Poster und Kommunikation

Poster als wissenschaftliches Standardkommunikationsformat. Ein gutes Poster enthält: Titel, Motivation, technischen Inhalt, Experimente, Ausblick und QR-Codes für Code und Papers. Die Vorlesung betont, dass ein Poster keine Miniversion einer Ausarbeitung ist — es kommuniziert die wichtigste Botschaft auf einen Blick.


6. Bausteine moderner neuronaler Architekturen

Faltung

Faltungsmasken erkennen Muster in Daten. In modernen CNNs werden diese Masken gelernt.

Pooling und Strided Convolution

Pooling-Schichten reduzieren die räumliche Auflösung. Moderner Ansatz: Strided Convolution statt separater Pooling-Schicht.

Aktivierungsfunktionen

Nicht-lineare Aktivierungsfunktionen sind notwendig. ReLU und Varianten werden gegenüber Sigmoid/Tanh bevorzugt, da sie besseren Gradientenfluss ermöglichen.

Vollverbundene Schichten

Für finale Klassifikationsköpfe geeignet, aber rechnerisch aufwändig für hochdimensionale räumliche Daten.


7. CNNs, Embeddings und Klassifikation

CNNs bilden Bilder auf hochdimensionale Embedding-Räume ab. Klassifikation wird als Ähnlichkeitsvergleich zwischen Bild-Embedding und Klassenrepräsentanten interpretiert. Cosine-Loss für kleine Datensätze.


8. Regularisierung, Normalisierung und Attention

  • Network in Network: Einfache lineare Filter durch ausdrucksstärkere lokale Netze ersetzen,
  • Dropout: Zufälliges Deaktivieren von Neuronen, um Co-Adaptation zu reduzieren,
  • Batch Normalization: Normalisierung über Mini-Batch-Merkmalsdimensionen,
  • Layer Normalization: Normalisierung innerhalb einer Merkmalsschicht,
  • Attention: Gewichtete Summen von Values, wobei die Gewichte aus Query-Key-Ähnlichkeit stammen (Scaled Dot-Product Attention).

9. Optimierungsverfahren

  • SGD mit Momentum: Trägheit für schnellere Konvergenz,
  • Nesterov Accelerated Gradient: Gradientenauswertung an vorausschauender Position,
  • AdaGrad: parameterspezifische Lernraten,
  • RMSProp / AdaDelta: exponentielles Smoothing statt unbegrenzter Akkumulation,
  • Adam: Schätzung erster und zweiter Gradientenmomente für adaptive Updates.

10. Wichtige CNN-Architekturen

  • AlexNet: ImageNet-Durchbruch mit ReLU, Multi-GPU, überlappenden Pooling-Schichten,
  • VGG19: tiefes CNN mit 19 Schichten,
  • GoogLeNet / Inception: Inception-Module für Multi-Skalenverarbeitung,
  • ResNet: Residualverbindungen für stabile Gradienten in sehr tiefen Netzen.

11. Objektdetektion und semantische Segmentierung

Detektion

  • R-CNNFast R-CNNFaster R-CNN: zunehmend effiziente Region-Proposal-basierte Detektion,
  • YOLO: Gitterbasis-Detektion für Echtzeit-Erkennung.

Segmentierung

U-Net für dichte Pixelklassifikation, besonders in der biomedizinischen Bildverarbeitung.


12. Ensemble-Methoden und Wissenstransfer

  • Bagging: Mehrere Modelle auf Bootstrap-Datensätzen,
  • Boosting: Iteratives Training mit höheren Gewichten für falsch klassifizierte Beispiele,
  • Knowledge Distillation: Übertragung des Verhaltens eines großen Teacher-Modells auf ein kleineres Student-Modell.

13. Gewichtsinitialisierung

  • Xavier/Glorot-Initialisierung: ausgewogene Vorwärts- und Rückwärtsvarianz,
  • He-Initialisierung: für rektifizierte Aktivierungen.

14. Neural Style Transfer

Bildinhalt als CNN-Schicht-Aktivierungen. Stil als Gram-Matrix der Merkmalskorrelationen. Adaptive Instance Normalization (AdaIN) für Echtzeit-Stilübertragung.


15. Diskriminative und generative Modelle

  • Diskriminative Modelle: modellieren bedingte Wahrscheinlichkeiten P(Y|X),
  • Generative Modelle: modellieren gemeinsame Verteilungen P(X,Y) und können neue Beobachtungen sampeln.

Überblick über Familien generativer Modelle: Diffusionsmodelle, GANs, VAEs, flow-basierte Modelle, energiebasierte Modelle.


16. Hopfield-Netze und Boltzmann-Maschinen

Hopfield-Netze als assoziative Speichersysteme: binäre Neuronen, symmetrische Gewichte, iterative Updates. Boltzmann-Maschinen als stochastische Erweiterungen. Restricted Boltzmann Machines als praktisch trainierbare Variante.


17. Autoencoder und Variational Autoencoder

Encoder-Decoder-Architektur für latente Repräsentationen. VAEs: strukturierte latente Verteilung (Normalverteilung), Rekonstruktionsverlust + KL-Divergenz als kombiniertes Trainingsziel.


18. Generative Adversarial Networks

GANs als Nullsummenspiel zwischen Generator und Diskriminator. Instabiles Standardtraining motiviert den Wasserstein-GAN-Ansatz mit Wasserstein-Distanz und Gradient Penalty. Bedingte GANs (cGANs) für kontrollierte Generierung.


19. Transformer und CLIP

Transformer als Sequenzmodelle mit Self-Attention statt Rekurrenz. Multi-Head-Attention und positionelle Kodierung. Vision Transformers (ViT) für bildbasierte Aufgaben.

CLIP für multimodale Bild-Text-Einbettungen: gemeinsamer Einbettungsraum durch kontrastives Lernen mit Bild-Text-Paaren ermöglicht Zero-Shot-Klassifikation und natürlichsprachliche Bildsuche.


20. Reinforcement Learning

Belohnungssignale, Policies und Value-Funktionen. Deep Q-Learning (DQN): Q-Funktion als neuronales Netz approximiert, Replay-Buffer und Target-Netz für stabileres Training. Policy-Gradient-Methoden. Anwendungsbeispiel: Lunar Lander.