arrow_back 강의
calendar_month 겨울 학기

고급 인공지능

최신 신경망 아키텍처, GAN, 확산 모델, NLP 및 스타일 전이.

최신 아키텍처GAN트랜스포머스타일 전이
고급 인공지능

강의 개요

flag 학습 목표

  • check_circle 현대 딥러닝 아키텍처 분석 및 비교
  • check_circle 생성 모델(VAE, GAN) 설계 및 구현
  • check_circle 독립적인 AI 프로젝트 개발 및 KI-CON에서 포스터 발표
  • check_circle 트랜스포머 아키텍처와 강화 학습 기초 적용

calendar_month 수업 정보

시간

Mo 09:15 – 12:30

강의실

11.3.002

학기

겨울 학기

평가 방식

KI-CON 참가

주차별 계획

주차 1

프로젝트 기반 학습 & KI-CON

수업 형식, 포트폴리오 평가, KI-CON 포스터 컨퍼런스, 프로젝트 주제.

주차 2

CNN 구성 요소

합성곱, 풀링, 활성화 함수 심화; 수용 영역.

주차 3

임베딩 & 메트릭 러닝

코사인 손실, 샴 네트워크, 대조 학습.

주차 4

정규화 & 정규화

Dropout, 배치 정규화, 레이어 정규화, 어텐션 메커니즘.

주차 5

최적화 알고리즘

모멘텀, Adam 옵티마이저, 학습률 스케줄링, 가중치 초기화.

주차 6

현대 아키텍처

AlexNet, VGG, ResNet, Inception – 설계 결정 및 벤치마크.

주차 7

객체 탐지

R-CNN, Fast/Faster R-CNN, YOLO – 영역 제안에서 실시간 탐지까지.

주차 8

세그멘테이션 & 지식 증류

U-Net, 인코더-디코더 아키텍처, 앙상블 방법, 지식 증류.

주차 9

신경 스타일 전이

그램 행렬, 콘텐츠/스타일 손실, 이미지 생성 응용.

주차 10

생성 모델 I

홉필드 네트워크, 볼츠만 머신, 오토인코더, VAE.

주차 11

생성 모델 II: GAN

GAN 훈련 동역학, 훈련 불안정성, WGAN, 바서슈타인 거리.

주차 12

트랜스포머 & CLIP

셀프 어텐션, 비전 트랜스포머(ViT), CLIP: 비전-언어 모델.

주차 13

강화 학습

RL 기초, 마르코프 결정 과정, 정책 경사법.

주차 14

KI-CON – 포스터 컨퍼런스

최종 프로젝트를 학술 포스터로 발표 (평가 성과).

강의 노트

1. Charakter der Vorlesung

Die Vorlesung verbindet zwei Perspektiven:

  1. Projektorientiertes Lernen: Studierende wählen, recherchieren, implementieren, dokumentieren und präsentieren selbstständig ein KI-Thema.
  2. Technische Übersicht moderner KI-Methoden: neuronale Netzwerkarchitekturen, generative Modelle, NLP, Transformer, Metric Learning, CLIP und Reinforcement Learning.

Im Vergleich zur Einführungsveranstaltung liegt der Fokus weniger auf ML-Grundlagen und mehr auf modernen Architekturen, Forschungsarbeiten und Design-Patterns des zeitgenössischen Deep Learning.


2. Lernziele und Kompetenzen

Die Studierenden sollen befähigt werden, eigenständig an einem ML/KI-Problem zu arbeiten:

  • eigenständige Literaturrecherche,
  • realistischer Projektplan,
  • Prototypimplementierung,
  • drittverwendbare Implementierung,
  • wissenschaftliches Schreiben,
  • Präsentation der Ergebnisse,
  • Verständnis moderner KI-Methoden aus Deep Learning, generativer Modellierung, NLP und RL.

3. Prüfungsformat und Projektstruktur

Portfolio-Prüfung. Teams bis zwei Personen. Deliverables: GitHub-Code-Submission, Präsentation, Poster-Session, mündliche Quizzes, klare Dokumentation individueller Beiträge. Bewertungskriterien: strukturierte Arbeitsweise, funktionaler und lesbarer Code, wissenschaftlich korrekte Dokumentation und Präsentationsqualität.


4. Projektideen und Themen

Mögliche Projektthemen umfassen:

  • Deepfake-Generierung,
  • Halluzinationsdetektion in LLM-Ausgaben,
  • RAG-basierte Chatbots,
  • Sentimentanalyse,
  • Bildkolorierung,
  • Altersschätzung aus Gesichtsbildern,
  • Natural-Language-Bildsuche mit CLIP,
  • Infinite Zoom mit Stable Diffusion,
  • Blumengenerierung mit VAEs und WGANs,
  • Lunar Lander mit Reinforcement Learning und Deep Q-Learning,
  • Vision Transformers von Grund auf,
  • LLM-basierte Textzusammenfassung.

5. Wissenschaftliches Poster und Kommunikation

Poster als wissenschaftliches Standardkommunikationsformat. Ein gutes Poster enthält: Titel, Motivation, technischen Inhalt, Experimente, Ausblick und QR-Codes für Code und Papers. Die Vorlesung betont, dass ein Poster keine Miniversion einer Ausarbeitung ist — es kommuniziert die wichtigste Botschaft auf einen Blick.


6. Bausteine moderner neuronaler Architekturen

Faltung

Faltungsmasken erkennen Muster in Daten. In modernen CNNs werden diese Masken gelernt.

Pooling und Strided Convolution

Pooling-Schichten reduzieren die räumliche Auflösung. Moderner Ansatz: Strided Convolution statt separater Pooling-Schicht.

Aktivierungsfunktionen

Nicht-lineare Aktivierungsfunktionen sind notwendig. ReLU und Varianten werden gegenüber Sigmoid/Tanh bevorzugt, da sie besseren Gradientenfluss ermöglichen.

Vollverbundene Schichten

Für finale Klassifikationsköpfe geeignet, aber rechnerisch aufwändig für hochdimensionale räumliche Daten.


7. CNNs, Embeddings und Klassifikation

CNNs bilden Bilder auf hochdimensionale Embedding-Räume ab. Klassifikation wird als Ähnlichkeitsvergleich zwischen Bild-Embedding und Klassenrepräsentanten interpretiert. Cosine-Loss für kleine Datensätze.


8. Regularisierung, Normalisierung und Attention

  • Network in Network: Einfache lineare Filter durch ausdrucksstärkere lokale Netze ersetzen,
  • Dropout: Zufälliges Deaktivieren von Neuronen, um Co-Adaptation zu reduzieren,
  • Batch Normalization: Normalisierung über Mini-Batch-Merkmalsdimensionen,
  • Layer Normalization: Normalisierung innerhalb einer Merkmalsschicht,
  • Attention: Gewichtete Summen von Values, wobei die Gewichte aus Query-Key-Ähnlichkeit stammen (Scaled Dot-Product Attention).

9. Optimierungsverfahren

  • SGD mit Momentum: Trägheit für schnellere Konvergenz,
  • Nesterov Accelerated Gradient: Gradientenauswertung an vorausschauender Position,
  • AdaGrad: parameterspezifische Lernraten,
  • RMSProp / AdaDelta: exponentielles Smoothing statt unbegrenzter Akkumulation,
  • Adam: Schätzung erster und zweiter Gradientenmomente für adaptive Updates.

10. Wichtige CNN-Architekturen

  • AlexNet: ImageNet-Durchbruch mit ReLU, Multi-GPU, überlappenden Pooling-Schichten,
  • VGG19: tiefes CNN mit 19 Schichten,
  • GoogLeNet / Inception: Inception-Module für Multi-Skalenverarbeitung,
  • ResNet: Residualverbindungen für stabile Gradienten in sehr tiefen Netzen.

11. Objektdetektion und semantische Segmentierung

Detektion

  • R-CNNFast R-CNNFaster R-CNN: zunehmend effiziente Region-Proposal-basierte Detektion,
  • YOLO: Gitterbasis-Detektion für Echtzeit-Erkennung.

Segmentierung

U-Net für dichte Pixelklassifikation, besonders in der biomedizinischen Bildverarbeitung.


12. Ensemble-Methoden und Wissenstransfer

  • Bagging: Mehrere Modelle auf Bootstrap-Datensätzen,
  • Boosting: Iteratives Training mit höheren Gewichten für falsch klassifizierte Beispiele,
  • Knowledge Distillation: Übertragung des Verhaltens eines großen Teacher-Modells auf ein kleineres Student-Modell.

13. Gewichtsinitialisierung

  • Xavier/Glorot-Initialisierung: ausgewogene Vorwärts- und Rückwärtsvarianz,
  • He-Initialisierung: für rektifizierte Aktivierungen.

14. Neural Style Transfer

Bildinhalt als CNN-Schicht-Aktivierungen. Stil als Gram-Matrix der Merkmalskorrelationen. Adaptive Instance Normalization (AdaIN) für Echtzeit-Stilübertragung.


15. Diskriminative und generative Modelle

  • Diskriminative Modelle: modellieren bedingte Wahrscheinlichkeiten P(Y|X),
  • Generative Modelle: modellieren gemeinsame Verteilungen P(X,Y) und können neue Beobachtungen sampeln.

Überblick über Familien generativer Modelle: Diffusionsmodelle, GANs, VAEs, flow-basierte Modelle, energiebasierte Modelle.


16. Hopfield-Netze und Boltzmann-Maschinen

Hopfield-Netze als assoziative Speichersysteme: binäre Neuronen, symmetrische Gewichte, iterative Updates. Boltzmann-Maschinen als stochastische Erweiterungen. Restricted Boltzmann Machines als praktisch trainierbare Variante.


17. Autoencoder und Variational Autoencoder

Encoder-Decoder-Architektur für latente Repräsentationen. VAEs: strukturierte latente Verteilung (Normalverteilung), Rekonstruktionsverlust + KL-Divergenz als kombiniertes Trainingsziel.


18. Generative Adversarial Networks

GANs als Nullsummenspiel zwischen Generator und Diskriminator. Instabiles Standardtraining motiviert den Wasserstein-GAN-Ansatz mit Wasserstein-Distanz und Gradient Penalty. Bedingte GANs (cGANs) für kontrollierte Generierung.


19. Transformer und CLIP

Transformer als Sequenzmodelle mit Self-Attention statt Rekurrenz. Multi-Head-Attention und positionelle Kodierung. Vision Transformers (ViT) für bildbasierte Aufgaben.

CLIP für multimodale Bild-Text-Einbettungen: gemeinsamer Einbettungsraum durch kontrastives Lernen mit Bild-Text-Paaren ermöglicht Zero-Shot-Klassifikation und natürlichsprachliche Bildsuche.


20. Reinforcement Learning

Belohnungssignale, Policies und Value-Funktionen. Deep Q-Learning (DQN): Q-Funktion als neuronales Netz approximiert, Replay-Buffer und Target-Netz für stabileres Training. Policy-Gradient-Methoden. Anwendungsbeispiel: Lunar Lander.