arrow_back 강의
calendar_month 매 학기

인공지능 입문

기계 학습의 기초, 서포트 벡터 머신, 손실 함수 및 신경망.

ML 기초SVM손실 함수신경망
인공지능 입문

강의 개요

flag 학습 목표

  • check_circle 실제 문제를 탐색 및 최적화 작업으로 형식화
  • check_circle 기본 ML 알고리즘을 수학적으로 유도하고 구현
  • check_circle 머신러닝의 수학적 기초 완전 습득
  • check_circle 신경망 훈련 및 동작 비판적 평가

calendar_month 수업 정보

시간

Di 09:15 – 15:45

강의실

04.1.002

학기

매 학기

평가 방식

서면 보고서

주차별 계획

주차 1

AI 소개

튜링 테스트, 합리적 에이전트, 기호 AI에서 연결주의까지의 역사.

주차 2

수학적 기초

미적분학, 편미분, 연쇄 법칙.

주차 3

경사 하강법

쌍곡선 함수, 최적화 방법, 학습률, 수렴 거동.

주차 4

선형 회귀

최소자승법, 정규 방정식, 기하학적 해석.

주차 5

로지스틱 회귀

이진 분류, 시그모이드 함수, 결정 경계.

주차 6

강건성 & RANSAC

강건 추정, RANSAC 알고리즘, 반복 재가중 최소자승법.

주차 7

정규화

L1/L2 정규화, 과적합, 편향-분산 트레이드오프.

주차 8

서포트 벡터 머신

최대 마진 분류기, 라그랑주 승수법, 소프트 마진.

주차 9

커널 방법

커널 트릭, RBF 커널, 특징 공간에서의 비선형 분류.

주차 10

손실 함수 & 평가 지표

교차 엔트로피, ROC 곡선, 정밀도/재현율, F1 점수.

주차 11

신경망

퍼셉트론, 다층 네트워크, 활성화 함수.

주차 12

역전파

네트워크에서의 연쇄 법칙, 기울기 흐름, 기울기 소실 문제.

주차 13

합성곱 신경망

합성곱 연산자, 풀링, 고전적 CNN 아키텍처.

주차 14

PyTorch 실습

PyTorch를 이용한 실습 구현, 현대 아키텍처 전망.

강의 노트

1. Überblick und Lernziele

Die Vorlesung bietet eine mathematisch fundierte Einführung in die künstliche Intelligenz mit Schwerpunkt auf überwachtem Lernen, klassischen ML-Verfahren, neuronalen Netzen und der praktischen Implementierung in Python/PyTorch.

Die Studierenden sollen am Ende in der Lage sein:

  • Regressions- und Klassifikationsmodelle mit linearen und logistischen Methoden zu konstruieren,
  • kernelisierte Support Vector Machines zu verstehen und anzuwenden,
  • Verlustfunktionen für Optimierungsprobleme auszuwählen und zu interpretieren,
  • Klassifikatoren mithilfe von Metriken wie Genauigkeit, Präzision und Recall zu evaluieren,
  • Perzeptren und mehrschichtige neuronale Netze zu trainieren,
  • einfache neuronale Netze in PyTorch zu implementieren und zu trainieren.

2. Einführung: Was ist Intelligenz? Was ist KI?

Die Vorlesung diskutiert Intelligenz als die Fähigkeit, Umweltreize wahrzunehmen, zu schlussfolgern und sich auf Basis von Fehlern anzupassen. KI wird als der Versuch definiert, rationale oder kognitive menschliche Intelligenz in technischen Systemen nachzubilden.

Unterschieden wird zwischen:

  • Schwacher KI: löst klar definierte Aufgaben mit festgelegten Methoden,
  • Starker / Allgemeiner KI: wäre universell anwendbar und nicht auf enge Domänen beschränkt.

Eine weitere konzeptionelle Diskussion beleuchtet, dass KI-Systeme keine Werte, Moral, Emotionen, Objektivität oder Ziele besitzen — was nützliche Anknüpfungspunkte für ethische Diskussionen bietet.


3. Historische Meilensteine der KI

Die Vorlesung stellt wichtige historische Entwicklungen vor:

  • McCulloch-Pitts-Neuronmodell,
  • Turing-Test,
  • Dartmouth-Konferenz als Geburtsstunde der KI als Forschungsfeld,
  • das Perzeptron, ELIZA,
  • frühe KI-Winter,
  • NETtalk, IBM Deep Blue, Roomba, IBM Watson, Siri, GANs, AlphaGo, OpenAI Dota 2, Google Duplex, AlphaStar.

Dieser Abschnitt zeigt, dass moderne KI das Ergebnis mehrerer konzeptioneller, algorithmischer und hardwaregetriebener Wellen ist.


4. Mathematische Grundlagen

4.1 Differentialrechnung

Einführung in Funktionen, Sekanten, Tangenten, Grenzwerte, Ableitungen, partielle Ableitungen und Gradienten. Der Gradient zeigt in die Richtung des steilsten Anstiegs und bildet die Grundlage für gradientenbasierte Optimierung.

Wichtige Differentiationsregeln: Linearität, Produktregel, Kettenregel sowie Ableitungen von Potenzen, Exponentialfunktionen, Sinus, Kosinus und Logarithmus.

4.2 Hyperbolische Funktionen

Hyperbolischer Sinus (sinh), Kosinus (cosh) und Tangens (tanh). Diese Funktionen sind später relevant bei der Diskussion von Aktivierungsfunktionen und robusten Verlustfunktionen wie Log-Cosh.

4.3 Numerische Optimierung

ML-Modelle werden als parametrisierte Funktionen formalisiert. Die zentrale Optimierungsaufgabe ist die Minimierung des durchschnittlichen Verlustes über alle Trainingsbeispiele. Das Gradientenabstiegsverfahren wird als iterative Methode zur Parameteraktualisierung in Richtung des negativen Gradienten eingeführt.


5. Klassische ML-Verfahren

5.1 Lineare Regression

Anhand konkreter Beispiele (z. B. Abschätzung von Materialabschirmung, Asteroidenentfernungsmessung) werden erläutert: Residuen, mittlerer quadratischer Fehler, Methode der kleinsten Quadrate, Normalgleichungen, Matrixschreibweise, die Pseudoinverse und die Maximum-Likelihood-Interpretation unter normalverteilten Fehlern.

Die Vorlesung diskutiert auch die Grenzen der Modellwahl: Ein mathematisch korrekt angepasstes Modell kann ungeeignet sein, wenn seine strukturellen Annahmen nicht zum realen Phänomen passen.

5.2 Robuste lineare Regression

Methoden zur Robustheit gegenüber Ausreißern:

  • RANSAC: Random Sample Consensus — Modellschätzung aus Teilmengen, Auswahl des Modells mit dem größten Konsens,
  • IRLS: Iteratively Reweighted Least Squares — Datenpunkte werden nach ihren Residuen gewichtet,
  • MAD: Median Absolute Deviation als robuste Residuenscalenschätzung.

5.3 Regularisierung

Regularisierung als Mittel zur Kontrolle der Modellkomplexität durch Bestrafung großer Parameterwerte. Regularisierter Kleinste-Quadrate-Ansatz mit geschlossener Lösung.

5.4 Lineare Klassifikation

Lineare Klassifikation als Variante der linearen Regression, bei der die Zielwerte Klassenbezeichnungen repräsentieren.

5.5 Logistische Regression

Die Sigmoid-/Logistikfunktion bildet reellwertige Ausgaben auf Wahrscheinlichkeiten zwischen 0 und 1 ab. Themen: probabilistische Interpretation der binären Klassifikation, Likelihood, binäre Kreuzentropie, Gradientenberechnung, Python-Implementierungen.


6. Support Vector Machines und Kernelmethoden

6.1 Hard-Margin-SVM

Hyperebenengleichungen, Margin-Breite, Einschränkungen für korrekt klassifizierte Punkte, Hard-Margin-Optimierungsproblem, Lagrange-Multiplikatoren, duale Formulierung, Support-Vektoren. Support-Vektoren bestimmen die Position der trennenden Hyperebene.

6.2 Soft-Margin-SVM

Für nicht-linear trennbare oder verrauschte Daten werden Schlupfvariablen und die Soft-Margin-SVM eingeführt. Der Regularisierungsparameter steuert den Kompromiss zwischen Margin-Maximierung und Klassifikationsfehlern.

6.3 Kernel-Trick

Nicht-lineare Daten können nach Projektion in einen höherdimensionalen Merkmalsraum linear trennbar werden. SVMs benötigen nur Skalarprodukte, was durch Kernelfunktionen realisierbar ist — ohne explizite Berechnung hochdimensionaler Räume.

Behandelte Kernels: linear, polynomiell, Gauß/RBF, Sigmoid.

6.4 Kernel-Regression

Erweiterung des Kernel-Gedankens auf die Regression mittels Kernelmatrix und paarweiser Kernel-Auswertungen.


7. Verlustfunktionen

Regressionsverluste:

  • MSE (Mean Squared Error): penalisiert große Fehler stark, anfällig gegenüber Ausreißern,
  • MAE (Mean Absolute Error): robuster gegenüber Ausreißern, aber nicht differenzierbar bei Null,
  • Huber-Verlust: kombiniert quadratisches Verhalten nahe Null mit linearem Verhalten für große Residuen,
  • Log-Cosh: glatt und zweimal differenzierbar.

Klassifikationsverluste: binäre Kreuzentropie, Mehrklassen-Kreuzentropie, Softmax, Entropie, Kreuzentropie als Likelihood-Zielfunktion, Kullback-Leibler-Divergenz.


8. Evaluierungsmetriken für Klassifikatoren

Die Vorlesung trennt Trainingsziele (Verlust) von Evaluierungsmetriken, die aus der Konfusionsmatrix abgeleitet werden:

  • Richtig Positive, Falsch Positive, Falsch Negative, Richtig Negative,
  • Typ-I- und Typ-II-Fehler,
  • TPR/Recall, Falsch-Positiv-Rate, Präzision, Genauigkeit, Balanced Accuracy, F1-Score.

Anschauliche Beispiele umfassen Schwangerschaftstests, COVID-Tests, Zugbremssysteme und Geldwäschebekämpfung, um zu zeigen, warum verschiedene Fehlertypen unterschiedliche praktische Konsequenzen haben.

ROC-Kurven

ROC-Kurven analysieren das Klassifikatorverhalten bei verschiedenen Schwellenwerten und den Kompromiss zwischen TPR und Falsch-Positiv-Rate.

Mehrklassen-Konfusion

Für Mehrklassenprobleme werden Konfusionsmatrizen und One-vs-All-Interpretationen für klassenweise Metriken vorgestellt.


9. Neuronale Netze

9.1 McCulloch-Pitts-Netze

Biologische Inspiration des Neurons. Das McCulloch-Pitts-Neuron als binäres Schwellenmodell. Logische Gatter (AND, OR, NOT) können dargestellt werden.

9.2 Perzeptron

Das Perzeptron als Verallgemeinerung mit gewichteten Eingaben und Schwellenwert. Als linearer Klassifikator repräsentiert es lineare Entscheidungsgrenzen. Der Perzeptron-Lernalgorithmus mit zufälliger Initialisierung und Gewichtsaktualisierung bei Fehlklassifikationen. Konvergenz bei linear trennbaren Daten. Begrenzung durch das XOR-Problem.

9.3 Mehrschichtige Perzeptren

Mehrschichtige Perzeptren sind ausdrucksstärker als einfache Perzeptren. Zweischichtige Netze klassifizieren konvexe Polygone; tiefere Netze approximieren beliebig komplexe Entscheidungsregionen.


10. Backpropagation und Training neuronaler Netze

Der Backpropagation-Algorithmus wird mithilfe der Kettenregel hergeleitet:

  1. Gewichte initialisieren,
  2. Aktivierungen durch Vorwärtspropagation berechnen,
  3. Ausgabefehler berechnen,
  4. Fehler rückwärts propagieren,
  5. Gradienten berechnen,
  6. Gewichte aktualisieren,
  7. wiederholen bis zur Konvergenz.

Stochastisches Gradientenabstieg, Mini-Batches und Epochen werden eingeführt. Ein durchgerechnetes Backpropagation-Beispiel demonstriert die numerischen Schritte für ein kleines Netz mit Sigmoid-Aktivierungen.


11. Bildbasierte neuronale Netze und Faltung

11.1 Zweidimensionale Faltung

Faltungsoperationen für Bilddaten. Faltungsmasken und Merkmalsextraktion. Mehrere Faltungsschichten können hierarchische Merkmale lernen.

11.2 Convolutional Neural Networks (CNNs)

CNNs kombinieren Faltungsschichten, Pooling und vollverbundene Schichten für die Bildklassifikation. Parameter-Sharing und Translationsinvarianz sind die wesentlichen Eigenschaften.

11.3 Pooling

Pooling-Schichten reduzieren die räumliche Auflösung und schaffen Translationsrobustheit.

11.4 Aktivierungsfunktionen

Nichtlineare Aktivierungsfunktionen sind notwendig, damit tiefe Netze ausdrucksstärker als lineare Modelle sind. ReLU und Varianten werden bevorzugt, weil sie besseren Gradientenfluss ermöglichen.


12. PyTorch und praktische Deep-Learning-Workflows

12.1 PyTorch-Grundlagen

PyTorch-Tensoren, automatische Differenzierung (autograd), Module und Trainingsschleifen.

12.2 Datenvorbereitung und Training

Datasets und DataLoader, TensorBoard-Visualisierung, Checkpoints. Overfitting und Underfitting: Diagnose und Gegenmaßnahmen wie Datenaugmentierung.

12.3 Datenaugmentierung

Techniken wie horizontale Spiegelung, Zufallsausschnitte und Helligkeitsvariation zur Verbesserung der Generalisierung. Bilineare Interpolation für Skalierungsoperationen.


13. Zusammenfassung der Themen

Die Vorlesung deckt vollständig ab:

  • Definitionen von Intelligenz und KI, historische Entwicklung,
  • Differentialrechnung, Gradienten, numerische Optimierung,
  • Lineare und logistische Regression, Regularisierung,
  • Support Vector Machines, Soft-Margin-SVM, Kernel-Trick, Kernel-Regression,
  • Verlustfunktionen für Regression und Klassifikation, Entropie, KL-Divergenz,
  • Klassifikationsmetriken, Konfusionsmatrizen, ROC-Kurven,
  • McCulloch-Pitts-Neuronen, Perzeptren, mehrschichtige Perzeptren, Backpropagation,
  • SGD und Mini-Batches, Faltung für Bilddaten, Pooling, Aktivierungsfunktionen,
  • PyTorch: Tensoren, Autograd, Module, Trainingsschleifen, Datasets, TensorBoard, Checkpoints,
  • Overfitting/Underfitting, Datenaugmentierung, bilineare Interpolation.