Introduction to Artificial Intelligence

1. Überblick und Lernziele

Die Vorlesung bietet eine mathematisch fundierte Einführung in die künstliche Intelligenz mit Schwerpunkt auf überwachtem Lernen, klassischen ML-Verfahren, neuronalen Netzen und der praktischen Implementierung in Python/PyTorch.

Die Studierenden sollen am Ende in der Lage sein:

Regressions- und Klassifikationsmodelle mit linearen und logistischen Methoden zu konstruieren,
kernelisierte Support Vector Machines zu verstehen und anzuwenden,
Verlustfunktionen für Optimierungsprobleme auszuwählen und zu interpretieren,
Klassifikatoren mithilfe von Metriken wie Genauigkeit, Präzision und Recall zu evaluieren,
Perzeptren und mehrschichtige neuronale Netze zu trainieren,
einfache neuronale Netze in PyTorch zu implementieren und zu trainieren.

2. Einführung: Was ist Intelligenz? Was ist KI?

Die Vorlesung diskutiert Intelligenz als die Fähigkeit, Umweltreize wahrzunehmen, zu schlussfolgern und sich auf Basis von Fehlern anzupassen. KI wird als der Versuch definiert, rationale oder kognitive menschliche Intelligenz in technischen Systemen nachzubilden.

Unterschieden wird zwischen:

Schwacher KI: löst klar definierte Aufgaben mit festgelegten Methoden,
Starker / Allgemeiner KI: wäre universell anwendbar und nicht auf enge Domänen beschränkt.

Eine weitere konzeptionelle Diskussion beleuchtet, dass KI-Systeme keine Werte, Moral, Emotionen, Objektivität oder Ziele besitzen — was nützliche Anknüpfungspunkte für ethische Diskussionen bietet.

3. Historische Meilensteine der KI

Die Vorlesung stellt wichtige historische Entwicklungen vor:

McCulloch-Pitts-Neuronmodell,
Turing-Test,
Dartmouth-Konferenz als Geburtsstunde der KI als Forschungsfeld,
das Perzeptron, ELIZA,
frühe KI-Winter,
NETtalk, IBM Deep Blue, Roomba, IBM Watson, Siri, GANs, AlphaGo, OpenAI Dota 2, Google Duplex, AlphaStar.

Dieser Abschnitt zeigt, dass moderne KI das Ergebnis mehrerer konzeptioneller, algorithmischer und hardwaregetriebener Wellen ist.

4. Mathematische Grundlagen

4.1 Differentialrechnung

Einführung in Funktionen, Sekanten, Tangenten, Grenzwerte, Ableitungen, partielle Ableitungen und Gradienten. Der Gradient zeigt in die Richtung des steilsten Anstiegs und bildet die Grundlage für gradientenbasierte Optimierung.

Wichtige Differentiationsregeln: Linearität, Produktregel, Kettenregel sowie Ableitungen von Potenzen, Exponentialfunktionen, Sinus, Kosinus und Logarithmus.

4.2 Hyperbolische Funktionen

Hyperbolischer Sinus (sinh), Kosinus (cosh) und Tangens (tanh). Diese Funktionen sind später relevant bei der Diskussion von Aktivierungsfunktionen und robusten Verlustfunktionen wie Log-Cosh.

4.3 Numerische Optimierung

ML-Modelle werden als parametrisierte Funktionen formalisiert. Die zentrale Optimierungsaufgabe ist die Minimierung des durchschnittlichen Verlustes über alle Trainingsbeispiele. Das Gradientenabstiegsverfahren wird als iterative Methode zur Parameteraktualisierung in Richtung des negativen Gradienten eingeführt.

5. Klassische ML-Verfahren

5.1 Lineare Regression

Anhand konkreter Beispiele (z. B. Abschätzung von Materialabschirmung, Asteroidenentfernungsmessung) werden erläutert: Residuen, mittlerer quadratischer Fehler, Methode der kleinsten Quadrate, Normalgleichungen, Matrixschreibweise, die Pseudoinverse und die Maximum-Likelihood-Interpretation unter normalverteilten Fehlern.

Die Vorlesung diskutiert auch die Grenzen der Modellwahl: Ein mathematisch korrekt angepasstes Modell kann ungeeignet sein, wenn seine strukturellen Annahmen nicht zum realen Phänomen passen.

5.2 Robuste lineare Regression

Methoden zur Robustheit gegenüber Ausreißern:

RANSAC: Random Sample Consensus — Modellschätzung aus Teilmengen, Auswahl des Modells mit dem größten Konsens,
IRLS: Iteratively Reweighted Least Squares — Datenpunkte werden nach ihren Residuen gewichtet,
MAD: Median Absolute Deviation als robuste Residuenscalenschätzung.

5.3 Regularisierung

Regularisierung als Mittel zur Kontrolle der Modellkomplexität durch Bestrafung großer Parameterwerte. Regularisierter Kleinste-Quadrate-Ansatz mit geschlossener Lösung.

5.4 Lineare Klassifikation

Lineare Klassifikation als Variante der linearen Regression, bei der die Zielwerte Klassenbezeichnungen repräsentieren.

5.5 Logistische Regression

Die Sigmoid-/Logistikfunktion bildet reellwertige Ausgaben auf Wahrscheinlichkeiten zwischen 0 und 1 ab. Themen: probabilistische Interpretation der binären Klassifikation, Likelihood, binäre Kreuzentropie, Gradientenberechnung, Python-Implementierungen.

6. Support Vector Machines und Kernelmethoden

6.1 Hard-Margin-SVM

Hyperebenengleichungen, Margin-Breite, Einschränkungen für korrekt klassifizierte Punkte, Hard-Margin-Optimierungsproblem, Lagrange-Multiplikatoren, duale Formulierung, Support-Vektoren. Support-Vektoren bestimmen die Position der trennenden Hyperebene.

6.2 Soft-Margin-SVM

Für nicht-linear trennbare oder verrauschte Daten werden Schlupfvariablen und die Soft-Margin-SVM eingeführt. Der Regularisierungsparameter steuert den Kompromiss zwischen Margin-Maximierung und Klassifikationsfehlern.

6.3 Kernel-Trick

Nicht-lineare Daten können nach Projektion in einen höherdimensionalen Merkmalsraum linear trennbar werden. SVMs benötigen nur Skalarprodukte, was durch Kernelfunktionen realisierbar ist — ohne explizite Berechnung hochdimensionaler Räume.

Behandelte Kernels: linear, polynomiell, Gauß/RBF, Sigmoid.

6.4 Kernel-Regression

Erweiterung des Kernel-Gedankens auf die Regression mittels Kernelmatrix und paarweiser Kernel-Auswertungen.

7. Verlustfunktionen

Regressionsverluste:

MSE (Mean Squared Error): penalisiert große Fehler stark, anfällig gegenüber Ausreißern,
MAE (Mean Absolute Error): robuster gegenüber Ausreißern, aber nicht differenzierbar bei Null,
Huber-Verlust: kombiniert quadratisches Verhalten nahe Null mit linearem Verhalten für große Residuen,
Log-Cosh: glatt und zweimal differenzierbar.

Klassifikationsverluste: binäre Kreuzentropie, Mehrklassen-Kreuzentropie, Softmax, Entropie, Kreuzentropie als Likelihood-Zielfunktion, Kullback-Leibler-Divergenz.

8. Evaluierungsmetriken für Klassifikatoren

Die Vorlesung trennt Trainingsziele (Verlust) von Evaluierungsmetriken, die aus der Konfusionsmatrix abgeleitet werden:

Richtig Positive, Falsch Positive, Falsch Negative, Richtig Negative,
Typ-I- und Typ-II-Fehler,
TPR/Recall, Falsch-Positiv-Rate, Präzision, Genauigkeit, Balanced Accuracy, F1-Score.

Anschauliche Beispiele umfassen Schwangerschaftstests, COVID-Tests, Zugbremssysteme und Geldwäschebekämpfung, um zu zeigen, warum verschiedene Fehlertypen unterschiedliche praktische Konsequenzen haben.

ROC-Kurven

ROC-Kurven analysieren das Klassifikatorverhalten bei verschiedenen Schwellenwerten und den Kompromiss zwischen TPR und Falsch-Positiv-Rate.

Mehrklassen-Konfusion

Für Mehrklassenprobleme werden Konfusionsmatrizen und One-vs-All-Interpretationen für klassenweise Metriken vorgestellt.

9. Neuronale Netze

9.1 McCulloch-Pitts-Netze

Biologische Inspiration des Neurons. Das McCulloch-Pitts-Neuron als binäres Schwellenmodell. Logische Gatter (AND, OR, NOT) können dargestellt werden.

9.2 Perzeptron

Das Perzeptron als Verallgemeinerung mit gewichteten Eingaben und Schwellenwert. Als linearer Klassifikator repräsentiert es lineare Entscheidungsgrenzen. Der Perzeptron-Lernalgorithmus mit zufälliger Initialisierung und Gewichtsaktualisierung bei Fehlklassifikationen. Konvergenz bei linear trennbaren Daten. Begrenzung durch das XOR-Problem.

9.3 Mehrschichtige Perzeptren

Mehrschichtige Perzeptren sind ausdrucksstärker als einfache Perzeptren. Zweischichtige Netze klassifizieren konvexe Polygone; tiefere Netze approximieren beliebig komplexe Entscheidungsregionen.

10. Backpropagation und Training neuronaler Netze

Der Backpropagation-Algorithmus wird mithilfe der Kettenregel hergeleitet:

Gewichte initialisieren,
Aktivierungen durch Vorwärtspropagation berechnen,
Ausgabefehler berechnen,
Fehler rückwärts propagieren,
Gradienten berechnen,
Gewichte aktualisieren,
wiederholen bis zur Konvergenz.

Stochastisches Gradientenabstieg, Mini-Batches und Epochen werden eingeführt. Ein durchgerechnetes Backpropagation-Beispiel demonstriert die numerischen Schritte für ein kleines Netz mit Sigmoid-Aktivierungen.

11. Bildbasierte neuronale Netze und Faltung

11.1 Zweidimensionale Faltung

Faltungsoperationen für Bilddaten. Faltungsmasken und Merkmalsextraktion. Mehrere Faltungsschichten können hierarchische Merkmale lernen.

11.2 Convolutional Neural Networks (CNNs)

CNNs kombinieren Faltungsschichten, Pooling und vollverbundene Schichten für die Bildklassifikation. Parameter-Sharing und Translationsinvarianz sind die wesentlichen Eigenschaften.

11.3 Pooling

Pooling-Schichten reduzieren die räumliche Auflösung und schaffen Translationsrobustheit.

11.4 Aktivierungsfunktionen

Nichtlineare Aktivierungsfunktionen sind notwendig, damit tiefe Netze ausdrucksstärker als lineare Modelle sind. ReLU und Varianten werden bevorzugt, weil sie besseren Gradientenfluss ermöglichen.

12. PyTorch und praktische Deep-Learning-Workflows

12.1 PyTorch-Grundlagen

PyTorch-Tensoren, automatische Differenzierung (autograd), Module und Trainingsschleifen.

12.2 Datenvorbereitung und Training

Datasets und DataLoader, TensorBoard-Visualisierung, Checkpoints. Overfitting und Underfitting: Diagnose und Gegenmaßnahmen wie Datenaugmentierung.

12.3 Datenaugmentierung

Techniken wie horizontale Spiegelung, Zufallsausschnitte und Helligkeitsvariation zur Verbesserung der Generalisierung. Bilineare Interpolation für Skalierungsoperationen.

13. Zusammenfassung der Themen

Die Vorlesung deckt vollständig ab:

Definitionen von Intelligenz und KI, historische Entwicklung,
Differentialrechnung, Gradienten, numerische Optimierung,
Lineare und logistische Regression, Regularisierung,
Support Vector Machines, Soft-Margin-SVM, Kernel-Trick, Kernel-Regression,
Verlustfunktionen für Regression und Klassifikation, Entropie, KL-Divergenz,
Klassifikationsmetriken, Konfusionsmatrizen, ROC-Kurven,
McCulloch-Pitts-Neuronen, Perzeptren, mehrschichtige Perzeptren, Backpropagation,
SGD und Mini-Batches, Faltung für Bilddaten, Pooling, Aktivierungsfunktionen,
PyTorch: Tensoren, Autograd, Module, Trainingsschleifen, Datasets, TensorBoard, Checkpoints,
Overfitting/Underfitting, Datenaugmentierung, bilineare Interpolation.

Introduction to Artificial Intelligence

Course Overview

flag Learning Objectives

calendar_month Logistics

Weekly Syllabus

Introduction to AI

Mathematical Foundations

Gradient Descent

Linear Regression

Logistic Regression

Robustness & RANSAC

Regularization

Support Vector Machines

Kernel Methods

Loss Functions & Metrics

Neural Networks

Backpropagation

Convolutional Neural Networks

Practical: PyTorch

Lecture Notes