1. Überblick und Lernziele
Die Vorlesung bietet eine mathematisch fundierte Einführung in die künstliche Intelligenz mit Schwerpunkt auf überwachtem Lernen, klassischen ML-Verfahren, neuronalen Netzen und der praktischen Implementierung in Python/PyTorch.
Die Studierenden sollen am Ende in der Lage sein:
- Regressions- und Klassifikationsmodelle mit linearen und logistischen Methoden zu konstruieren,
- kernelisierte Support Vector Machines zu verstehen und anzuwenden,
- Verlustfunktionen für Optimierungsprobleme auszuwählen und zu interpretieren,
- Klassifikatoren mithilfe von Metriken wie Genauigkeit, Präzision und Recall zu evaluieren,
- Perzeptren und mehrschichtige neuronale Netze zu trainieren,
- einfache neuronale Netze in PyTorch zu implementieren und zu trainieren.
2. Einführung: Was ist Intelligenz? Was ist KI?
Die Vorlesung diskutiert Intelligenz als die Fähigkeit, Umweltreize wahrzunehmen, zu schlussfolgern und sich auf Basis von Fehlern anzupassen. KI wird als der Versuch definiert, rationale oder kognitive menschliche Intelligenz in technischen Systemen nachzubilden.
Unterschieden wird zwischen:
- Schwacher KI: löst klar definierte Aufgaben mit festgelegten Methoden,
- Starker / Allgemeiner KI: wäre universell anwendbar und nicht auf enge Domänen beschränkt.
Eine weitere konzeptionelle Diskussion beleuchtet, dass KI-Systeme keine Werte, Moral, Emotionen, Objektivität oder Ziele besitzen — was nützliche Anknüpfungspunkte für ethische Diskussionen bietet.
3. Historische Meilensteine der KI
Die Vorlesung stellt wichtige historische Entwicklungen vor:
- McCulloch-Pitts-Neuronmodell,
- Turing-Test,
- Dartmouth-Konferenz als Geburtsstunde der KI als Forschungsfeld,
- das Perzeptron, ELIZA,
- frühe KI-Winter,
- NETtalk, IBM Deep Blue, Roomba, IBM Watson, Siri, GANs, AlphaGo, OpenAI Dota 2, Google Duplex, AlphaStar.
Dieser Abschnitt zeigt, dass moderne KI das Ergebnis mehrerer konzeptioneller, algorithmischer und hardwaregetriebener Wellen ist.
4. Mathematische Grundlagen
4.1 Differentialrechnung
Einführung in Funktionen, Sekanten, Tangenten, Grenzwerte, Ableitungen, partielle Ableitungen und Gradienten. Der Gradient zeigt in die Richtung des steilsten Anstiegs und bildet die Grundlage für gradientenbasierte Optimierung.
Wichtige Differentiationsregeln: Linearität, Produktregel, Kettenregel sowie Ableitungen von Potenzen, Exponentialfunktionen, Sinus, Kosinus und Logarithmus.
4.2 Hyperbolische Funktionen
Hyperbolischer Sinus (sinh), Kosinus (cosh) und Tangens (tanh). Diese Funktionen sind später relevant bei der Diskussion von Aktivierungsfunktionen und robusten Verlustfunktionen wie Log-Cosh.
4.3 Numerische Optimierung
ML-Modelle werden als parametrisierte Funktionen formalisiert. Die zentrale Optimierungsaufgabe ist die Minimierung des durchschnittlichen Verlustes über alle Trainingsbeispiele. Das Gradientenabstiegsverfahren wird als iterative Methode zur Parameteraktualisierung in Richtung des negativen Gradienten eingeführt.
5. Klassische ML-Verfahren
5.1 Lineare Regression
Anhand konkreter Beispiele (z. B. Abschätzung von Materialabschirmung, Asteroidenentfernungsmessung) werden erläutert: Residuen, mittlerer quadratischer Fehler, Methode der kleinsten Quadrate, Normalgleichungen, Matrixschreibweise, die Pseudoinverse und die Maximum-Likelihood-Interpretation unter normalverteilten Fehlern.
Die Vorlesung diskutiert auch die Grenzen der Modellwahl: Ein mathematisch korrekt angepasstes Modell kann ungeeignet sein, wenn seine strukturellen Annahmen nicht zum realen Phänomen passen.
5.2 Robuste lineare Regression
Methoden zur Robustheit gegenüber Ausreißern:
- RANSAC: Random Sample Consensus — Modellschätzung aus Teilmengen, Auswahl des Modells mit dem größten Konsens,
- IRLS: Iteratively Reweighted Least Squares — Datenpunkte werden nach ihren Residuen gewichtet,
- MAD: Median Absolute Deviation als robuste Residuenscalenschätzung.
5.3 Regularisierung
Regularisierung als Mittel zur Kontrolle der Modellkomplexität durch Bestrafung großer Parameterwerte. Regularisierter Kleinste-Quadrate-Ansatz mit geschlossener Lösung.
5.4 Lineare Klassifikation
Lineare Klassifikation als Variante der linearen Regression, bei der die Zielwerte Klassenbezeichnungen repräsentieren.
5.5 Logistische Regression
Die Sigmoid-/Logistikfunktion bildet reellwertige Ausgaben auf Wahrscheinlichkeiten zwischen 0 und 1 ab. Themen: probabilistische Interpretation der binären Klassifikation, Likelihood, binäre Kreuzentropie, Gradientenberechnung, Python-Implementierungen.
6. Support Vector Machines und Kernelmethoden
6.1 Hard-Margin-SVM
Hyperebenengleichungen, Margin-Breite, Einschränkungen für korrekt klassifizierte Punkte, Hard-Margin-Optimierungsproblem, Lagrange-Multiplikatoren, duale Formulierung, Support-Vektoren. Support-Vektoren bestimmen die Position der trennenden Hyperebene.
6.2 Soft-Margin-SVM
Für nicht-linear trennbare oder verrauschte Daten werden Schlupfvariablen und die Soft-Margin-SVM eingeführt. Der Regularisierungsparameter steuert den Kompromiss zwischen Margin-Maximierung und Klassifikationsfehlern.
6.3 Kernel-Trick
Nicht-lineare Daten können nach Projektion in einen höherdimensionalen Merkmalsraum linear trennbar werden. SVMs benötigen nur Skalarprodukte, was durch Kernelfunktionen realisierbar ist — ohne explizite Berechnung hochdimensionaler Räume.
Behandelte Kernels: linear, polynomiell, Gauß/RBF, Sigmoid.
6.4 Kernel-Regression
Erweiterung des Kernel-Gedankens auf die Regression mittels Kernelmatrix und paarweiser Kernel-Auswertungen.
7. Verlustfunktionen
Regressionsverluste:
- MSE (Mean Squared Error): penalisiert große Fehler stark, anfällig gegenüber Ausreißern,
- MAE (Mean Absolute Error): robuster gegenüber Ausreißern, aber nicht differenzierbar bei Null,
- Huber-Verlust: kombiniert quadratisches Verhalten nahe Null mit linearem Verhalten für große Residuen,
- Log-Cosh: glatt und zweimal differenzierbar.
Klassifikationsverluste: binäre Kreuzentropie, Mehrklassen-Kreuzentropie, Softmax, Entropie, Kreuzentropie als Likelihood-Zielfunktion, Kullback-Leibler-Divergenz.
8. Evaluierungsmetriken für Klassifikatoren
Die Vorlesung trennt Trainingsziele (Verlust) von Evaluierungsmetriken, die aus der Konfusionsmatrix abgeleitet werden:
- Richtig Positive, Falsch Positive, Falsch Negative, Richtig Negative,
- Typ-I- und Typ-II-Fehler,
- TPR/Recall, Falsch-Positiv-Rate, Präzision, Genauigkeit, Balanced Accuracy, F1-Score.
Anschauliche Beispiele umfassen Schwangerschaftstests, COVID-Tests, Zugbremssysteme und Geldwäschebekämpfung, um zu zeigen, warum verschiedene Fehlertypen unterschiedliche praktische Konsequenzen haben.
ROC-Kurven
ROC-Kurven analysieren das Klassifikatorverhalten bei verschiedenen Schwellenwerten und den Kompromiss zwischen TPR und Falsch-Positiv-Rate.
Mehrklassen-Konfusion
Für Mehrklassenprobleme werden Konfusionsmatrizen und One-vs-All-Interpretationen für klassenweise Metriken vorgestellt.
9. Neuronale Netze
9.1 McCulloch-Pitts-Netze
Biologische Inspiration des Neurons. Das McCulloch-Pitts-Neuron als binäres Schwellenmodell. Logische Gatter (AND, OR, NOT) können dargestellt werden.
9.2 Perzeptron
Das Perzeptron als Verallgemeinerung mit gewichteten Eingaben und Schwellenwert. Als linearer Klassifikator repräsentiert es lineare Entscheidungsgrenzen. Der Perzeptron-Lernalgorithmus mit zufälliger Initialisierung und Gewichtsaktualisierung bei Fehlklassifikationen. Konvergenz bei linear trennbaren Daten. Begrenzung durch das XOR-Problem.
9.3 Mehrschichtige Perzeptren
Mehrschichtige Perzeptren sind ausdrucksstärker als einfache Perzeptren. Zweischichtige Netze klassifizieren konvexe Polygone; tiefere Netze approximieren beliebig komplexe Entscheidungsregionen.
10. Backpropagation und Training neuronaler Netze
Der Backpropagation-Algorithmus wird mithilfe der Kettenregel hergeleitet:
- Gewichte initialisieren,
- Aktivierungen durch Vorwärtspropagation berechnen,
- Ausgabefehler berechnen,
- Fehler rückwärts propagieren,
- Gradienten berechnen,
- Gewichte aktualisieren,
- wiederholen bis zur Konvergenz.
Stochastisches Gradientenabstieg, Mini-Batches und Epochen werden eingeführt. Ein durchgerechnetes Backpropagation-Beispiel demonstriert die numerischen Schritte für ein kleines Netz mit Sigmoid-Aktivierungen.
11. Bildbasierte neuronale Netze und Faltung
11.1 Zweidimensionale Faltung
Faltungsoperationen für Bilddaten. Faltungsmasken und Merkmalsextraktion. Mehrere Faltungsschichten können hierarchische Merkmale lernen.
11.2 Convolutional Neural Networks (CNNs)
CNNs kombinieren Faltungsschichten, Pooling und vollverbundene Schichten für die Bildklassifikation. Parameter-Sharing und Translationsinvarianz sind die wesentlichen Eigenschaften.
11.3 Pooling
Pooling-Schichten reduzieren die räumliche Auflösung und schaffen Translationsrobustheit.
11.4 Aktivierungsfunktionen
Nichtlineare Aktivierungsfunktionen sind notwendig, damit tiefe Netze ausdrucksstärker als lineare Modelle sind. ReLU und Varianten werden bevorzugt, weil sie besseren Gradientenfluss ermöglichen.
12. PyTorch und praktische Deep-Learning-Workflows
12.1 PyTorch-Grundlagen
PyTorch-Tensoren, automatische Differenzierung (autograd), Module und Trainingsschleifen.
12.2 Datenvorbereitung und Training
Datasets und DataLoader, TensorBoard-Visualisierung, Checkpoints. Overfitting und Underfitting: Diagnose und Gegenmaßnahmen wie Datenaugmentierung.
12.3 Datenaugmentierung
Techniken wie horizontale Spiegelung, Zufallsausschnitte und Helligkeitsvariation zur Verbesserung der Generalisierung. Bilineare Interpolation für Skalierungsoperationen.
13. Zusammenfassung der Themen
Die Vorlesung deckt vollständig ab:
- Definitionen von Intelligenz und KI, historische Entwicklung,
- Differentialrechnung, Gradienten, numerische Optimierung,
- Lineare und logistische Regression, Regularisierung,
- Support Vector Machines, Soft-Margin-SVM, Kernel-Trick, Kernel-Regression,
- Verlustfunktionen für Regression und Klassifikation, Entropie, KL-Divergenz,
- Klassifikationsmetriken, Konfusionsmatrizen, ROC-Kurven,
- McCulloch-Pitts-Neuronen, Perzeptren, mehrschichtige Perzeptren, Backpropagation,
- SGD und Mini-Batches, Faltung für Bilddaten, Pooling, Aktivierungsfunktionen,
- PyTorch: Tensoren, Autograd, Module, Trainingsschleifen, Datasets, TensorBoard, Checkpoints,
- Overfitting/Underfitting, Datenaugmentierung, bilineare Interpolation.
