Einführung in Reinforcement Learning
Dozent: | Martin Gottwald |
Assistenten: | - |
Kontakt: | martin.gottwald(at)tum.de |
Zielgruppe | Wahlfach Bachelor EI |
ECTS: | 6 |
Umfang: | 2/2 (SWS Vorlesung / Integrierte Überung) |
Turnus: | Sommer |
Anmeldezeitraum: | 23.03.2025 - 14.07.2025 |
Zeit und Ort: | |
Vorlesung | Donnerstags von 9:45 bis 11:15 im Z995 (NavigaTUM) |
Integrierte Übungen | Dienstags von 15:00 bis 16:30 im Z995 (NavigaTUM) |
Achtung: Keine Scharfe Trennung zwischen Vorlesung und Übung |
Kurzfristige Ankündigungen
Keine (Stand 23. April 2025)
Inhalt
Reinforcement Learning (RL) ist ein vielseitiger Ansatz zur Lösung von Problemen der sequentiellen Entscheidungsfindung. Ein Agent interagiert mit seiner Umgebung und nutzt seine Erfahrung, um Entscheidungen zu treffen, welche zur Lösung des Problems beitragen. Reinforcement Learning hat sich in der Forschung und in verschiedenen Anwendungen wie der datengestützten Regelung in der Robotik, der Entwicklung von Strategien für bspw. Brettspiele, des Managements von Netzwerkverkehrs und der Computerintelligenz bewährt. Zu den jüngsten Erfolgen von RL zählen unter anderem die Programme ChatGPT oder AlphaGo.
Diese Vorlesung gibt einen Überblick über die grundlegenden Konzepte, verschiedene praktischen Techniken und die Programmierwerkzeuge, die beim Reinforcement Learning verwendet werden. Sie konzentriert sich zunächst auf die Anwendungsaspekte des Themas, wie z.B. die Herausforderungen bei der Realisierung in Computern und eine (ausreichend) performante Implementierungen. Zusätzlich wird aber auch Reinforcement Learning an sich vorgestellt und die Entwicklung von Algorithmen thematisiert.
Als Problemstellung für den Kurs dient die Steuerung eines Aufzugs. Diese stellt ein ausreichend kleines Entscheidungsproblem dar, welches im Rahmen der Vorlesung in kurzer Zeit lösbar ist. Dennoch ist solch eine Steuerung bereits an sich interessant und nicht mehr nur ein reines Spielzeugproblem.
Die Veranstaltung ist so konzipiert, dass sie die Grundlagen für eine spätere theoretische Behandlung des Themas ermöglicht. Für einen tiefen Einstieg in das Themenfeld (mathematische Herleitungen, Konvergenzbeweise und
Herleitung von Fehlergrenzen) können interessierte Studentinnen und Studenten die Master-Vorlesung „Approximate Dynamic Programming and Reinforcement Learning“ im Wintersemester besuchen.
In dieser Vorlesung werden die folgenden Themen behandelt:
- Markov-Entscheidungsprozesse als Sprache zur Formulierung von Entscheidungsproblemen
- Implementierung des Simulators bzw. dynamischen Systems
- Verschiedenste Algorithmen zur Lösung:
- Dynamische Programmierung (Value- und Policy-Iteration)
- Monte-Carlo-Methoden
- Temporal Difference Learning (SARSA und Q-Learning)
- Lineare Funktionsapproximation
Lehr- und Lernmethode
Die Vorlesung besteht teilweise aus Frontalunterricht mit Tafel und Beamer-Folien, aber auch aus Gruppen- und Einzeldiskussionen, um neue Definitionen und Konzepte anhand einfacher Beispiele zu lernen.
In der Übung werden die Studierenden zwar geführt, sollen aber dennoch die
Inhalte der Vorlesung eigenständig im Computer umsetzen.
Ein tiefgreifendes Verständnis für die Thematik entsteht bei der Bearbeitung
der Realisierung der Aufzugsteuerung (vgl. oben), welche parallel zu den
Vorlesungen und Übungen während des Semesters voranschreitet.
Teilnahmekriterien & Anmeldung
Erfolgt über TUMonline
Literatur
- Sutton, R. S. & Barto, A. G., Reinforcement Learning: An Introduction. The MIT Press, 1998 (or the new version)
- Bertsekas, D. P. & Tsitsiklis, J., Neuro-dynamic programming. Athena Scientific, 1996
- Bertsekas, D. P., Dynamic Programming and Optimal Control Vol. 1 & 2.
- Bertsekas, D. P, A Course in Reinforcement Learning, Athena Scientific, 2023
- Szepesvári, S., Algorithms for Reinforcement Learning. Morgan & Claypool, 2010 (a draft)