Einführung in Reinforcement Learning

Dozent:	Martin Gottwald
Assistenten:	-
Kontakt:	martin.gottwald(at)tum.de
Zielgruppe	Wahlfach Bachelor EI
ECTS:	6
Umfang:	2/2 (SWS Vorlesung / Integrierte Überung)
Turnus:	Sommer
Anmeldezeitraum:	23.03.2025 - 14.07.2025
Zeit und Ort:
Vorlesung	Donnerstags von 9:45 bis 11:15 im Z995 (NavigaTUM)
Integrierte Übungen	Dienstags von 15:00 bis 16:30 im Z995 (NavigaTUM)
	Achtung: Keine Scharfe Trennung zwischen Vorlesung und Übung

Kurzfristige Ankündigungen

Keine (Stand 23. April 2025)

Inhalt

Eine perfekte Beschreibung für einen Reinforcement-Learning-Agenten von Randall Munroe (xkcd.com)

Reinforcement Learning (RL) ist ein vielseitiger Ansatz zur Lösung von Problemen der sequentiellen Entscheidungsfindung. Ein Agent interagiert mit seiner Umgebung und nutzt seine Erfahrung, um Entscheidungen zu treffen, welche zur Lösung des Problems beitragen. Reinforcement Learning hat sich in der Forschung und in verschiedenen Anwendungen wie der datengestützten Regelung in der Robotik, der Entwicklung von Strategien für bspw. Brettspiele, des Managements von Netzwerkverkehrs und der Computerintelligenz bewährt. Zu den jüngsten Erfolgen von RL zählen unter anderem die Programme ChatGPT oder AlphaGo.

Diese Vorlesung gibt einen Überblick über die grundlegenden Konzepte, verschiedene praktischen Techniken und die Programmierwerkzeuge, die beim Reinforcement Learning verwendet werden. Sie konzentriert sich zunächst auf die Anwendungsaspekte des Themas, wie z.B. die Herausforderungen bei der Realisierung in Computern und eine (ausreichend) performante Implementierungen. Zusätzlich wird aber auch Reinforcement Learning an sich vorgestellt und die Entwicklung von Algorithmen thematisiert.

Als Problemstellung für den Kurs dient die Steuerung eines Aufzugs. Diese stellt ein ausreichend kleines Entscheidungsproblem dar, welches im Rahmen der Vorlesung in kurzer Zeit lösbar ist. Dennoch ist solch eine Steuerung bereits an sich interessant und nicht mehr nur ein reines Spielzeugproblem.

Die Veranstaltung ist so konzipiert, dass sie die Grundlagen für eine spätere theoretische Behandlung des Themas ermöglicht. Für einen tiefen Einstieg in das Themenfeld (mathematische Herleitungen, Konvergenzbeweise und
Herleitung von Fehlergrenzen) können interessierte Studentinnen und Studenten die Master-Vorlesung „Approximate Dynamic Programming and Reinforcement Learning“ im Wintersemester besuchen.

In dieser Vorlesung werden die folgenden Themen behandelt:

Markov-Entscheidungsprozesse als Sprache zur Formulierung von Entscheidungsproblemen
Implementierung des Simulators bzw. dynamischen Systems
Verschiedenste Algorithmen zur Lösung:
- Dynamische Programmierung (Value- und Policy-Iteration)
- Monte-Carlo-Methoden
- Temporal Difference Learning (SARSA und Q-Learning)
- Lineare Funktionsapproximation

Lehr- und Lernmethode

Die Vorlesung besteht teilweise aus Frontalunterricht mit Tafel und Beamer-Folien, aber auch aus Gruppen- und Einzeldiskussionen, um neue Definitionen und Konzepte anhand einfacher Beispiele zu lernen.

In der Übung werden die Studierenden zwar geführt, sollen aber dennoch die
Inhalte der Vorlesung eigenständig im Computer umsetzen.

Ein tiefgreifendes Verständnis für die Thematik entsteht bei der Bearbeitung
der Realisierung der Aufzugsteuerung (vgl. oben), welche parallel zu den
Vorlesungen und Übungen während des Semesters voranschreitet.

Teilnahmekriterien & Anmeldung

Erfolgt über TUMonline

Literatur

Sutton, R. S. & Barto, A. G., Reinforcement Learning: An Introduction. The MIT Press, 1998 (or the new version)
Bertsekas, D. P. & Tsitsiklis, J., Neuro-dynamic programming. Athena Scientific, 1996
Bertsekas, D. P., Dynamic Programming and Optimal Control Vol. 1 & 2.
Bertsekas, D. P, A Course in Reinforcement Learning, Athena Scientiﬁc, 2023
Szepesvári, S., Algorithms for Reinforcement Learning. Morgan & Claypool, 2010 (a draft)