Reinforcement Learning (RL)

Lernen durch Belohnungen aus Interaktion: Spiele, Robotik und Teile vom LLM-Alignment.

Reinforcement Learning lernt Strategien („Policies“), indem eine Umgebung Aktionen bewertet oft verzögert, oft mit Simulation.

In der Moderne relevant für AlphaGo/Spiele sowie Ausrichtung großer Modelle etwa Präferenzdaten (RLHF), nicht zu verwechseln mit klassischem überwachtem Training über feste Eingabe-Ausgabe-Paare.