Reinforcement Learning (RL)
Lernen durch Belohnungen aus Interaktion: Spiele, Robotik und Teile vom LLM-Alignment.
Reinforcement Learning lernt Strategien („Policies“), indem eine Umgebung Aktionen bewertet oft verzögert, oft mit Simulation.
In der Moderne relevant für AlphaGo/Spiele sowie Ausrichtung großer Modelle etwa Präferenzdaten (RLHF), nicht zu verwechseln mit klassischem überwachtem Training über feste Eingabe-Ausgabe-Paare.