Reinforcement Learning (RL)

Lernen durch Belohnungen aus Interaktion: Spiele, Robotik und Teile vom LLM-Alignment.

Reinforcement Learning lernt Strategien („Policies“), indem eine Umgebung Aktionen bewertet oft verzögert, oft mit Simulation.

In der Moderne relevant für AlphaGo und andere Spiele sowie Alignment großer Modelle etwa Präferenzdaten (RLHF mit PPO), nicht zu verwechseln mit überwachtem Lernen über feste Eingabe-Ausgabe-Paare.