Apprentissage par renforcement (RL)
Apprendre des politiques via des récompenses ou scores en interagissant avec un environnement : fondamental pour les jeux, la robotique et certains ajustements de LLM de type RLHF.
Le RL optimise les comportements par des signaux d’essai : récompenses tardives éparses, pièges exploration vs. exploitation, simulations.
L’alignement moderne des LLM utilise parfois des étapes de type RL, par exemple des modèles de préférences RLHF, en complément des logs supervisés.