Aprendizaje por refuerzo (RL)
Aprender políticas mediante recompensas o puntuaciones al interactuar con un entorno: fundamental para juegos, robótica y algunos ajustes de LLM tipo RLHF.
El RL optimiza comportamientos a través de señales de prueba: recompensas tardías dispersas, trampas de exploración vs. explotación, simulaciones.
El alineamiento moderno de LLM a veces usa etapas tipo RL, por ejemplo modelos de preferencias RLHF, junto con registros supervisados.