Aprendizaje por refuerzo (RL)

Aprender políticas mediante recompensas o puntuaciones al interactuar con un entorno: fundamental para juegos, robótica y algunos ajustes de LLM tipo RLHF.

El RL optimiza comportamientos a través de señales de prueba: recompensas tardías dispersas, trampas de exploración vs. explotación, simulaciones.

El alineamiento moderno de LLM a veces usa etapas tipo RL, por ejemplo modelos de preferencias RLHF, junto con registros supervisados.