Inferencia

Usar un modelo entrenado para producir salidas con nuevas entradas: después de que el entrenamiento ha terminado (también llamado despliegue o paso hacia adelante en muchas configuraciones).

La inferencia es la computación en tiempo de ejecución: dada una entrada, ejecutar el paso hacia adelante para obtener predicciones, texto, embeddings o acciones. Los factores de coste son la latencia, el rendimiento, la memoria y a veces el precio por token para LLMs alojados.

Es conceptualmente separada del entrenamiento, aunque algunos sistemas intercalan aprendizaje en línea en raras ocasiones en pilas de seguridad de producción.