Inférence
Utiliser un modèle entraîné pour produire des sorties sur de nouvelles entrées : après la fin de l'entraînement (aussi appelé déploiement ou passe avant dans de nombreuses configurations).
L’inférence est le calcul en temps d’exécution : étant donné une entrée, on exécute la passe avant pour obtenir des prédictions, du texte, des embeddings ou des actions. Les facteurs de coût sont la latence, le débit, la mémoire et parfois le prix par token pour les LLMs hébergés.
Elle est conceptuellement distincte de l’entraînement, bien que certains systèmes intercalent rarement un apprentissage en ligne dans les piles de sécurité en production.