Génération augmentée par récupération (RAG)

Combiner un récupérateur sur des documents ou outils avec un LLM générateur pour que les réponses puissent citer un contexte plus frais ou privé.

Le RAG récupère des fragments pertinents à partir d’un index, d’une base de données vectorielle ou d’un corpus et conditionne le décodage du LLM sur ce contexte dans des pipelines de NLP, réduisant la dépendance au seul savoir paramétrique mémorisé.

Compromis : qualité de la récupération, latence, adéquation au prompt, attribution et injection de prompt indirecte dans les textes récupérés ; l’ancrage nécessite encore une révision humaine pour les faits à enjeux élevés.