Transformer (architecture)

Modèle de séquence neuronal construit principalement sur l'attention : parallélisable et fondamental pour les LLM depuis « Attention Is All You Need » (2017).

L’architecture Transformer a remplacé de nombreux motifs récurrents par l’auto-attention : chaque token prête attention aux autres pour construire des vecteurs contextuels. Il existe des variantes encodeur seul, décodeur seul et hybrides encodeur–décodeur (BERT, GPT causal, etc.).

Presque tous les grands modèles de langage (LLM) contemporains utilisent des transformers à grande échelle : pré-entraînés sur des corpus de tokens, puis éventuellement ajustés pour le chat ou les outils.