Transformer (arquitectura)

Modelo de secuencia neuronal construido principalmente sobre atención: paralelizable y fundacional para los LLM desde "Attention Is All You Need" (2017).

La arquitectura Transformer reemplazó muchos motivos recurrentes con autoatención: cada token atiende a los demás para construir vectores contextuales. Existen variantes solo codificador, solo decodificador e híbridos codificador–decodificador (BERT, GPT causal, etc.).

Casi todos los grandes modelos de lenguaje (LLM) contemporáneos usan transformers a escala: preentrenados en corpus de tokens, luego opcionalmente ajustados para chat o herramientas.