Transformer (Architektur)

Neuromodell für Folgen, stark auf Attention basierend; Basis moderner Großmodelle („Attention Is All You Need“, 2017).

Transformer ersetzt vielerorts RNN-Schleifen durch Attention: Token bauen ihre Darstellung relativ zu anderen Tokens parallel nutzbar bei großen Sequenzlängen mit moderner Hardware.

Praktisch bilden diese Blöcke heute fast alle relevanten Large Language Models für NLP: vortrainiert per Training, optional per Fine-Tuning für Chatbots oder Tools, danach Inferenz zur Laufzeit.