Transformer (Architektur)

Neuromodell für Folgen, stark auf Attention basierend; Basis moderner Großmodelle („Attention Is All You Need“, 2017).

Transformer ersetzt vielerorts RNN-Schleifen durch Attention: Token bauen ihre Darstellung relativ zu anderen Tokens parallel nutzbar bei großen Sequenzlängen mit moderner Hardware.

Praktisch bilden diese Blöcke heute fast alle relevanten Large Language Models und vieles andere aus Embedding, Schicht-Stapel und Ausgabe-Projektion bestehen oft aus Transformer-Unterbau.