Transformer

Neural nätverksarkitektur baserad på self-attention som utgör grunden för alla moderna stora språkmodeller.

Vad är en Transformer?

En transformer är en typ av neuralt nätverk som revolutionerade AI genom att introducera self-attention-mekanismen. Publicerad i Googles banbrytande artikel “Attention Is All You Need” 2017, har den ersatt tidigare arkitekturer som RNN och LSTM som standard för språkbehandling.

Hur fungerar det?

Transformern bearbetar hela textsekvenser parallellt, till skillnad från äldre modeller som läste ord för ord. Kärnan är self-attention — en mekanism som låter varje ord “se” alla andra ord i texten och beräkna hur relevanta de är för varandra. Detta fångar långdistansberoenden som äldre modeller missade.

Varför är det viktigt?

Alla moderna AI-modeller — GPT-4o, Claude, Gemini, Llama — bygger på transformer-arkitekturen. Den möjliggjorde den skalning som ledde till dagens stora språkmodeller med hundratals miljarder parametrar.

Vad är en Transformer?

Hur fungerar det?

Varför är det viktigt?

Relaterade begrepp