Hoppa till innehåll
Forskning

Sverige får en egen stor språkmodell — bygd i Linköping

Ett konsortium av svenska universitet och AI Sweden lanserar en öppen språkmodell tränad på 1,2 biljoner tokens svensk text.

Anna Lindqvist1 min läsning
Abstrakt illustration av neurala nätverk i rött och blått
Illustration · ArtificiellIntelligens.org

Det svenska AI-landskapet tog ett rejält kliv framåt denna vecka när AI Sweden tillsammans med Linköpings universitet presenterade Svea-70B, en öppen språkmodell med 70 miljarder parametrar tränad nästan uteslutande på nordisk text.

Varför det är viktigt

I flera år har svenska företag tvingats förlita sig på modeller från OpenAI, Anthropic och Google — alla optimerade primärt för engelska. Resultatet har varit en modell som hanterar svenska "tillräckligt bra", men sällan riktigt bra.

Vi vill inte att svenskan ska bli ett andra klassens språk i AI-eran, säger projektledaren Magnus Sahlgren.

Tekniska detaljer

Modellen är tränad på Berzelius-superdatorn i Linköping under nio månader. Träningskorpusen består av:

  • Hela svenska Wikipedia
  • Riksdagens protokoll från 1971 och framåt
  • Tidningsarkiv från Mediearkivet (med licens)
  • Öppen kod från svenska GitHub-utvecklare

Vad händer härnäst

Modellen släpps under en tillåtande licens som tillåter kommersiell användning, även av små företag. Forskarna planerar redan en multimodal version till nästa år.