Tio myndigheter går samman för svenskt LLM-träningsdataset
Riksarkivet, SCB och åtta andra myndigheter släpper ett öppet, kvalitetsgranskat textkorpus.
Erik Holmberg1 min läsning

Ett samarbete mellan tio svenska myndigheter resulterar nu i Öppen Svenska — ett offentligt textkorpus om 200 miljarder tokens, kurerat för LLM-träning.
Licens
Korpuset släpps under CC-BY 4.0 och får användas även kommersiellt.
