Hoppa till innehåll
Politik

Tio myndigheter går samman för svenskt LLM-träningsdataset

Riksarkivet, SCB och åtta andra myndigheter släpper ett öppet, kvalitetsgranskat textkorpus.

Erik Holmberg1 min läsning
Bokhylla i Riksarkivet
Illustration · ArtificiellIntelligens.org

Ett samarbete mellan tio svenska myndigheter resulterar nu i Öppen Svenska — ett offentligt textkorpus om 200 miljarder tokens, kurerat för LLM-träning.

Licens

Korpuset släpps under CC-BY 4.0 och får användas även kommersiellt.