Hoppa till innehåll
Verktyg

Guide: Bygg en RAG-pipeline för svenska dokument

Steg-för-steg-genomgång av chunking, embeddings och retrieval — anpassat för svensk text.

Johan Persson1 min läsning
Diagram av en RAG-pipeline
Illustration · ArtificiellIntelligens.org

Retrieval-augmented generation är ett av de snabbaste sätten att få en LLM att jobba mot dina egna dokument. Men de flesta tutorials antar engelska. Här är en svensk-specifik guide.

1. Chunking

Dela inte på fasta tokenantal — använd meningsgränser. Svenska sammansatta ord blir lätt sönderhackade annars.

2. Embeddings

KB-BERT och Voyage Multilingual 3 presterar markant bättre på svensk text än de vanliga OpenAI-modellerna.

3. Reranking

En cross-encoder på topp-20 kandidater ger ofta störst kvalitetsvinst per krona.