Guide: Bygg en RAG-pipeline för svenska dokument
Steg-för-steg-genomgång av chunking, embeddings och retrieval — anpassat för svensk text.
Johan Persson1 min läsning

Retrieval-augmented generation är ett av de snabbaste sätten att få en LLM att jobba mot dina egna dokument. Men de flesta tutorials antar engelska. Här är en svensk-specifik guide.
1. Chunking
Dela inte på fasta tokenantal — använd meningsgränser. Svenska sammansatta ord blir lätt sönderhackade annars.
2. Embeddings
KB-BERT och Voyage Multilingual 3 presterar markant bättre på svensk text än de vanliga OpenAI-modellerna.
3. Reranking
En cross-encoder på topp-20 kandidater ger ofta störst kvalitetsvinst per krona.