Open weight LLMs

Open weight LLMs er en ydelse fra Lodværk, hvor vi tilpasser, komprimerer og hoster åbne sprogmodeller, Llama, Mistral, Qwen, Gemma, DeepSeek m.fl., på jeres egen infrastruktur eller i en EU region. Modellernes vægte er frit tilgængelige under tilladende licenser, så de kan finjusteres til jeres data og køres uden at data forlader jeres kontrol. Lodværk står for hele forløbet: modelvalg, fine tuning, kvantisering, serveringslag og drift.

Lodværk er et leveringshus for AI-automation og dataløsninger til danske mellemstore virksomheder.

Hvad er open weight LLMs, og hvilket problem løser de?

En open weight LLM er en sprogmodel, hvor selve modellens vægte er frit tilgængelige under en tilladende licens som Apache 2.0 eller MIT. Det omfatter modelfamilier som Llama, Mistral, Qwen, Gemma og DeepSeek. Forskellen til en lukket API tjeneste er afgørende: i stedet for at sende jeres prompts til en ekstern udbyder kan I downloade modellen, finjustere den til jeres egne data, komprimere den til billigere hardware og køre den helt inden for jeres eget miljø.

Det løser tre konkrete problemer. For det første datakontrol, prompts og output forlader aldrig jeres infrastruktur, hvilket er relevant under GDPR og EU AI Act. For det andet tilpasning, modellen kan trænes til et bestemt fagområde, sprog eller svarformat på en måde, en generel API model ikke tillader. For det tredje forudsigelige omkostninger ved høje, stabile volumener, hvor egen drift kan blive billigere end løbende API betaling.

Konkrete use cases for danske virksomheder

For en advokat- eller revisionsvirksomhed kan en selvhostet model læse, opsummere og udkaste dokumenter, uden at fortroligt klientmateriale nogensinde sendes ud af huset. I sundheds- og finanssektoren gælder det samme for journaldata og kundeoplysninger, hvor en ekstern udbyder ofte slet ikke er en farbar vej. En offentlig myndighed kan køre en model i en dansk eller EU region og dokumentere databehandlingen til brug for tilsyn.

Mere generelt er det oplagt, hvor en model skal beherske dansk fagsprog godt, eller hvor den indgår i RAG løsninger, klassifikation eller agentopgaver med store, faste forbrug. En model finjusteret med LoRA på virksomhedens egne sager rammer typisk mere præcist på netop de opgaver end en generel model, der skal kunne lidt af alt.

Pris og planer i grove træk

Open weight LLMs hos Lodværk er projektbaseret og afregnes efter aftale. Et fine tuning forløb på lejet GPU kapacitet ligger normalt i størrelsesordenen 10.000 til 25.000 kr. i ren beregningstid. Hardware til drift spænder bredt, fra omkring 15.000 kr. for et enkelt grafikkort til 100.000 kr. og opefter for en arbejdsstation med flere kort. Dertil kommer løbende drift, der typisk kræver 10 til 20 timers ingeniørtid om måneden.

Det vigtige er at regne den fulde ejeromkostning med: hardware, strøm og bemanding, ikke kun beregningstiden. De konkrete tal afhænger af modelstørrelse, volumen og krav til oppetid, og Lodværk giver et fast tilbud efter en behovsafklaring.

Sammenligning med alternativer

Det nærmeste alternativ er lukkede API modeller som OpenAI GPT, Anthropic Claude og Google Gemini. De er hurtigere at komme i gang med og kræver ingen drift, men data forlader jeres miljø, og I er afhængige af udbyderens priser og vilkår. Til gengæld ligger de bedste lukkede modeller fortsat lidt foran på de sværeste ræsonnement- og agentopgaver, og API priserne er faldet markant, omkring 80 procent fra 2025 til 2026.

Et mellemtrin er EU hostede inferens gateways som Mistral, Apertus eller regolo.ai, der giver GDPR venlig adgang uden egen hardware. Endelig findes selvbetjeningsværktøjer som Ollama og LM Studio, der er udmærkede til prototyper og lokal kørsel, men ikke leverer den tilpasning og produktionsdrift, en virksomhedsløsning kræver.

Hvem passer det til, og hvornår bør man vælge noget andet?

Open weight LLMs passer bedst til virksomheder med følsomme data, hvor prompts ikke må sendes til en ekstern udbyder, og til teams med høje, stabile volumener, hvor egen drift over tid bliver billigere end API betaling. Det er også oplagt, når en model skal finjusteres tungt til et bestemt domæne eller sprog, eller når datasuverænitet og AI Act dokumentation er et krav.

Omvendt er selvhosting sjældent vejen ved lave til moderate volumener. Break even ligger ofte først ved millioner af tokens om dagen, og for de fleste mindre virksomheder vil et API eller en EU gateway være både billigere og enklere. Tjek desuden licensen for hver model, de fleste tillader kommerciel brug, men ikke alle er reelt open source, og enkelte har begrænsninger ved meget store brugertal.

Sådan kommer I godt i gang

Forløbet begynder med en behovsafklaring: hvilke opgaver skal modellen løse, hvor følsomme er data, og hvor stort er det forventede forbrug? Derefter vælges og benchmarkes en model mod jeres konkrete opgaver, før den eventuelt finjusteres på jeres egne data og kvantiseres til INT8, INT4 eller FP8, så den kan køre på billigere hardware. Til sidst sættes et serveringslag op, typisk vLLM eller SGLang med et OpenAI kompatibelt API, efterfulgt af drift, overvågning og opdatering, eller en overdragelse til jeres eget team.

Lodværk kan stå for hele forløbet og rådgive uvildigt om, hvorvidt selvhosting overhovedet er det rigtige valg for jer, eller om et API eller en EU gateway løser opgaven bedre. Det vigtigste er, at beslutningen hviler på et reelt regnestykke og jeres faktiske krav til datakontrol, ikke på et ønske om at hoste for hostingens skyld.

Hurtigt overblik

Nøglefunktioner

Modelvalg og benchmarking mod jeres konkrete opgaver (kodning, RAG, agenter, klassifikation)
Fine tuning og domænetilpasning på egne data, typisk med LoRA/QLoRA for lavere omkostninger
Kvantisering til INT8/INT4/FP8, reducerer modelstørrelsen 4 til 8x og muliggør drift på billigere GPU'er
Selvhosting i eget datacenter eller EU region med vLLM/SGLang og OpenAI kompatibelt API
Fuld datasuverænitet: prompts og output forlader aldrig jeres miljø (GDPR og EU AI Act)
Drift, overvågning og opdatering, eller overdragelse til jeres eget team

Pris

Projektbaseret / efter aftale. Fine tuning på lejet GPU kapacitet ligger typisk omkring 10.000 til 25.000 kr. i beregningstid; driftshardware fra ca. 15.000 kr. (én RTX 5090) til 100.000+ kr. for en flergrafikkort opsætning. Løbende drift kræver normalt 10 til 20 timers ingeniørtid pr. måned. Fast tilbud efter behovsafklaring.

Model: Projektbaseret / efter aftale

Bedst til

Virksomheder med følsomme data (jura, sundhed, finans, offentlig sektor), hvor prompts ikke må sendes til en ekstern udbyder, samt teams med høje, stabile forbrugsvolumener hvor egen drift bliver billigere end API betaling. Også oplagt ved tung domæne- eller sprogtilpasning og når EU datasuverænitet og AI Act dokumentation er et krav.

Vær opmærksom på

Selvhosting er sjældent billigere end et API ved lave til moderate volumener, break even ligger ofte først ved millioner af tokens om dagen, og API priserne er faldet ~80 % fra 2025 til 2026. Regn den fulde ejeromkostning med (hardware, strøm, ingeniørtimer), ikke kun beregningstiden. Åbne modeller halter typisk lidt efter de bedste lukkede frontier modeller på de sværeste opgaver. Tjek licensen for hver model, de fleste tillader kommerciel brug, men ikke alle, og nogle har begrænsninger ved store brugertal.

Alternativer

Lukkede API modeller (OpenAI GPT, Anthropic Claude, Google Gemini)EU hostede inferens gateways (Mistral, Apertus, regolo.ai)Selvbetjeningsværktøjer som Ollama eller LM Studio til prototyper

Andre i AI modeller

OpenAI

Markedsledende sprog-, billed- og videomodeller via ChatGPT og API.

Anthropic Claude

Sikkerhedsfokuseret sprogmodel familie til chat, kode og automatisering.

Google Gemini

Googles flagskibs AI model og assistent med dyb Workspace integration

Næste skridt

Skal vi bygge noget med Open weight LLMs?

Vi rådgiver om, hvordan Open weight LLMs passer til jeres opgave, bygger løsningen og overdrager den med dokumentation, så jeres egne folk driver den videre.

Book screening om Open weight LLMs Se hele AI modeller Svar inden for et par hverdage · Ingen binding