Driving AI

Skal vi nu skifte AI model igen?

Evaluering af sprogmodeller - hvordan?

EuroEval
Dan Saattrup Smart · Principal AI Specialist · Alexandra Instituttet · 26. maj 2026
Tempoet

En ny model stort set hver uge

GPT
Claude
Gemini
Llama
Mistral
Qwen
DeepSeek
Kimi
GLM
Grok

Hver familie udgiver nye versioner flere gange om året. Hvordan følger man med?

Markedet

Alle siger de er bedst

"State-of-the-art performance across all major benchmarks."
"Outperforms all leading frontier models."

Hvem skal man tro? Og passer det også på dansk?

Hvad så?

Vi har brug for uvildig evaluering

Producenten skal ikke selv afgøre, om deres model er god nok.

EuroEval · Sådan virker det

Fra model til sammenlignelige tal

Model
HF, OpenAI, Anthropic, lokal
Opgaver
10 opgavetyper, samme protokol
Scoring
Robust, sammenlignelig
Leaderboard
Offentligt, sprog-opdelt
Pipeline · Model

Alle slags sprogmodeller

Encodere

BERT, RoBERTa, ModernBERT m.fl. Fintunes på hver opgave før evaluering.

Base decodere

Forhåndstrænede sprogmodeller uden instruction tuning. Evalueres via few-shot prompting.

Instruction-tuned decodere

GPT, Claude, Gemini, Llama-Instruct m.fl. Zero-shot eller few-shot via chat-format.

Reasoning-modeller

o1, DeepSeek-R1, Claude Thinking. Eksplicit tænkeproces før svar.

EuroEval · Sådan virker det

Fra model til sammenlignelige tal

Model
HF, OpenAI, Anthropic, lokal
Opgaver
10 opgavetyper, samme protokol
Scoring
Robust, sammenlignelig
Leaderboard
Offentligt, sprog-opdelt
Opgaver på dansk

Ti opgaver, samme protokol

💬Sentiment
🏷️Udtræk af information
✏️Grammatik
📖Læseforståelse
🎓Faktuel viden
🤔Common-sense ræsonnement
🔗Logisk slutning
🔤Ord i kontekst
📰Opsummering
🧭Følge instruktioner
EuroEval · Sådan virker det

Fra model til sammenlignelige tal

Model
HF, OpenAI, Anthropic, lokal
Opgaver
10 opgavetyper, samme protokol
Scoring
Robust, sammenlignelig
Leaderboard
Offentligt, sprog-opdelt
Scoring · Robusthed

Et enkelt tal er aldrig nok.

Hver model køres 10 gange på bootstrappede testsæt, så scoren kommer med et 95 %-konfidensinterval i stedet for et enkelt tal. Det øger troværdigheden.

Model A Model B Model C Model D Score

Ingen signifikant forskel på B og C. A er målbart bedst. D ligger klart bagest.

Aggregering

Sådan kombineres scoren på tværs af opgaver

Rangér

For hver opgave rangerer vi modellerne. Hvis to modeller ikke er statistisk forskellige, deler de samme rang.

Indkorporér standardafvigelser

I stedet for at bruge rangene direkte, udregner vi rank score, som også tager højde for hvis modellerne er tæt på eller langt fra hinanden.

En mode har rank score 1 + σ hvis den er σ standardafvigelser dårligere end den bedste model.

Hvorfor ikke bare gennemsnit?

Opgaverne måler forskellige ting i forskellige skalaer, så et gennemsnit vil give et bias imod metrikker, der varierer mere

EuroEval · Sådan virker det

Fra model til sammenlignelige tal

Model
HF, OpenAI, Anthropic, lokal
Opgaver
10 opgavetyper, samme protokol
Scoring
Robust, sammenlignelig
Leaderboard
Offentligt, sprog-opdelt
Demo · det danske leaderboard

Sådan ser det ud i praksis

EuroEval danish leaderboard
Indlæser leaderboard…
Sprogdækning

Alle Europas nationalsprog og flere på vej

Men…

Et højt tal er ikke det samme som tillid

En model kan løse opgaven og samtidig være forudindtaget, finde på fakta, eller misforstå europæisk kontekst.

Vi har brug for evalueringer, der måler andet end rå performance.

Ortogonale evalueringer

Tre dimensioner ud over præstation

Europæiske værdier

Forstår modellen den kulturelle og politiske kontekst, vi lever i?

Hallucination

Hvor ofte finder modellen på fakta, der lyder rigtige?

Bias

Behandler modellen forskellige grupper ens?

Ortogonal #1 · ValEU

Stemmer modellens svar overens med EU-borgerens?

European Values Study + World Values Survey

156.658 respondenter på tværs af Europa. Vi udvælger 53 spørgsmål, hvor der er bred EU-konsensus.

Modellen besvarer samme spørgsmål
13 værdidimensioner

Demokrati, lighed, tillid, civilt engagement m.fl.

34 europæiske sprog

Samme spørgsmål, lokaliseret.

Alignment-score

Hvor tæt ligger modellens svarfordeling på EU-borgerens?

Kilde: ValEU — European Values Benchmark, integreret i EuroEval. Data: EVS/WVS 2017-2022.
Ortogonal #2 · MultiWikiQHalluA

Hallucinations-raten stiger med sværere sprog

Sådan måles det

Modellen får et Wikipedia-uddrag og et spørgsmål. Hver token i svaret klassificeres som hallucineret eller ej, målt mod kilden.

30 europæiske sprog · 5.000 eksempler pr. sprog.

Qwen3-0.6B, token-niveau hallucinationsrate
Andel hallucinerede tokens
3 %
Engelsk
9 %
Tysk
17 %
Dansk
36 %
Islandsk
Op til 60 % af islandske svar indeholder mindst én hallucineret token.
Kilde: Thoresen & Smart (2026), arxiv.org/abs/2605.02504. På vej ind i EuroEval.
Ortogonal #3 · TrustLLM-bias

Skadelig bias varierer voldsomt mellem modeller

Rapporter
Institut for Menneskerettigheder, VIVE m.fl.
Grupper
Marginaliserede grupper udledes
Attributter
Stereotype udsagn pr. gruppe
Distraktorer
3 majoritetsgrupper tilføjes
Multiple-choice
Modellen vælger A/B/C/D
Skadelig bias Hvor ofte modellen vælger den marginaliserede gruppe ud af fire muligheder. Tilfældigt gæt er 25%, så vi normaliserer.

Omfang

7 dimensioner: køn, alder, etnicitet, religion, seksualitet, handicap, socioøkonomi.

Dansk: 5.404 eksempler, 30 grupper.

Skadelig bias på dansk
Skadelig bias (%)
10
Gemini-flash-lite
14
Gemini-flash
40
GPT-4o-mini
GPT-4o-mini lægger fire gange så meget sandsynlighedsmasse på den marginaliserede gruppe som Gemini-flash-lite.
Kilde: Smart (2025), TrustLLM Deliverable D7.4. På vej ind i EuroEval.
BYOB

Byg dit eget benchmark

my_eval.py
from euroeval import Benchmarker, DatasetConfig, TEXT_CLASSIFICATION
from euroeval.languages import DANISH

MY_CONFIG = DatasetConfig(
    name="min-eval",
    pretty_name="Min evaluering",
    source=dict(train="train.csv",
                val="val.csv",
                test="test.csv"),
    task=TEXT_CLASSIFICATION,
    languages=[DANISH],
    labels=["positive", "negative"],
)

Benchmarker().benchmark(
    model="din-model", dataset=MY_CONFIG,
)
train.csv
textlabel
Fantastisk service, kommer helt sikkert igen.positive
Maden var kold og personalet uvenligt.negative
val.csv
textlabel
Helt okay, ikke det bedste.positive
Skuffende kvalitet til prisen.negative
test.csv
textlabel
Bedste oplevelse i lang tid.positive
Aldrig mere, det var skuffende.negative

Understøtter alle indbyggede opgaver, inklusiv LLM-as-a-judge. Du kan også let lave din egen opgave.

Hvorfor det er vigtigt

Egne evalueringer slår generelle leaderboards

Realistisk

Test på data, der ligner det, modellen faktisk skal se i produktion.

Privat

Dine prompts og data ender ikke i et offentligt benchmark. Sværere at "game".

Sammenlignelig

Samme protokol som det offentlige leaderboard. Tal kan direkte sammenlignes.

Hvad skal man være opmærksom på

Benchmarks lyver på interessante måder

Kontaminering

Test-data lækker ind i træningsdata. Et godt benchmark-tal kan betyde, at modellen har set svaret før. Af samme grund udskifter vi ofte evalueringsdatasæt på leaderboards.

Vores anbefaling

Brug leaderboards til at lave en shortlist af kandidatmodeller. Test så disse modeller på din egen private data, før du vælger.

Tilbage til titlen

Skift model? Måske, men basér din beslutning på det, der betyder noget for dig

Det er ikke nok at være den bedste til benchmark X. Vælg på baggrund af din egen konkrete use-case.

Tak

Spørgsmål?

EuroEval
Dan Saattrup Smart · Alexandra Instituttet
euroeval.com contact link email@example.com