Tag: Datenkontamination
Testset-Leckagen und Dekontamination in der Bewertung von Large Language Models
Testset-Leckagen verfälschen die Leistungsmessung von LLMs, indem Trainingsdaten Benchmark-Fragen enthalten. Decontamination ist der einzige Weg, echte Fähigkeiten zu messen - nicht Auswendiglernen.