Testset-Leckagen und Dekontamination in der Bewertung von Large Language Models

Testset-Leckagen und Dekontamination in der Bewertung von Large Language Models
Nikki Schröder 7 Juli 2025 1 Kommentare

Stellen Sie sich vor, Sie bewerten einen Kandidaten für einen Job, aber er hat die Fragen vorher gesehen. Sie geben ihm eine Prüfung, er besteht mit 90 % - doch das hat nichts mit seinem Können zu tun, nur mit Auswendiglernen. Genau das passiert bei vielen Large Language Models (LLMs) heute. Die gängigen Benchmarks, die uns sagen sollen, wie gut ein Modell denkt, sind oft durch die Daten, mit denen sie trainiert wurden, kontaminiert. Die Leistungszahlen sind künstlich hoch - und das verfälscht alles: Forschung, Kaufentscheidungen, sogar regulatorische Prüfungen.

Was ist Testset-Leckage wirklich?

Testset-Leckage, auch Datenkontamination genannt, passiert, wenn Fragmente aus einem Benchmark-Testset - also die Fragen, die ein Modell bewerten sollen - unbeabsichtigt in den Trainingsdaten eines LLMs auftauchen. Das ist kein Fehler, den man leicht vermeidet. Viele LLMs werden mit riesigen, unstrukturierten Datenmengen aus dem Internet trainiert - und da sind auch die Antworten zu den Fragen von MMLU, HellaSwag oder HumanEval zu finden. Wenn ein Modell diese Fragen im Training gesehen hat, merkt es sich die Lösungen. Beim Test dann zeigt es eine hohe Genauigkeit - aber nicht weil es versteht, sondern weil es auswendig gelernt hat.

Ein Beispiel: GPT-4 erreichte 87,7 % beim Original-HumanEval, einem Coding-Benchmark. Doch als Forscher von PromptLayer eine dekontaminierte Version, HumanEval T, einsetzten - bei der die Aufgaben dynamisch umformuliert wurden - fiel die Leistung auf 69,5 %. Das ist ein Verlust von 18,2 Prozentpunkten. Nicht weil das Modell schlechter wurde. Sondern weil die ursprüngliche Bewertung falsch war.

Wie wird Leckage nachgewiesen?

Es gibt mehrere Methoden, um zu prüfen, ob ein Modell kontaminiert ist. Eine der zuverlässigsten ist die TS-Guessing-Methode. Dabei wird das Modell nicht einfach nach der richtigen Antwort gefragt, sondern nach dem fehlenden Teil einer Frage oder einer fehlenden Antwortoption. Ein Modell, das die Originalfrage im Training gesehen hat, kann diese Lücken mit 65-85 % Genauigkeit erraten. Ein sauberes Modell kommt nur auf 25-40 %. Das ist kein Zufall - das ist ein klarer Hinweis auf Kontamination.

Auch Perplexity-Messungen helfen. Wenn ein Modell eine Frage sehr gut vorhersagen kann - also eine sehr niedrige Perplexity hat -, könnte das bedeuten, dass es diese genaue Formulierung schon einmal gesehen hat. Forscher wie Ruijie Xu und sein Team haben einen automatisierten Pipeline entwickelt, der diese Signale analysiert. Sie haben 31 LLMs untersucht und festgestellt: In 7 von 10 Fällen war die Leistung auf gängigen Benchmarks um 15-30 % künstlich aufgebläht.

Was passiert, wenn man dekontaminierte Benchmarks nutzt?

Wenn man echte, kontaminationsfreie Tests einsetzt, ändert sich das Bild komplett. MMLU, ein Benchmark mit 57 Themen von Geschichte bis Biologie, zeigt auf dem Originaltest Werte von 75-85 %. Doch nach Decontamination sinkt der Wert auf 45-55 %. Das bedeutet: 60-75 % der scheinbaren Leistung kamen nur aus Auswendiglernen, nicht aus Verständnis.

TruthfulQA, ein Benchmark, der prüft, ob ein Modell ehrlich antwortet, zeigt ähnliche Effekte. Ein Modell, das auf dem Originaltest 60 % erreicht, fällt auf 35-45 %, wenn die Fragen neu generiert wurden. Das ist kein geringer Unterschied - das ist der Unterschied zwischen einem Modell, das lügt, weil es die richtige Antwort auswendig kennt, und einem, das tatsächlich versucht, wahrheitsgemäß zu antworten.

Die Folge? Unternehmen, die auf diese falschen Zahlen vertrauen, kaufen falsche Modelle. Ein Team von einem Finanzdienstleister berichtete auf Reddit, dass sie nach der Entdeckung einer 22-Punkte-Lücke zwischen normalem MMLU und ihrem eigenen dekontaminierten Test den Anbieter gewechselt haben. Sie hatten drei Monate damit verbracht, ein Modell zu optimieren - nur um festzustellen, dass es auf echten Aufgaben versagte.

Ein Ingenieur analysiert Datenlecks in einem Labor, während künstlich aufgeblähte Benchmark-Werte neben echten Messungen erscheinen.

Warum ist das ein Problem für die Industrie?

Die KI-Branche hängt von Benchmarks ab. Sie bestimmen, welches Modell als „bester“ gilt. Sie beeinflussen Forschungsförderung, Investitionen und sogar regulatorische Zulassungen. Wenn die Messlatte manipuliert ist, dann wird alles falsch bewertet.

Die Association for Computational Linguistics (ACL) hat im August 2024 offiziell empfohlen, nur noch private Evaluation-Sets für neue Forschung zu nutzen. Die EU hat mit dem AI Act im November 2024 sogar gesetzlich verlangt, dass Anbieter von Hochrisiko-KI-Systemen nachweisen können, dass ihre Benchmarks dekontaminiert sind.

Und doch: Viele Unternehmen setzen weiterhin auf öffentliche Benchmarks. Warum? Weil es einfach ist. Ein dekontaminiertes Set selbst zu bauen, kostet 200-300 Stunden Expertenarbeit pro Benchmark. Ein Team von fünf Ingenieuren brauchte vier Monate und 120.000 US-Dollar, um ein spezifisches Set für den Finanzsektor zu erstellen. Das ist kein Aufwand, den jeder tragen kann.

Was sind die Lösungsansätze?

Es gibt zwei Wege: Entweder man nutzt bereits existierende dekontaminierte Benchmarks - oder man baut eigene.

Die gute Nachricht: Es gibt sie. MMLU-Hard, veröffentlicht im Oktober 2024, ist eine schwerere, dekontaminierte Version von MMLU. CodeEval-Hard von BigCode tut dasselbe für Programmieraufgaben. Diese Sets sind öffentlich, und sie zeigen die echte Leistung - nicht die künstlich aufgeblasene.

Die bessere Lösung aber ist: combinatorial test design. Statt feste Fragen zu verwenden, generiert man Aufgaben dynamisch aus Templates. Ein Beispiel: Anstatt „Was ist die Hauptstadt von Frankreich?“ zu fragen, wird aus einem Muster wie „Was ist die Hauptstadt von [Land]?“ Tausende Variationen erzeugt - mit Ländern, die nie im Training vorkamen. PromptLayer hat diese Methode angewendet und die manuelle Arbeit für Testgenerierung um 70 % reduziert.

Einige Anbieter wie AWS Bedrock Evaluation oder PromptLayer’s Evaluation Suite bieten heute schon Tools an, die automatisch Kontamination prüfen. Aber Vorsicht: Viele dieser Plattformen sind nicht transparent. Sie sagen nicht, wie genau sie dekontaminieren. Das ist wie ein Auto, das „sicher“ ist - aber niemand weiß, warum.

Eine neue Generation dekontaminierter Benchmarks wächst als Baum, während Fachleute handgeprüfte Fragen nutzen, um echte Leistung zu messen.

Was bleibt, wenn man keine Ressourcen hat?

Sie brauchen kein eigenes Team, um mit dekontaminierten Benchmarks zu arbeiten. Fangen Sie klein an:

  1. Prüfen Sie, ob Ihr Modell auf MMLU-Hard oder HumanEval T deutlich schlechter abschneidet als auf dem Original.
  2. Wenn ja: Ihre Leistungszahlen sind verfälscht. Ignorieren Sie die öffentlichen Benchmarks.
  3. Verwenden Sie MMLU-Hard oder CodeEval-Hard als neue Referenz.
  4. Wenn Sie ein spezifisches Problem lösen (z. B. medizinische Diagnose), erstellen Sie drei bis fünf eigene, handgeprüfte Fragen - und testen Sie Ihr Modell nur darauf.

Das ist kein perfekter Weg - aber er ist realistisch. Und er ist ehrlich.

Die Zukunft: Fragmentierung oder Fortschritt?

Die Zukunft der LLM-Bewertung ist nicht eine einzige, universelle Liste von Aufgaben. Die Zeiten von „GPT-4 ist besser als Claude 3“ sind vorbei. Jede Branche braucht ihre eigenen Tests. Finanzdienstleister testen mit juristischen und finanziellen Szenarien. Krankenhäuser mit medizinischen Fragebögen. Versicherungen mit Betrugsszenarien.

Das führt zu einem Problem: Kein Modell lässt sich mehr leicht vergleichen. Dr. Yoav Goldberg vom Allen Institute warnt vor einem „Turm von Babel“ in der KI-Bewertung. Aber es ist ein notwendiger Turm. Denn nur wenn Benchmarks wirklich das messen, was sie sollen - Verständnis, nicht Auswendiglernen -, können wir vertrauen, was die Modelle tun.

Die meisten Experten sind sich einig: Die alten Benchmarks sind kaputt. Die Frage ist nicht, ob wir sie ersetzen müssen - sondern wie schnell wir es tun.

Was Sie jetzt tun können

Wenn Sie ein LLM einsetzen - egal ob für Chatbot, Analyse oder Automatisierung - fragen Sie sich:

  • Woher kommen die Leistungszahlen, die mir jemand zeigt?
  • Wurden diese Zahlen auf einem dekontaminierten Set gemessen?
  • Was passiert, wenn ich die Aufgaben leicht verändere - bleibt die Leistung gleich?

Wenn Sie keine Antwort finden - dann sind Sie nicht am Ende einer technischen Entscheidung. Sie sind am Anfang einer Fehlentscheidung.

Die Zukunft gehört nicht dem Modell, das die höchste Zahl auf einem öffentlichen Benchmark hat. Die Zukunft gehört dem Modell, das auch dann noch funktioniert, wenn die Fragen neu sind - und niemand vorher die Antwort gesehen hat.

Was ist der Unterschied zwischen einem normalen Benchmark und einem dekontaminierten?

Ein normaler Benchmark verwendet Fragen, die oft aus demselben Datenpool stammen, aus dem das LLM trainiert wurde - das bedeutet, das Modell könnte die Antworten auswendig gelernt haben. Ein dekontaminiertes Benchmark hat diese Fragen entfernt oder neu generiert, sodass das Modell nicht einfach auswendig lernen kann. Es muss verstehen, um zu antworten - nicht memorieren.

Warum ist das ein Problem für Unternehmen?

Unternehmen vertrauen auf Benchmark-Zahlen, um Modelle auszuwählen. Wenn diese Zahlen künstlich hoch sind, kaufen sie Modelle, die in der Praxis versagen - etwa bei neuen Kundenfragen, unerwarteten Formulierungen oder veränderten Gesetzen. Das führt zu Fehlentscheidungen, finanziellen Verlusten und sogar rechtlichen Risiken, besonders in sensiblen Bereichen wie Medizin oder Finanzen.

Kann man Testset-Leckage mit Software automatisch erkennen?

Ja, aber nicht perfekt. Methoden wie TS-Guessing oder Perplexity-Analysen zeigen Anzeichen von Kontamination, aber sie haben eine Fehlerquote von bis zu 23 %, wie Google Research feststellte. Sie sind ein guter Hinweis - kein Beweis. Der sicherste Weg bleibt: Manuell generierte, neue Aufgaben, die nie im Training vorkamen.

Wie teuer ist es, ein eigenes dekontaminiertes Benchmark zu erstellen?

Ein einzelnes, qualitativ hochwertiges Benchmark-Set für einen spezifischen Bereich (z. B. Versicherungsrecht oder medizinische Diagnose) kostet typischerweise 200-300 Stunden Expertenarbeit. Das entspricht etwa 3-6 Monaten Vollzeitarbeit eines Teams mit 2-3 Personen. Die Kosten liegen oft zwischen 80.000 und 150.000 US-Dollar, je nach Komplexität und erforderlicher Validierung.

Gibt es kostenlose, vertrauenswürdige dekontaminierte Benchmarks?

Ja. MMLU-Hard (Oktober 2024) und CodeEval-Hard (Oktober 2024) sind öffentlich verfügbare, dekontaminierte Versionen bekannter Benchmarks. Sie wurden von Forschungsteams wie der BigCode-Initiative und der Stanford-Gruppe um Ruijie Xu entwickelt und sind auf GitHub verfügbar. Sie sind nicht perfekt, aber sie sind derzeit die zuverlässigsten öffentlichen Alternativen.

Warum verwenden nicht alle Unternehmen dekontaminierte Benchmarks?

Weil es zeitaufwändig, teuer und komplex ist. Viele Unternehmen sind mit öffentlichen Benchmarks vertraut - sie sind einfach zu nutzen, und viele Anbieter werben mit diesen Zahlen. Es ist einfacher, auf 85 % zu vertrauen, als 300 Stunden Arbeit in ein neues Set zu investieren. Aber das ist wie ein Autofahrer, der auf den Kilometerzähler vertraut, statt die Bremsen zu prüfen.

1 Kommentare

  • Image placeholder

    Birgit Lehmann

    Dezember 16, 2025 AT 23:26

    Endlich mal jemand, der das ausspricht. Ich hab letzte Woche ein Modell für unseren Kundenservice gekauft, das auf MMLU 83% geschafft hat. Nach drei Tagen im Einsatz hat es Kundenfragen wie "Was ist mein Kontostand?" mit "Die Hauptstadt von Frankreich ist Paris." beantwortet. Die Leckage ist kein theoretisches Problem – sie kostet Geld und Vertrauen.

Schreibe einen Kommentar