Optimierer für Large Language Models: AdamW, Adafactor und Lion im Vergleich

Optimierer für Large Language Models: AdamW, Adafactor und Lion im Vergleich
Nikki Schröder 30 Juni 2025 0 Kommentare

Warum der richtige Optimierer beim Training von LLMs entscheidend ist

Wenn du ein großes Sprachmodell wie GPT oder LLaMA trainierst, dann ist der Optimierer nicht nur eine Nebensache - er bestimmt, ob dein Training erfolgreich ist oder ob es nach drei Tagen mit einem Out-of-Memory-Fehler abbricht. Es geht nicht darum, welcher Optimierer „besser“ ist. Es geht darum, welcher zu deinem Problem passt: Hast du viel Rechenleistung und wenig Speicher? Oder umgekehrt? Willst du die höchste Genauigkeit oder die niedrigsten Kosten?

Die drei meistgenutzten Optimierer heute - AdamW, Adafactor und Lion - haben jeweils ganz andere Stärken. AdamW ist der Klassiker, der in fast jeder wissenschaftlichen Arbeit auftaucht. Adafactor wurde für Speicherengpässe gebaut. Lion ist der neue Star, der besonders in der Industrie immer beliebter wird, weil er bis zu 40 % weniger Speicher braucht. Und trotzdem: Keiner von ihnen ist der perfekte Optimierer für alle Fälle.

AdamW: Der zuverlässige Allrounder

AdamW ist die Standardwahl für fast alle LLM-Forschungsprojekte. Entwickelt 2017 als Verbesserung des ursprünglichen Adam-Optimierers, löst es ein Problem, das viele frühere Optimierer ignorierten: Die Gewichtsdecay-Regularisierung wurde zuvor mit dem Lernraten-Update verknüpft. Das führte dazu, dass Modelle bei hohen Lernraten schlechter generalisierten. AdamW trennt diese beiden Prozesse - und das macht den Unterschied.

Es verwendet zwei moving averages pro Parameter: einen für den ersten Moment (die Richtung des Gradienten) und einen für den zweiten Moment (die Varianz). Das sorgt für eine stabile, adaptive Lernrate. Aber es hat einen Preis: AdamW benötigt dreimal so viel Speicher wie das Modell selbst. Bei einem 7B-Parameter-Modell bedeutet das: Du brauchst 21 GB zusätzlich nur für den Optimierer-Zustand.

Und trotzdem: In Benchmarks wie SuperGLUE und MMLU erreicht AdamW durchschnittlich 2-4 % höhere Genauigkeit als Lion oder Adafactor. Das ist nicht viel - aber in der Forschung zählt jede Prozentpunkte. In 78 % der NeurIPS 2024-Papers wurde AdamW als Standard verwendet. Es ist der sichere, bewährte Weg. Wenn du nicht weißt, welchen Optimierer du nehmen sollst - nimm AdamW. Es funktioniert. Meistens.

Adafactor: Der Speichersparer, der langsam läuft

Adafactor wurde von Google entwickelt, um große Transformer-Modelle auf GPUs mit begrenztem Speicher zu trainieren. Statt den vollen zweiten Moment zu speichern - also eine Matrix mit Tausenden von Werten pro Parameter - approximiert Adafactor ihn als äußeres Produkt zweier Vektoren. Das reduziert den Speicherverbrauch von 3x auf etwa 1,5x des Modellvolumens.

Das klingt perfekt - und ist es auch, wenn du nur eine einzige A100 hast und ein 13B-Modell trainieren willst. Aber es hat einen Haken: Es konvergiert langsamer. Laut einer Studie aus dem ACL Anthology 2025 schneidet Adafactor bei GPT-2-small um 3-5 % schlechter ab als AdamW in Bezug auf Verlustwerte. In einigen Fällen braucht es bis zu 12 % mehr Trainingsschritte, um das gleiche Ergebnis zu erreichen.

Und dann ist da noch das Problem mit der Lernrate. Viele Entwickler berichten auf Reddit und GitHub, dass Adafactor extrem empfindlich auf die Lernrate reagiert. Eine falsche Einstellung - und dein Training läuft in die falsche Richtung, ohne dass du es merkst. Ein Nutzer schrieb: „Drei Trainingsschritte gescheitert, bevor ich zurück zu AdamW gewechselt bin.“

Adafactor ist also kein Allzweckwerkzeug. Es ist eine Speziallösung für Leute, die keine Wahl haben. Wenn du Speicher sparst, opferst du Geschwindigkeit und Stabilität. Aber für große Modelle auf begrenzter Hardware? Noch immer eine der besten Optionen.

Ingenieur beobachtet drei Training-Kurven auf einem Monitor, mit Speicher- und Kosten-Indikatoren, umgeben von Servern und fehlgeschlagenen Logs.

Lion: Der neue, schnelle, speichersparende Star

Lion wurde 2023 durch eine evolutionäre Suche entdeckt - nicht von Menschen entworfen, sondern von einem Algorithmus, der Millionen von Update-Regeln ausprobierte und die einfachste, effektivste fand. Das Ergebnis: Ein Optimierer, der nur den ersten Moment speichert - und trotzdem genauso gut oder besser abschneidet als AdamW.

Seine Formel ist erstaunlich einfach: Sie nutzt das Vorzeichen des Momentums, nicht die tatsächlichen Werte. Keine Quadratwurzeln, keine Divisionen, keine zweiten Momente. Das bedeutet: Nur 2x Speicherbedarf gegenüber dem Modell - also 30-40 % weniger als AdamW. Und das hat Konsequenzen.

In der Studie vom Juli 2024 („Pre-Training LLMs on a Budget“) erreichte Lion die gleiche Perplexity wie AdamW, aber 18-22 % schneller. Ein Entwickler auf GitHub berichtete, dass er mit Lion bei einem 7B-Modell den Batch-Size um 2,1x erhöhen konnte - ohne Out-of-Memory-Fehler. Das spart nicht nur Zeit, sondern auch Geld: Ein 3B-Modell auf AWS p4d.24xlarge kostete mit Lion 18.500 US-Dollar weniger.

Und doch: Lion ist nicht einfach zu nutzen. Es braucht mehr Feinabstimmung. In der AdamS-Paper-Studie zeigte Lion unter Standard-Hyperparametern 25-30 % langsamere Konvergenz als AdamW. Es ist nicht „plug-and-play“. Du musst die Lernrate neu kalibrieren, manchmal auch die Momentum-Werte anpassen. Aber wenn du das schaffst - dann ist es der effizienteste Optimierer, den du heute verwenden kannst.

Wer gewinnt - und wofür?

Es gibt keinen klaren Gewinner. Aber es gibt klare Szenarien.

  • Für Forschung und höchste Genauigkeit: AdamW. Es ist der Goldstandard. Wenn du in einer Publikation deine Ergebnisse vergleichen willst - benutze AdamW. Die meisten anderen tun es auch.
  • Für Speicherengpässe mit ausreichender Zeit: Adafactor. Wenn du nur eine 24 GB-GPU hast und ein 13B-Modell trainieren willst - Adafactor ist deine einzige echte Option. Akzeptiere die langsamere Konvergenz.
  • Für Produktion und Kosteneffizienz: Lion. Wenn du monatlich Tausende von Dollar für GPU-Zeit ausgibst - und du bereit bist, ein bisschen mehr Zeit in die Konfiguration zu stecken - dann ist Lion der klügere Wahl. Google nutzt es bereits in Suchanzeigen-Modellen, wo Speicher und Latenz kritisch sind.

Ein weiterer Punkt: Die Architektur spielt eine Rolle. Die Studie aus dem Juli 2024 fand heraus, dass Lion bei LLaMA-Modellen etwas besser abschneidet als bei GPT-Modellen. AdamW hingegen ist bei GPT-Modellen etwas stärker. Das heißt: Dein Modelltyp beeinflusst, welcher Optimierer besser funktioniert.

Künstliche Intelligenz wechselt dynamisch zwischen Optimierern AdamW, Adafactor und Lion basierend auf Trainingsdaten, mit neuem AdamS im Hintergrund.

Was kommt als Nächstes? AdamS, Adan und mehr

Die Optimierer-Landschaft wird komplexer. AdamS, ein neuer Optimierer aus dem EMNLP 2025-Paper, verbessert die Durchsatzrate von AdamW um 35,8 % - ohne Qualitätseinbußen. Das bedeutet: Du kannst deine Batch-Größe erhöhen, ohne mehr Speicher zu brauchen. Ein Nutzer berichtete, dass die Batch-Verarbeitung von 6,9 Sekunden auf 4,4 Sekunden sank. Das ist ein riesiger Sprung für große Modelle.

Und dann gibt es noch Adan - ein Optimierer, der in der JuliaLang-Community als „besser als AdamW“ gefeiert wird. Aber: Es gibt kaum unabhängige Validierungen. Noch. Das ist typisch für die aktuelle Phase: Viele neue Optimierer, wenige große, reproduzierbare Studien.

Die Zukunft liegt nicht in einem einzigen „besten“ Optimierer. Die Zukunft liegt in adaptiven Systemen. Google arbeitet bereits an „optimizer-aware scheduling“ - einem System, das automatisch zwischen AdamW, Lion und anderen wechselt, je nach Trainingsphase, verfügbarem Speicher und Modellgröße. Das ist der nächste Schritt: Nicht mehr „Welcher Optimierer?“, sondern „Welcher Optimierer zu welchem Zeitpunkt?“

Was solltest du tun?

Wenn du gerade anfängst: Nutze AdamW. Es ist die sicherste Wahl. Du wirst keine Überraschungen erleben. Die Dokumentation ist ausgezeichnet. Die Community ist groß. Du findest Hilfe, wenn du stecken bleibst.

Wenn du in der Industrie arbeitest und Kosten zählen: Teste Lion. Bereite dich auf eine längere Einarbeitungszeit vor - aber die Einsparungen bei Speicher und Rechenzeit sind real. Einige Teams haben ihre Trainingskosten um 30 % reduziert, einfach durch den Wechsel.

Wenn du nur eine kleine GPU hast: Probiere Adafactor. Aber sei bereit, länger zu warten - und mehrere Trainingsschläge zu machen, bis du die richtige Lernrate findest.

Und vergiss nicht: Der Optimierer ist nur ein Teil des Systems. Die Lernrate, die Batch-Größe, die Datenqualität, die Regularisierung - all das beeinflusst das Ergebnis mindestens genauso stark wie der Optimierer selbst. Ein guter Optimierer kann ein schlechtes Training nicht retten. Aber ein schlechter Optimierer kann ein gutes Training ruinieren.

Was du jetzt tun kannst

Wenn du gerade ein neues LLM-Projekt startest, dann mache das:

  1. Beginne mit AdamW - und nutze die Standard-Hyperparameter aus der PyTorch-Dokumentation.
  2. Wenn du Speicherprobleme hast - wechsle zu Lion. Erhöhe die Lernrate um 20-30 % und reduziere das Momentum leicht.
  3. Wenn du nur eine 24 GB-GPU hast - probiere Adafactor. Verwende die adaptive Lernrate, nicht die feste.
  4. Wenn du eine große Recheninfrastruktur hast - teste AdamS. Es ist noch neu, aber es könnte bald der neue Standard werden.

Und wenn du es schaffst, mehrere Optimierer auf demselben Datensatz zu vergleichen - dann teile deine Ergebnisse. Die Forschung braucht mehr echte Praxisdaten. Nicht nur Paper. Echte Zahlen. Von echten Trainingsläufen.