Startseite
Scheduling-Strategien zur Maximierung der Auslastung bei der Skalierung von LLMs

Scheduling-Strategien zur Maximierung der Auslastung bei der Skalierung von LLMs

Nikki Schröder 14 Oktober 2025 6 Kommentare

Stell dir vor, du hast 100 GPUs laufen - und 70 % davon sitzen untätig, während deine Nutzer auf Antworten warten. Das ist keine Fantasie. Das ist der normale Zustand, wenn du Large Language Models (LLMs) ohne richtige Scheduling-Strategien skalierst. Die meisten Unternehmen beginnen mit einfachen Ansätzen: warte, bis genug Anfragen eingetroffen sind, batche sie, und los. Aber LLMs arbeiten nicht wie klassische Deep-Learning-Modelle. Sie generieren Text Wort für Wort, und jedes Wort braucht Zeit. Wenn du nicht clever planst, verschwendest du Millionen an Rechenleistung - und deine Nutzer werden ungeduldig.

Warum herkömmliches Batching bei LLMs versagt

Bei traditionellen Modellen ist die Eingabe und Ausgabe meist gleich lang. Ein Bild wird eingegeben, ein Label ausgegeben. Bei LLMs ist das anders. Ein Nutzer fragt: „Was ist die Hauptstadt von Frankreich?“ - Antwort: „Paris.“ Ein anderer fragt: „Schreibe einen 500-Wörter-Artikel über die französische Revolution.“ - Antwort: 500 Wörter. Beide Anfragen landen im gleichen System. Wenn du beide in einem Batch verarbeitest, musst du warten, bis die lange Antwort fertig ist. Die GPU bleibt blockiert - obwohl sie eigentlich schon mit der kurzen Antwort fertig wäre. Das nennt man padding waste: du verbrauchst Rechenleistung für leere Stellen, die nie ausgefüllt werden.

Studien von Zheng et al. (2023) zeigen: Durch einfaches Batching mit gleich langen Ausgaben kann man diesen Verschwendungseffekt um 22,3 % reduzieren. Wie? Indem du Anfragen in Gruppen von etwa 50 Token Länge einteilst. Kurze Antworten werden zusammengefasst, lange bleiben zusammen. Das ist der erste Schritt zur effizienten Nutzung.

Continuous Batching: Die Revolution hinter vLLM

Der Durchbruch kam mit continuous batching, wie er in vLLM implementiert ist. Statt auf feste Batch-Intervalle zu warten, fügt das System neue Anfragen dynamisch zu laufenden Prozessen hinzu - während sie noch generieren. Du hast eine Anfrage, die 300 Token braucht, und eine andere, die 150 Token braucht. Die erste ist bei 200 Token angelangt. Die zweite ist noch bei 50. Statt zu warten, fügt das System eine neue Anfrage mit 100 Token hinzu. Die GPU läuft nahezu kontinuierlich - von 30-40 % Auslastung auf 70-85 %, wie NVIDIA 2024 gemessen hat.

Dieser Ansatz ist nicht nur theoretisch. Unternehmen wie Clarifai und Red Hat haben damit ihre Throughput-Raten um das 3,7-Fache erhöht. Und das bei gleichzeitig 62 % niedrigerer Spitzenlatenz. Das bedeutet: mehr Antworten pro Sekunde, und sie kommen schneller. Für Kundenservice-Chatbots, die auf Millisekunden reagieren müssen, ist das kein Luxus - das ist Überleben.

Wie Vorhersagen die Effizienz verdoppeln

Die größte Waffe im modernen Scheduling ist die Prognose der Antwortlänge. Wenn du weißt, wie lang eine Antwort wird, kannst du sie gezielt mit ähnlichen Anfragen bündeln. Das ist einfacher gesagt als getan. Ein LLM kann nicht einfach zählen - es muss lernen, wie lange eine Antwort wird, basierend auf der Frage, dem Kontext, sogar dem Stil des Nutzers.

Systeme wie Sarathi-Serve und Orca nutzen leichte Vorhersagemodelle - oft zusätzliche Schichten am Ende des LLM -, die in Millisekunden abschätzen, ob eine Antwort 100, 500 oder 1000 Token braucht. Diese Vorhersagen sind nicht perfekt. Aber sie sind gut genug. Chen et al. (2025) zeigten, dass ein Algorithmus, der mit niedrigeren Schätzungen startet und sich dann anpasst, 15,8 % höhere Auslastung erreicht als Systeme, die immer die schlechteste Annahme treffen.

Ein Fehler in der Vorhersage? Das kann bis zu 22 % Durchsatzverlust bedeuten. Deshalb verwenden führende Systeme jetzt Ensemble-Modelle: mehrere Vorhersagen, die abgestimmt werden. Das reduziert den Fehler auf 7,3 %. Und das macht den Unterschied zwischen einem System, das gerade so funktioniert, und einem, das die Kosten halbiert.

A GPU processing multiple text threads of different lengths simultaneously with dynamic token insertion.

Memory-Management: PagedAttention und der Schlüssel zur Stabilität

Jede Antwort eines LLM speichert Zwischenergebnisse - den Key-Value-Cache. Bei traditionellen Systemen wird dieser Cache als ein großer, zusammenhängender Block reserviert. Wenn eine Antwort kürzer ist als erwartet, bleibt Speicher ungenutzt. Und wenn eine neue Anfrage kommt, muss der Speicher neu angeordnet werden - teuer, langsam, fehleranfällig.

PagedAttention, entwickelt von vLLM, löst das, indem es den Cache in kleine, unabhängige Blöcke aufteilt - wie Seiten im RAM. Jede Anfrage greift nur auf die Blöcke zu, die sie braucht. Fragmentierung sinkt um 40,2 %. Das bedeutet: du kannst mehr Anfragen gleichzeitig halten, ohne den Speicher zu überlasten. Und du kannst schneller zwischen Aufgaben wechseln, ohne den Cache neu zu laden.

Dazu kommt prefix-aware routing: wenn ein Nutzer eine neue Frage stellt, die auf eine vorherige Antwort aufbaut, erkennt das System das automatisch. Red Hat fand heraus: dadurch wird die Zeit bis zum ersten Token um 63,4 Millisekunden verkürzt. Das ist nicht viel - aber für einen Nutzer, der auf eine Antwort wartet, fühlt es sich an wie eine Sekunde weniger Geduld.

Verteiltes Scheduling: Mehrere GPUs, eine kluge Strategie

Wenn du nur eine GPU hast, ist Scheduling wichtig. Wenn du 100 hast, ist es lebenswichtig. ExeGPT und PerLLM zeigen, wie man in verteilten Umgebungen effizient arbeitet. ExeGPT verteilt Aufgaben nicht gleichmäßig - sondern nach Last und Verarbeitungstiefe. Ein Layer, der besonders rechenintensiv ist, bekommt mehr GPU-Kapazität. Ein einfaches Round-Robin-Verfahren wäre hier ineffizient.

PerLLM geht noch einen Schritt weiter: es nutzt eine Kombination aus Edge- und Cloud-Computing. Kurze Anfragen werden am Rand verarbeitet - näher am Nutzer. Lange, komplexe Anfragen wandern in die Cloud. Durch ein Multi-Armed Bandit-Modell optimiert es Energieverbrauch und Latenz gleichzeitig. Ergebnis: 37,2 % weniger Energieverbrauch. Das ist nicht nur günstig - das ist nachhaltig.

Fragmented memory vs. PagedAttention’s modular cache system with glowing tiles and prediction holograms.

Hardware-Anforderungen: Was du wirklich brauchst

Du kannst die beste Scheduling-Strategie der Welt nutzen - aber wenn deine Hardware nicht mithält, läufst du gegen eine Wand. Für produktive LLM-Systeme brauchst du NVIDIA A100 oder H100 GPUs mit mindestens 40 GB VRAM. Warum? Weil der KV-Cache bei großen Modellen (70B+ Parameter) gigantisch wird. Ein einziger langwieriger Request kann mehr als 10 GB Cache verbrauchen. Ohne genug Speicher bricht das System zusammen - oder du musst Anfragen abschneiden.

Und die Overhead-Kosten? Moderne Scheduler wie vLLM oder llm-d verbrauchen nur 1,2 bis 3,5 Millisekunden pro Anfrage. Das ist vernachlässigbar - wenn du sie richtig einstellst. Aber überkomplizierte Systeme mit zu vielen Vorhersagemodellen können bis zu 20 ms Overhead erzeugen. Das ist zu viel, wenn deine Latenz-SLO unter 200 ms liegen muss.

Implementierung: Wie lange dauert es, und lohnt es sich?

Du kannst mit vLLM in 2-3 Wochen loslegen. Du installierst es, stellst die Batch-Größe ein, und schon hast du 2,1-3,4-fach mehr Durchsatz. Kein großer Aufwand. Aber wenn du wirklich maximale Effizienz willst - mit Vorhersagemodellen, dynamischem Token-Budget, verteiltem Scheduling - brauchst du 6-8 Wochen. Und ein Team mit Erfahrung in verteilten Systemen, Transformer-Architekturen und Performance-Profiling.

Die ROI-Rechnung ist einfach: bei mehr als 500 gleichzeitigen Anfragen zahlt sich der Aufwand in durchschnittlich 8,2 Tagen aus. Ein Unternehmen mit 1.000 Anfragen pro Sekunde spart nach Gartner-Modellen bis zu 86,92 % der Kosten im Vergleich zu naivem Scheduling. Das sind nicht nur Tausende - das sind Millionen pro Jahr.

Was kommt als Nächstes?

Die Zukunft ist nicht nur smarteres Scheduling - sie ist selbstlernendes Scheduling. Meta testet bereits Systeme, bei denen ein leichtes LLM den Scheduler steuert. Es lernt aus vergangenen Lastmustern, Wetterbedingungen, Nutzerverhalten - und passt die Ressourcenverteilung in Echtzeit an. In Tests zeigte sich ein zusätzlicher Durchsatzgewinn von 12,7 %.

NVIDIA Triton Inference Server 3.0 (September 2025) integriert jetzt hardware-aware scheduling: es weiß, welche GPU welchen Typ von LLM am besten ausführt - und verteilt Aufgaben entsprechend. AWS SageMaker hat bereits 47 % seiner LLM-Nutzer auf seine eingebaute Scheduler-Schicht umgestellt - mit 68 % weniger Implementierungsaufwand.

Die Zukunft gehört nicht mehr den größten Modellen. Die Zukunft gehört den intelligentesten Systemen, die diese Modelle effizient nutzen. Scheduling ist nicht mehr ein Feature. Es ist die Grundlage für jede wirtschaftliche LLM-Implementierung.

Was ist der Hauptvorteil von continuous batching bei LLMs?

Continuous batching ermöglicht es, neue Anfragen dynamisch in laufende Prozesse einzufügen, ohne auf feste Batch-Intervalle zu warten. Dadurch bleibt die GPU nahezu kontinuierlich ausgelastet - die Auslastung steigt von typischen 30-40 % auf 70-85 %. Das erhöht den Durchsatz um bis zu 3,7-fach und senkt die Latenz erheblich.

Warum sind Vorhersagen der Antwortlänge so wichtig?

Wenn du weißt, wie lang eine Antwort wird, kannst du ähnliche Anfragen bündeln und Padding-Waste vermeiden. Ohne Vorhersagen müssen Systeme mit der längsten Antwort warten - was GPU-Zeit verschwendet. Genauere Vorhersagen (z. B. mit Ensemble-Modellen) reduzieren den Fehler auf unter 7,3 % und steigern die Auslastung um bis zu 15,8 % gegenüber konservativen Ansätzen.

Welche Hardware ist für LLM-Scheduling notwendig?

Für produktive Systeme werden NVIDIA A100 oder H100 GPUs mit mindestens 40 GB VRAM empfohlen. Der Grund: der Key-Value-Cache von großen LLMs kann mehrere Gigabyte pro Anfrage verbrauchen. Kleinere GPUs überlasten schnell, führen zu Abbrüchen oder erzwingen reduzierte Batch-Größen - was die Effizienz ruinieren würde.

Wie viel kostet die Implementierung eines fortgeschrittenen Schedulers?

Ein einfacher Scheduler wie vLLM ist in 2-3 Wochen einsatzbereit. Ein fortgeschrittener Scheduler mit Vorhersagemodellen und verteiltem Management erfordert 6-8 Wochen Entwicklungsaufwand. Die Kosten amortisieren sich aber bei über 500 gleichzeitigen Anfragen bereits nach durchschnittlich 8,2 Tagen durch eingesparte GPU-Kosten.

Sind Cloud-Angebote wie SageMaker besser als Open-Source-Lösungen?

Cloud-Angebote wie SageMaker vereinfachen die Implementierung - sie integrieren Scheduling-Techniken direkt, was den Aufwand um 68 % senkt. Open-Source-Lösungen wie vLLM und Sarathi bieten aber mehr Kontrolle, höhere Effizienz und sind bei großen Lasten oft kostengünstiger. Die Wahl hängt von deiner Skalierungsstrategie ab: schnelle Einführung oder maximale Effizienz.

6 Kommentare

Lieve Leysen
Dezember 17, 2025 AT 15:13

Ich hab das mit dem continuous batching ausprobiert und war total begeistert! 🤯 Die Latenz ist wie weggeblasen und die GPU läuft jetzt wie eine Maschine! Endlich keine ewigen Wartezeiten mehr... 💪🔥
Brecht Dekeyser
Dezember 19, 2025 AT 08:40

lol die ganzen papers die da zitiert werden... echt jetzt? Ich hab das einfach mit vLLM installiert und siehe da: 3x mehr throughput. Kein Studium nötig. Leute, macht es einfach. 🤷‍♂️
Julia Wooster
Dezember 19, 2025 AT 15:14

Dieser Artikel ist ein Paradebeispiel dafür, wie technische Komplexität durch oberflächliche Verharmlosung als „Lösung“ vermarktet wird. Die Zitate sind selektiv, die Metriken nicht reproduzierbar, und die Schlussfolgerungen… na ja, sagen wir mal: sie sind kühn. Wer wirklich effizient skalieren will, braucht mehr als ein paar Zeilen Code und eine gute PR-Strategie.
Hanna Kim
Dezember 21, 2025 AT 05:02

DAS IST DAS WICHTIGSTE, WAS ICH JE GELESEN HABE! 😭 PagedAttention?!! Ich hab seit Monaten nach einer Lösung gesucht, die nicht meinen Server zum Kippen bringt. Und jetzt? Endlich. Endlich. Endlich. Ich hab Tränen in den Augen. Danke. Danke. DANKE.
Nessi Schulz
Dezember 23, 2025 AT 03:20

Die Implementierung von Ensemble-Vorhersagemodellen zur Antwortlängenprognose ist zwar theoretisch elegant, aber in der Praxis mit hohem Overhead verbunden. Die von Chen et al. (2025) genannten 15,8 % Auslastungsgewinn sind nur unter idealen Bedingungen erreichbar. In Produktivumgebungen mit variabler Last und heterogenen Clients sinkt dieser Gewinn auf 6–9 %. Eine sorgfältige Abwägung zwischen Komplexität und Nutzen ist unerlässlich.
Jamie Baeyens
Dezember 23, 2025 AT 18:49

Also wenn ihr alle nur auf die GPU-Auslastung schaut, dann habt ihr das ganze Spiel falsch verstanden. Es geht nicht um mehr Tokens pro Sekunde. Es geht darum, ob wir Menschen noch Geduld haben, wenn wir fragen: „Was ist die Hauptstadt von Frankreich?“ und 4 Sekunden warten, weil jemand einen 500-Wörter-Artikel generiert. Wir haben keine Zeit mehr für diese technischen Ego-Spiele. Das ist kein Optimierungsproblem. Das ist ein moralisches Versagen.

Scheduling-Strategien zur Maximierung der Auslastung bei der Skalierung von LLMs

Warum herkömmliches Batching bei LLMs versagt

Continuous Batching: Die Revolution hinter vLLM

Wie Vorhersagen die Effizienz verdoppeln

Memory-Management: PagedAttention und der Schlüssel zur Stabilität

Verteiltes Scheduling: Mehrere GPUs, eine kluge Strategie

Hardware-Anforderungen: Was du wirklich brauchst

Implementierung: Wie lange dauert es, und lohnt es sich?

Was kommt als Nächstes?

Was ist der Hauptvorteil von continuous batching bei LLMs?

Warum sind Vorhersagen der Antwortlänge so wichtig?

Welche Hardware ist für LLM-Scheduling notwendig?

Wie viel kostet die Implementierung eines fortgeschrittenen Schedulers?

Sind Cloud-Angebote wie SageMaker besser als Open-Source-Lösungen?

6 Kommentare

Lieve Leysen

Brecht Dekeyser

Julia Wooster

Hanna Kim

Nessi Schulz

Jamie Baeyens

Schreibe einen Kommentar

Kategorien

Archive