Tag: GPU-Nutzung

Nikki Schröder 6 14 Oktober 2025

Scheduling-Strategien zur Maximierung der Auslastung bei der Skalierung von LLMs

Effizientes Scheduling ist der Schlüssel zur Kostensenkung bei der Skalierung von LLMs. Mit Techniken wie continuous batching, Vorhersagen der Antwortlänge und PagedAttention lässt sich die GPU-Auslastung von 30 % auf über 85 % steigern - und Kosten um bis zu 87 % reduzieren.