Schlagwort: KV-Cache

Nikki Schröder 9 16 Juli 2025

Speicher- und Rechenlast von Transformer-Schichten in produktiven großen Sprachmodellen

Speicher- und Rechenlast von Transformer-Schichten bestimmen, ob ein großes Sprachmodell in der Produktion funktioniert. Erfahren Sie, wie KV-Cache, Quantisierung und FlashAttention die Kosten und Leistung beeinflussen.