Multi-Turn-Gespräche mit großen Sprachmodellen: So behalten Sie den Überblick

Multi-Turn-Gespräche mit großen Sprachmodellen: So behalten Sie den Überblick
Nikki Schröder 15 September 2025 0 Kommentare

Warum Ihre KI nach dem dritten Satz alles vergisst

Stellen Sie sich vor, Sie fragen eine KI: „Welche Schuhe sind gut für Regentage?“ Sie antwortet mit einer Liste. Dann sagen Sie: „Aber ich brauche welche, die auch im Schnee funktionieren.“ Und dann: „Und sie sollen nicht teurer als 80 Euro sein.“ Wenn die KI jetzt plötzlich wieder von Regen spricht, als hätte sie die Schneebedingungen nie gehört - dann hat sie den Kontext verloren. Das ist kein Einzelfall. Es passiert bei fast allen großen Sprachmodellen. Forscher von Salesforce haben 2025 nachgewiesen: Bei mehr als drei Gesprächsrunden sinkt die Genauigkeit der Antworten durchschnittlich um 39%. Die KI verliert sich. Und sie findet nicht mehr zurück.

Was genau ist ein Konversationszustand?

Der Konversationszustand ist das Gedächtnis Ihrer KI. Es ist nicht das, was sie gelernt hat, sondern was sie gerade weiß - in diesem Gespräch. Jede Nachricht, die Sie schreiben, ändert diesen Zustand. Die KI muss sich merken: Welche Informationen wurden bereits gegeben? Welche Annahmen hat sie selbst getroffen? Welche Fragen wurden noch nicht beantwortet? Wenn sie das nicht kann, fängt sie an, zu wiederholen, zu erraten oder völlig falsche Schlüsse zu ziehen. In einem Kundenservice-Chat, der fünf Nachrichten braucht, um ein Problem zu lösen, ist das katastrophal. Eine Studie von Together.ai zeigt: Modelle ohne kontextuelles Gedächtnis schaffen es nur bei 52 % der Fälle, das Problem komplett zu lösen. Mit funktionierendem Zustandsmanagement steigt die Quote auf 78 %.

Wie wird der Zustand technisch verwaltet?

Es gibt drei Hauptmethoden, das zu lösen. Die einfachste: Sie senden alle bisherigen Nachrichten mit jeder neuen Anfrage mit. Das funktioniert - bis die Konversation zu lang wird. Die meisten Modelle haben eine maximale Länge, oft 8.000 bis 32.000 Token. Wenn Sie mehr als zehn Nachrichten austauschen, ist der Speicher voll. Dann müssen Sie zusammenfassen. Aber wie? Einfach alles abschneiden? Dann verlieren Sie wichtige Details. Die bessere Lösung: explizite Zustandsvariablen. Das bedeutet, Sie bauen in Ihren Systemen kleine Speicher ein, die nur die relevanten Fakten behalten. Zum Beispiel: „Benutzer braucht Schuhe für Regen und Schnee, Budget: 80 €, bevorzugt Marken: Nike, Adidas.“ Diese Variable wird mit jeder Antwort aktualisiert. Die KI sieht nicht mehr die vollen 12 Nachrichten - nur diese klare Zusammenfassung. Das reduziert Fehler um bis zu 41 %, wie Entwickler von Rasa 2025 berichteten.

Der entscheidende Trick: Loss Masking

Wenn Sie ein Sprachmodell trainieren, sagen Sie ihm: „Lerne, auf diese Eingaben zu antworten.“ Aber was, wenn das Modell lernt, auch die Nutzernachrichten zu kopieren? Dann gibt es am Ende nur Wiederholungen. Deshalb verwenden Profis eine Technik namens Loss Masking. Sie sagen dem Modell: „Berechne den Fehler nur bei deinen eigenen Antworten. Ignoriere, was der Mensch geschrieben hat.“ Das sorgt dafür, dass das Modell nicht lernt, sich selbst zu imitieren - sondern echte, sinnvolle Fortsetzungen zu generieren. Together.ai hat gezeigt, dass Modelle mit Loss Masking 85-90 % der Leistungslücke zwischen Einzel- und Mehrfachgesprächen schließen können. Ohne diese Methode ist jedes Training fast nutzlos. Fast alle erfolgreichen Implementierungen - 89 % - verwenden sie. Wer sie ignoriert, setzt auf Glück.

Anime-Stil: Entwickler aktualisiert eine digitale Zustandsvariable, während drei KI-Agenten ein holographisches Gespräch analysieren.

Review-Instruct: Die KI, die sich selbst korrigiert

Eine der fortschrittlichsten Methoden kommt von OPPO AI Center. Sie heißt Review-Instruct. Stellen Sie sich vor, die KI schreibt eine Antwort. Dann schicken Sie diese Antwort an drei andere KI-Agenten - die prüfen: Ist das relevant? Ist es kohärent? Ist es tief genug? Ein vierter Agent - der „Vorsitzende“ - sammelt diese Bewertungen und schreibt eine neue Anweisung: „Versuche es nochmal, aber fokussier dich auf die Schneetauglichkeit.“ Die KI antwortet neu. Das wiederholt sich, bis die Antwort passt. Es ist wie ein Teammeeting mit mehreren Experten. Die Ergebnisse sprechen für sich: Review-Instruct-13B erreicht 29,65 % Genauigkeit auf dem MMLU-Pro-Benchmark - und verbessert sich um 2,9 % gegenüber früheren Modellen. Der Nachteil? Es braucht 3,8-mal mehr Rechenleistung. Für Unternehmen mit begrenztem Budget ist das kein Allheilmittel - aber für kritische Anwendungen wie medizinische Beratung oder technische Support-Systeme, wo ein Fehler teuer wird, ist es derzeit die beste Lösung.

Was funktioniert nicht?

Viele denken: Wenn ich die Temperatur senke, wird die KI genauer. Oder wenn ich mehr Kontext sende, bleibt sie besser auf Kurs. Beides ist falsch. Die Salesforce-Forscher haben es klar gesagt: „Bekannte Methoden aus einfachen Szenarien funktionieren hier nicht.“ Senken der Temperatur? Hilft nicht. Längere Kontextfenster? Führen oft zu Überlastung. KI-Agenten, die nur die letzten drei Nachrichten sehen? Sie verpassen wichtige Zusammenhänge. Der wirkliche Grund für das Scheitern ist, dass LLMs nicht lernen, zuzuhören. Sie lernen, zu antworten. Sie sind darauf trainiert, sinnvolle Texte zu erzeugen - nicht, einen Dialog aufrechtzuerhalten. Deshalb verlassen sie sich auf ihre eigenen vorherigen Antworten, selbst wenn diese falsch waren. Das nennt man „over-reliance“. Es ist wie ein Mensch, der sich an eine falsche Erinnerung klammert und nie nachfragt.

Was brauchen Sie, um es selbst zu bauen?

Wenn Sie ein System mit mehreren Gesprächsrunden aufbauen wollen, brauchen Sie drei Dinge: Erstens, strukturierte Daten. Jede Konversation muss als Liste von Nachrichten gespeichert werden - mit klaren Rollen: system, user, assistant. Zweitens, ein gutes Trainingssystem. Open-Source-Modelle wie Llama-3-8B brauchen 2-4 A100-GPUs und 12-24 Stunden, um auf Multi-Turn-Daten zu lernen. Drittens, ein klarer Testplan. Messen Sie nicht nur, ob die Antwort „richtig“ ist. Messen Sie: Hat die KI den Kontext behalten? Hat sie wiederholt? Hat sie eine neue Frage gestellt, die nicht gestellt wurde? Ein guter Test: Geben Sie der KI eine Konversation mit 7 Nachrichten, löschen Sie die Antwort zur 5. Nachricht - und fragen Sie sie: „Was war die letzte Anfrage?“ Wenn sie es nicht weiß, ist der Zustand nicht stabil.

Anime-Stil: Vier KI-Agenten besprechen eine fehlerhafte Antwort, während ein Vorsitzender eine neue Anweisung korrigiert.

Was ist mit kommerziellen Plattformen?

Wenn Sie nicht selbst trainieren wollen, gibt es Cloud-Anbieter. Together.ai bietet Multi-Turn-Fine-Tuning ab 0,0015 $ pro 1.000 Tokens. Die Inference kostet 0,0008 $ pro 1.000 Tokens. Das ist günstig - aber nur, wenn Sie die Daten richtig vorbereiten. Andere Plattformen wie Dialogflow oder Rasa bieten vorgefertigte Lösungen. Dialogflow hat den größten Marktanteil mit 22,7 %, aber es ist weniger flexibel für komplexe Anforderungen. Rasa ist offener, aber erfordert mehr technisches Know-how. Die meisten Unternehmen, die 2025 ein Multi-Turn-System implementiert haben, haben entweder Together.ai oder eine angepasste Version von Llama-3 verwendet. Die Entscheidung hängt von Ihrer Technik-Teamgröße ab. Wenn Sie drei Entwickler haben - gehen Sie zu Together.ai. Wenn Sie zehn haben - probieren Sie Review-Instruct.

Die Zukunft: Was kommt als Nächstes?

Die Forschung geht in zwei Richtungen. Erstens: konversationsbasierte Speichernetzwerke. Google DeepMind arbeitet an Systemen, die wie ein menschliches Gedächtnis funktionieren - sie speichern nicht nur Worte, sondern Bedeutungen und Absichten. In Tests reduziert das den Leistungsabfall von 39 % auf nur 18,7 %. Zweitens: Verstärkungslernen für lange Dialoge. Bisher lernten KIs, wie man auf eine Frage antwortet. Bald werden sie lernen, wie man einen Dialog erfolgreich führt - mit Belohnungen für klare Fortschritte, nicht nur für richtige Antworten. Die EU hat bereits Richtlinien erlassen: Ab 2026 müssen KI-Systeme in kritischen Bereichen wie Gesundheit oder Finanzen nachweisen, dass sie den Konversationszustand zuverlässig verwalten. Wer heute nicht darauf vorbereitet ist, wird morgen nicht mehr zugelassen.

Was Sie jetzt tun können

Testen Sie Ihre aktuelle KI. Machen Sie eine Konversation mit fünf Nachrichten. Beobachten Sie: Versteht sie den Kontext? Wiederholt sie sich? Ignoriert sie frühere Anfragen? Wenn ja - dann ist Ihr System nicht bereit für echte Anwendungen. Holen Sie sich eine strukturierte Konversationsdatei. Nutzen Sie Loss Masking. Fügen Sie Zustandsvariablen hinzu. Und fangen Sie klein an: Ein Kundenservice-Chat mit maximal 4 Nachrichten. Wenn das funktioniert, bauen Sie auf. Die meisten Unternehmen, die es erfolgreich gemacht haben, haben nicht mit einem perfekten System begonnen. Sie haben mit einem einfachen Test begonnen - und dann verbessert. Das ist der einzige Weg, der funktioniert.