Mit Reranking & smarter Logik gegen AI Overthinking

In unserem Arbeitsalltag zählt Präzision. Doch wer ganz allgemein KI nutzt, kennt das Phänomen: Die KI „denkt“ gefühlt ewig nach, nur um am Ende eine Antwort zu liefern, die vor lauter Wenns und Abers den Kern der Frage verfehlt.
 

Da unser rms. AI Chatbot auf einer RAG-Architektur (ChromaDB) basiert und wir flexibel zwischen Modellen wie GPT, Gemini, Mistral oder Llama wechseln können, haben wir vier Hebel, um Overthinking zu stoppen: Das ReRanking, die Datenqualität, die Retrieval-Logik und das Prompting.
 

1. Die Geheimwaffe: Der Reranker als Qualitätsfilter


Ein klassisches Problem bei Vektordatenbanken (Chroma): Sie finden Dokumente, die semantisch ähnlich sind, aber nicht zwingend die Antwort enthalten. Wenn wir der KI 10 mittelmäßige Chunks geben, versucht sie, diese mühsam zu verknüpfen – das Overthinking beginnt.
Die Lösung: Das Two-Stage-Retrieval

  • Stage 1 (Chroma): Wir holen in einem ersten Schritt die Top 20 relevantesten Textstellen ab.
  • Stage 2 (Reranker): Ein spezielles Modell (Zeroentropy oder Jina) bewertet diese 20 Stellen erneut und sortiert sie strikt nach Relevanz.


Das Ergebnis: Die KI erhält nur noch die Top-Treffer. Weniger Rauschen bedeutet weniger Grübeln. Die KI muss keine Widersprüche mehr zwischen „fast richtigen“ Dokumenten auflösen.


2. Struktur im Speicher: Semantic Chunking


Oft overthinkt ein Modell, weil Informationen „zerstückelt“ bei ihm ankommen. Wenn ein Absatz mitten im Satz durch ein hartes Zeichenlimit (z. B. nach 1000 Zeichen) getrennt wird, fehlen der KI Fakten. Sie versucht, diese Lücke durch logische Annahmen zu füllen.
Aktivierung von Semantic Chunking: Wir nutzen Algorithmen, die Texte an thematischen Grenzen trennen. Ein zusammenhängender Gedanke bleibt ein zusammenhängender Block.
Vorteil: Die KI muss nicht mehr „raten“, was im fehlenden Teil des Satzes stand. Das senkt die kognitive Last sofort.


3. Datenhygiene in Chroma: Keine Doppelungen, keine Altlasten

Reasoning-Modelle sind extrem allergisch auf Redundanz.
 

  • Keine Doppelungen: Wenn zwei identische Projektberichte in der Datenbank liegen, analysiert die KI minutenlang, ob es winzige Unterschiede gibt.
  • Widerspruchsfreiheit: Veraltete Infos (z. B. Reisekostenrichtlinie 2022 vs. 2024) müssen bereinigt werden. Findet die KI beide, gerät sie in eine logische Sackgasse, welches Dokument nun Priorität hat.


4. Der „Universal-Prompt“ für alle LLMs


Egal ob wir gerade Gemini, Mistral, Llama oder ChatGPT nutzen – diese Strategien im System-Prompt verhindern, dass die Modelle abschweifen:
Die „Rereading“-Strategie (RE2)
Wir weisen die KI an, den Kontext erst vollständig zu durchdringen, bevor die Logik-Engine startet. Sinngemäß sieht das ungefähr so aus:
„Lies die bereitgestellten Dokumente aus der Datenbank zweimal kritisch durch. Identifiziere die Fakten und ignoriere irrelevante Füllsätze. Antworte erst dann.“
 

Den Denkprozess kanalisieren


Anstatt „Denk nach“, sagen wir: „Arbeite effizient“.

  • Constraint-Prompting: „Nutze Chain-of-Thought nur für komplexe Berechnungen. Für Faktenfragen aus der Datenbank antworte direkt und ohne umschweifende Einleitung.“
  • Output-Format: Zwinge das Modell in Tabellen oder Bullet-Points, insofern es für die gewünschte Antwort sinnvoll ist. Das bindet die Energie an die Strukturierung der Antwort, nicht an das Philosophieren darüber.

Modell-Check: Wer braucht was?
 

TechnologieStrategie gegen Overthinking
RerankerReduziert „Context Noise“ und verhindert, dass die KI über irrelevante Chunks grübelt.
Open AIBenötigt klare „Negative Constraints“ (Was soll NICHT analysiert werden?).
GeminiProfitiert massiv von Semantic Chunking, um das riesige Kontextfenster sauber zu halten.
Llama / MistralReagieren am besten auf Few-Shot Beispiele (Zeige der KI eine perfekte, kurze Antwort).

Fazit: Qualität schlägt Quantität


Overthinking in unserem Firmen-Chatbot ist meistens ein Zeichen dafür, dass die KI mit zu vielen oder zu schlechten Informationen gefüttert wurde. Durch den Einsatz eines Rerankers und die Umstellung auf Semantic Chunking geben wir der KI genau das, was sie braucht: Die nackte Wahrheit, ohne Rauschen.