Mit Reranking & smarter Logik gegen AI Overthinking

Da unser rms. AI Chatbot auf einer RAG-Architektur (ChromaDB) basiert und wir flexibel zwischen Modellen wie GPT, Gemini, Mistral oder Llama wechseln können, haben wir vier Hebel, um Overthinking zu stoppen: Das ReRanking, die Datenqualität, die Retrieval-Logik und das Prompting.

1. Die Geheimwaffe: Der Reranker als Qualitätsfilter

Ein klassisches Problem bei Vektordatenbanken (Chroma): Sie finden Dokumente, die semantisch ähnlich sind, aber nicht zwingend die Antwort enthalten. Wenn wir der KI 10 mittelmäßige Chunks geben, versucht sie, diese mühsam zu verknüpfen – das Overthinking beginnt.
Die Lösung: Das Two-Stage-Retrieval

Stage 1 (Chroma): Wir holen in einem ersten Schritt die Top 20 relevantesten Textstellen ab.
Stage 2 (Reranker): Ein spezielles Modell (Zeroentropy oder Jina) bewertet diese 20 Stellen erneut und sortiert sie strikt nach Relevanz.

Das Ergebnis: Die KI erhält nur noch die Top-Treffer. Weniger Rauschen bedeutet weniger Grübeln. Die KI muss keine Widersprüche mehr zwischen „fast richtigen“ Dokumenten auflösen.

2. Struktur im Speicher: Semantic Chunking

Oft overthinkt ein Modell, weil Informationen „zerstückelt“ bei ihm ankommen. Wenn ein Absatz mitten im Satz durch ein hartes Zeichenlimit (z. B. nach 1000 Zeichen) getrennt wird, fehlen der KI Fakten. Sie versucht, diese Lücke durch logische Annahmen zu füllen.
Aktivierung von Semantic Chunking: Wir nutzen Algorithmen, die Texte an thematischen Grenzen trennen. Ein zusammenhängender Gedanke bleibt ein zusammenhängender Block.
Vorteil: Die KI muss nicht mehr „raten“, was im fehlenden Teil des Satzes stand. Das senkt die kognitive Last sofort.

3. Datenhygiene in Chroma: Keine Doppelungen, keine Altlasten

Reasoning-Modelle sind extrem allergisch auf Redundanz.

Keine Doppelungen: Wenn zwei identische Projektberichte in der Datenbank liegen, analysiert die KI minutenlang, ob es winzige Unterschiede gibt.
Widerspruchsfreiheit: Veraltete Infos (z. B. Reisekostenrichtlinie 2022 vs. 2024) müssen bereinigt werden. Findet die KI beide, gerät sie in eine logische Sackgasse, welches Dokument nun Priorität hat.

4. Der „Universal-Prompt“ für alle LLMs

Egal ob wir gerade Gemini, Mistral, Llama oder ChatGPT nutzen – diese Strategien im System-Prompt verhindern, dass die Modelle abschweifen:
Die „Rereading“-Strategie (RE2)
Wir weisen die KI an, den Kontext erst vollständig zu durchdringen, bevor die Logik-Engine startet. Sinngemäß sieht das ungefähr so aus:
„Lies die bereitgestellten Dokumente aus der Datenbank zweimal kritisch durch. Identifiziere die Fakten und ignoriere irrelevante Füllsätze. Antworte erst dann.“

Den Denkprozess kanalisieren

Anstatt „Denk nach“, sagen wir: „Arbeite effizient“.

Constraint-Prompting: „Nutze Chain-of-Thought nur für komplexe Berechnungen. Für Faktenfragen aus der Datenbank antworte direkt und ohne umschweifende Einleitung.“
Output-Format: Zwinge das Modell in Tabellen oder Bullet-Points, insofern es für die gewünschte Antwort sinnvoll ist. Das bindet die Energie an die Strukturierung der Antwort, nicht an das Philosophieren darüber.

Modell-Check: Wer braucht was?

Technologie	Strategie gegen Overthinking
Reranker	Reduziert „Context Noise“ und verhindert, dass die KI über irrelevante Chunks grübelt.
Open AI	Benötigt klare „Negative Constraints“ (Was soll NICHT analysiert werden?).
Gemini	Profitiert massiv von Semantic Chunking, um das riesige Kontextfenster sauber zu halten.
Llama / Mistral	Reagieren am besten auf Few-Shot Beispiele (Zeige der KI eine perfekte, kurze Antwort).

Fazit: Qualität schlägt Quantität

Overthinking in unserem Firmen-Chatbot ist meistens ein Zeichen dafür, dass die KI mit zu vielen oder zu schlechten Informationen gefüttert wurde. Durch den Einsatz eines Rerankers und die Umstellung auf Semantic Chunking geben wir der KI genau das, was sie braucht: Die nackte Wahrheit, ohne Rauschen.