Warum Multisite-KI-Suche ein zentrales „Gehirn“ braucht

Für den Nutzer ist das ein Albtraum. Er sucht auf der Corporate-Website nach einer Lösung, die Antwort liegt aber im technischen Dokumentations-Portal einer Subdomain oder auf der Service-Präsenz einer Tochtergesellschaft.

Lange Zeit war die Föderierte Suche (Federated Search) der Standard-Ausweg, um dieses Problem zu kaschieren. Doch im Zeitalter von Künstlicher Intelligenz und Large Language Models (LLMs) stößt dieser Ansatz an seine harten Grenzen. Eine echte, semantische KI-Suche, die Fragen plattformübergreifend versteht und beantwortet, benötigt eine völlig andere Architektur: ein zentrales, harmonisiertes Vektor-System. Ein echtes, digitales Gehirn für das gesamte Unternehmen.

Das Architektur-Dilemma: Föderiert vs. Zentralisiert

Um zu verstehen, warum die Datenbasis der entscheidende Hebel ist, müssen wir die beiden technologischen Ansätze gegenüberstellen.

Die Föderierte Suche: Die Illusion der Einheit
Die klassische Verbundsuche ist im Grunde ein digitaler Postbote. Gibt ein Nutzer einen Suchbegriff ein, schickt das System die Anfrage parallel an Site A (z. B. TYPO3-Corporate), Site B (z. B. den E-Commerce-Shop) und Site C (z. B. das Dokumenten-Archiv). Sie wartet, bis alle Systeme ihre eigenen Trefferlisten zurückgeben, und versucht dann, diese Ergebnisse im Frontend irgendwie nach Relevanz zusammenzuwürfeln.

Das Problem: Jedes System bewertet Relevanz anders. Zudem bleibt die Suche starr keywordbasiert. Sucht der Nutzer nach "Wie warte ich die Pumpe", das Handbuch spricht aber von "Instandhaltungsintervallen der Vakuumeinheit", findet die föderierte Suche nichts – obwohl die Information existiert. Eine KI-gestützte Antwortgenerierung (RAG) ist auf dieser Basis unmöglich, da kein LLM im Hintergrund die verschiedenen Quellen sinnvoll querlesen und zusammenfassen kann.

Die zentrale KI-Vektorsuche: Das gemeinsame Fundament

Bei einer modernen KI-Suche wandern die Inhalte aller Multisites über eine zentrale Pipeline in eine einzige, performante Vektordatenbank (wie Qdrant oder Milvus). Dort werden Texte nicht als Wörter, sondern als mathematische Vektoren gespeichert, die die Bedeutung des Inhalts repräsentieren.

Der Vorteil: Es ist völlig egal, auf welcher Plattform ein Inhalt liegt oder welche Formulierung gewählt wurde. Das System begreift den Kontext. Zudem ist dieser zentrale Index das perfekte Fundament für Retrieval-Augmented Generation (RAG): Die KI filtert plattformübergreifend die drei besten Textabschnitte heraus und generiert daraus eine einzige, präzise Antwort für den Nutzer.

Technische Praxis: Die Datenbasis für das zentrale Gehirn vorbereiten

Der Wechsel auf eine zentrale KI-Suche ist kein reines Frontend-Projekt, sondern ein Daten-Struktur-Projekt. Damit die Vektordatenbank präzise funktioniert und nicht die Inhalte der verschiedenen Multisites durcheinanderwirft, muss die Datenvorbereitung (Ingestion Pipeline) drei Kernschritte durchlaufen:

Semantisches Cross-Site Chunking
Texte müssen in kleine, verdaubare Abschnitte (Chunks) zerlegt werden, bevor sie in Vektoren umgewandelt werden können. Bei Multisites ist starres Abschneiden nach einer festen Zeichenanzahl fatal. Wenn Site A ein technisches Handbuch ist und Site B ein Marketing-Blog, vermischen sich die Kontexte, wenn Absätze mitten im Satz getrennt werden.

Der Ansatz: HTML-Struktur-basiertes Chunking.
Die Pipeline muss die Überschriftenhierarchien (H1 bis H3) der jeweiligen CMS-Instanzen intelligent auswerten. Ein Chunk darf niemals die Grenze eines logischen Abschnitts überschreiten. Jedes Fragment muss als eigenständige Sinneinheit erhalten bleiben, damit die KI später den exakten Kontext versteht.

Das globale Metadaten-Schema (Der gemeinsame Nenner)
Damit der zentrale Index weiß, woher eine Information stammt, in welcher Sprache sie vorliegt und wer sie überhaupt sehen darf, muss vor der Vektorisierung ein einheitliches Metadaten-Objekt an jeden Textabschnitt angehängt werden. Dazu gehören:

source_site: Von welcher Domain stammt der Text?
content_type: Ist es eine rechtliche Information, ein Produkt-Teaser oder eine Anleitung?
security_access_group: Ist der Inhalt öffentlich oder nur für eingeloggte B2B-Kunden sichtbar?

Warum das kritisch ist: Sucht ein Nutzer auf der öffentlichen Corporate-Site, nutzt das System diese Metadaten für ein sogenanntes Metadata Pre-Filtering. Es sortiert Chunks aus geschlossenen Bereichen aus, bevor die KI-Rechenleistung für den semantischen Abgleich verbraucht wird. Das garantiert absolute DSGVO-Konformität und Datensicherheit bei maximaler Performance.

Context Enrichment durch synthetische Metadaten

Ein großes Problem im Multisite-Kosmos ist der Content-Verlust durch Isolierung. Wenn auf einer Unterseite von Marke X im Fließtext nur steht: „Das System ist mit 12V kompatibel“, weiß der zentrale Vektor-Index später nicht, welches System gemeint ist, sobald der Satz aus der Website herausgerissen wurde.

Die Lösung: Bevor ein Chunk eingebettet wird, wird er automatisiert durch ein schlankes, spezialisiertes KI-Modell mit Kontext angereichert. Das Modell fügt dem Text unsichtbar Steuerdaten hinzu (z. B.: „Dieser Text bezieht sich auf die Wartung der Vakuumpumpe Alpha von Marke X“). Erst dieser angereicherte Text wird final vektorisiert.

Fazit: Die Datenqualität bestimmt die Intelligenz der Suche

Der Schritt weg von der klassischen, trägen Verbundsuche hin zu einem zentralen KI-Vektor-Index bricht die Datensilos von Multisites endgültig auf. Unternehmen gewinnen dadurch nicht nur ein Suchfeld, das plattformübergreifend versteht, was der Nutzer eigentlich meint, sondern sie schaffen das fundamentale Fundament für zukünftige, unternehmensweite KI-Assistenten.

Der Schlüssel zum Erfolg liegt dabei nicht primär in der Auswahl des neuesten Large Language Models, sondern in der sauberen, standardisierten Aufbereitung der Datenströme im Hintergrund. Wer seine Datenbasis beherrscht, bricht Silos und schafft echten digitalen Mehrwert.