GLOSSAR-EINTRAG
Architektur, bei der ein LLM vor der Antwort gezielt externe Dokumente abruft. Reduziert Halluzinationen.
Retrieval-Augmented Generation (RAG) kombiniert ein Large Language Model mit einem Retrieval-Schritt: Vor der Antwortgenerierung sucht das System relevante Dokumente in einer Vektor-Datenbank, übergibt sie als Kontext und lässt das Modell auf Basis dieser konkreten Quellen antworten. RAG ist die Standard-Architektur für KI-Assistenten, die auf aktuelles oder proprietäres Wissen zugreifen müssen — etwa interne Wissensdatenbanken, Produktkataloge oder Compliance-Dokumente. Der Prozess läuft in vier Schritten ab. Erstens werden die Quelldokumente in kleinere Chunks (typisch 200–800 Tokens) zerlegt und über ein Embedding-Modell in numerische Vektoren überführt. Zweitens werden die Vektoren in einer Vector-Database (Pinecone, Weaviate, Qdrant, pgvector) gespeichert. Drittens wird bei einer Nutzeranfrage die Frage selbst in einen Vektor umgewandelt und mit den gespeicherten Vektoren verglichen — die ähnlichsten Chunks werden zurückgegeben. Viertens werden diese Chunks zusammen mit der Original-Frage an das LLM übergeben, das eine Antwort auf Basis dieser konkreten Quellen formuliert. Vorteile sind erheblich: deutlich weniger Halluzinationen, weil das Modell auf konkrete Texte zugreift statt nur auf parametrisches Training. Aktuelle Daten ohne aufwändiges Re-Training. Klare Quellenangabe möglich, was Vertrauen schafft und Compliance erleichtert. Bei SUMAX nutzen wir RAG für interne Wissensbasen, Briefing-Generatoren und für kundenspezifische Compliance-Checks. Die größte Hürde ist nicht die Technik, sondern die Daten-Hygiene: Wenn die Quelldokumente schlecht strukturiert sind, antwortet auch das beste RAG-System schlecht. Chunk-Größe, Retrieval-Top-K und Re-Ranking sind die typischen Stellschrauben in der Praxis. Moderne Variante: Agentic RAG, bei der das Modell selbst entscheidet, wann und wie es weitere Quellen abruft.
VERWANDTE BEGRIFFE
LLM →
KI-Sprachmodell mit Milliarden Parametern, das Text versteht und generiert. Beispiele: GPT-4, Claude, Gemini.…
Embeddings →
Numerische Vektor-Repräsentation von Text, in der ähnliche Bedeutungen nahe beieinander liegen.…
Vector Database →
Spezialisierte Datenbank für die schnelle Ähnlichkeitssuche in Vektor-Räumen.…
Halluzination →
Wenn ein LLM faktisch falsche Informationen mit hoher Selbstsicherheit ausgibt.…