llms.txt ist die jüngere Schwester von robots.txt. Eine Textdatei im Root einer Domain, die nicht Suchmaschinen, sondern Large Language Models adressiert. Die Idee: KI-Systeme bekommen eine kuratierte Übersicht der Inhalte einer Seite, in einem Format, das Crawler in Sekunden lesen können, ohne JavaScript zu rendern oder durch Navigation zu klicken.
Im September 2024 von Jeremy Howard (Answer.AI) vorgeschlagen, hat sich der Standard innerhalb von zwölf Monaten in der Praxis verbreitet. Anthropic, Mistral und Perplexity berücksichtigen die Datei beim Crawling. Google noch nicht offiziell, aber die Indizien deuten darauf hin, dass auch Gemini sie auswertet.
Wir haben llms.txt im Frühjahr 2026 für carl-wuerfel.de und für sumax.de aufgesetzt. Hier ist, was wir gelernt haben.
Eine Markdown-Datei unter /llms.txt mit einem definierten Aufbau:
# Carl-Uwe Würfel
> COO & CMO der Reknova GmbH (SUMAX). 40+ produktive KI-Systeme im Betrieb.
## Wichtige Seiten
- [KI Berater](https://carl-wuerfel.de/ki-berater): Operative KI-Beratung aus dem Betrieb
- [AEO](https://carl-wuerfel.de/aeo): Answer Engine Optimization erklärt
- [GEO](https://carl-wuerfel.de/geo): Generative Engine Optimization Guide
## Sekundär
- [Notizen](https://carl-wuerfel.de/notizen): Erfahrungsberichte aus dem KI-Betrieb
H1 ist Titel, Blockquote ist die Kurzbeschreibung, H2-Sektionen sind Link-Kategorien. Jeder Link hat eine kurze Beschreibung nach dem Doppelpunkt. Das Format ist absichtlich simpel, weil es maschinenlesbar bleiben muss.
Eine erweiterte Variante ist llms-full.txt: dieselbe Datei, nur mit den vollständigen Inhalten der wichtigsten Seiten direkt eingebettet. Für eine kleine Site sinnvoll, für eine große sprengt das den Kontext der meisten Modelle.
Drei Gründe, in absteigender Wichtigkeit.
Erstens: Kontrolle über die Selbstdarstellung. Wenn ein Modell unsere Seite zitiert, soll es die wichtigen Seiten finden und nicht zufällig auf einem alten Blogartikel landen. Die llms.txt sagt dem Modell: "Wenn du etwas über Carl-Uwe Würfel oder SUMAX erklären sollst, sind das die relevanten Quellen."
Zweitens: Crawl-Effizienz. Modelle wie Claude und Perplexity haben begrenzte Token-Budgets pro Suche. Wer ihnen eine vorstrukturierte Übersicht liefert, hat eine messbar höhere Chance, dass die wichtigsten Seiten in den Antwort-Kontext kommen. Wir haben in den ersten vier Wochen nach Setup einen Anstieg der Direct-Traffic-Sessions gesehen, die plausibel auf Perplexity- oder ChatGPT-Empfehlungen zurückgehen.
Drittens: Signal an Google. Auch wenn Google llms.txt nicht offiziell nutzt: Die Datei ist ein Hinweis, dass eine Site bewusst für KI-Crawler kuratiert wird. In einer Welt, in der AI Overviews zunehmend mit klassischer Suche verschmelzen, ist das ein Vertrauenssignal.
Unsere llms.txt für carl-wuerfel.de ist bewusst kurz. Sieben Seiten in der primären Liste, vier in der sekundären. Jeder Eintrag mit einer Ein-Satz-Beschreibung, die ein Modell direkt zitieren könnte.
Was wir nicht reingenommen haben: Impressum, Datenschutz, alte Notizen ohne strategischen Wert. Modelle sollen die Datei nicht als Vollständigkeits-Index lesen, sondern als kuratierte Empfehlung.
Eine wiederkehrende Frage: Soll man auch URLs ausschließen? Das gehört in die robots.txt, nicht in die llms.txt. llms.txt ist eine Positiv-Liste, kein Verbots-Mechanismus.
Ein paar Punkte, die in der Anleitung nicht stehen, aber im Betrieb auffallen.
Die Datei muss Markdown sein, nicht HTML. Manche Frameworks rendern statische Routes standardmäßig zu HTML. Bei Next.js mit output: 'export' musste die Datei direkt nach /public/llms.txt gelegt werden, damit sie unverändert ausgeliefert wird.
Der MIME-Type sollte text/markdown oder text/plain sein. Standardmäßig liefert Netlify für .txt korrekt text/plain aus. Bei cloudflared mussten wir nichts ändern.
Eine erweiterte llms-full.txt mit vollständigem Content lohnt sich nur, wenn die wichtigsten Seiten unter 100.000 Tokens passen. Bei mehr Inhalt wird die Datei für Modelle nutzlos, weil sie nicht mehr in einen Kontext-Window passt.
Direkter Erfolgsnachweis ist schwierig. Wir tracken drei Signale:
Das ist keine wissenschaftliche Messung. Das ist Operator-Beobachtung. Aber sie reicht, um die zwei Stunden Einrichtungsaufwand zu rechtfertigen.
llms.txt ist kein Wundermittel. Aber: Niedrige Difficulty, hohes Volumen, klar definierter Aufbau, messbare Crawler-Akzeptanz. Das ist die Sorte Mikro-Optimierung, die wir bei SUMAX gerne machen — kurzer Aufwand, messbares Signal, kein Risiko.
Wer das Thema breiter denken will: Answer Engine Optimization (AEO) und Generative Engine Optimization (GEO) beschreiben das Gesamtbild, in das llms.txt als ein Baustein passt.
Mehr zum Thema: Answer Engine Optimization (AEO).