LLMKI-InfrastrukturBuild vs Buy

ChatGPT vs. Claude: Was wir bei SUMAX einsetzen

20. Mai 2026· 3 min Lesen

Seit Anfang 2023 betreiben wir bei SUMAX beide Modelle parallel: OpenAI GPT-4 und Anthropic Claude. Über 40 produktive Systeme, monatliche API-Kosten im niedrigen fünfstelligen Bereich, klare Aufgabenverteilung zwischen den Modellen.

Vergleichsartikel zu ChatGPT und Claude gibt es im Netz Tausende. Die meisten basieren auf Benchmark-Tabellen oder einmaligen Tests. Diese Notiz beruht auf zwei Jahren Operations-Daten: was funktioniert in welchem Use Case, was kostet es, was geht schief.

Wo Claude bei uns gewinnt

Für lange, strukturierte Texte mit Konsistenz-Anforderung läuft seit Mitte 2024 fast alles über Claude. Drei Gründe:

Längere Kontextfenster, die tatsächlich nutzbar sind. Claude Sonnet 4.6 schafft 1 Million Tokens (in unserer Pro-Anbindung). GPT-4 Turbo deckelt bei 128.000. Wir nutzen den großen Kontext für Brief-Analyse, Compliance-Reviews und unsere SEO-Audit-Pipeline. Die "Lost in the Middle"-Schwäche ist bei Claude messbar geringer.

Strukturtreue. Wenn wir Output in striktem Schema (JSON, Markdown mit fester Hierarchie, XML-Templates) brauchen, hält Claude die Form zuverlässiger. GPT-4 driftet bei längeren Outputs öfter aus dem vorgegebenen Schema heraus, besonders unter Last.

Refusal-Verhalten. Claude lehnt seltener legitime Anfragen ab, die als unethisch fehlinterpretiert werden könnten — eine Sache, die ChatGPT bei Marketingtexten zu Compliance- oder Versicherungsthemen häufig macht. In automatisierten Pipelines kostet jede Refusal Aufwand für Retry und Eskalation.

Konkrete Systeme bei uns auf Claude: SEO-Audit-Pipeline, AI-Visibility-Audit, Newsletter Builder, Content-Pipeline, GMB Profile Optimizer.

Wo GPT-4 gewinnt

Bei drei spezifischen Aufgabentypen läuft GPT-4 weiter besser.

Vision-Aufgaben in Bildauswertung. GPT-4o ist im Verstehen von Screenshots, Diagrammen und gemischten Bild-Text-Aufgaben weiterhin überlegen. Wir nutzen es für unsere Ad-Creative-Audits, wo Anzeigenbilder strukturiert bewertet werden.

Strukturierte Datenextraktion in JSON. Mit OpenAIs Structured Outputs API (mit JSON-Schema-Vorgabe) ist die Compliance-Rate auf Schema bei ca. 99,5 Prozent — Claude erreicht über tool_use ähnliche Werte, der Overhead ist aber höher.

Plug-ins und ChatGPT-Suchintegration. Für interne Recherche-Tasks, bei denen Web-Suche eingebaut sein muss, ist die ChatGPT-Suchfunktion mittlerweile robust. Bei Claude nutzen wir dafür eigene RAG-Pipelines.

Kostenrahmen, der zählt

Pro 1 Million Tokens, Stand Mai 2026:

| Modell | Input | Output | Caching | |---|---:|---:|---:| | Claude Sonnet 4.6 | 3,00 USD | 15,00 USD | bis 90 % Rabatt | | GPT-4 Turbo | 10,00 USD | 30,00 USD | begrenzt | | GPT-4o | 2,50 USD | 10,00 USD | begrenzt | | Claude Haiku 4.5 | 0,80 USD | 4,00 USD | bis 90 % Rabatt |

Für hochvolumige Klassifikationsaufgaben (Klassifizierung, Tagging, einfache Routing-Entscheidungen) setzen wir Claude Haiku 4.5 ein. Die Kostendifferenz zu Sonnet ist Faktor 4–5, die Qualität für simple Tasks reicht. Bei strategischen Aufgaben (Strategiepapiere, kritische Reviews) läuft Claude Sonnet oder Opus.

Wichtiger als der nominale Token-Preis: Prompt-Caching. Anthropic erlaubt das Cachen von System-Prompts und langen Dokumenten. Bei unseren SEO-Audits, die immer denselben Brief mit unterschiedlichen Zielwebsites kombinieren, sinken die effektiven Kosten um über 70 Prozent. Das macht Claude in der Praxis günstiger als der Listenpreis suggeriert.

Wo wir gemischt fahren

Drei Bereiche, in denen wir bewusst beide Modelle nutzen:

Translation und Sprach-Stil. Bei deutschen Marketingtexten ist Claude in der Stiltreue stark, bei englischen Outputs für internationale Kampagnen GPT-4 oft natürlicher.

Coding-Assistenz. Beide Modelle sind nahe beieinander. Bei größeren Refactorings im FastAPI-Codebase nutzen unsere Entwickler eher Claude (Kontextfenster), für schnelle Snippets ChatGPT.

Sales-Briefings. Ein Routing-System entscheidet je nach Aufgabentyp: lange Diskussions-Zusammenfassungen → Claude, strukturierte CRM-Felder → GPT-4 mit Structured Outputs.

Was wir gelernt haben

Setze auf Tool-Vielfalt, nicht auf Tool-Lock-in. Wer alles auf einen Anbieter setzt, wird beim nächsten Preisschub oder Outage erpressbar. Unser LLM-Router abstrahiert die konkrete Modellwahl — Wechsel ist eine Config-Änderung, kein Re-Build.

Caching schlägt Modellwahl. Vor jeder Diskussion über das "bessere" Modell prüfen wir, ob Prompt-Caching auf der bestehenden Pipeline möglich ist. 70 Prozent Kostenersparnis sind wirkungsvoller als die letzten fünf Prozent Qualitätsgewinn durch Anbieterwechsel.

Refusal-Rate gehört ins Monitoring. Jeder Refusal in einer Produktivpipeline ist ein Bug — entweder im Prompt oder in der Eskalationslogik. Wir tracken Refusal-Raten pro System wöchentlich.

Hybrid ist Standard, nicht Sonderfall. Ein Modell für alles bedeutet, immer für die teuerste Aufgabe zu zahlen und nie für die einfachsten. Modell-Routing nach Task-Komplexität reduziert API-Kosten dauerhaft um 40–60 Prozent.

Praktische Empfehlung

Wer mit KI-Automatisierung startet und sich entscheiden muss: Claude für deutsche Long-Form-Aufgaben mit Schema-Anforderung, ChatGPT für Vision und Plug-in-Integration. Mit Prompt-Caching wird Claude bei wiederkehrenden Tasks schnell günstiger als die Listenpreise vermuten lassen.

Wer schon weiter ist: ein eigener Router, der nach Task-Typ und Token-Budget zwischen Modellen wechselt. Das ist das Setup, mit dem wir bei SUMAX seit Mitte 2024 fahren — und das wir keinem mehr abnehmen würden.