Kostenoptimierung für Coding Agents

Das Kostenproblem

Eine typische Coding-Agent-Sitzung verbraucht Tokens schnell:

Aktivität	Tokens pro Aufruf	Aufrufe pro Stunde	Tokens pro Stunde
Code-Generierung	5.000–50.000	10–30	150K–1,5M
Codebase-Suche	2.000–20.000	20–50	100K–1M
Code-Review	10.000–80.000	5–10	100K–800K
Autovervollständigung	500–3.000	50–200	50K–600K
Gesamt			400K–4M+

Bei Premium-Modell-Tarifen sind das

3–30 pro Stunde pro Entwickler. Bei einem 10-Personen-Team

500–5.000 pro Monat.

Intelligente Modellauswahl

Nicht jede Coding-Aufgabe braucht das teuerste Modell:

Aufgabe	Empfohlen	Kostenstufe	Grund
Architekturdesign	`claude-opus-4-6`, `gpt-5.4`	$$$$ Premium	Komplexes Reasoning nötig
Code-Generierung	`claude-sonnet-4-6`, `gemini-3-pro-preview`	$$$ Standard	Bestes Qualität/Kosten-Verhältnis
Code-Review	`claude-sonnet-4-6`, `deepseek-r1`	$$–$$$	Pattern Matching
Bug-Fixing	`claude-sonnet-4-6`, `gpt-5-mini`	$$–$$$	Fokussierte Aufgaben
Tab-Vervollständigung	`gpt-5-mini`, `gemini-3-flash-preview`	$$ Budget	Geschwindigkeit wichtiger als Tiefe
Boilerplate	`deepseek-v3.2`, `gpt-5-mini`	$ Economy	Einfache, wiederholende Muster

Siehe Modellauswahl-Leitfaden für detaillierte Modellvergleiche und Tool-Konfigurationen.

Caching-Strategien

Prompt Cache (Provider-Ebene)

Upstream-Prompt-Cache funktioniert automatisch über AI Sonar:

Anbieter	Cache-Rabatt	Min. Tokens
Anthropic	90% Rabatt auf Lesen	1.024
OpenAI	50% Rabatt auf Lesen	1.024
DeepSeek	90% Rabatt auf Lesen	64

Prompt Cache-Trefferquoten liegen typischerweise bei 70–90%.

Kombinierte Einsparungen

Für eine Anfrage mit 50.000 Input-Tokens:

Direkte API (kein Cache):
  50.000 Tokens × $3,00/1M = $0,150

Mit Prompt Cache (40.000 gecacht + 10.000 neu):
  Cache:  40.000 × $0,30/1M = $0,012
  Neu:    10.000 × $3,00/1M = $0,030
  Gesamt: $0,042 (72% Ersparnis)

Realer Kostenvergleich

Geschätzte Kosten für eine typische 1-Stunden-Coding-Sitzung (~3M Tokens):

Setup	Kosten/Stunde	Monatlich (160h)
Direkte API (Premium-Modell)	~$15–25	~$2.400–4.000
AI Sonar (Smart Routing)	~$10–18	~$1.600–2.900
AI Sonar + Prompt Cache	~$4–8	~$640–1.280

Dies sind illustrative Schätzungen. Tatsächliche Kosten hängen von Modellwahl, Nutzungsmustern und Cache-Trefferquoten ab. Aktuelle Tarife unter Echtzeit-Preise.

Token-Management-Tipps

max_tokens setzen

{
  "model": "claude-sonnet-4-6",
  "max_tokens": 4096,
  "messages": [...]
}

Auto-Compact nutzen

Claude Code: Eingebautes Auto-Compact bei Kontextlimits
Cursor: Automatisches Kontextmanagement
Codex CLI: --max-context Flag verwenden

Kontext-Aufblähung vermeiden

Nicht ganze Dateien einfügen, wenn eine Funktion reicht
.gitignore-Muster zum Ausschluss irrelevanter Dateien nutzen
Gesprächsverlauf beim Aufgabenwechsel löschen

Schnellkonfiguration

Claude Code

export ANTHROPIC_API_KEY="sk-your-api-key"
export ANTHROPIC_BASE_URL="https://api.aisonar.dev"

Vollständige Anleitung →

Cursor

Einstellungen → Modelle → OpenAI-API-Schlüssel: sk-your-key, Basis-URL: https://api.aisonar.dev/v1Vollständige Anleitung →

Codex CLI

export OPENAI_API_KEY="sk-your-api-key"
export OPENAI_BASE_URL="https://api.aisonar.dev/v1"

Vollständige Anleitung →

Gemini CLI

export GEMINI_API_KEY="sk-your-api-key"
export GOOGLE_GEMINI_BASE_URL="https://api.aisonar.dev"

Vollständige Anleitung →

​Das Kostenproblem

​Intelligente Modellauswahl

​Caching-Strategien

​Prompt Cache (Provider-Ebene)

​Kombinierte Einsparungen

​Realer Kostenvergleich

​Token-Management-Tipps

​max_tokens setzen

​Auto-Compact nutzen

​Kontext-Aufblähung vermeiden

​Schnellkonfiguration

Das Kostenproblem

Intelligente Modellauswahl

Caching-Strategien

Prompt Cache (Provider-Ebene)

Kombinierte Einsparungen

Realer Kostenvergleich

Token-Management-Tipps

max_tokens setzen

Auto-Compact nutzen

Kontext-Aufblähung vermeiden

Schnellkonfiguration