Übersicht
Wie Provider-Prompt-Caching funktioniert
Provider-Prompt-Caching speichert die verarbeitete Darstellung Ihres Prompt-Präfixes auf den Servern des Providers. Wenn Sie eine Anfrage mit demselben Präfix senden, kann der Provider die erneute Verarbeitung dieser Token überspringen.Hauptmerkmale
- Präfix-basiert: Nur der Anfang Ihres Prompts kann zwischengespeichert werden
- Exakte Übereinstimmung: Erfordert identische Token (keine semantische Ähnlichkeit)
- Zeitlich begrenzt: Cache-Einträge laufen ab (normalerweise 5–60 Minuten)
- Automatisch: Keine spezielle Konfiguration erforderlich
Unterstützte Provider
| Anbieter | Cache-Lese-Rabatt | Cache-Schreib-Kosten | Min. Token |
|---|---|---|---|
| Anthropic | 90 % Rabatt | 25 % Aufpreis | 1024 |
| OpenAI | 50 % Rabatt | Gleich wie Input | 1024 |
| DeepSeek | 90 % Rabatt | Gleich wie Input | 64 |
| 75 % Rabatt | 25 % Aufpreis | 32768 |
Rabatte werden automatisch angewendet. AI Sonar gibt die Cache-Preise des Providers direkt an Sie weiter.
Cache-Nutzung erkennen
In den Nutzungsprotokollen
Ihre Nutzungsprotokolle zeigen eine detaillierte Aufschlüsselung der Cache-Token:| Feld | Beschreibung |
|---|---|
cacheReadTokens | Token aus dem Provider-Cache (ermäßigt) |
cacheWriteTokens | Token, die in den Cache geschrieben wurden (für zukünftige Anfragen) |
nonCachedPromptTokens | Token, die ohne Cache verarbeitet wurden |
In Transaktionen
Transaktionen zeigen ein Provider Cache-Label an, wenn Upstream-Caching verwendet wurde:- Cache (himmelblau): Plattform-Semantic-Cache-Treffer – 90 % Rabatt
- Provider Cache (blaugrün): Upstream-Prompt-Cache-Treffer – ermäßigte Raten
Kostenberechnungsbeispiel
Für eine Anfrage mit 10.000 Input-Token an Claude (Anthropic): Ohne Cache:Bewährte Praktiken
Konsistente System-Prompts verwenden
Konsistente System-Prompts verwenden
Platzieren Sie Ihren System-Prompt und statischen Kontext am Anfang Ihrer Nachrichten. Dies maximiert die Cache-Trefferwahrscheinlichkeit.
Ähnliche Anfragen bündeln
Ähnliche Anfragen bündeln
Senden Sie Anfragen mit demselben Präfix zeitnah hintereinander, um vom Cache zu profitieren, bevor er abläuft.
Mindest-Token-Anforderungen einhalten
Mindest-Token-Anforderungen einhalten
Stellen Sie sicher, dass Ihr cachebarer Präfix die Mindestanforderung des Providers erfüllt (z. B. 1024 Token für Anthropic/OpenAI).
Cache-Metriken überwachen
Cache-Metriken überwachen
Überprüfen Sie die Nutzungsstatistiken in Ihrem Dashboard auf Cache-Trefferraten und Einsparungen.