Langsung ke konten utama

Gambaran Umum

Cara Kerja Provider Prompt Cache

Provider prompt caching menyimpan representasi terproses dari awalan (prefix) prompt Anda di server penyedia. Saat Anda mengirim permintaan dengan awalan yang sama, penyedia dapat melewati pemrosesan ulang token tersebut.

Karakteristik Utama

  • Berbasis awalan (prefix): Hanya bagian awal prompt Anda yang dapat di-cache
  • Pencocokan tepat: Memerlukan token yang identik (bukan kemiripan semantik)
  • Terbatas waktu: Entri cache kedaluwarsa (biasanya 5-60 menit)
  • Otomatis: Tidak diperlukan konfigurasi khusus
Request 1: [System prompt + Context A + Question 1]
           ^^^^^^^^^^^^^^^^^^^^^^^^
           This prefix gets cached

Request 2: [System prompt + Context A + Question 2]
           ^^^^^^^^^^^^^^^^^^^^^^^^
           Cache hit! Only Question 2 is processed

Penyedia yang Didukung

PenyediaDiskon Baca CacheBiaya Tulis CacheToken Minimum
AnthropicDiskon 90%Premium 25%1024
OpenAIDiskon 50%Sama dengan input1024
DeepSeekDiskon 90%Sama dengan input64
GoogleDiskon 75%Premium 25%32768
Diskon diterapkan secara otomatis. AI Sonar meneruskan harga cache penyedia kepada Anda.

Mengidentifikasi Penggunaan Cache

Dalam Log Penggunaan

Log penggunaan Anda menunjukkan rincian token cache yang mendetail:
BidangDeskripsi
cacheReadTokensToken yang dilayani dari provider cache (didiskon)
cacheWriteTokensToken yang ditulis ke cache (untuk permintaan di masa mendatang)
nonCachedPromptTokensToken yang diproses tanpa cache

Dalam Transaksi

Transaksi menunjukkan label Provider Cache saat caching upstream digunakan:
  • Provider Cache (teal): Upstream prompt cache hit - tarif diskon

Contoh Perhitungan Biaya

Untuk permintaan dengan 10.000 token input ke Claude (Anthropic): Tanpa cache:
10,000 tokens × $3.00/1M = $0.030
Dengan provider cache (8.000 di-cache + 2.000 baru):
Baca cache:  8,000 tokens × $0.30/1M = $0.0024  (diskon 90%)
Tulis cache: 2,000 tokens × $3.75/1M = $0.0075
Total: $0.0099 (penghematan 67%)

Praktik Terbaik

Tempatkan system prompt dan konteks statis Anda di awal pesan. Ini memaksimalkan potensi cache hit.
Kirim permintaan dengan awalan yang sama dalam waktu yang berdekatan untuk mendapatkan manfaat dari cache sebelum kedaluwarsa.
Pastikan awalan yang dapat di-cache memenuhi batas minimum penyedia (misalnya, 1024 token untuk Anthropic/OpenAI).
Periksa statistik penggunaan dasbor Anda untuk tingkat cache hit dan penghematan.

Memeriksa Status Cache

Header Respons

X-Upstream-Cache-Read: 8000   # Token baca provider cache
X-Upstream-Cache-Write: 2000  # Token tulis provider cache

API Penggunaan

Kueri log penggunaan Anda untuk melihat rincian cache:
GET /v1/usage/logs is currently not a public endpoint.
Use X-Upstream-Cache-* response headers, plus the dashboard usage page.
Respons mencakup:
{
  "promptTokens": 10000,
  "cacheReadTokens": 8000,
  "cacheWriteTokens": 2000,
  "nonCachedPromptTokens": 0,
  "completionTokens": 500,
  "cost": 0.0099
}

FAQ

Provider caching bersifat otomatis dan tidak dapat dinonaktifkan. Namun, hal ini hanya menguntungkan Anda (biaya lebih rendah), jadi tidak ada alasan untuk menonaktifkannya.
Alasan umum:
  • Awalan berubah (bahkan perbedaan satu token)
  • Cache kedaluwarsa (biasanya 5-60 menit)
  • Awalan terlalu pendek (di bawah token minimum)
  • Kunci API yang digunakan berbeda
Ya! Saat menggunakan kunci API Anda sendiri (BYOK), provider caching bekerja dengan cara yang sama. Cache terikat pada kunci API upstream Anda.
  1. Strukturkan prompt dengan konten statis terlebih dahulu
  2. Jaga agar system prompt tetap konsisten di seluruh permintaan
  3. Kirim permintaan terkait secara berurutan dengan cepat