✨ Cache prompt upstream

Gambaran Umum

Cara Kerja Provider Prompt Cache

Provider prompt caching menyimpan representasi terproses dari awalan (prefix) prompt Anda di server penyedia. Saat Anda mengirim permintaan dengan awalan yang sama, penyedia dapat melewati pemrosesan ulang token tersebut.

Karakteristik Utama

Berbasis awalan (prefix): Hanya bagian awal prompt Anda yang dapat di-cache
Pencocokan tepat: Memerlukan token yang identik (bukan kemiripan semantik)
Terbatas waktu: Entri cache kedaluwarsa (biasanya 5-60 menit)
Otomatis: Tidak diperlukan konfigurasi khusus

Request 1: [System prompt + Context A + Question 1]
           ^^^^^^^^^^^^^^^^^^^^^^^^
           This prefix gets cached

Request 2: [System prompt + Context A + Question 2]
           ^^^^^^^^^^^^^^^^^^^^^^^^
           Cache hit! Only Question 2 is processed

Penyedia yang Didukung

Penyedia	Diskon Baca Cache	Biaya Tulis Cache	Token Minimum
Anthropic	Diskon 90%	Premium 25%	1024
OpenAI	Diskon 50%	Sama dengan input	1024
DeepSeek	Diskon 90%	Sama dengan input	64
Google	Diskon 75%	Premium 25%	32768

Diskon diterapkan secara otomatis. AI Sonar meneruskan harga cache penyedia kepada Anda.

Mengidentifikasi Penggunaan Cache

Dalam Log Penggunaan

Log penggunaan Anda menunjukkan rincian token cache yang mendetail:

Bidang	Deskripsi
`cacheReadTokens`	Token yang dilayani dari provider cache (didiskon)
`cacheWriteTokens`	Token yang ditulis ke cache (untuk permintaan di masa mendatang)
`nonCachedPromptTokens`	Token yang diproses tanpa cache

Dalam Transaksi

Transaksi menunjukkan label Provider Cache saat caching upstream digunakan:

Provider Cache (teal): Upstream prompt cache hit - tarif diskon

Contoh Perhitungan Biaya

Untuk permintaan dengan 10.000 token input ke Claude (Anthropic): Tanpa cache:

10,000 tokens × $3.00/1M = $0.030

Dengan provider cache (8.000 di-cache + 2.000 baru):

Baca cache:  8,000 tokens × $0.30/1M = $0.0024  (diskon 90%)
Tulis cache: 2,000 tokens × $3.75/1M = $0.0075
Total: $0.0099 (penghematan 67%)

Praktik Terbaik

Gunakan system prompt yang konsisten

Tempatkan system prompt dan konteks statis Anda di awal pesan. Ini memaksimalkan potensi cache hit.

Kelompokkan permintaan serupa

Kirim permintaan dengan awalan yang sama dalam waktu yang berdekatan untuk mendapatkan manfaat dari cache sebelum kedaluwarsa.

Penuhi persyaratan token minimum

Pastikan awalan yang dapat di-cache memenuhi batas minimum penyedia (misalnya, 1024 token untuk Anthropic/OpenAI).

Pantau metrik cache

Periksa statistik penggunaan dasbor Anda untuk tingkat cache hit dan penghematan.

Memeriksa Status Cache

Header Respons

X-Upstream-Cache-Read: 8000   # Token baca provider cache
X-Upstream-Cache-Write: 2000  # Token tulis provider cache

API Penggunaan

Kueri log penggunaan Anda untuk melihat rincian cache:

GET /v1/usage/logs is currently not a public endpoint.
Use X-Upstream-Cache-* response headers, plus the dashboard usage page.

Respons mencakup:

{
  "promptTokens": 10000,
  "cacheReadTokens": 8000,
  "cacheWriteTokens": 2000,
  "nonCachedPromptTokens": 0,
  "completionTokens": 500,
  "cost": 0.0099
}

FAQ

Dapatkah saya menonaktifkan provider caching?

Provider caching bersifat otomatis dan tidak dapat dinonaktifkan. Namun, hal ini hanya menguntungkan Anda (biaya lebih rendah), jadi tidak ada alasan untuk menonaktifkannya.

Mengapa permintaan saya tidak hit provider cache?

Alasan umum:

Awalan berubah (bahkan perbedaan satu token)
Cache kedaluwarsa (biasanya 5-60 menit)
Awalan terlalu pendek (di bawah token minimum)
Kunci API yang digunakan berbeda

Apakah BYOK mendukung provider caching?

Ya! Saat menggunakan kunci API Anda sendiri (BYOK), provider caching bekerja dengan cara yang sama. Cache terikat pada kunci API upstream Anda.

Bagaimana cara memaksimalkan penghematan cache?

Strukturkan prompt dengan konten statis terlebih dahulu
Jaga agar system prompt tetap konsisten di seluruh permintaan
Kirim permintaan terkait secara berurutan dengan cepat

​Gambaran Umum

​Cara Kerja Provider Prompt Cache

​Karakteristik Utama

​Penyedia yang Didukung

​Mengidentifikasi Penggunaan Cache

​Dalam Log Penggunaan

​Dalam Transaksi

​Contoh Perhitungan Biaya

​Praktik Terbaik

​Memeriksa Status Cache

​Header Respons

​API Penggunaan

​FAQ

Gambaran Umum

Cara Kerja Provider Prompt Cache

Karakteristik Utama

Penyedia yang Didukung

Mengidentifikasi Penggunaan Cache

Dalam Log Penggunaan

Dalam Transaksi

Contoh Perhitungan Biaya

Praktik Terbaik

Memeriksa Status Cache

Header Respons

API Penggunaan

FAQ