Überblick
Übersetzt Audio in jeder unterstützten Sprache in englischen Text. Im Gegensatz zur Transkription gibt dieser Endpoint unabhängig von der Eingabesprache immer englischen Text aus.Anfragekörper
Timeout für synchrone Anfragen: Dieser Nicht-Chat-Endpunkt wartet, bis das geroutete Modell fertig ist. Große Eingaben, lange Audiodateien oder große Batches können übliche 30s-Client-Defaults überschreiten; setzen Sie das Timeout Ihres HTTP-Clients daher auf mindestens120s.
Die Audio-Datei, die übersetzt werden soll. Unterstützte Formate:
flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webm. Die maximale Dateigröße beträgt 25 MB.Das zu verwendende Modell. Derzeit wird nur
whisper-1 unterstützt.Ein optionaler Text, um den Stil des Modells zu steuern oder ein vorheriges Segment fortzusetzen. Sollte auf Englisch sein.
Das Format der Ausgabe. Optionen:
json, text, srt, verbose_json, vtt.Die Sampling-Temperatur zwischen 0 und 1. Höhere Werte wie 0.8 erzeugen zufälligere Ausgaben, während niedrigere Werte wie 0.2 die Ausgabe fokussierter und deterministischer machen.
Antwort
Der übersetzte Text auf Englisch.
verbose_json enthält die Antwort außerdem:
Die erkannte Sprache des Eingabe-Audios.
Die Dauer des Eingabe-Audios in Sekunden.
Segmente des übersetzten Textes mit Zeitstempeln.
Übersetzung vs. Transkription
| Funktion | Übersetzung | Transkription |
|---|---|---|
| Ausgabesprache | Immer Englisch | Gleich wie die Eingabe |
| Anwendungsfall | Fremdsprachiges Audio in Englisch umwandeln | Originalsprache beibehalten |
| Sprachparameter | Nicht anwendbar | Optionaler Hinweis |
Der Übersetzungs-Endpoint erkennt die Ausgangssprache automatisch und übersetzt ins Englische. Der
language-Parameter aus der Transkription wird ignoriert.