Überblick
AI Sonar bietet Video-Generierung über eine einheitliche API an. Die Generierung ist asynchron: Sie senden eine Anfrage, erhaltentask_id und poll_url und pollen anschließend auf das Endergebnis.
Verfügbarkeit und Polling
Den aktuellen Bestand öffentlicher Videomodelle finden Sie über die Models API oder auf der Modellseite. Wenn eine Create-Responsepoll_url zurückgibt, verwenden Sie genau diese URL. Wenn sie auf /v1/tasks/{id} zeigt, behandeln Sie sie als kanonischen festen Status-Endpunkt.
Modell- und Medienverhalten
Das Audioverhalten ist modellabhängig. In AI Sonar wird die Veo-3-Familie bei weggelassenemoutput_audio standardmäßig als audio-on behandelt. Andere öffentliche Modelle sind standardmäßig stumm oder veröffentlichen keinen stabilen Audio-Schalter.
In Produktion sollten Sie für Bild-, Video- und Audioeingaben öffentlich erreichbare https-URLs bevorzugen. Kompatible Modelle akzeptieren weiterhin data:-URLs, aber URLs sind für Retry, Observability und Debugging in der Regel robuster.
Asynchroner Workflow
Aktuelle öffentliche Operationen
Der öffentliche Videovertrag von AI Sonar konzentriert sich derzeit auf diese Operationen:text-to-videoimage-to-videoreference-to-videostart-end-to-videovideo-to-videomotion-control
audio-to-video und video-extension für modellspezifische Flows, aber in der aktuell allgemein aktivierten öffentlichen Modellliste dieses Docs-Builds gibt es kein breit aktiviertes Modell, das diese Fähigkeiten öffentlich anbietet.
Fähigkeitsmatrix
Legende: ✅ In dieser Provider-Familie gibt es mindestens ein aktuell aktives öffentliches Modell mit dieser Fähigkeit | ❌ In den aktuell aktiven öffentlichen Modellen nicht öffentlich verfügbar| Serie | T2V | I2V | Referenz | Start-Ende | V2V | Bewegung |
|---|---|---|---|---|---|---|
| OpenAI | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ |
| Kuaishou | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| ✅ | ✅ | ✅ | ✅ | ❌ | ❌ | |
| ByteDance | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ |
| MiniMax | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ |
| Alibaba | ✅ | ✅ | ✅ | ❌ | ❌ | ❌ |
| Shengshu | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ |
| xAI | ✅ | ✅ | ❌ | ❌ | ✅ | ❌ |
| Other | ❌ | ❌ | ❌ | ❌ | ✅ | ❌ |
Begriffserläuterung
- T2V (Text-to-Video): Video aus einem Text-Prompt erzeugen
- I2V (Image-to-Video): Video aus einem Startbild erzeugen; aus Kompatibilitätsgründen wird
image_urlempfohlen - Reference: Konditionierung über ein oder mehrere Referenzbilder via
reference_images - Start-End: Ersten und letzten Frame mit
start_imageundend_imagesteuern - V2V (Video-to-Video): Ein bestehendes Video als Haupteingang verwenden
- Motion: Motivbild und Bewegungsreferenzvideo gemeinsam verwenden
Aktueller öffentlicher Modellbestand
Kuaishou
| Modell | Öffentliche Operationen |
|---|---|
kling-3.0-motion-control | Bewegungssteuerung |
kling-3.0-video | Text-zu-Video, Bild-zu-Video, Start-Endbild-zu-Video, Elementreferenzen |
kling-v2.1-master | Text-zu-Video, Bild-zu-Video |
kling-v2.1-pro | Bild-zu-Video, Start-Endbild-zu-Video |
kling-v2.1-standard | Bild-zu-Video |
kling-v2.5-turbo-pro | Text-zu-Video, Bild-zu-Video, Start-Endbild-zu-Video |
kling-v2.5-turbo-std | Text-zu-Video, Bild-zu-Video |
kling-v2.6-pro | Text-zu-Video, Bild-zu-Video, Start-Endbild-zu-Video |
kling-v2.6-std | Text-zu-Video, Bild-zu-Video |
kling-v3.0-pro | Text-zu-Video, Bild-zu-Video, Start-Endbild-zu-Video |
kling-v3.0-std | Text-zu-Video, Bild-zu-Video, Start-Endbild-zu-Video |
kling-video-o1-pro | Text-zu-Video, Bild-zu-Video, Referenzbild-zu-Video, Start-Endbild-zu-Video, Video-zu-Video |
kling-video-o1-std | Text-zu-Video, Bild-zu-Video, Referenzbild-zu-Video, Start-Endbild-zu-Video, Video-zu-Video |
| Modell | Öffentliche Operationen |
|---|---|
veo3 | Text-zu-Video, Bild-zu-Video |
veo3-fast | Text-zu-Video, Bild-zu-Video |
veo3-pro | Text-zu-Video, Bild-zu-Video |
veo3.1 | Text-zu-Video, Bild-zu-Video, Referenzbild-zu-Video, Start-Endbild-zu-Video |
veo3.1-fast | Text-zu-Video, Bild-zu-Video, Referenzbild-zu-Video, Start-Endbild-zu-Video |
veo3.1-pro | Text-zu-Video, Bild-zu-Video, Start-Endbild-zu-Video |
ByteDance
| Modell | Öffentliche Operationen |
|---|---|
seedance-1.5-pro | Text-zu-Video, Bild-zu-Video |
MiniMax
| Modell | Öffentliche Operationen |
|---|---|
hailuo-2.3-fast | Bild-zu-Video |
hailuo-2.3-pro | Text-zu-Video, Bild-zu-Video |
hailuo-2.3-standard | Text-zu-Video, Bild-zu-Video |
Alibaba
| Modell | Öffentliche Operationen |
|---|---|
wan-2.2-plus | Text-zu-Video, Bild-zu-Video |
wan-2.5 | Text-zu-Video, Bild-zu-Video |
wan-2.6 | Text-zu-Video, Bild-zu-Video, Referenzbild-zu-Video |
Shengshu
| Modell | Öffentliche Operationen |
|---|---|
viduq2 | Text-zu-Video, Referenzbild-zu-Video |
viduq2-pro | Bild-zu-Video, Referenzbild-zu-Video, Start-Endbild-zu-Video |
viduq2-pro-fast | Bild-zu-Video, Start-Endbild-zu-Video |
viduq2-turbo | Bild-zu-Video, Start-Endbild-zu-Video |
viduq3-pro | Text-zu-Video, Bild-zu-Video, Start-Endbild-zu-Video |
viduq3-turbo | Text-zu-Video, Bild-zu-Video, Start-Endbild-zu-Video |
xAI
| Modell | Öffentliche Operationen |
|---|---|
grok-imagine-video | Text-zu-Video, Bild-zu-Video, Reference-to-Video, Video-to-Video |
grok-imagine-video-1.5-preview | Bild-zu-Video |
grok-imagine-image-to-video | Bild-zu-Video |
grok-imagine-text-to-video | Text-zu-Video |
grok-imagine-upscale | Video-zu-Video |
Sonstiges
| Modell | Öffentliche Operationen |
|---|---|
topaz-video-upscale | Video-zu-Video |
Verwendungsbeispiele
Text-zu-Video
Bild-zu-Video
Kling 3.0 Elements
Verwenden Siekling_elements mit kling-3.0-video, wenn Sie Elementreferenzen benötigen. Senden Sie eine bildkonditionierte Anfrage (image_url, image_urls, start_image oder end_image) und referenzieren Sie jedes Element im Prompt mit @name. Kombinieren Sie kling_elements nicht mit output_audio=true; lassen Sie output_audio weg oder setzen Sie es für Elementreferenzen auf false.
Referenzbild-zu-Video
Fürseedance-2.0 und seedance-2.0-fast unterstützt AI Sonar derzeit bis zu 9 Referenzbilder sowie zusätzlich bis zu 3 Referenzvideos und 3 Referenzaudios. duration steuert nur die Länge des generierten Outputs und definiert kein separates Dauerlimit für Referenzvideo-Eingaben. Für grok-imagine-video akzeptiert reference-to-video bis zu 7 Bildreferenzen (reference_images oder image_urls) und duration ist auf 10 Sekunden begrenzt. Kombinieren Sie Referenzbilder nicht mit image_url / image als Startbild-Eingaben. grok-imagine-video-1.5-preview ist nur image-to-video.
Start- und Endframe-Steuerung
Video-zu-Video
Fürgrok-imagine-video video-to-video senden Sie eine öffentliche HTTPS-.mp4-URL in video_url. AI Sonar übersetzt sie in den xAI-REST-Body video.url. Sie können resolution auf 480p oder 720p setzen; duration und aspect_ratio werden für diesen Edit-Flow nicht akzeptiert.
Bewegungssteuerung
Hinweise zu Parametern
| Parameter | Typ | Hinweis |
|---|---|---|
operation | string | In Produktion explizit angeben |
image_url | string | Robusteste Form für Bildeingaben |
image | string | data:-URL für lokale Tests und kleine Integrationen |
reference_images | string[] | Kanonisches öffentliches Feld für Referenzbild-Konditionierung |
reference_image_type | string | Optionaler asset / style-Schalter |
video_url | string | Für aktuelle öffentliche video-to-video- und motion-control-Modelle erforderlich |
audio_url | string | Für modellspezifische Audio-zu-Video-Flows |
output_audio | boolean | Veo-3-Familie behandelt Auslassung als true. kling-3.0-video akzeptiert diesen Selector für die Upstream-sound-Steuerung und bleibt bei Auslassung stumm. |
Hinweise zur Modellauswahl
Höchste Qualität
Wenn Qualität wichtiger ist als Geschwindigkeit, sind veo3.1-pro, kling-video-o1-pro und viduq3-pro starke Kandidaten.
Schnelle Iteration
Für schnelle Schleifen eignen sich veo3.1-fast, hailuo-2.3-fast und viduq3-turbo.
Referenzbild-Konditionierung
Für dedizierte Referenzbild-Steuerung sind veo3.1, veo3.1-fast, wan-2.6 sowie kling-video-o1-pro / std gute Startpunkte.
Video-zu-Video
Die allgemein aktivierten öffentlichen
video-to-video-Pfade sind derzeit vor allem topaz-video-upscale, grok-imagine-upscale und kling-video-o1-pro / std.