Tổng quan
AI Sonar cung cấp khả năng tạo video thông qua một API hợp nhất. Quá trình này bất đồng bộ: bạn gửi yêu cầu, nhậntask_id và poll_url, rồi kiểm tra trạng thái định kỳ cho tới khi có kết quả cuối cùng.
Tính khả dụng và polling
Danh sách model video công khai có thể thay đổi theo thời gian. Để xem tình trạng mới nhất, hãy dùng Models API hoặc truy cập trang Models. Nếu phản hồi tạo trả vềpoll_url, hãy gọi đúng URL đó. Khi nó trỏ tới /v1/tasks/{id}, hãy xem đó là endpoint trạng thái cố định chuẩn.
Hành vi mô hình và phương tiện
Hành vi âm thanh phụ thuộc vào từng model. Trong AI Sonar, họ Veo 3 mặc định bật âm thanh khi bỏ quaoutput_audio. Một số model công khai chỉ hỗ trợ im lặng hoặc không cung cấp công tắc âm thanh ổn định.
Trong môi trường vận hành, nên ưu tiên URL https công khai thay vì base64 inline cho ảnh, video và âm thanh. Các model tương thích vẫn hỗ trợ URL data:, nhưng URL công khai sẽ dễ retry, kiểm tra và debug hơn.
Quy trình bất đồng bộ
Các thao tác công khai hiện tại
Hợp đồng video công khai hiện tại của AI Sonar tập trung vào các thao tác sau:text-to-videoimage-to-videoreference-to-videostart-end-to-videovideo-to-videomotion-control
audio-to-video và video-extension cho một số luồng đặc thù theo model, nhưng trong bản tài liệu hiện tại chưa có model công khai phổ biến nào quảng bá rõ ràng hai khả năng này.
Ma trận khả năng
Chú thích: ✅ Có ít nhất một model công khai đang bật trong nhóm nhà cung cấp đó hỗ trợ khả năng này | ❌ Hiện chưa có model công khai đang bật nào đại diện cho khả năng đó| Nhóm | T2V | I2V | Tham chiếu | Đầu-Cuối | V2V | Chuyển động |
|---|---|---|---|---|---|---|
| OpenAI | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ |
| Kuaishou | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| ✅ | ✅ | ✅ | ✅ | ❌ | ❌ | |
| ByteDance | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ |
| MiniMax | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ |
| Alibaba | ✅ | ✅ | ✅ | ❌ | ❌ | ❌ |
| Shengshu | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ |
| xAI | ✅ | ✅ | ❌ | ❌ | ✅ | ❌ |
| Khác | ❌ | ❌ | ❌ | ❌ | ✅ | ❌ |
Giải thích khả năng
- T2V (Text-to-Video): Tạo video từ prompt văn bản
- I2V (Image-to-Video): Tạo video từ một ảnh đầu vào. Để tương thích rộng nhất, nên dùng
image_url - Tham chiếu: Điều kiện hóa quá trình sinh bằng một hoặc nhiều ảnh tham chiếu qua
reference_images - Đầu-Cuối: Điều khiển khung đầu và khung cuối bằng
start_imagevàend_image - V2V (Video-to-Video): Dùng một video có sẵn làm đầu vào chính
- Chuyển động: Kết hợp ảnh chủ thể với video tham chiếu chuyển động
Danh sách model công khai hiện tại
Kuaishou
| Mô hình | Thao tác công khai |
|---|---|
kling-3.0-motion-control | Điều khiển chuyển động |
kling-3.0-video | Văn bản sang video, image-to-video, start-end-to-video, tham chiếu phần tử |
kling-v2.1-master | Văn bản sang video, image-to-video |
kling-v2.1-pro | image-to-video, start-end-to-video |
kling-v2.1-standard | image-to-video |
kling-v2.5-turbo-pro | Văn bản sang video, image-to-video, start-end-to-video |
kling-v2.5-turbo-std | Văn bản sang video, image-to-video |
kling-v2.6-pro | Văn bản sang video, image-to-video, start-end-to-video |
kling-v2.6-std | Văn bản sang video, image-to-video |
kling-v3.0-pro | Văn bản sang video, image-to-video, start-end-to-video |
kling-v3.0-std | Văn bản sang video, image-to-video, start-end-to-video |
kling-video-o1-pro | Văn bản sang video, image-to-video, reference-to-video, start-end-to-video, video-to-video |
kling-video-o1-std | Văn bản sang video, image-to-video, reference-to-video, start-end-to-video, video-to-video |
| Mô hình | Thao tác công khai |
|---|---|
veo3 | Văn bản sang video, image-to-video |
veo3-fast | Văn bản sang video, image-to-video |
veo3-pro | Văn bản sang video, image-to-video |
veo3.1 | Văn bản sang video, image-to-video, reference-to-video, start-end-to-video |
veo3.1-fast | Văn bản sang video, image-to-video, reference-to-video, start-end-to-video |
veo3.1-pro | Văn bản sang video, image-to-video, start-end-to-video |
ByteDance
| Mô hình | Thao tác công khai |
|---|---|
seedance-1.5-pro | Văn bản sang video, image-to-video |
MiniMax
| Mô hình | Thao tác công khai |
|---|---|
hailuo-2.3-fast | Từ ảnh sang video |
hailuo-2.3-pro | Văn bản sang video, image-to-video |
hailuo-2.3-standard | Văn bản sang video, image-to-video |
Alibaba
| Mô hình | Thao tác công khai |
|---|---|
wan-2.2-plus | Văn bản sang video, image-to-video |
wan-2.5 | Văn bản sang video, image-to-video |
wan-2.6 | Văn bản sang video, image-to-video, reference-to-video |
Shengshu
| Mô hình | Thao tác công khai |
|---|---|
viduq2 | Văn bản sang video, reference-to-video |
viduq2-pro | Ảnh thành video, tham chiếu thành video, đầu-cuối thành video |
viduq2-pro-fast | Ảnh thành video, đầu-cuối thành video |
viduq2-turbo | Chuyển ảnh thành video, từ đầu đến cuối thành video |
viduq3-pro | Văn bản sang video, image-to-video, start-end-to-video |
viduq3-turbo | Văn bản sang video, image-to-video, start-end-to-video |
xAI
| Mô hình | Thao tác công khai |
|---|---|
grok-imagine-video | Văn bản sang video, ảnh sang video, reference-to-video, video-to-video |
grok-imagine-video-1.5-preview | Ảnh sang video |
grok-imagine-image-to-video | Từ ảnh sang video |
grok-imagine-text-to-video | Văn bản sang video |
grok-imagine-upscale | Từ video sang video |
Khác
| Mô hình | Thao tác công khai |
|---|---|
topaz-video-upscale | Từ video sang video |
Ví dụ sử dụng
Text-to-video
Ảnh thành video
Kling 3.0 Elements
Dùngkling_elements với kling-3.0-video khi cần tham chiếu phần tử. Cung cấp request có điều kiện ảnh (image_url, image_urls, start_image hoặc end_image) và tham chiếu từng phần tử trong prompt bằng @name. Không kết hợp kling_elements với output_audio=true; hãy bỏ output_audio hoặc đặt thành false khi dùng tham chiếu phần tử.
Reference-to-video
Vớiseedance-2.0 và seedance-2.0-fast, AI Sonar hiện hỗ trợ tối đa 9 ảnh tham chiếu, cùng thêm tối đa 3 video tham chiếu và 3 audio tham chiếu. duration chỉ điều khiển độ dài đầu ra được tạo; nó không định nghĩa giới hạn riêng cho thời lượng video tham chiếu đầu vào. Với grok-imagine-video, reference-to-video chấp nhận tối đa 7 tham chiếu ảnh (reference_images hoặc image_urls) và duration tối đa là 10 giây. Không kết hợp ảnh tham chiếu với đầu vào khung đầu image_url / image. grok-imagine-video-1.5-preview chỉ hỗ trợ image-to-video.
Start-end-to-video
Video sang video
Với video-to-video củagrok-imagine-video, hãy gửi URL HTTPS công khai dạng .mp4 trong video_url. AI Sonar chuyển nó thành body REST video.url của xAI. Bạn có thể đặt resolution là 480p hoặc 720p; luồng chỉnh sửa này không nhận duration và aspect_ratio.
Motion control
Tham chiếu tham số
| Tham số | Kiểu | Ghi chú |
|---|---|---|
operation | string | Trong môi trường vận hành, nên truyền một cách tường minh |
image_url | string | Dạng đầu vào ảnh ổn định nhất |
image | string | URL data: hữu ích cho thử nghiệm cục bộ và tích hợp nhỏ |
reference_images | string[] | Trường công khai chuẩn cho conditioning bằng ảnh tham chiếu |
reference_image_type | string | Bộ chọn tùy chọn asset / style |
video_url | string | Bắt buộc với các model video-to-video và motion-control công khai hiện tại |
audio_url | string | Dùng cho các luồng sinh video có điều kiện bằng âm thanh nếu model hỗ trợ |
output_audio | boolean | Họ Veo 3 sẽ coi trường bị bỏ qua là true. kling-3.0-video chấp nhận selector này cho điều khiển upstream sound và mặc định im lặng khi bỏ qua. |
Hướng dẫn chọn model nhanh
Chất lượng cao nhất
Nếu chất lượng quan trọng hơn tốc độ, veo3.1-pro, kling-video-o1-pro, và viduq3-pro là những lựa chọn mạnh.
Lặp nhanh
Nếu cần thử nghiệm nhanh, bạn có thể bắt đầu với veo3.1-fast, hailuo-2.3-fast, hoặc viduq3-turbo.
Luồng nhiều ảnh tham chiếu
Khi cần conditioning chuyên biệt bằng ảnh tham chiếu, hãy ưu tiên veo3.1, veo3.1-fast, wan-2.6, hoặc kling-video-o1-pro / std.
Video sang video
Các đường
video-to-video công khai đang bật phổ biến hiện nay chủ yếu gồm topaz-video-upscale, grok-imagine-upscale, và kling-video-o1-pro / std.