نظرة عامة
توفّر AI Sonar توليد الفيديو عبر API موحّد. تعمل العملية بشكل غير متزامن: ترسل طلبًا، وتتلقىtask_id و poll_url، ثم تتحقق من الحالة بشكل دوري حتى تصبح النتيجة النهائية جاهزة.
التوفر والاستعلام
يمكنك الاطلاع على أحدث مخزون لنماذج الفيديو العامة عبر واجهة Models API أو عبر صفحة النماذج. إذا أعادت استجابة الإنشاءpoll_url، فاستدعِ هذا الرابط نفسه تمامًا. وعندما يشير إلى /v1/tasks/{id}، فاعتبره نقطة الحالة الثابتة المعيارية.
سلوك النموذج والوسائط
يعتمد سلوك الصوت على النموذج. في AI Sonar، تُعامل عائلة Veo 3 على أن الصوت مفعّل افتراضيًا عندما يُحذفoutput_audio. أما النماذج العامة الأخرى فقد تكون صامتة افتراضيًا أو لا تكشف مفتاحًا ثابتًا للتحكم في الصوت.
في تكاملات الإنتاج، يُفضّل استخدام روابط https عامة للصور والفيديو والصوت. ما تزال النماذج المتوافقة تقبل روابط data:، لكن الروابط العامة أكثر متانة عند إعادة المحاولة والرصد وتشخيص المشاكل.
التدفق غير المتزامن
العمليات العامة الحالية
يرتكز عقد الفيديو العام الحالي في AI Sonar على العمليات التالية:text-to-videoimage-to-videoreference-to-videostart-end-to-videovideo-to-videomotion-control
audio-to-video و video-extension لبعض التدفقات الخاصة بالنماذج، لكن قائمة النماذج العامة المفعلة على نطاق واسع في هذا البناء من الوثائق لا تتضمن حاليًا نموذجًا عامًا يعلن هاتين القدرتين بشكل واسع.
مصفوفة القدرات
الترميز: ✅ توجد قدرة ممثلة في نموذج عام واحد على الأقل ومفعّل حاليًا ضمن عائلة المزود | ❌ غير ممثلة حاليًا في النماذج العامة المفعلة| السلسلة | T2V | I2V | مرجعي | بداية-نهاية | V2V | حركة |
|---|---|---|---|---|---|---|
| OpenAI | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ |
| Kuaishou | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| ✅ | ✅ | ✅ | ✅ | ❌ | ❌ | |
| ByteDance | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ |
| MiniMax | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ |
| Alibaba | ✅ | ✅ | ✅ | ❌ | ❌ | ❌ |
| Shengshu | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ |
| xAI | ✅ | ✅ | ❌ | ❌ | ✅ | ❌ |
| أخرى | ❌ | ❌ | ❌ | ❌ | ✅ | ❌ |
تعريفات القدرات
- T2V (Text-to-Video): توليد فيديو من prompt نصي
- I2V (Image-to-Video): توليد فيديو انطلاقًا من صورة أولية؛ ولأوسع توافق يُنصح باستخدام
image_url - مرجعي: تكييف التوليد بواسطة صورة مرجعية واحدة أو أكثر عبر
reference_images - بداية-نهاية: التحكم في الإطار الأول والأخير باستخدام
start_imageوend_image - V2V (Video-to-Video): استخدام فيديو موجود كمدخل رئيسي
- حركة: الجمع بين صورة العنصر وفيديو مرجعي للحركة
قائمة النماذج العامة الحالية
Kuaishou
| النموذج | العمليات العامة |
|---|---|
kling-3.0-motion-control | تحكم في الحركة |
kling-3.0-video | نص إلى فيديو، image-to-video، start-end-to-video، مراجع العناصر |
kling-v2.1-master | نص إلى فيديو، image-to-video |
kling-v2.1-pro | image-to-video، start-end-to-video |
kling-v2.1-standard | image-to-video |
kling-v2.5-turbo-pro | نص إلى فيديو، image-to-video، start-end-to-video |
kling-v2.5-turbo-std | نص إلى فيديو، image-to-video |
kling-v2.6-pro | نص إلى فيديو، image-to-video، start-end-to-video |
kling-v2.6-std | نص إلى فيديو، image-to-video |
kling-v3.0-pro | نص إلى فيديو، image-to-video، start-end-to-video |
kling-v3.0-std | نص إلى فيديو، image-to-video، start-end-to-video |
kling-video-o1-pro | نص إلى فيديو، image-to-video، reference-to-video، start-end-to-video، video-to-video |
kling-video-o1-std | نص إلى فيديو، image-to-video، reference-to-video، start-end-to-video، video-to-video |
| النموذج | العمليات العامة |
|---|---|
veo3 | نص إلى فيديو، image-to-video |
veo3-fast | نص إلى فيديو، image-to-video |
veo3-pro | نص إلى فيديو، image-to-video |
veo3.1 | نص إلى فيديو، image-to-video، reference-to-video، start-end-to-video |
veo3.1-fast | نص إلى فيديو، image-to-video، reference-to-video، start-end-to-video |
veo3.1-pro | نص إلى فيديو، image-to-video، start-end-to-video |
ByteDance
| النموذج | العمليات العامة |
|---|---|
seedance-1.5-pro | نص إلى فيديو، image-to-video |
MiniMax
| النموذج | العمليات العامة |
|---|---|
hailuo-2.3-fast | من صورة إلى فيديو |
hailuo-2.3-pro | نص إلى فيديو، image-to-video |
hailuo-2.3-standard | نص إلى فيديو، image-to-video |
Alibaba
| النموذج | العمليات العامة |
|---|---|
wan-2.2-plus | نص إلى فيديو، image-to-video |
wan-2.5 | نص إلى فيديو، image-to-video |
wan-2.6 | نص إلى فيديو، image-to-video، reference-to-video |
Shengshu
| النموذج | العمليات العامة |
|---|---|
viduq2 | نص إلى فيديو، reference-to-video |
viduq2-pro | صورة إلى فيديو، مرجع إلى فيديو، إطار بداية/نهاية إلى فيديو |
viduq2-pro-fast | صورة إلى فيديو، إطار بداية/نهاية إلى فيديو |
viduq2-turbo | صورة إلى فيديو، إطار بداية/نهاية إلى فيديو |
viduq3-pro | نص إلى فيديو، image-to-video، start-end-to-video |
viduq3-turbo | نص إلى فيديو، image-to-video، start-end-to-video |
xAI
| النموذج | العمليات العامة |
|---|---|
grok-imagine-video | نص إلى فيديو، صورة إلى فيديو، reference-to-video، video-to-video |
grok-imagine-video-1.5-preview | صورة إلى فيديو |
grok-imagine-image-to-video | من صورة إلى فيديو |
grok-imagine-text-to-video | نص إلى فيديو |
grok-imagine-upscale | من فيديو إلى فيديو |
أخرى
| النموذج | العمليات العامة |
|---|---|
topaz-video-upscale | من فيديو إلى فيديو |
أمثلة الاستخدام
text-to-video
صورة إلى فيديو
Kling 3.0 Elements
استخدمkling_elements مع kling-3.0-video عندما تحتاج إلى مراجع عناصر. يجب أن يحتوي الطلب على شرط صورة (image_url أو image_urls أو start_image أو end_image) وأن تشير إلى كل عنصر في prompt باستخدام @name. لا تجمع kling_elements مع output_audio=true؛ احذف output_audio أو اجعله false عند استخدام مراجع العناصر.
مرجع إلى فيديو
بالنسبة إلىseedance-2.0 و seedance-2.0-fast، تدعم AI Sonar حاليًا ما يصل إلى 9 صور مرجعية، بالإضافة إلى ما يصل إلى 3 مقاطع فيديو مرجعية و3 ملفات صوت مرجعية. يتحكم duration فقط في طول الإخراج الناتج، ولا يعرّف حدًا منفصلًا لمدة فيديو المرجع المُدخل. بالنسبة إلى grok-imagine-video، تقبل reference-to-video حتى 7 مراجع صور (reference_images أو image_urls) ويكون duration بحد أقصى 10 ثوانٍ. لا تجمع مراجع الصور مع إدخالات الإطار الأول image_url / image. يدعم grok-imagine-video-1.5-preview image-to-video فقط.
إطار بداية/نهاية إلى فيديو
فيديو إلى فيديو
في video-to-video معgrok-imagine-video، أرسل رابط HTTPS عام بصيغة .mp4 في video_url. يحوله AI Sonar إلى جسم REST الخاص بـ xAI بصيغة video.url. يمكنك ضبط resolution على 480p أو 720p؛ ولا يقبل مسار التحرير هذا duration أو aspect_ratio.
motion-control
مرجع المعلمات
| المعامل | النوع | ملاحظة |
|---|---|---|
operation | string | يُفضَّل إرساله بشكل صريح في الإنتاج |
image_url | string | أكثر أشكال إدخال الصور استقرارًا |
image | string | رابط data: مفيد للاختبارات المحلية والتكاملات الصغيرة |
reference_images | string[] | الحقل العام القياسي للتكييف بالصور المرجعية |
reference_image_type | string | محدد اختياري بين asset و style |
video_url | string | مطلوب لنماذج video-to-video و motion-control العامة الحالية |
audio_url | string | يُستخدم في تدفقات الصوت إلى فيديو الخاصة ببعض النماذج عند توفرها |
output_audio | boolean | تعامل عائلة Veo 3 الحقل المحذوف كأنه true. يقبل kling-3.0-video هذا المحدد للتحكم upstream sound، ويكون صامتًا افتراضيًا عند حذفه. |
دليل سريع لاختيار النموذج
أعلى جودة
إذا كانت الجودة أهم من السرعة، فالنماذج veo3.1-pro و kling-video-o1-pro و viduq3-pro خيارات قوية.
تكرار سريع
للتجارب السريعة، ابدأ مع veo3.1-fast أو hailuo-2.3-fast أو viduq3-turbo.
تدفقات تعتمد على المرجع
إذا كنت تحتاج إلى تحكم مخصص بالصور المرجعية، فابدأ مع veo3.1 أو veo3.1-fast أو wan-2.6 أو kling-video-o1-pro / std.
video-to-video
المسارات العامة الأكثر شيوعًا حاليًا لعمليات
video-to-video تعتمد خصوصًا على topaz-video-upscale و grok-imagine-upscale و kling-video-o1-pro / std.