
نموذج Omni Flash لتوليد الفيديو: ميزات وعيوب أداة جوجل الجديدة
أتاحت جوجل نموذج Omni Flash الجديد عبر منصة توليد وتعديل الفيديو Flow، ليتيح للمستخدمين تحويل الصور ومقاطع الفيديو والنصوص إلى مشاهد متحركة متقدمة. يمثل هذا الإصدار الخطوة الأولى ضمن عائلة نماذج Omni التوليدية التي تهدف مستقبلاً إلى تحويل أي نوع من المدخلات إلى مخرجات متعددة الوسائط بكفاءة عالية، ليحل تدريجياً محل النماذج السابقة.
وبحسب تجربة عملية نشرها موقع The Verge، يقدم النموذج الجديد ترقية واضحة عن سلفه “Veo“، حيث يركز على دمج المعرفة الواقعية بشكل أفضل، مع محاولة الحفاظ على تناسق الشخصيات طوال مدة المقطع. تتيح الأداة رفع مقطع فيديو شخصي واستخدامه كقاعدة انطلاق، إلى جانب الأوامر النصية المفصلة، لتوجيه الذكاء الاصطناعي نحو النتيجة المرئية المطلوبة بدقة أعلى من الإصدارات الماضية.
قدرات نموذج Omni Flash في الحفاظ على تناسق الشخصيات
عند اختبار الأداة لتوليد مقاطع لشخصية ثابتة (مثل دمية على شكل غزال)، أظهر النموذج التزاماً أدق بالأوامر النصية مقارنة بنموذج Veo القديم. نجح الذكاء الاصطناعي في بناء مشاهد متسلسلة لشخصية تقوم بترتيب حقيبة سفرها وتصعد على متن سفينة سياحية، مع ابتكار تفاصيل طريفة مثل استخدام عبوة عسل كبديل مجازي لواقي الشمس، وهو ما يعكس فهماً متقدماً للسياق العام للمطالبة النصية.
رغم هذا التقدم الملحوظ، لا يزال النموذج يعاني من بعض “الهلوسات البصرية” المفاجئة. على سبيل المثال، قد يتغير اتجاه الشخصية كلياً وبشكل غير منطقي أثناء مشهد للسقوط المظلي. كما تتبدل خصائص الأشياء داخل المشهد الواحد، حيث تحولت عبوة العسل في الاختبار من مرطبان زجاجي إلى زجاجة مياه شفافة، ثم إلى عبوة بلاستيكية قابلة للعصر في نفس اللقطة، وصولاً إلى توليد إطارات ختامية مشوهة تقوم بدمج عناصر المشهد بطريقة فوضوية.
الاستجابة للتعديلات النصية والتكلفة التشغيلية
تتفوق منصة Flow في نسختها الحالية على الأجيال السابقة في مرونة الاستجابة لتعديلات الفيديو عبر الأوامر النصية. بدلاً من إنشاء مقطع جديد بالكامل عند كل طلب تعديل كما كان يحدث سابقاً، يستوعب النموذج التعديلات المطلوبة ويطبقها على المقطع الحالي. ومع ذلك، ووفقاً لتقرير The Verge، أدت بعض أوامر التعديل إلى نتائج عكسية؛ كطلب إزالة قرون تمت إضافتها بالخطأ للشخصية في مشهد معين، ليقوم النموذج بإزالتها من ذلك المشهد وإضافتها فجأة في كافة المشاهد الأخرى دون مبرر.
هذه التجارب المتكررة وعمليات التصحيح تستهلك رصيداً كبيراً من حساب المستخدم. تتطلب عملية التوليد الواحدة خصم ما بين 15 إلى 40 نقطة (Credit) بناءً على طول المشهد ونوع المدخلات الأساسية، بينما يكلف إجراء تعديل واحد 40 نقطة كاملة. يأتي اشتراك باقة AI Pro بتكلفة 20 دولاراً شهرياً ويمنح المستخدم 1000 نقطة، وهو رصيد قد ينفد بسرعة بعد إنتاج وتعديل نحو 20 مقطعاً فقط، مما يجعل الوصول إلى الرؤية الفنية الدقيقة والمثالية مكلفاً ويحتاج إلى ميزانية مستمرة.
التزييف العميق وإضافة الذكاء الاصطناعي لمقاطع حقيقية
تتجلى القوة الحقيقية والمرعبة للنموذج في دمج العناصر المولدة بالذكاء الاصطناعي مع مقاطع الفيديو الحقيقية. عند تصوير مقطع “سيلفي” بتعبير وجه محايد واستخدامه كمدخل أولي، تمكن النموذج من ابتكار مشاهد “تزييف عميق” (Deepfake) شديدة الواقعية للمستخدم وهو يتناول المعكرونة، أو يجلس في مقعد طائرة، أو يقف أمام برج إيفل وهو يتناول الخبز الفرنسي.
وأشار موقع The Verge في ختام تقييمه إلى أن هذه المقاطع، ورغم احتوائها على ثغرات تقنية طفيفة -مثل صوت اصطدام الشوكة غير الطبيعي أو تكرار ظهور نفس الأشخاص في الخلفية مرتين- إلا أنها جاءت مقنعة ومربكة في واقعيتها البصرية. يثبت هذا التطور السريع أن أدوات صناعة مقاطع الفيديو باتت لا تتطلب أي خبرة فنية سابقة لإنتاج محتوى فائق الواقعية، وهو ما يسرّع من وتيرة الإنتاج للمبدعين، ولكنه يتطلب حذراً مضاعفاً في التعامل مع مصداقية المحتوى المرئي على الإنترنت.




