
إطلاق نموذج Kling VIDEO O1 رسميًا تحت شعار: أدخل أي شيء، افهم كل شيء، أنتج أي رؤية
أطلقت شركة Kling AI نموذجها الجديد Kling O1 (Omni One)، الذي وصفته بأنه “أول نموذج فيديو متعدد الوسائط وموحد في العالم”، في خطوة تمثل قفزة نوعية في مجال توليد الفيديو بالذكاء الاصطناعي. يهدف هذا النموذج إلى إعادة تعريف عملية إنشاء المحتوى المرئي من خلال دمج مجموعة واسعة من المهام المعقدة في محرك واحد متكامل، مما يعد بفتح آفاق إبداعية غير محدودة للمستخدمين.
المفهوم الموحد: “أدخل أي شيء. افهم كل شيء”
يكمن جوهر قوة Kling O1 (Omni One) في طبيعته الموحدة. فبدلاً من الاعتماد على نماذج وأدوات منفصلة لمهام مختلفة، يجمع النموذج بين:
•المرجع إلى فيديو (Reference to Video): توليد فيديو بناءً على صور أو عناصر مرجعية.
•النص إلى فيديو (Text-to-Video): التحويل المباشر للأوصاف النصية إلى مشاهد متحركة.
•التحرير والتعديل: تحرير محتوى الفيديو، وتغيير الأسلوب، وتمديد الكاميرا.
•التحكم الدقيق: توليد فيديو بناءً على إطارات البداية والنهاية.
هذا التوحيد يلغي الحاجة إلى التبديل بين الأدوات، مما يتيح سير عمل سلسًا من الفكرة الأولية إلى التعديل النهائي في مكان واحد.
الفهم الدلالي والتحكم الإبداعي الكامل
يتميز النموذج بقدرته الفائقة على الفهم متعدد الوسائط، حيث يتم تفسير أي مدخل – سواء كان صورة، فيديو، موضوعًا، أو نصًا كـ “موجه” (Prompt) من قبل نظام Kling O1. هذا يكسر الحواجز التقليدية بين الوسائط، مما يمكن النموذج من فهم شامل للتفاصيل الدقيقة في الصور أو الشخصيات من منظورات مختلفة، ومن ثم توليد فيديو دقيق ومفصل.
الأكثر إثارة هو تحويله لعمليات التحرير المعقدة بعد الإنتاج إلى محادثة بسيطة. يمكن للمستخدمين كتابة موجهات نصية مثل “إزالة المارة” أو “تبديل زي الشخصية الرئيسية”، ويقوم النموذج تلقائيًا بإجراء إعادة بناء دلالية على مستوى البكسل، مما يجعله أداة التحرير الأكثر كفاءة.
حل تحدي الاتساق: المرجع الشامل
لطالما كان الحفاظ على اتساق الشخصيات والدعائم عبر لقطات الفيديو المختلفة تحديًا كبيرًا في نماذج الذكاء الاصطناعي. يعالج Kling O1 هذا التحدي من خلال تعزيز فهمه العميق للمدخلات المرجعية.
باستخدام الصور أو المواضيع المرجعية، يتصرف النموذج كـ “مخرج بشري” يتذكر خصائص الشخصيات والدعائم والمشاهد. هذا يضمن أن تظل خصائص الموضوع مستقرة ومتسقة، حتى مع حركات الكاميرا المعقدة. كما يمتلك النموذج قدرات قوية لدمج مواضيع متعددة في مشهد واحد، مع الحفاظ على خصائص كل عنصر بشكل مستقل، مما يحقق توحيدًا للميزات على المستوى الصناعي.
خارطة الطريق التقنية: أسس الجيل الجديد
يعتمد نموذج VIDEO O1 على أسس تقنية متقدمة تكسر الحواجز الوظيفية التقليدية:
1.النموذج الجديد لتوليد الفيديو: يدمج النموذج بين محول الوسائط المتعددة (Multimodal Transformer) و السياق الطويل متعدد الوسائط (Multimodal Long Context)، مما يحقق اندماجًا وتوحيدًا عميقًا للمهام المتعددة.
2.لغة بصرية تفاعلية متعددة الوسائط (MVL): يقدم النموذج لغة MVL كوسيط تفاعلي، حيث تندمج الدلالات النصية بعمق مع الإشارات متعددة الوسائط، مما يعزز قدرات الفهم ويدعم الاستدعاء المرن للمهام ضمن مربع إدخال واحد.
3.قدرات الاستدلال الذكي: باستخدام تقنية سلسلة الأفكار (Chain-of-Thought)، يمتلك النموذج قدرات استدلال منطقي وفهم للأحداث، مما يمكنه من تحقيق إشارة دقيقة متعددة الوسائط وتحرير تفاعلي بدرجة عالية.
مقارنة تنافسية: ريادة واضحة
يتباهى Kling O1 (Omni One) بدعمه لخمس فئات رئيسية تشمل ما مجموعه 18 مهارة، بالإضافة إلى إمكانية دمج هذه المهارات بحرية. وقد أظهرت المقارنات الداخلية التي أجراها فريق Kling AI تفوقًا واضحًا للنموذج على المنافسين الرئيسيين. هذه الأرقام تضع النموذج في موقع الريادة الصناعية، خاصة في مهام الحفاظ على الاتساق والتحرير المعقدة.
التحكم في السرد: حرية الإيقاع
إدراكًا لأهمية الإيقاع في السرد المرئي، يدعم Kling O1 التوليد الحر لمقاطع فيديو تتراوح مدتها بين 3 إلى 10 ثوانٍ. هذا يمنح المبدعين تحكمًا أكبر في تحديد طول اللقطة، سواء كانت لتأثير بصري سريع أو لجزء من سرد طويل ومتكشف.
الخلاصة
يمثل نموذج Kling VIDEO O1 نقطة تحول في تكنولوجيا توليد الفيديو بالذكاء الاصطناعي. من خلال منهجه الموحد، وقدراته الفائقة على الفهم والتحكم، وحل تحدي الاتساق، يضع النموذج معيارًا جديدًا للكفاءة والإبداع في هذا المجال. من المتوقع أن يغير هذا النموذج بشكل جذري طريقة عمل صانعي المحتوى، مما يجعل إنشاء الفيديو الاحترافي أكثر سهولة ومرونة من أي وقت مضى.




