
Baidu تطلق نموذج ERNIE-4.5 “المتفوق” على Gemini وGPT بكفاءة عالية وميزات بصرية متقدمة
أعلنت شركة Baidu عن نموذج ذكاء اصطناعي جديد باسم ERNIE-4.5-VL-28B-A3B-Thinking يتميز بقدرته على التفوق في اختبارات الفهم البصري والمستندي، رغم اعتماده على 3 مليارات بارامتر فعّال فقط من أصل 28 مليار بفضل بنية Mixture-of-Experts.
يقدم النموذج ميزة لافتة تسمّيها الشركة “التفكير عبر الصور”؛ حيث يستطيع التكبير والتصغير الديناميكي داخل الصورة كما يفعل الإنسان، ما يعزز قدرته على تحليل الوثائق، الرسومات، والجداول المعقدة.
تقول شركة Baidu إن النموذج يتفوق على Gemini 2.5 Pro و GPT-5-High في عدد من الاختبارات، لكن ذلك لم يُتحقق بعد من جهات مستقلة. النموذج متاح بترخيص Apache 2.0 ما يجعله جاهزًا للاستخدام التجاري بدون قيود، ويمكن تشغيله على GPU واحد بسعة 80GB، وهو عامل مهم للشركات التي تبحث عن نماذج قوية لكن منخفضة التكلفة.
قدرات نموذج Ernie الجديدة
يقدم النموذج ست قدرات رئيسية:
– reasoning بصري متعدد الخطوات
– فهم المستندات والجداول
– تحديد الأشياء (visual grounding) بدقة صناعية
– حل مسائل STEM من صور
– فهم الفيديو وحركة الزمن
– التكبير الديناميكي لفهم أدق التفاصيل
Baidu دعمت النموذج بأدوات تطوير متكاملة (ERNIEKit، vLLM، FastDeploy) لجعله قابلًا للدمج بسهولة في بيئات الشركات. ويأتي هذا الإطلاق ضمن عائلة ERNIE 4.5 الأكبر، التي تستهدف بناء منظومة متعددة الوسائط عالية الكفاءة.
الإصدار يمثل خطوة قوية في سباق النماذج البصرية، ويزيد الضغط على Google وOpenAI، خصوصًا إذا ثبتت ادعاءات الأداء. الأهم أنه يقدّم بديلاً مفتوح المصدر وفعّالًا من حيث التكلفة، في وقت يتجه فيه السوق نحو نماذج قادرة على معالجة الصور والفيديو والمستندات معًا.




