أخبار الذكاء الاصطناعيالنماذج اللغوية الكبيرة

  Qwen2.5-VL: النموذج اللغوي متعدد الوسائط الذي يغير قواعد اللعبة في الذكاء الاصطناعي

كيف تستخدم Qwen2.5-VL لتحليل الصور والفيديوهات وإنشاء تطبيقات ذكية؟

يظهر نموذج الذكاء الاصطناعي المتطور  Qwen2.5-VL الذي أطلقته Alibaba Cloud ضمن عائلة Qwen، كطفرة جديدة في مجال النماذج اللغوية متعددة الوسائط.

ما هو Qwen2.5-VL؟

يُعتبر Qwen2.5-VL نموذجًا لغويًا متعدد الوسائط متقدّمًا، مصممًا للتعامل مع النصوص والصور معًا، مما يمنحه القدرة على تحليل وفهم المحتويات المعقدة بشكل غير مسبوق. يتوفر هذا النموذج بأحجام مختلفة، تشمل:

• 3 مليارات معلمة: مناسب للحوسبة الطرفية ذات الموارد المحدودة.

• 7 مليارات معلمة: خيار مثالي لتطبيقات الذكاء الاصطناعي المتوسطة.

• 72 مليار معلمة: إصدار ضخم يقدم أعلى أداء ودقة في معالجة البيانات.

الميزات الرئيسية لـ Qwen2.5-VL:

1. تحليل متقدّم للصور:

يتمتع Qwen2.5-VL بقدرات استثنائية في التعرف على الكائنات المتنوعة مثل النباتات، الحيوانات، المعالم السياحية، وحتى المنتجات. ليس هذا فقط، بل إنه قادر أيضًا على تحليل النصوص الموجودة داخل الصور، بالإضافة إلى تحديد الرموز والرسوم البيانية.

2. العمل كوكيل بصري ديناميكي:

تتمثل إحدى أعظم ميزات النموذج في قدرته على العمل كوكيل بصري يمكنه التفكير المنطقي واستخدام الأدوات المختلفة ديناميكيًا. على سبيل المثال، يمكنه تحليل البيانات الواردة من أجهزة الحواسيب والهواتف الذكية وتقديم استنتاجات دقيقة.

3. فهم الفيديوهات الطويلة:

لا تتوقف قدرات Qwen2.5-VL عند الصور الثابتة فقط، بل يمتد ليشمل فهم وتحليل مقاطع الفيديو الطويلة التي تتجاوز الساعة، مع القدرة على تحديد الأحداث المهمة داخل تلك المقاطع بدقة مذهلة.

4. تحديد المواقع البصرية بدقة متناهية:

يمكن للنموذج تحديد مواقع الكائنات داخل الصور باستخدام مربعات التحديد أو النقاط، ويقدّم النتائج بشكل منظم ودقيق بتنسيق JSON، مما يسهل استخدام البيانات المستخرجة في تطبيقات مختلفة.

الفرق بين Qwen2.5-VL و Qwen2.5-Max:

يعتبر Qwen2.5-VL و Qwen2.5-Max نموذجين مختلفين تمامًا ضمن عائلة Qwen من Alibaba Cloud، يركز كل منهما على أهداف متباينة.

• Qwen2.5-VL:

تم تصميمه كنموذج لغوي متعدد الوسائط قادر على تحليل وفهم البيانات البصرية مثل الصور والفيديوهات، إلى جانب النصوص. يتميز بقدرته على التعرف على الكائنات، قراءة النصوص داخل الصور، وتحليل مقاطع الفيديو الطويلة بدقة مذهلة. يتوافر بأحجام مختلفة مثل 3 مليارات، 7 مليارات، 32 مليار، و72 مليار معلمة، مما يجعله مناسبًا لتطبيقات متنوعة من الحوسبة الطرفية إلى المشاريع الكبرى.

• Qwen2.5-Max:

على الجانب الآخر، يُركز Qwen2.5-Max على تقديم أداء عالي في الفهم اللغوي المتقدم، الترميز، وحل المسائل الرياضية المعقدة باستخدام بنية “Mixture-of-Experts (MoE)”.

تم تدريبه على أكثر من 20 تريليون رمز ويستخدم تقنيات مثل التدريب الخاضع للإشراف (SFT) والتعلم المعزز من خلال التغذية الراجعة البشرية (RLHF) لتحقيق نتائج مبهرة.

يُستخدم بشكل رئيسي في التطبيقات التي تتطلب تحليلاً عميقًا للغة مثل الإجابة على الأسئلة، الترجمة، وتوليد المحتوى النصي المعقد.l

تطبيقات محتملة لـ Qwen2.5-VL:

1. تحليل الصور والفيديو في الوقت الحقيقي.

2. التعليم الإلكتروني وتحسين تجربة المستخدم.

3. تحليل البيانات التجارية وتوجيه القرارات الذكية.

4. الأبحاث العلمية المتعلقة بالتعرف على الصور والكائنات.

كيفية استخدام Qwen2.5-VL:

يمكن استخدام Qwen2.5-VL بسهولة من خلال منصات مختلفة مثل Hugging Face و Alibaba Cloud. لاستخدام النموذج، يجب عليك اتباع الخطوات التالية:

1. عبر منصة Hugging Face:

• توجه إلى صفحة النموذج على Hugging Face: Qwen2.5-VL على Hugging Face

• يمكنك تثبيت المكتبة باستخدام:

pip install transformers accelerate torch

• ثم يمكنك تحميل النموذج واستخدامه بالشكل التالي:

from transformers import AutoModelForVisionLanguage, AutoTokenizer

model_name = "Qwen/Qwen2.5-VL-7B-Instruct"
model = AutoModelForVisionLanguage.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

• استخدم النموذج لتحليل الصور أو النصوص عن طريق توفير المدخلات المناسبة له.

2. عبر Alibaba Cloud (للمشاريع الكبيرة):

• ادخل إلى موقع Alibaba Cloud وأنشئ حسابًا إذا لم يكن لديك حساب بالفعل.

• اختر النموذج المناسب لحاجاتك (3B، 7B، أو 72B) بناءً على قوة المعالجة المطلوبة.

• قم بتثبيت حزمة البرمجيات التي توفرها Alibaba Cloud.

• يمكنك بعدها استخدام واجهات برمجة التطبيقات (APIs) المخصصة لتضمين النموذج في تطبيقاتك بسهولة.

نصائح للاستخدام الفعّال:

• استخدم الإصدار الأصغر (3B) لتطبيقات الحوسبة الطرفية أو عندما تكون الموارد محدودة.

• استخدم الإصدار المتوسط (7B) لأداء أفضل في التطبيقات المعتدلة الحجم.

• استخدم الإصدار الضخم (72B) لتحليل البيانات الكبيرة والمشاريع البحثية المعقدة.

مقالات ذات صلة

Back to top button