نموذج الذكاء الاصطناعي DeepSeek-V3: منافس صيني جديد يتحدى ChatGPT
ابتكارات رائدة أم تقليد مثير للجدل؟ كل ما تحتاج معرفته عن DeepSeek-V3
أعلنت شركة DeepSeek الصينية الناشئة، المعروفة بابتكاراتها في الذكاء الاصطناعي، عن نموذجها الجديد DeepSeek-V3، الذي تفوق في اختبارات الأداء على العديد من المنافسين. إلا أن تقارير جديدة تشير إلى وجود مشكلات مثيرة للجدل تتعلق بمصدر بيانات التدريب للنموذج وتأثير ذلك على أدائه وهويته.
النموذج يعرّف نفسه على أنه ChatGPT
في اختبارات أجرتها عدة جهات، بما في ذلك منصة TechCrunch، لاحظ المستخدمون أن نموذج DeepSeek-V3 يعرّف نفسه أحيانًا على أنه ChatGPT (نموذج GPT-4 من OpenAI).
في خمسة من أصل ثمانية اختبارات، أصر النموذج على أنه نسخة من GPT-4، مما يثير تساؤلات حول تدريب النموذج. علاوة على ذلك، عند سؤاله عن تفاصيل تتعلق بواجهة برمجة تطبيقات DeepSeek، قدم النموذج تعليمات تتعلق بواجهة OpenAI API بدلاً من ذلك. حتى أن بعض النكات التي يرويها DeepSeek-V3 هي نفس النكات التي يقدمها GPT-4، مما يثير شكوكًا حول مصدر بيانات التدريب.
الاحتمالات: هل استُخدمت مخرجات GPT-4 في تدريب النموذج؟
رغم أن شركة DeepSeek لم تكشف عن مصادر بيانات التدريب الخاصة بنموذجها، إلا أن هناك تخمينات بأن النموذج قد تم تدريبه على نصوص تم إنشاؤها بواسطة GPT-4 عبر منصة ChatGPT. هذا الأمر يفسر لماذا يقوم النموذج بتكرار مخرجات مشابهة أو مطابقة لتلك الخاصة بـ GPT-4.
تحديات تدريب النماذج على مخرجات نماذج منافسة
وفقًا لما نقله موقع TechCrunch عن الباحث مايك كوك من كلية كينجز في لندن، فإن تدريب النماذج على مخرجات نماذج أخرى يمكن أن يؤدي إلى:
- تدهور جودة النموذج: يُشبه ذلك عملية “نسخ صورة من صورة”، مما يؤدي إلى فقدان تدريجي للدقة والجودة.
- زيادة الأخطاء والانحرافات: مثل تقديم معلومات خاطئة أو مضللة.
بالإضافة إلى ذلك، فإن هذه الممارسة قد تكون مخالفة لشروط الخدمة الخاصة بـ OpenAI، التي تمنع استخدام مخرجات ChatGPT لتطوير نماذج منافسة.
سوق البيانات المُشبعة بالذكاء الاصطناعي
يشير الخبراء إلى أن الإنترنت بات يعج بالمحتوى الذي أنشأته نماذج الذكاء الاصطناعي، مما يجعل من الصعب تصفية مثل هذه النصوص عند إعداد بيانات التدريب. يُتوقع أن يشكل المحتوى المُنتج بواسطة الذكاء الاصطناعي حوالي 90% من الإنترنت بحلول عام 2026.
آثار على أداء النماذج
- تلوث مجموعات البيانات يجعل النماذج عرضة لتكرار أخطاء النماذج السابقة.
- النماذج التي تعتمد بشكل كبير على محتوى الذكاء الاصطناعي قد تعزز التحيزات الموجودة مسبقًا.
انتقادات ومخاوف
في تصريح على منصة X، انتقد سام ألتمان، الرئيس التنفيذي لـ OpenAI، الممارسات التي تشمل “نسخ” النماذج المنافسة، مشيرًا إلى أن “الابتكار الحقيقي يتطلب المخاطرة والتجربة”، وليس مجرد تقليد ما يعمل بالفعل.
من السهل (نسبيًا) نسخ شيء تعرف أنه يعمل. من الصعب للغاية القيام بشيء جديد ومخاطر وصعب عندما لا تعرف ما إذا كان سينجح. يحصل الباحثون الأفراد على الكثير من المجد عن حق عندما يفعلون ذلك! إنها أروع شيء في العالم. سام ألتمان- المدير التنفيذي لـ OpenAI
ممارسات التقطير
أشارت هايدي خلاف، كبيرة العلماء في معهد AI Now، إلى أن التوفير المالي الناتج عن “تقطير” معرفة نموذج موجود يمكن أن يكون مغريًا، لكنه يأتي بمخاطر كبيرة مثل:
- تقليل موثوقية النموذج.
- تعزيز التحيزات الموجودة في النماذج الأصلية.
الانعكاسات المستقبلية
رغم أن DeepSeek-V3 قد أثبت قوته كمنافس قوي في سوق النماذج مفتوحة المصدر، إلا أن المخاوف المتعلقة بمصادر بيانات التدريب تثير تساؤلات حول موثوقيته على المدى الطويل. إذا كان النموذج قد تم تدريبه جزئيًا على مخرجات GPT-4، فقد يؤدي ذلك إلى تعزيز التحيزات والأخطاء الموجودة في النماذج السابقة، مما يؤثر على الأداء والثقة بالنموذج.
تظل هذه القضايا مثالًا على التحديات الأوسع التي يواجهها مجال الذكاء الاصطناعي في ظل الاعتماد المتزايد على بيانات الإنترنت التي تحتوي على محتوى مولد بواسطة الذكاء الاصطناعي نفسه.
أعلنت شركة DeepSeek الصينية الناشئة عن إطلاق نموذجها الجديد DeepSeek-V3، الذي يعد من بين النماذج الأكثر تقدمًا في مجال الذكاء الاصطناعي مفتوح المصدر. يتوفر النموذج عبر منصة Hugging Face بموجب ترخيص الشركة، ويحتوي على 671 مليار معلمة، ويعتمد على تقنية Mixture-of-Experts التي تفعّل فقط المعلمات الضرورية لمعالجة المهام بدقة وكفاءة.
وفقًا للاختبارات التي أجرتها الشركة، تفوق النموذج على العديد من النماذج الرائدة مثل Llama 3.1-405B من Meta، وحقق أداءً قريبًا من النماذج المغلقة لشركات مثل Anthropic و OpenAI.
نحو تحقيق الذكاء العام الاصطناعي (AGI)
يمثل هذا الإطلاق خطوة مهمة في تقليص الفجوة بين النماذج المفتوحة والمغلقة. تسعى DeepSeek، التي بدأت كامتداد لصندوق التحوط الكمي High-Flyer Capital Management، إلى استخدام هذه التطورات لتمهيد الطريق نحو الذكاء الاصطناعي العام، وهو المستوى الذي يمكن للنماذج فيه فهم وإنجاز أي مهمة معرفية يقوم بها البشر.
ما الذي يميز DeepSeek-V3؟
يعتمد النموذج الجديد على بنية أساسية تجمع بين الانتباه الكامن متعدد الرؤوس (MLA) ونظام DeepSeekMoE، مما يتيح تدريبًا فعالًا واستنتاجًا سريعًا. يقوم النموذج بتنشيط 37 مليار معلمة فقط من أصل 671 مليار لكل رمز، ما يحقق توازنًا بين الكفاءة والأداء.
ابتكارات جديدة
لتعزيز الأداء، قدمت الشركة تحسينين رئيسيين:
- استراتيجية موازنة الحمل الديناميكية: تضمن هذه التقنية توزيع الحمل على الخبراء بطريقة متساوية دون التأثير على الأداء العام للنموذج.
- التنبؤ المتعدد للرموز (MTP): يتيح هذا الابتكار للنموذج التنبؤ بعدة رموز مستقبلية في وقت واحد، مما يزيد من سرعة التنبؤ بثلاثة أضعاف، ليصل إلى 60 رمزًا في الثانية.
تفاصيل التدريب وتقنيات تقليل التكاليف
تدرب النموذج على 14.8 تريليون رمز عالي الجودة من مصادر متنوعة. كما خضع لتوسيع طول السياق على مرحلتين:
- المرحلة الأولى: زيادة طول السياق إلى 32 ألف رمز.
- المرحلة الثانية: تمديده إلى 128 ألف رمز.
بعد ذلك، أجرت الشركة تدريبًا لاحقًا شمل:
- التدريب الموجه بالإشراف (SFT).
- التعلم المعزز (RL) لضبط النموذج وفق تفضيلات البشر.
لخفض التكاليف، اعتمدت DeepSeek على تحسينات مثل:
- إطار FP8 منخفض الدقة.
- خوارزمية DualPipe للتوازي في خطوط الأنابيب.
بفضل هذه التقنيات، تم إكمال تدريب النموذج في حوالي 2788 ألف ساعة GPU من نوع H800، بتكلفة إجمالية بلغت حوالي 5.57 مليون دولار، وهو مبلغ أقل بكثير مقارنة بالنماذج الأخرى. على سبيل المثال، يُقدّر أن تدريب Llama 3.1 كلف أكثر من 500 مليون دولار.
النموذج الأقوى مفتوح المصدر حاليًا
رغم انخفاض تكلفة التدريب، أثبت DeepSeek-V3 أنه الأقوى بين النماذج مفتوحة المصدر. تفوق النموذج في اختبارات الأداء على منافسيه مثل Llama 3.1-405B و Qwen 2.5-72B، بل وتفوق على النموذج المغلق GPT-4o في معظم الاختبارات، باستثناء بعض المهام المتعلقة باللغة الإنجليزية.
تميز خاص باللغة الصينية والرياضيات
أظهر DeepSeek-V3 تفوقًا ملحوظًا في اختبارات اللغة الصينية والرياضيات. في اختبار Math-500، حصل على درجة 90.2 مقارنة بـ 80 لأقرب منافسيه Qwen.
إتاحة النموذج والأسعار
يتوفر الكود الخاص بـ DeepSeek-V3 على GitHub بموجب ترخيص MIT، بينما يمكن تجربة النموذج عبر منصة DeepSeek Chat المشابهة لـ ChatGPT أو استخدام واجهة البرمجة (API) للأغراض التجارية.
تقدم الشركة أسعارًا مخفضة حتى 8 فبراير، وتشمل:
- $0.27 لكل مليون رمز إدخال.
- $0.07 لكل مليون رمز إدخال مع التخزين المؤقت.
- $1.10 لكل مليون رمز إخراج.
أثر النموذج على الصناعة
يعكس هذا التطور قرب أداء النماذج مفتوحة المصدر من مثيلاتها المغلقة، ما يعزز المنافسة ويمنع هيمنة الشركات الكبرى على السوق. ويتيح ذلك للمؤسسات خيارات متنوعة لبناء حلول ذكاء اصطناعي متقدمة تناسب احتياجاتها.