أخبار الذكاء الاصطناعي

نموذج ChatGPT Images 2.0: ثورة في كتابة النصوص داخل الصور

أطلقت شركة OpenAI رسمياً نموذج ChatGPT Images 2.0 الجديد، والذي يوفر قدرات غير مسبوقة في توليد الصور التي تحتوي على نصوص دقيقة وقابلة للقراءة التامة دون أي تشوهات بصرية أو أخطاء إملائية.

وبحسب تقرير نشره موقع “TechCrunch“، ينهي هذا التحديث حقبة الكلمات العشوائية والمشوهة التي كانت تنتجها أدوات الذكاء الاصطناعي السابقة. فعلى سبيل المثال، عند طلب تصميم قائمة طعام لمطعم، أصبح النموذج قادراً على كتابة أسماء الأطباق والأسعار بتهجئة صحيحة تماماً وقابلة للاستخدام التجاري الفوري، على عكس نماذج DALL-E السابقة التي كانت تبتكر كلمات هجينة وغير مفهومة تمنع استخدام الصورة بشكل احترافي.

اقرأ أيضا: برومبتات نموذج ChatGPT Images 2.0

لماذا تفشل أدوات توليد الصور التقليدية في كتابة النصوص؟

تاريخياً، واجهت أدوات توليد الصور بالذكاء الاصطناعي صعوبات بالغة في تهجئة الكلمات لاعتمادها على “نماذج الانتشار” (Diffusion models)، وهي تقنية تعمل عن طريق إعادة بناء الصور تدريجياً من التشويش البصري.

ووفقاً لتصريحات سابقة لخبراء نقلها موقع TechCrunch، فإن النماذج القديمة كانت تتعامل مع النصوص المكتوبة كجزء ضئيل جداً من إجمالي بكسلات الصورة، مما يجعلها تركز على الأنماط اللونية العامة وتتجاهل دقة الحروف. ورغم رفض شركة OpenAI الإفصاح عن المعمارية التقنية الدقيقة لنموذجها الجديد، يتجه الباحثون حالياً نحو نماذج الانحدار التلقائي (Autoregressive models) التي تعمل بآلية مشابهة للنماذج اللغوية الكبيرة (LLMs)، مما يسمح لها بتوقع العناصر البصرية والنصية بدقة أعلى.

قدرات “التفكير” في نموذج ChatGPT Images 2.0

زودت الشركة نموذج ChatGPT Images 2.0 بقدرات “تفكير” متقدمة تتيح له البحث في الويب، وإنشاء صور متعددة من مطالبة نصية واحدة، والتدقيق الذاتي في مخرجاته قبل عرضها على المستخدم. هذه الميزات تجعل الأداة قادرة على:

  • إنشاء أصول تسويقية متكاملة بأحجام وأبعاد مختلفة.
  • تصميم قصص مصورة متعددة اللوحات (Comic strips) مع الحفاظ على تناسق الشخصيات والنصوص.
  • الالتزام الصارم بالتعليمات الدقيقة مثل الأيقونات وعناصر واجهة المستخدم.

وأشارت OpenAI في بيانها الصحفي إلى أن النموذج يقدم فهماً أعمق لتقديم النصوص غير اللاتينية، مما يدعم لغات مثل اليابانية والكورية والهندية والبنغالية بكفاءة. ومن الجدير بالذكر أن قاعدة بيانات النموذج تتوقف عند شهر ديسمبر 2025، مما قد يؤثر على دقة توليد الصور المرتبطة بأحداث إخبارية لاحقة لهذا التاريخ.

تفاصيل إتاحة الأداة وواجهة المطورين API

يدعم النموذج الجديد مخرجات بصرية فائقة الدقة تصل إلى 2K. ورغم أن معالجة التصاميم المعقدة والقصص المصورة قد تستغرق بضع دقائق بسبب قدرات التفكير والمراجعة الذاتية، إلا أن النتيجة النهائية تمثل قفزة نوعية في الجودة الفنية.

تتوفر الأداة لجميع مستخدمي ChatGPT و Codex بدءاً من يوم الثلاثاء، مع تخصيص مخرجات أكثر تقدماً للمشتركين في الباقات المدفوعة. وإلى جانب الواجهة المباشرة، أعلنت الشركة عن إتاحة واجهة برمجة التطبيقات للمطورين تحت اسم (gpt-image-2 API)، حيث ستعتمد آلية التسعير على جودة ودقة المخرجات المطلوبة، مما يفتح الباب أمام الشركات لدمج هذه القدرات الاحترافية داخل تطبيقاتها الخاصة.

المصدر
techcrunch

مقالات ذات صلة

زر الذهاب إلى الأعلى