
Qwen3 يضيف نماذج توليد الأصوات واستنساخها
أعلنت علي بابا كلاود عن توسيع عائلة نماذجها اللغوية Qwen3 بإطلاق نموذجين جديدين يركّزان على توليد الأصوات واستنساخها انطلاقاً من أوامر نصية، في خطوة تبدو موجّهة بالأساس إلى الاستخدامات الاحترافية في الإعلام وصناعة المحتوى، أكثر من كونها استعراضاً تقنياً.
يحمل النموذج الأول اسم Qwen3-TTS-VD-Flash، وهو مصمّم لتوليد الأصوات بسرعة عالية مع الحفاظ على درجة مقبولة من الواقعية، ما يجعله مناسباً للسيناريوهات التي تتطلب إنتاجاً سريعاً: نشرات صوتية، مقاطع قصيرة، أو محتوى يُحدّث باستمرار. النموذج يعد بتقليل الزمن الفاصل بين كتابة النص وسماعه، وهي فجوة أصبحت عبئاً يومياً على صناع المحتوى.
أما النموذج الثاني الذي يركّز على استنساخ الصوت بدقة أعلى، فيتجه إلى مساحة أكثر حساسية: إعادة إنتاج نبرة المتحدث، وإيقاعه، وحتى “حضوره” السمعي، اعتماداً على عينات محدودة.
ما الذي يتغيّر فعلياً للمستخدم؟
هذه النماذج لا تستهدف المستخدم العادي الذي يبحث عن تجربة ترفيهية، بل المحررين، والمنتجين، والمعلّقين الصوتيين، وكل من يعتمد على الصوت كأداة عمل. مع أدوات كهذه، يمكن تخيّل سيناريوهات جديدة:
- صحفي يُحدّث تقريراً صوتياً دون العودة إلى الاستوديو.
- منصة تعليمية توحّد نبرة الشرح عبر مئات الدروس.
- صانع محتوى يدير عدة قنوات بلغات مختلفة، بصوت واحد متّسق.
التغيير هنا ليس في “جودة الصوت” فقط، وإنما في إعادة تعريف الجهد والوقت المرتبطين به.
بين التمكين والقلق الصامت
كالعادة، يفتح استنساخ الصوت أسئلة لا تُطرح في الإعلانات: من يملك الصوت؟ وكيف تُضبط حدوده؟ علي بابا كلاود، مثل غيرها، تتحدث عن استخدامات مهنية ومسؤولة، لكن الواقع العملي سيتحدد خارج البيانات الصحفية، في غرف التحرير، وشروط المنصات، وتوقعات الجمهور.
خطوة هادئة في تحوّل أكبر
إطلاق نماذج صوتية جديدة من Qwen3 لا يبدو حدثاً صاخباً بحد ذاته، لكنه إشارة أخرى إلى اتجاه واضح: الذكاء الاصطناعي ينتقل من كونه أداة كتابة وتحليل، إلى كونه وسيطاً سمعياً حاضراً في تفاصيل العمل اليومي. الصوت، الذي كان آخر ما يُؤتمت، أصبح الآن جزءاً من هذا التحوّل التدريجي.. بهدوء، ودون إعلان ضخم، لكن بتأثير طويل الأمد.
