كتب : محمود الهواري


07:08 م


24/12/2025

أعلنت شركة علي بابا كلاود عن طرح نموذجين جديدين من سلسلة Qwen3 للذكاء الاصطناعي، يركزان على تقنيات توليد الأصوات واستنساخها عبر الأوامر النصية، في خطوة تهدف إلى دعم تطبيقات الصوت الاحترافية وصناعة المحتوى الرقمي، بالتزامن مع تصاعد المنافسة في هذا القطاع.

توليد الأصوات بأوصاف تفصيلية

ويحمل النموذج الأول اسم Qwen3-TTS-VD-Flash، ويتيح إنشاء أصوات اعتمادا على أوصاف دقيقة تشمل المشاعر، ونبرة الصوت، وسرعة الإلقاء، مع إمكانية تحديد خصائص إضافية مثل العمر ونوع الصوت والأسلوب، ما يمنح المستخدم مستوى واسعًا من التحكم في المخرجات الصوتية.

مقارنة مباشرة مع نماذج منافسة

وبحسب ما أعلنت الشركة، يتفوق النموذج الجديد في الأداء على واجهة OpenAI الخاصة بنموذج GPT-4o mini-tts، وفق تقرير نشره موقع scmp، في إشارة إلى سعي علي بابا لتعزيز موقعها داخل سوق تقنيات الصوت المعتمدة على الذكاء الاصطناعي.

استنساخ الصوت في ثوانٍ

أما النموذج الثاني، Qwen 3-TTS-VC-Flash، فيختص باستنساخ الأصوات، إذ يستطيع نسخ صوت شخص من مقطع لا تتجاوز مدته ثلاث ثوان، مع إعادة إنتاجه بعشر لغات مختلفة، وهو ما تراه الشركة تقدما لافتا في سرعة ودقة هذه التقنيات.

دقة أعلى ومعدل أخطاء أقل

وتؤكد علي بابا أن نموذج استنساخ الصوت الجديد يحقق معدل أخطاء أقل مقارنة بمنافسين بارزين مثل ElevenLabs وMiniMax، ما يعزز من فرص استخدامه في التطبيقات التجارية والاحترافية.

قدرات صوتية متقدمة

وتتميز النماذج الجديدة بقدرتها على التعامل مع النصوص المعقدة، وتقليد أصوات الحيوانات، واستخراج الأصوات من التسجيلات الصوتية، وهي قدرات تفتح المجال أمام استخدامات غير تقليدية في صناعة المحتوى والترفيه.

إتاحة للمطورين عبر واجهات برمجية

وأوضحت الشركة أن الأدوات الجديدة متاحة من خلال واجهة برمجة التطبيقات الخاصة بعلي بابا كلاود، إلى جانب إتاحة نسخ تجريبية على منصة Hugging Face، بما يسمح للمطورين والباحثين باختبار النماذج وبنائها ضمن تطبيقاتهم.

ويأتي هذا الإطلاق في وقت تشهد فيه تقنيات الصوت المعتمدة على الذكاء الاصطناعي منافسة متزايدة، مدفوعة بطلب متنامٍ من قطاعات الإعلانات، والألعاب، وصناعة الفيديو، إلى جانب التعليم الإلكتروني.

استخدامات واسعة بتكلفة أقل

وتفتح نماذج Qwen 3 الجديدة المجال أمام استخدامات متعددة تشمل إنتاج الإعلانات الصوتية، والدبلجة متعددة اللغات، وصناعة الشخصيات الصوتية داخل الألعاب، فضلا عن دعم منصات التعليم الإلكتروني وخدمات مراكز الاتصال، مع تقليل الوقت والتكلفة مقارنة بالأساليب التقليدية.

شاركها.