جوجل تختبر ميزة استنساخ الصوت داخل Gemini.. ما الذي نعرفه حتى الآن؟

شهدت ساحة الذكاء الاصطناعي التوليدي طفرات متتالية غيرت من طريقة تفاعلنا مع الآلات، ولم يعد الأمر مقتصرًا على إنتاج النصوص أو الصور، بل امتد ليتعمق في قطاع الصوتيات الرقمية.

وفي هذا السياق، رصدت تقارير تقنية حديثة تحركات جديدة من شركة جوجل تشير إلى رغبتها في تعزيز قدرات نماذجها الصوتية، إذ بدأت الشركة باختبار ميزة تجريبية جديدة تحت اسم "Create Your Voice"، والتي تهدف إلى استنساخ الأصوات بالذكاء الاصطناعي وإتاحة خيارات مخصصة لبناء الهويات الصوتية.

جوجل تختبر خاصية استنساخ الصوت في Gemini

الجدير بالذكر أن جوجل لم تعلن عن هذه الميزة رسميًا حتى الآن، ولم تطلقها كخيار متاح للعامة، بل جرى رصدها بشكل محدود داخل منصة المطورين Google AI Studio، ويعكس هذا التطور رغبة الشركة في منافسة التقنيات الصوتية المتقدمة، مع إبقاء الميزة تحت نظام الاختبار المغلق لتقييم أدائها واستخداماتها الأمنية والتطويرية قبل اتخاذ أي خطوة رسمية تالية.

رصد ميزة استنساخ الصوت داخل Google AI Studio

وفقًا للبيانات المتوفرة، فقد رصد بعض المستخدمين والمطورين ظهور خيار Create Your Voice ضمن واجهة التطوير الخاصة بـ Google AI Studio، ولم تظهر هذه الميزة في الأوضاع الاعتيادية، بل رصدت الميزة لدى بعض المستخدمين عند استخدام نموذج Flash Native Audio Preview. (المعروف بقدراته المتقدمة في المعالجة الصوتية الأصلية).

آلية عمل الميزة، بحسب ما ظهر في النسخة التجريبية غير المفعلة، تعتمد على خطوات واضحة:

  • تسجيل الصوت المباشر: يتاح للمستخدم خيار تسجيل مقطع صوتي مباشر عبر الميكروفون.
  • رفع العينات الصوتية: يمكن للمستخدم رفع ملفات وعينات صوتية مسجلة مسبقًا بدلاً من التسجيل الحي.
  • المعالجة والإنشاء: يتولى نموذج الذكاء الاصطناعي تحليل الخصائص الفريدة للنبرة المرفوعة، لإنشاء صوت اصطناعي يحاكي خصائص الصوت الأصلي تستخدم كصوت اصطناعي مخصص لقراءة النصوص أو التفاعل.

ملاحظة هامة: الميزة غير مفعلة حاليًا في الواجهة بشكل كامل، ولا تزال في طور برمجيات الاختبار الخلفية، مما يعني أن المطورين لا يمكنهم استخدامها لإنتاج أصوات مستنسخة في الوقت الراهن، ولم تصدر جوجل أي بيان رسمي يحدد جدولاً زمنيًا لتفعيلها.

ما هو استنساخ الصوت بالذكاء الاصطناعي؟

استنساخ الصوت بالذكاء الاصطناعي (AI Voice Cloning) هو تقنية تسمح بإنشاء صوت رقمي يحاكي صوت شخص حقيقي اعتمادًا على عينات صوتية يتم تزويد النظام بها.

ويستخدم الذكاء الاصطناعي خوارزميات متقدمة لتحليل خصائص الصوت، مثل النبرة وطريقة النطق والإيقاع، ثم إعادة إنتاجها عند قراءة نصوص جديدة لم ينطقها الشخص الأصلي من قبل.

وخلال السنوات الأخيرة، شهدت هذه التقنية تطورًا كبيرًا بفضل نماذج الذكاء الاصطناعي التوليدي، حيث أصبح بالإمكان إنشاء أصوات شديدة الواقعية اعتمادًا على مقاطع صوتية قصيرة نسبيًا.

وتستخدم هذه التقنية في مجالات متعددة، مثل المساعدات الصوتية، وصناعة المحتوى، والكتب الصوتية، وتطبيقات الوصول لذوي الاحتياجات الخاصة، إلا أنها في الوقت نفسه تثير مخاوف متزايدة تتعلق بالاحتيال وانتحال الهوية الصوتية.

الفرق بين استنساخ الصوت وتقنيات (TTS) التقليدية

تعتمد جوجل بالفعل على تقنيات تحويل النص إلى كلام (TTS) ضمن واجهة برمجة التطبيقات Gemini API، ولكن هناك اختلافًا جوهريًا بين التقنيتين:

  • تقنية تحويل النص إلى كلام (TTS): تعتمد على مكتبة من الأصوات المسبقة الصنع والمصممة داخل مختبرات الشركة لتقرأ النصوص بنبرة آلية أو شبه بشرية عامة، دون الارتباط بهوية شخص محدد.
  • استنساخ الصوت (Voice Cloning): يذهب إلى أبعاد أعمق، حيث يتطلب عينات صوتية حقيقية للمستخدم نفسه ليقوم الذكاء الاصطناعي بتحليل البصمة الصوتية الفريدة (مثل الطول الموجي، النبرة، والمخارج) ثم إعادة تكرارها بدقة ليصبح الذكاء الاصطناعي قادرًا على التحدث تمامًا كصاحب الصوت الأصلي.

الفئات المستهدفة والاستخدامات المحتملة

تستهدف الميزة في مرحلتها التجريبية الحالية قطاع المطورين والشركات الذين يعتمدون على منصات Google AI لبناء تطبيقات ذكية، حيث تفتح لهم آفاقًا جديدة في ثلاثة مجالات أساسية:

تطوير المساعدات الصوتية

تتيح الميزة للمطورين إمكانية بناء المساعدات الصوتية بهويات مخصصة وفريدة تناسب العلامات التجارية للشركات، مما يساهم في الحفاظ على هوية صوتية موحدة ومتناسقة في التطبيقات الرقمية التفاعلية، بدلاً من الاعتماد على الأصوات الافتراضية المألوفة.

التطبيقات المعتمدة على الصوت بالكامل

تخدم الميزة مطوري الألعاب الإلكترونية، ومنصات الكتب الصوتية، وأنظمة التفاعل الذكي التلقائي، حيث تمنحهم مرونة كاملة في تخصيص نبرات الرواة والشخصيات دون الحاجة لإعادة تسجيل المقاطع يدويًا في كل مرة.

المخاطر الأمنية والأخلاقية المحيطة بالتقنية

على الرغم من الفوائد الكبيرة التي تقدمها تقنيات استنساخ الصوت بالذكاء الاصطناعي، إلا أنها تثير قلقًا بالغًا لدى الخبراء الأمنيين، ونظرًا لخطورة إساءة استخدام الأصوات المولدة بالذكاء الاصطناعي، فإن ظهور ميزة Create Your Voice حتى وإن كانت تجريبية يفرض تسليط الضوء على أبرز التهديدات الأمنية المرتبطة بها:

  • الاحتيال المالي: يمكن للمقرصنين استخدام الأصوات المستنسخة لخداع الموظفين في الشركات أو أفراد العائلة للحصول على تحويلات مالية طارئة عبر انتحال شخصية مدراء أو أقارب.
  • انتحال الهوية الصوتية: تزييف تصريحات أو مواقف لأشخاص ومسؤولين عبر توليد مقاطع صوتية مفبركة تبدو حقيقية تمامًا.
  • المكالمات الطارئة المزيفة: استخدام نبرات مستنسخة لخداع الجهات الأمنية أو مراكز الطوارئ ببلاغات كاذبة تستدعي استجابات عاجلة بناءً على صوت الضحية المزيّف.
  • هجمات الهندسة الاجتماعية: تسهيل اختراق الحسابات الشخصية من خلال إقناع الأهداف بتقديم معلومات سرية أو كلمات مرور عبر الهاتف وظنًا منهم أنهم يتحدثون مع جهات موثوقة.

ونتيجة لتصاعد مخاطر الاحتيال الصوتي، أصبحت المؤسسات المالية وشركات الاتصالات تتجه بشكل متزايد في الآونة الأخيرة إلى الاعتماد على أنظمة المصادقة متعددة العوامل (MFA) وتأكيد الهوية الرقمية عبر الرموز والنقاط الحيوية الأخرى، بدلاً من الاعتماد على بصمة الصوت وحدها كعنصر أمان أساسي، نظرًا لسهولة تزييفها بالأنظمة الحديثة.

توقعات مستقبلية وتحليلات تقنية

يثير رصد الميزة في هذا التوقيت تحليلات واسعة بين أوساط المهتمين بنماذج Google Gemini، وتذهب بعض التوقعات والتحليلات التقنية إلى أن جوجل قد تربط هذه الميزة بإصدار مستقبلي أوسع من نموذج Gemini لتوفر ميزات تخصيص غير مسبوقة للمستخدمين على هواتفهم الذكية أو مساعداتهم الرقمية.

ومع ذلك، يجب التأكيد على أن هذا الربط هو مجرد توقعات وتحليلات خبراء، وليس إعلانًا رسميًا صادرًا عن جوجل، فالشركة قد تكتفي بترك الميزة في محيط المطورين عبر AI Studio، أو قد تدخل عليها تعديلات صارمة تتعلق بالتحقق من الملكية لضمان عدم إساءة استخدامها.


ختامًا، توضح المؤشرات الأولية لاختبار ميزة Create Your Voice داخل منصة Google AI Studio أن جوجل تسير بخطى حذرة ومدروسة في مضمار استنساخ الأصوات.

ومن خلال رصد الميزة داخل واجهة Google AI Studio لدى بعض المستخدمين، يبدو أن الشركة تدرك تمامًا الموازنة الدقيقة المطلوبة بين الفوائد الكبيرة للتطبيقات الصوتية المخصصة وبين التحديات الأمنية المعقدة كالاحتيال وانتحال الهوية.

تعليقات