يمكن للذكاء الاصطناعي أن يقوم بتوليد صوت شخص ما من بضع ثوانٍ فقط من الكلام المسجل، وعلى خلاف المتوقع من أن تكون هذه النسخ المولدة من الأصوات أقل وضوحًا مقارنة بالأصوات البشرية، فقد اكتشف العلماء بجامعة كوليدج لندن عكس ذلك.
إذ اتضح أن هذه النسخ الاصطناعية في الواقع أكثر وضوحًا وأسهل فهمًا من الشخص الحقيقي الذي تستند إليه.
أصوات أكثر وضوحًا
وقالت المؤلفة الرئيسية البروفيسورة باتي أدانك: "اعتقدت في البداية أن نسخ الصوت ستكون أقل وضوحًا لأنها غير مألوفة. لقد وجدت أن فهمهم أصبح أكثر وضوحًا بنسبة تصل إلى 20 في المائة، وهو أمر صادم للغاية".
وفي الماضي، كانت المساعدات الصوتية مثل "سيري"، أو تلك الموجودة في نظام الملاحة الخاص بك تستخدم ما يسمى "الأصوات الاصطناعية". وكان هذا يتطلب من ممثلي الصوت قضاء ساعات في استوديو التسجيل، حيث يقومون بتسجيل جميع الكلمات والعبارات المختلفة التي قد يحتاجها المساعد بدقة متناهية.
لكن تقنيات استنساخ الأصوات أحدثت ثورة في كيفية توليد الأصوات الاصطناعية، وذلك باستخدام الذكاء الاصطناعي، إذ يمكن ذلك من خلال استخدام بضع ثوانٍ فقط من الصوت المسجل، بل ويمكن استخدام مقاطع من وسائل التواصل الاجتماعي أو مقتطفات من المحادثات كمادة خام.
مخاوف من عمليات الاحتيال
وأثار هذا الأمر مخاوف من أن المجرمين الذين يستخدمون الذكاء الاصطناعي يمكنهم بسهولة انتحال شخصيات الأصدقاء أو العائلة أو زملاء العمل للتلاعب بأهدافهم، كما ذكرت صحيفة "ديلي ميل".
وخلال الدراسة، قام الباحثون بإنشاء نسخ صوتية للمشاركين البشريين باستخدام 120 جملة مسجلة مسبقًا فقط. واستمع المشاركون إلى 80 جملة فريدة- 40 جملة نطق بها شخص حقيقي و40 جملة نطق بها صوت مستنسخ بالذكاء الاصطناعي.
وطُلب منهم تدوين ما سمعوه بالضبط، حتى يتمكن الباحثون من معرفة مدى سهولة فهم الأصوات. ثم طُلب من كل مشارك تقييم مدى وضوح الصوت، ومدى قوة اللهجة الإقليمية، وما إذا كان ظننت أنه ذكاء اصطناعي.
وكانت المفاجأة في تصنيف الأصوات التي تم إنشاؤها بواسطة الذكاء الاصطناعي باستمرار على أنها أسهل في الفهم.
وأعاد الباحثون التجربة مع مشاركين مسنين وباستخدام مرشح خاص مصمم لمحاكاة تأثيرات إجراء عملية زرع قوقعة الأذن، لمعرفة ما إذا كان ضعف السمع قد يؤثر على ذلك.
ثم قاموا بتجربة الاختبار مرة أخرى مع الأمريكيين لمعرفة ما إذا كانت اللهجات البريطانية للأصوات المستنسخة ستسبب أي ارتباك إضافي. ومع ذلك، وبغض النظر عما فعله الباحثون، فقد تم تقييم النسخ المستنسخة التي تم إنشاؤها بواسطة الذكاء الاصطناعي باستمرار على أنها أكثر قابلية للفهم بنسبة 13 في المائة من نظيراتها البشرية.
وما يجعل هذا الأمر غير عادي بشكل خاص هو حقيقة أن المشاركين نادرًا ما تم خداعهم بواسطة نسخ الذكاء الاصطناعي. وعندما عرض صوت بشري وصوت ذكاء اصطناعي، اختار المشاركون الصوت البشري بشكل صحيح بنسبة 70.4 في المائة من الوقت. وهذا يعني أنهم كانوا يصنفون الذكاء الاصطناعي على أنه أسهل في الفهم، على الرغم من أنهم كانوا يعلمون أنه اصطناعي.
حيرة الباحثين
وبعد فحص أكثر من 100 قياس صوتي مختلف في محاولة لتحديد ما يمكن أن يسبب هذه التأثيرات الغريبة، لا يزال الباحثون عاجزين عن إيجاد حل.
وتعتقد البروفيسورة أدانك أن الطريقة الوحيدة لحل هذا اللغز هي العمل مع المهندسين الذين يبنون نسخًا صوتية لفهم كيفية عمل الذكاء الاصطناعي بالفعل.
وقالت: "جزء صغير من ورقتنا البحثية يتحدث عن تلك التجربة، ثم جزء كبير منها يدور حول محاولتي أنا وزميلي المتعاون بشكل محموم لمعرفة ما الذي يجعل تلك النسخ الصوتية أكثر قابلية للفهم".
وتضيف: "سأحاول الآن إعادة إنتاج [التأثير] من خلال دراسة كيفية عمل أجهزة المزج وكيفية استخدامها لمعالجة الإشارات الرقمية لتوليد تلك الأصوات، فقط لأحصل علىلديّ بعض المعرفة بهذا الأمر.

