العدد 5194 بتاريخ 25-11-2016م تسجيل الدخول


الرئيسيةتكنو
شارك:


نظام "غوغل" للذكاء الصناعي يمكنه قراءة الشفاه أفضل من البشر

الوسط - المحرر التقني

استخدمت شركة غوغل الذكاء الصناعي لإنشاء أدق برنامج لقراءة الشفاه موجود في الوقت الحالي، وجرى بناء هذا البرنامج بالتعاون بين الباحثين في قسم DeepMind للذكاء الصناعي في شركة غوغل مع جامعة أكسفورد للذكاء الصناعي.

وعمل العلماء على استخدام 5 آلاف ساعة من البرامج التلفزيونية التابعة لهيئة الإذاعة البريطانية البي بي سي من أجل تدريب الشبكة العصبية على إضافة تعليق توضيحي للقطات الفيديو بدقة تصل إلى 46.8 في المئة.

ورغم أن هذه النسبة قد لا تثير الإعجاب لا سيما بالمقارنة مع معدلات دقة الذكاء الصناعي عند التدوين الصوتي، إلا ان هذه النسبة تعتبر إنجازاً كبيراً عند مقارنتها بنسبة 12.4 في المئة من الكلمات التي يمكن للعنصر البشري المحترفي في قراءة الشفاه معرفتها.

وتأتي هذه الأبحاث بعد قيام مجموعة أخرى من جماعة أكسفورد بالعمل على أبحاث مماثلة منشورة في وقت سابق من هذا الشهر، حيث تمكن أولئك العلماء من إنشاء برنامج لقراءة الشفاه يدعى LipNet باستخدام تقنيات ذات صلة.

وحقق برنامج LipNet دقة بلغت 93.4 في المئة خلال الاختبارات، بالمقارنة مع دقة 52.3 في المئة التي حققها الإنسان البشري، حيث تم اختبار LipNet على لقطات فيديو سجلت خصيصاً واستخدمت متطوعين يتحدثون جملاً رسمية.

بينما تم على سبيل المثال اختبار برنامج DeepMind على لقطات فيديو أكثر صعوبة بكثير، والتي احتوت على الاختزال الطبيعي ومحادثات مرتجلة من برامج بي بي سي السياسية.

وتضمنت مقاطع الفيديو التي تم تدريب برنامج DeepMind عليها على 118 ألف جملة مختلفة و17500 كلمة فريدة من نوعها، بالمقارنة مع قاعدة بيانات مقاطع الفيديو المستخدمة في اختبار برنامج LipNet والتي تتكون من 51 كلمة فريدة.

ويقترح الباحثون العاملون في DeepMind أن بإمكان البرنامج إمتلاك مجموعة من التطبيقات، بما في ذلك مساعدة الناس ضعاف السمع على فهم المحادثات.

ويمكن استخدامه أيضاً لإضافة تعليق توضيحي للأفلام الصامتة أو للسماح للأشخاص بالتحكم بالمساعدين الرقميين مثل سيري أو أليكسا عن طريق ترديد بعض الكلمات للكاميرا.



أضف تعليق