Yapay Zekâ İşaret Dilini Metine Çeviriyor

0
414
American sign language
American sign language

Sağır insanlar duyamıyor. Çoğu işitebilen insan işaret dilini anlamıyor.

Bu yapay zekanın köprüye yardımcı olabilecek bir iletişim boşluğu, Rochester Teknoloji Enstitüsü Gelecekteki Gündelik Teknoloji Laboratuarı’ndaki bir araştırma görevlisi olan Syed Tousif Ahmed, bu hafta GPU Teknoloji Konferansı‘nda açıkladı.

Ahmed ve meslektaşları, Amerikan İşaret Dili’ni bir video ekranında okunabilecek kelimelere dönüştürmek için bilgisayarla görme, makine öğrenimi ve gömülü sistemler kullanıyorlar.

Ahmed, “Bu boşluğu doldurmak, işiten bir kişinin işitme engelli bir kişiyi veya işitilmesi zor birisini; Skype veya Google Hangout ile röportaj yapabileceği anlamına gelir” dedi. “Bir görüşme veya iş görüşmesi yapabilirler ve sadece doğal bir şekilde iletişim kurabilirler.”

Gerçek Zamanlı Video Altyazılama

Ahmed, derin sinir ağları kullanarak Amerikan İşaret Dili üzerine odaklanmış eksiksiz bir video altyazı sisteminin nasıl hazırlandığını ayrıntılı olarak anlattı. Amaç: işiten bir kişinin otomatik konuşma tanıma yoluyla yanıt vermesine ve sağır bir kişinin bir video altyazı sistemi aracılığıyla yanıt vermesine olanak verecek bir mesajlaşma uygulaması.

Ahmed, “Başka bir uygulama, American Sign Language kullananların, video altyazılarıyla yeteneklerini değerlendirebilecekleri bir American Sign Language öğrenme uygulaması olabilir” dedi. “İşaret dili kabul edilebilir olduğunu bildiğinizden puan almak harika olmaz mı?”

TensorFlow’u kullanarak Ahmed, sekans sırası ağına bir sinir ağı geliştirdi; bir olayı videoda açıklayan bir cümleye dönüştürmek için bir dizi karenin temsilini öğrendi. Görüntüler kodlanır, bir özellik vektörü haline getirilir ve daha sonra kod çözülür.

Eğitimde kullanılan ham video ve altyazılar.

Sistemin ek özellikleri, başlıkları oluşturma, bir veri girişi boru hattı ve modelleri oluşturmak için açık kaynaklı Seq2Seq kodlayıcı-kod çözücü çerçevesinin kullanılmasıdır. Sistem, canlı videoların gerçek zamanlı altyazıları için NVIDIA Jetson TX2 gibi gömülü platformlarda konuşlandırıldı.

Dudak okumasını fiziksel hareketlere yorumlamaya kadar sistemin her bir yanı, gelecekteki iletişimin herkes için zahmetsiz olmasını sağlamak amaçlıyor.

Kaynak: https://blogs.nvidia.com/blog/2017/05/11/ai-translates-sign-language/

Facebook Yorumları