Publication:
Gerçek zamanlı Türkçe konuşma tanıma

Loading...
Thumbnail Image

Date

Journal Title

Journal ISSN

Volume Title

Publisher

Research Projects

Organizational Units

Journal Issue

Abstract

Konuşma tanıma, konuşulan dilin bilgisayar tarafından tanınmasını ve metne çevrilmesini sağlayan teknolojiler geliştiren bilgisayar bilimi ve hesaplamalı dilbilimin disiplinler arası bir alt alanıdır. Son 30 yıl içerisinde büyük ölçüde gelişmiş ve kullanımını etkili şekilde artırmış teknolojiler arasındadır. Günümüzde bu teknolojiden sayısız alanda destek alınmaktadır; araç-içi sistemler, tıp, raporlama, askeri alanlarda özellikle hava araçların, telefon ve uygulamalarından olan interaktif sesli yanıt sistemleri, ev otomasyon sistemleri ayrıca engele sahip insanların hayatlarını kolaylaştırma uygulama alanlarıdır. Literatürde Otomatik ASR veya STT olarak kısaltılan konuşma tanıma teknolojisi, Türkçe için de çözüm ve iyileştirme bekleyen açık problemler arasında görülebilir. 2006 ve sonrası makinelerin hızlanması ve Sinir Ağları için eğitim sorunlarının çözümü ile bu alanda Sinir Ağları son teknoloji konuma geldi ve sonrasında özellikle konuşma tanıma gibi anlık bilginin önceki girişlere bağlı olduğu problemlerin çözümü için icat edilen Yinelemeli Sinir Ağları tercih edildi. Günümüzde ise uçtan-uca olarak isimlendirilen; kompleks farklı modellerin bir arada kullanılmasının aksine yalnızca bir tek model ile konuşma tanımaya çözüm arayan modeller tercih edilmekte ve bu yöntem geçerli son teknolojiye ev sahipliği yapmaktadır. Bu çalışmada ise Türkçe için gerçek zamanlı konuşma tanımanın ele alınması ve yüksek performansla çalışan son teknoloji örneğin sunulması üzerinde araştırma yapılmış ve uçtan-uca yöntemler tercih edilmiştir. Bu kapsamda eğitimler ve testler için kullanılan veri seti sıfırdan derlenmiş ve veri artırım yöntemleri kullanılmadan 6000 saatten fazla Türkçe konuşma ses veri derlenmiştir. Çalışma kapsamında geleneksel modeller ve uçtan-uca modeller eğitilmiş, performans farkları ortak bir veri seti üzerinden sunulmuştur. Bu noktada geleneksel yöntemlerde Türkçenin sondan eklemeli bir oluşu sebebiyle sıklıkla kendini gösteren sözlük dışı kalma problemi incelenmiş, yeni yöntemlerin bu konudaki performansları araştırılmıştır. Uçtan-uca konuşma tanıma modelleri olarak göze çarpan Transformer ve devamında geliştirilen Conformer tezde ana konu olarak ele alınarak ve konuşma tanıma için gerekli olan ses aktivitesi dedektörü, gürültü azaltma veya bastırma gibi konular üzerinde de araştırmalar yapılmıştır.
Speech recognition is an interdisciplinary subfield of computer science and computational linguistics that focuses on developing technologies for recognizing and translating the spoken language into text by computers. It has greatly advanced over the past 30 years and is among the technologies that have significantly increased their usage. Nowadays, this technology is utilized in numerous fields, including in-vehicle systems, medicine, reporting, military applications, especially in the context of aerial vehicles, interactive voice response systems in phones and applications, home automation systems, and applications that facilitate the lives of individuals with disabilities. In the literature, Automatic Speech Recognition (ASR) or Speech-to-Text (STT) technology, abbreviated as ASR or STT, can be seen as one of the open problems that require solutions and improvements for Turkish. Since 2006, with the increase in computational power and the practical resolution of issues related to Neural Networks, Neural Networks have become the state-of-the-art technology in this field. Subsequently, Recurrent Neural Networks (RNNs) were invented, particularly for solving problems where real-time information depends on previous inputs, such as speech recognition. Nowadays, end-to-end models, which are referred to as end-to-end, are preferred. Unlike using complex different models together, these models seek solutions for speech recognition using only a single model, and this approach hosts the current state-of-the-art technology. In this study, real-time speech recognition for Turkish is addressed, and research is conducted on presenting state-of-the-art technology that performs with high efficiency. End-to-end methods are preferred in this context. Within this scope, a data set used for training and testing is compiled from scratch, and more than 6,000 hours of Turkish speech data is collected without using data augmentation methods. Traditional models and end-to-end models are trained and their performance differences are presented on a common data set. In this regard, the out-of-vocabulary issue that frequently arises due to the agglutinative nature of Turkish in traditional methods is examined, and the performance of new methods in this regard is investigated. Özet Transformer, which stands out as an end-to-end speech recognition model, and its subsequent development, Conformer, are considered as the main topics in this thesis. Additionally, research is conducted on topics related to speech recognition, such as speech activity detection, noise reduction or suppression.

Description

Citation

Collections

Endorsement

Review

Supplemented By

Referenced By