Publication:
Veri artırma teknikleri ile iyileştirilmiş çok modlu duygu tanıma sistemi tasarımı ve uygulaması

Loading...
Thumbnail Image

Date

Journal Title

Journal ISSN

Volume Title

Publisher

Research Projects

Organizational Units

Journal Issue

Abstract

İnsan-bilgisayar etkileşimi alanında, duyguların doğru bir şekilde anlaşılması ve yorumlanması her geçen gün daha fazla önem kazanmaktadır. Bu bağlamda, bu tez çalışmasında konuşma ve metin modalitelerini birlikte kullanarak duygu tanıma performansını iyileştirmeyi amaçlayan BiMER (BiModal Emotion Recognition) adı verilen iki modlu bir duygu tanıma sistemi tasarlanmış ve gerçekleştirilmiştir. Deneyler, Interactive Emotional Dyadic Motion Capture (IEMOCAP) veri seti kullanılarak, dört temel duygu sınıfı (nötr, kızgın, üzgün ve mutlu) ile etiketlenmiş doğaçlama diyalog kayıtları üzerinde yürütülmüştür. Veri kayıtlarının sınırlı sayıda olması ve sınıf dağılımının dengesizliği sorunlarını gidermek için hem konuşma hem de metin verilerine çeşitli veri artırma teknikleri uygulanmıştır. Konuşma verileri için hız değişimi, oda tepki yanıtı, arka plan gürültüsü, perde kaydırma, SpecAugment gibi yöntemlerle ek eğitim örnekleri üretilmiştir. Metin verileri için de geri çeviri ve BERT tabanlı eşanlamlı sözcük değiştirme teknikleri uygulanarak duygu sınıfları arasındaki dengesizlik giderilmeye çalışılmıştır. Bu sayede hem konuşma hem de metinsel bilgiden faydalanılarak tek modlu yaklaşımlardan daha kapsamlı ve zengin bir duygu temsili elde edilmesi hedeflenmiştir. Veri artırma teknikleriyle dengelenmiş veri setleri kullanılarak her bir modalite için ayrı modeller eğitilmiştir. Konuşma tabanlı duygu tanıma (Speech Emotion Recognition, SER) için birden fazla derin öğrenme modeli geliştirilmiş ve değerlendirilmiştir. Bu modeller arasında en yüksek başarı, ResNet50 tabanlı ve dikkat mekanizmasına sahip bir evrişimsel-tekrarlayan sinir ağı modeli (ResNet50-CRNN+AT) ile elde edilmiştir. Metin tabanlı duygu tanıma (Text Emotion Recognition, TER) için ise önceden eğitilmiş BERT (Bidirectional Encoder Representations from Transformers) modeli, artırılmış metin verisi üzerinde ince ayar (fine-tuning) yapılarak kullanılmıştır. Ses ve metin modellerinden çıkarılan özellikler, ara düzeyde (intermediate) füzyon yöntemiyle bir araya getirilmiş ve böylece iki modlu birleşik bir sistem oluşturulmuştur. Bu ara seviye birleştirme yaklaşımı (füzyon), modelin konuşma ve metin sinyallerinden gelen tamamlayıcı bilgileri öğrenmesini sağlamıştır. Bu sayede, duygu sınıflandırmasında daha yüksek doğruluk elde edilmiştir. BiMER sistemi, IEMOCAP veri setinde %88,33 gibi yüksek bir doğruluk oranına ulaşmayı başarmıştır. Bu başarı, tek modlu modellerin sonuçlarına kıyasla önemli bir iyileşme olup iki modlu yaklaşımın etkinliğini göstermektedir. Önerilen sistemin uygulanabilirliğini göstermek amacıyla BiMER modeli, Flask web çatısı kullanılarak bir web uygulaması şeklinde entegre edilmiştir. Uygulamada, kullanıcıdan gelen ses dosyaları Google Speech-to-Text API aracılığıyla metne dönüştürülmekte ve hem ses hem de metin girdileri modele iletilerek duygu tahmini yapılmaktadır. Kullanıcı dostu bir arayüz aracılığıyla ses verilerinden duygusal durumların analiz edilmesi ve görselleştirilmesi sağlanmaktadır. Bu uygulama, önerilen yaklaşımın insan-bilgisayar etkileşimi senaryolarındaki pratik kullanım potansiyelini ortaya koymaktadır. Bütün bu bulgular, eğitim verilerinin artırılması ve tamamlayıcı modalitelerin bir arada kullanılmasının duygu tanıma performansını belirgin ölçüde iyileştirebileceğini göstermektedir. Bu durum, daha duyarlı ve etkili insan-bilgisayar etkileşim sistemlerinin geliştirilmesinde önemli bir ilerlemeye işaret etmektedir.
Accurate interpretation of human emotions in human–computer interaction is increasingly important. In this study, a bimodal emotion recognition system (BiMER) is designed and implemented with the objective of improving emotion recognition performance by jointly leveraging both speech and text modalities. The experiments in this work are conducted using the Interactive Emotional Dyadic Motion Capture (IEMOCAP) dataset, focusing on spontaneous improvised dialogue recordings annotated with four key emotion classes (neutral, angry, sad, and happy). To address the challenges of limited data and class imbalance in this dataset, data augmentation techniques are applied to both speech and text data. For speech data, augmentation methods such as speed change, room impulse response, backgroun noise, pitch shift and SpecAugment are used to create additional training examples, while for text, techniques including back-translation and synonym replacement (using BERT) are applied to help balance the distribution of samples across the emotion classes. As a result, by leveraging both acoustic and textual information, the system aims to capture a more comprehensive representation of emotion than single-modality approaches. Using the augmented and balanced datasets, separate models are trained for each modality. For Speech Emotion Recognition (SER), multiple deep learning models were developed and evaluated. The best results were achieved with a ResNet50-based convolutional recurrent neural network with an attention mechanism for temporal context (ResNet50-CRNN+AT). For Text Emotion Recognition (TER), a pre-trained Bidirectional Encoder Representations from Transformers (BERT) model is fine-tuned on the augmented textual data. The features extracted from the audio and text models are then combined using an intermediate fusion strategy, forming a unified bimodal system for emotion recognition. This intermediate fusion approach allows the model to learn complementary information from speech and text signals, leading to more accurate emotion classification. The BiMER system achieved a high accuracy of 88.33% on the IEMOCAP dataset, demonstrating a significant improvement over separate single-modality models and highlighting the effectiveness of the bimodal approach. To evaluate its practical applicability, BiMER was further deployed as a real-time web application using the Flask framework. In the deployed system, the Google Speech-to-Text API is integrated to convert user speech into text, enabling the model to analyze both audio and textual cues from live user input. The resulting application can interactively recognize and display emotional states through a user-friendly interface, illustrating the potential of the proposed approach for real-world emotion recognition in human–computer interaction. Overall, these findings underscore that augmenting training data and combining complementary modalities can significantly enhance emotion recognition, marking an important advancement in the development of more empathetic and effective human–computer interaction systems.

Description

Citation

Collections

Endorsement

Review

Supplemented By

Referenced By