Publication:
IMDB movie rating prediction with feature extraction and machine learning methods

Loading...
Thumbnail Image

Date

Journal Title

Journal ISSN

Volume Title

Publisher

Research Projects

Organizational Units

Journal Issue

Abstract

Bu çalışmanın odak noktası, Uluslararası Film Veritabanı (IMDB) web sitesindeki filmlerin kullanıcı derecelendirmelerini tahmin etmektir. Bu çalışmada, özgün veri seti öznitelik çıkarma yöntemleri ile zenginleştirilmiştir. Tür, oyuncu, yazar ve yönetmen puanları çıkarılır ve doğruluğu artırmak için kullanılır. Derecelendirmeler üç kategoriye (düşük derecelendirme, orta derecelendirme ve yüksek derecelendirme) dönüştürülür ve bu kategoriler LightGBM, Lojistik Regresyon, Destek Vektör Sınıflandırıcı, Karar Ağacı Sınıflandırıcı, Rastgele Orman, Gaussian Naive Bayes, Çok Katmanlı Algılayıcı, k-neaest Neighbors algoritmaları ile tahmin edilir. Ensemble algoritması olarak adlandırılan bu algoritmaların kombinasyonları test edilmiş ve çalışmada en iyi performans gösteren kombinasyon kullanılmıştır. En iyi performans gösteren kombinasyonu değerlendirmek için iki tür oylama algoritması kullanılır, yumuşak oylama topluluğu ve sert oylama topluluğu. Daha sonra, veri setlerindeki dengesizlikleri ortadan kaldırmak için Sentetik Azınlık Aşırı Örnekleme Yöntemi (SMOTE) kullanılarak eğitim seti aşırı örneklenir. Kullanılan modellerin doğruluklarını hesaplamak için sınıflandırma doğruluğu, kesinlik, geri çağırma ve f1-skor gibi istatistiksel metrikler kullanılır. Modellerin karşılaştırılması ile en iyi yöntem önerilmiştir. Diğer çalışmaların yanı sıra, bu çalışma, daha iyi doğruluklar elde etmek için topluluk algoritmaları ve bireysel algoritmaların kombinasyonu ile tahmin etmeye odaklanmaktadır. Çalışmanın bir diğer farklılığı, bir film tahmin çalışmasında dengesiz verileri ortadan kaldırmak için SMOTE kullanılmasıdır.
The focus of this study is to predict user ratings of movies on the International Movie Database (IMDB) website. In this study, original dataset is enriched with feature extraction methods. Genre, actor, writer and director ratings are extracted and used to improve accuracy. Ratings are transformed to three categories (low ratings, medium ratings and high ratings) and those categories are predicted with LightGBM, Logistic Regression, Support Vector Classifier, Decision Tree Classifier, Random Forest, Gaussian Naive Bayes, Multilayer Perceptron, k-nearest Neighbors algorithms. Combinations of those algorithms have been tested,which is called as ensemble algorithm, and best performing combination is used in the study. In order to evaluate the best performing combination, two types of voting algorithm are used, soft voting ensemble and hard voting ensemble. Then, training set is oversampled using Synthetic Minority Oversampling Method (SMOTE) to eliminate imbalances in the datasets. Statistical metrics such as classification accuracy, precision, recall and f1-score are used to calculate accuracies of the models used. Best method is proposed with the comparison of models. Apart from other studies, this study focuses on prediction with ensemble algorithms and combination of individual algorithms for achieving better accuracies. Another distinctness of the study is using SMOTE to eliminate imbalanced data in a movie prediction study.

Description

Citation

Collections

Endorsement

Review

Supplemented By

Referenced By