Publication: Dimension reduction and visualization in big data: an analysis on the game industry
Loading...
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
With the emergence of big data phenomenon, the problem on analyzing those high dimensional
data increases more and more. Particularly in the analysis of non-linear real-world data,
traditional methods become insufficient, and with the help of developing technologies, these
methods are replaced by machine learning and artificial neural network algorithms.
In this study, manifold-based learning algorithms that provide dimensional reduction and data
visualization in nonlinear data have been practiced. The most recent one of these algorithms,
the UMAP algorithm, has been applied to the game industry for a marketing problem.
Customer Relationship Management (CRM) in marketing is based on attracting and retaining
“economically valuable” customers while removing “economically not valuable” customers.
Existing customers are valuable in terms of word-of-mouth advertising and lower cost of
service. In addition, attracting new customers is much more expensive than retaining existing
customers. In this context, nowadays churn rate estimation is one of the most relevant issues
for businesses. Companies are in an effort to analyze customer data to provide information that
guides them.
In this study, customer segmentation was made by applying the UMAP algorithm to the big
data belongs to a mobile game. The segmentation was provided according to the large-scale
data composed from 5000 Afro – American players’ behavioral data of last three months. First,
customers are labeled according to the amount of payment they have made, and then they are
segmented using the variables; chip amount purchased, chip interaction status, total number of
interactions, how many days the game has been played, the total time spent in the game, and
the number of logins to the game. As a result of many analyzes using different distance
measures, different numbers of neighbors and different minimum distance values, the best
results were obtained with the Bray Curtis distance. Customers are divided into five segments
as “platinum”, “gold”, “silver”, “bronze” and “non-paying customers” with a 91% correct
classification rate. In this way, it is possible for the company to increase its profitability by
developing appropriate advertising and marketing strategies for each segment. On the other
hand, customer churn rates will be reduced by offering special campaigns to customers in high
segments.
Büyük veri olgusunun ortaya çıkması ile birlikte, veri setlerindeki yüksek boyutluluk giderek daha fazla analiz edilebilirlik problemine yol açmıştır. Özellikle doğrusal yapıda olmayan gerçek dünya verilerinin analizinde geleneksel yöntemler yetersiz kalmakta, gelişen teknolojilerin de yardımıyla bu yöntemlerin yerini makine öğrenmesi ve yapay sinir ağı algoritmaları almaktadır. Bu çalışmada doğrusal olmayan verilerde boyutsal indirgemeyi ve veri görselleştirmesini sağlayan manifold tabanlı öğrenme algoritmaları üzerinde çalışılmıştır. Bu algoritmalardan en güncel olan UMAP algoritması, bir pazarlama problemi için oyun sektörü üzerine uygulanmıştır. Pazarlamada Müşteri İlişkileri Yönetimi (Customer Relationship Management – CRM) “ekonomik olarak değerli” müşterileri cezbetmeyi ve elde tutmayı; “ekonomik olarak değerli olmayan” müşterileri ise uzaklaştırmayı esas almaktadır. Mevcut müşteriler, ağızdan ağıza reklamcılık ve daha düşük hizmet maliyeti yönünden değerli olup; yeni müşteriler çekmek, mevcut müşterileri elde tutmaktan çok daha pahalı bir iştir. Bu bağlamda, müşteri kayıp oranı tahmini (churn rate), günümüzde işletmeleri en çok ilgilendiren konulardan biridir. Firmalar, müşteri datalarını analiz ederek kendilerine bu süreçte yol gösterecek enformasyonlar sağlama gayreti içindedir. Bu çalışmada, bir mobil oyuna ait büyük veriye UMAP algoritması uygulanarak müşteri segmentasyonu yapılmıştır. Çoğunluğu Afro-Amerikan oyunculardan oluşan 5000 kişiye ait son üç aylık verilerden derlenen büyük boyutlu veri seti ile müşterilerin oyun içindeki davranışlarına göre segmentasyonu sağlanmıştır. Öncelikle; müşteriler yaptıkları ödeme tutarlarına göre etiketlendikten sonra; satın alınan çip tutarı, çip etkileşim durumu, toplam etkileşim sayısı, kaç gündür oyun oynadığı, oyunda geçirilen toplam süre ve oyuna giriş sayısı değişkenleri kullanılarak segmentlere ayrılmıştır. Farklı uzaklık ölçüleri, farklı komşu sayıları ve farklı en küçük uzaklık değerleri kullanılarak yapılan çok sayıda analiz neticesinde, en iyi bulgular; Bray Curtis uzaklığı ile elde edilebilmiştir. Müşteriler %91 doğru sınıflandırma oranı ile; “platinum”, “gold”, “silver”, “bronze” ve “ödeme yapmayan müşteriler” olarak beş segmente ayrılmışlardır. Bu sayede, şirketin her segmente uygun reklam ve pazarlama stratejileri geliştirerek karlılık oranını arttırması mümkündür. Öte yandan, yüksek segmentlerde yer alan müşterilere özel kampanyalar sunularak müşteri kayıp oranları da düşürülebilecektir.
Büyük veri olgusunun ortaya çıkması ile birlikte, veri setlerindeki yüksek boyutluluk giderek daha fazla analiz edilebilirlik problemine yol açmıştır. Özellikle doğrusal yapıda olmayan gerçek dünya verilerinin analizinde geleneksel yöntemler yetersiz kalmakta, gelişen teknolojilerin de yardımıyla bu yöntemlerin yerini makine öğrenmesi ve yapay sinir ağı algoritmaları almaktadır. Bu çalışmada doğrusal olmayan verilerde boyutsal indirgemeyi ve veri görselleştirmesini sağlayan manifold tabanlı öğrenme algoritmaları üzerinde çalışılmıştır. Bu algoritmalardan en güncel olan UMAP algoritması, bir pazarlama problemi için oyun sektörü üzerine uygulanmıştır. Pazarlamada Müşteri İlişkileri Yönetimi (Customer Relationship Management – CRM) “ekonomik olarak değerli” müşterileri cezbetmeyi ve elde tutmayı; “ekonomik olarak değerli olmayan” müşterileri ise uzaklaştırmayı esas almaktadır. Mevcut müşteriler, ağızdan ağıza reklamcılık ve daha düşük hizmet maliyeti yönünden değerli olup; yeni müşteriler çekmek, mevcut müşterileri elde tutmaktan çok daha pahalı bir iştir. Bu bağlamda, müşteri kayıp oranı tahmini (churn rate), günümüzde işletmeleri en çok ilgilendiren konulardan biridir. Firmalar, müşteri datalarını analiz ederek kendilerine bu süreçte yol gösterecek enformasyonlar sağlama gayreti içindedir. Bu çalışmada, bir mobil oyuna ait büyük veriye UMAP algoritması uygulanarak müşteri segmentasyonu yapılmıştır. Çoğunluğu Afro-Amerikan oyunculardan oluşan 5000 kişiye ait son üç aylık verilerden derlenen büyük boyutlu veri seti ile müşterilerin oyun içindeki davranışlarına göre segmentasyonu sağlanmıştır. Öncelikle; müşteriler yaptıkları ödeme tutarlarına göre etiketlendikten sonra; satın alınan çip tutarı, çip etkileşim durumu, toplam etkileşim sayısı, kaç gündür oyun oynadığı, oyunda geçirilen toplam süre ve oyuna giriş sayısı değişkenleri kullanılarak segmentlere ayrılmıştır. Farklı uzaklık ölçüleri, farklı komşu sayıları ve farklı en küçük uzaklık değerleri kullanılarak yapılan çok sayıda analiz neticesinde, en iyi bulgular; Bray Curtis uzaklığı ile elde edilebilmiştir. Müşteriler %91 doğru sınıflandırma oranı ile; “platinum”, “gold”, “silver”, “bronze” ve “ödeme yapmayan müşteriler” olarak beş segmente ayrılmışlardır. Bu sayede, şirketin her segmente uygun reklam ve pazarlama stratejileri geliştirerek karlılık oranını arttırması mümkündür. Öte yandan, yüksek segmentlerde yer alan müşterilere özel kampanyalar sunularak müşteri kayıp oranları da düşürülebilecektir.
Description
Citation
ARIKAN G., YILDIRIM İ. E. , \"DIMENSION REDUCTION AND VISUALIZATION IN BIG DATA: AN ANALYSIS ON THE GAME INDUSTRY\", 5. HAGIA SOFIA INTERNATIONAL CONFERENCE ON MULTIDISCIPLINARY SCIENTIFIC STUDIES, 17 Ekim 2022
