Ürün / SKU Segmentasyon 4

Trendify Analytics
TrendifyAnalytics
Published in
6 min readJan 13, 2022

--

TRENDIFY SEGMENTASYON ÇÖZÜMLERİ

7. Ürün/SKU Segmentasyonunun çalışma mantığı nedir?

Bu blog yazımızda temel olarak Trendify’ın kullandığı kümeleme (segmentasyon) algoritmalarının türlerinden ve çalışma mantıklarından bahsedeceğiz. Genel olarak 4 tip kümeleme algoritması bulunmaktadır. Bunlar;

  • Merkez Tabanlı Kümeleme
  • Yoğunluk Tabanlı Kümeleme
  • Dağıtım Tabanlı Kümeleme
  • Hierarchical Kümeleme

Merkez Tabanlı Kümeleme

Merkez tabanlı kümelemenin amacı kümelerin elemanlarına göre ağırlık merkezlerini bulmaktır. Kmeans algoritması da, en bilindik merkez tabanlı kümeleme algoritmalarından biridir. Burada k küme sayısıdır ve algoritmanın bir hiper parametresidir. Algoritmanın arkasındaki temel fikir, kümedeki noktaların merkeze olan uzaklıklarının karesi en aza indirilecek şekilde, merkeze yakınlıklarına göre gruplandırılmış k nokta kümesini bulmak ve ardından k tane ağırlık merkezi bulmaktır.

Bir diğer önemli nokta ise ilk merkez noktalarının bulunmasıdır. İlk merkez noktalarının belirlenmesi için K-means++ algoritması tercih edilir. K-means++’, yakınsamayı hızlandırmak için akıllı bir şekilde k-means kümeleme algoritması için ilk küme merkezlerini seçer.

(Şekil-1) Merkez tabanlı kümeleme örneği

Yoğunluk Tabanlı Kümeleme

Yoğunluğa dayalı kümeleme, yüksek örnek yoğunluklu alanları kümelere bağlar. Bu, yoğun alanlar bağlanabildiği sürece rastgele dağılımlara izin verir. Algoritmanın temel mantığı belirlenen belli mesafede ve belli yoğunlukta olan tüm elemanların kümeye dahil edilmesi üzerinedir. Bu tür algoritma da K means algoritmasının aksine küme sayılarını önceden belirtmek gerekmez.

Yoğunluk tabanlı kümeleme yöntemlerinden en bilinen algortimalar DBSCAN ve OPTICS algoritmalarıdır. İki algoritmada epsilon ve minimum sample parametreleri ile çalışmaktadır. Epsilon o küme için belirlenen maximum mesafeyi ifade eder.Minimum sample parametresi ise bir küme için belirlenen en küçük eleman sayısını ifade eder. Aşağıda ki resimde belirlenen epsilon parametresine göre küme sınırıları çizilmiş ve core, border ve noise pointler belirlenmiştir. Core point küme merkezine yakın olanlardır. Border point iki veya daha fazla kümeye göre sınırda olan noktalardır. Bu noktalar yine mesafeye göre bir kümeye atanır. Noise pointler ise ayrık değer olarak belirlenir.

(Şekil- 2) Yoğunluğa dayalı kümeleme örneği

Dağıtım Tabanlı Kümeleme

Bu kümeleme yaklaşımı, verilerin Gauss dağılımları gibi dağılımlardan oluştuğunu varsayar. Gauss dağılımı (normal dağılım olarak da bilinir) çan şeklinde bir eğridir ve herhangi bir ölçüm sırasında değerlerin, ortalama değerin üstünde ve altında eşit sayıda ölçümle normal bir dağılım izleyeceği varsayılır.

(Şekil-4) Dağıtım tabanlı kümeleme örneği

In the Image 4, the distribution-based algorithm clusters the data in three Gaussian distributions. The greater the distance from the center of the distribution, the less likely a point will belong to the distribution. In the picture below, the bands also show that the probability is decreasing. The best example of distribution-based algorithms is the Gaussian Mixture algorithm. It takes the number of clusters as a parameter, as in the K-means algorithm.

(Şekil -4) Dağıtım tabanlı kümeleme örneği

Hierarchical Kümeleme

Hiyerarşik Kümeleme, hiyerarşik ağaç benzeri bir yapıda (Dendrogram olarak da adlandırılır) kümeler oluşturur. Hiyerarşik kümeleme mantığına göre birleştirici (agglomerative) ve bölücü (divisive) olmak üzere iki temel yaklaşım mevcuttur.

Tüme varım (bottom up) olarak da bilinen birleştirici yaklaşımda, başlangıçta tüm nesneler birbirlerinden ayrıdır. Yani eldeki verinin her biri ayrı bir küme olarak kabul edilerek işe başlanır. Ardından benzer özniteliklere sahip kümeler bir araya gelerek tek bir küme elde edilmeye çalışılır. Tümden gelim (top bottom) yaklaşımda ise tüme varım metodunun aksine ayrıştırıcı bir strateji hakimdir.

Bu yaklaşımda başlangıçta tek bir küme vardır. Her aşamada uzaklık/benzerlik matrisine göre nesneler ana kümeden ayrılarak, farklı alt kümeler oluşur. Süreç sonucunda her veri bir küme olur. Aşağıda ki şekilde de bir hiyerarşik kümeleme örneği verilmektedir.

Hiyerarşik kümeleme algoritmasının aldığı en önemli parametrelerden bir tanesi linkage parametresidir. Linkage türlerinden bazıları Single linkage, complete linkage veya average linkage‘dir. Single linkage uzaklık matrisinden yararlanarak birbirine en yakın iki yapı veya küme birleştirilmeyi amaçlar.

(Şekil-5) Hiyerarşik bir ağaç kümeleme örneği

Complete linkage’da yapılar arasındaki en büyük uzaklık dikkate alınarak birleştirme işlemi gerçekleşmektedir. Average linkage ise iki yapı içerisindeki verilerin birbirleri arasındaki uzaklıkların ortalama değerini dikkate alarak gerçekleşen birleşme işlemidir. Algoritmaların detayları ve kodlaması ile ilgili Ürün / SKU segmentasyon-5 blog yazımıza göz atın.

8. Segmentasyon Sonuçları Nasıl Yorumlanmalıdır?

Oluşturulan segmentlerin hangi değişkenler için öne çıktığının yorumlanması ve bu değişkenlerin gerçek hayat ile uyumlu olması gerekmektedir. Sadece score a bakılarak model sonuçları direkt süreçlere entegre edilemez. Sonuçların business için uyumu ve anlamı var ise süreçlere entegrasyonu yapılmalıdır. Business için anlamlandırma ise, sonuçları anlaşılır ve yorumlayabilir hale getirilerek mümkün olur.

Segmentasyon, bir unsupervised öğrenme tekniğidir. Bu teknik doğası itibari ile verilerin etiketlerinin ve etkilerinin bilinmediği durumlarda kullanılır. Verilerin ortak yanlarına bakarak bir arada toplanması gereken gruplar oluşturmayı amaçlar. Dolayısı ile supervised öğrenme tekniğinde olduğu gibi, olması gerekenden ne kadar uzak bir sonuç üretildi (Accuracy, F1 Score, MAE vb ölçütler ile kontroller yapılabilir) gibi bir kontrol yapılamamaktadır.

Örneğin, bir basketbol maçını izlemeye gelen kişilerin profillerinin belirlenmesi problemini düşünelim. Buradaki problemde, maç izlemeye gelen kişilerin ne tarz insanlar olduğu (yaşı, cinsiyeti, ilgi alanları vb), benzer gruplarda yer alan insanların toplam kitlenin ne kadarını oluşturduğu, oluşan gruplarda öne çıkan özelliklerin neler olduğu ile ilgilenilir. Yani amaç, bilinmeyen bir durumu ortaya koymaktır. Dolayısı ile sonuçları, yorumlayabilecek şekilde görselleştirmek, anlatabilmek en önemli konu haline gelmektedir.

Segmentasyon sonuçlarının yorumlanması ve anlaşılması için aşağıdaki yöntemler tercih edilebilir;

  • Boyut indirgeme
  • Grafik görselleştirme
  • Box Plot

Boyut İndirgeme

Grafik görselleştirme en çok kullanılan tekniklerden bir tanesidir. Verinin yapısını anlamanızı ve oluşan kümelerin ne kadar iyi ayrıştığını görmenize yarımcı olur. Veri görselleştirme için pek çok grafik çeşidi kullanılabilmektedir.

Bunlar scatter bar, pie plot vb. gibi çoğaltılabilir. Aşağıda ki resimde PCA boyut indirgeme yöntemi ile yapılmış bir örneği görüyorsunuz. PCA metodu çok boyutlu verileri daha aza indirgeyerek hem veriyi daha uygun bir şekilde temsil etmemizi sağlar hem de verinin boyutunu küçültmemizi sağlar.

Normalde 9 farklı değişkenden oluşan bir veri PCA algoritması kullanarak 2 boyutlu hale getirildi ve scatter plot ile oluşan kümeler gösterildi. Bu durumda kümelerin birbirinden olabildiğince iyi ayrıştığı gözlemlenebilir.

Değişken eleme yöntemi olarak PCA için Ürün/SKU Segmentasyonu-6 blog yazımıza göz atabilirsiniz.

(Şekil -6) PCA uygulaması ile grafik görselleştirme örneği

Grafik Görselleştirme

Grafik görselleştirme tekniklerinden bir tanesi de histogram ya da pie chart dır. Histogram ile numerik verilerin dağılımını rahatlıkla görebiliyorken, pie char ile categorik verilerin dağılımı rahatlıkla görülebilmektedir. Aşağıdaki görselde, her bir değişken için, segment içi ve genel durumdaki dağılımı net bir şekilde görmek mümkün olmaktadır.

Mavi histogramlar, segment içi histogramı gösteriyorken, kırmızı histogramlar genel durumdaki histogramı göstermektedir. Purpose, değişkeni categorik bir değişken olduğu için merkeze yakın pie graph, segment içi dağılımı gösteriyorken, merkeze uzak pie chart genel durumdaki dağılımı göstermektedir. Böylece hangi segmentte, hangi değişken genelden daha çok ayrışmış durumda, yorumlaması kolaylıkla yapılabilmektedir.

(Şekil -7) Küme histogram ve pie char grafikleri

Box Plot

Oluşturulan her kümeleme, değişkenlerin dağılımına bakılarak elde edilir. Bir değişkenin o kümeyi ifade edebilmesi veya açıklayabilmesi için o değişkenin dağılımının da düzgün olması gerekmektedir. Buradan dağılımdan kasıt istatiksel olarak düzgün veya düzgüne yakın bir dağılımı sağlamaktadır. En yaygı ölçütlerden birisi de standart sapma ve ortalamadır.

Standart sapma verilerin aritmetik ortalamadan sapmalarının karelerinin aritmetik ortalamasının kare köküdür. Standard sapma o özelliğin ne kadar yayıldığını gösterir. Yani küme ortalamasından çok fazla uzaklaşan değerler kümeyi ifade edemezler. O yüzden küme bazında standart sapması yüksek olan değişkenler o segmentasyonu yorumlamada değerlendirilmemeli.

İkinci bir değişken de ortalamadır. Ortalama verinin toplamının verinin sayısına bölünmesiyle elde edilir. Ortalama sayesinde değişkenin ne kadar öne çıktığını ve diğer özelliklerden ne kadar farklı olduğunu anlayabiliriz. Aynı durum ortalamanın düşük olması için de geçerlidir.

(Şekil -8) Her bir değişken için box plot grafik örneği

Yukarıda ki resimde 4 adet küme ve 3 adet değişkene sahip bir veri için box plot oluşturulmuştur. Bu grafikte her küme değişken bazında değerlendirilmiş ve çeyrekler açıklığını, medyanı ve standart sapmasını gösteren box plot oluşturulmuştur. Bu grafiğe göre standart sapması yüksek olmayan ve ortalaması yüksek olan değişkenler küme yorumlamada dikkate alınmalıdır. Diğer özellikler kümeyi değerlendirmek için kullanılmayabilir.

Bu yazıda segmentasyon sonuçlarının yorumlanması ve değerlendirilmesinden bahsettik. Sonuçları değerlendirirken boyut indirgeme, görselleştirme tekniklerinden ve box plot analizinden yararlandık. Bu teknikler sayesinde segmentleri daha açıklanabilir ve yorumlanabilir bir hale getirdik. Unutmayın ki segmentasyon sonuçlarını elde etmek kadar değerlendirebilmekte çok önemlidir. Doğru değerlendirdiğimiz her segment bize bussiness anlamında bir değer katacaktır.

Yayınlandığı tarih: 03.03.2022

Yazar: Mustafa Gencer (Data Scientist , TRENDIFY)

Diğer blog yazılarımız ve orijinal içerikler için Trendify blog sayfamıza göz atın.

Originally published at https://trendify.com.tr.

--

--