Apa yang dimaksud Analisis Klaster?
Analisis Cluster adalah sekelompok teknik multivariat yang tujuan utamanya adalah untuk objek kelompok berdasarkan karakteristik yang mereka miliki. Analisis klaster juga disebut sebagai analisis Q, konstruksi tipologi, analisis klasifikasi, dan taxomony numerik. berbagai nama ini disebabkan oleh penggunaan metode pengelompokan dalam disiplin ilmu yang beragam seperti psikologi, biologi, sosiologi, ekonomi, teknik, dan bisnis. Meskipun nama-nama berbeda di seluruh disiplin ilmu, semua metode memiliki dimensi yang sama; klasifikasi menurut hubungan antara objek-objek yang berkerumun [1, 2, 4, 10, 22, 27]. Dimensi umum ini merupakan esensi dari semua pendekatan-pengelompokan klasifikasi data seperti yang disarankan oleh kelompok alami dari data diri. Analisis Cluster sebanding dengan analisis faktor dalam tujuannya menilai struktur. Analisis Cluster berbeda dari analisis faktor, bagaimanapun, dalam kelompok objek analisis cluster, sedangkan analisis faktor terutama berkaitan dengan variabel pengelompokan. Selain itu, analisis faktor membuat pengelompokan berdasarkan pola variasi (korelasi) dalam data sedangkan analisis klaster membuat pengelompokan berdasarkan jarak (kedekatan). Analisi Klaster sebagai Sebuah Teknik Multivariat
Analisis cluster mengklasifikasikan obyek ( misalnya, responden, produk, atau badan lainnya ), pada seperangkat karakteristik pengguna yang dipilih. cluster yang dihasilkan harus menunjukkan internal yang tinggi (dalam cluster ) homogenitas dan eksternal ( antaracluster) heterogenitas yang tinggi. Jadi, jika klasifikasi ini berhasil, akan terpisah jauh. Konsep dari variate yang penting lagi dalam memahami bagaimana analisis klaster matematis memperlihatkan hasil. Cluster variate merupakan representasi matematis dari set yang dipilih variabel yang membandingkan kemiripan objek. Variate dalam analisis klaster ditentukan cukup berbeda dari teknik multivariat lainnya. Analisis klaster adalah satu-satunya teknik multivariat yang tidak memperkirakan variate yang empiris melainkan menggunakan variate sebagaimana ditentukan oleh peneliti. Fokus analisis klaster adalah pada perbandingan objek berdasarkan variate, bukan pada estimasi variate itu sendiri. Perbedaan ini membuat definisi peneliti dari sebuah langkah genting variate dalam analisis cluster. Pengembangan Pengemba ngan konseptual dengan Analisis Klaster
Analisis Klaster telah digunakan dalam setiap pengaturan penelitian yang dibayangkan. Mulai dari derivasi dari taksonomi dalam biologi untuk mengelompokkan semua organisme hidup, untuk klasifikasi psikologis berdasarkan kepribadian dan sifat-sifat pribadi lainnya, untuk segmentasi analisis pasar, aplikasi analisis Klaster Heva difokuskan
terutama pada pengelompokan individu. Namun, analisis klaster dapat mengklasifikasikan objek selain orang individu, termasuk struktur pasar, analisis persamaan dan perbedaan antara produk baru, dan evaluasi kinerja perusahaan untuk mengidentifikasi pengelompokan berdasarkan strategi perusahaan ' atau orientasi strategis. Dalam banyak kasus, bagaimanapun, pengelompokan sebenarnya adalah alat untuk mencapai tujuan dalam hal tujuan yang ditetapkan secara konseptual. Yang lebih umum peran analisis klaster bisa bermain dalam pengembangan konseptual adalah sebagai berikut:
pengurangan data; Seorang peneliti mungkin dihadapkan dengan sejumlah besar pengamatan yang ada artinya kecuali diklasifikasikan ke dalam kelompok yang dikelola. Analisis kluster dapat melakukan prosedur reduksi data ini secara obyektif dengan mengurangi informasi dari seluruh populasi atau sampel untuk informasi tentang kelompok-kelompok tertentu. Sebagai
contoh,
jika
kita
dapat
memahami
sikap
populasi
dengan
mengidentifikasi kelompok utama dalam penduduk, kita telah mengurangi data untuk seluruh penduduk menjadi profil dari sejumlah kelompok, dengan cara ini, peneliti memberikan lebih ringkas, deskripsi dimengerti dari pengamatan, dengan kehilangan minimal infomation.
Generasi Hipotesis; Analisis klaster ini juga berguna ketika seorang peneliti ingin mengembangkan hipotesis mengenai sifat data atau untuk menguji hipotesis yang dinyatakan sebelumnya. Misalnya, seorang peneliti mungkin percaya bahwa sikap terhadap konsumsi diet dibandingkan minuman ringan biasa dapat digunakan untuk memisahkan konsumen minuman ringan ke segmen logis atau kelompok. Analisis klaster dapat mengklasifikasikan konsumen minuman ringan dengan sikap mereka tentang diet dibandingkan tetap minuman ringan, dan cluster yang dihasilkan, jika ada, dapat diprofilkan kesamaan demografis dan perbedaannya. Banyaknya aplikasi dari analisis klaster di hampir setiap daerah penyelidikan tidak
menciptakan hanya kekayaan pengetahuan tentang penggunaannya, tetapi juga kebutuhan untuk pemahaman yang lebih baik dari teknik ini untuk meminimalkan penyalahgunaannya. Kebutuhan Dukungan Konseptual Konseptual dalam Analisis Klaster
Percaya atau tidak , analisis klaster dapat dikritik karena bekerja terlalu baik dalam arti bahwa hasil statistik yang diproduksi bahkan ketika secara logis untuk klaster tidak jelas. Dengan demikian, peneliti harus memiliki dasar konseptual yang kuat untuk menangani
terutama pada pengelompokan individu. Namun, analisis klaster dapat mengklasifikasikan objek selain orang individu, termasuk struktur pasar, analisis persamaan dan perbedaan antara produk baru, dan evaluasi kinerja perusahaan untuk mengidentifikasi pengelompokan berdasarkan strategi perusahaan ' atau orientasi strategis. Dalam banyak kasus, bagaimanapun, pengelompokan sebenarnya adalah alat untuk mencapai tujuan dalam hal tujuan yang ditetapkan secara konseptual. Yang lebih umum peran analisis klaster bisa bermain dalam pengembangan konseptual adalah sebagai berikut:
pengurangan data; Seorang peneliti mungkin dihadapkan dengan sejumlah besar pengamatan yang ada artinya kecuali diklasifikasikan ke dalam kelompok yang dikelola. Analisis kluster dapat melakukan prosedur reduksi data ini secara obyektif dengan mengurangi informasi dari seluruh populasi atau sampel untuk informasi tentang kelompok-kelompok tertentu. Sebagai
contoh,
jika
kita
dapat
memahami
sikap
populasi
dengan
mengidentifikasi kelompok utama dalam penduduk, kita telah mengurangi data untuk seluruh penduduk menjadi profil dari sejumlah kelompok, dengan cara ini, peneliti memberikan lebih ringkas, deskripsi dimengerti dari pengamatan, dengan kehilangan minimal infomation.
Generasi Hipotesis; Analisis klaster ini juga berguna ketika seorang peneliti ingin mengembangkan hipotesis mengenai sifat data atau untuk menguji hipotesis yang dinyatakan sebelumnya. Misalnya, seorang peneliti mungkin percaya bahwa sikap terhadap konsumsi diet dibandingkan minuman ringan biasa dapat digunakan untuk memisahkan konsumen minuman ringan ke segmen logis atau kelompok. Analisis klaster dapat mengklasifikasikan konsumen minuman ringan dengan sikap mereka tentang diet dibandingkan tetap minuman ringan, dan cluster yang dihasilkan, jika ada, dapat diprofilkan kesamaan demografis dan perbedaannya. Banyaknya aplikasi dari analisis klaster di hampir setiap daerah penyelidikan tidak
menciptakan hanya kekayaan pengetahuan tentang penggunaannya, tetapi juga kebutuhan untuk pemahaman yang lebih baik dari teknik ini untuk meminimalkan penyalahgunaannya. Kebutuhan Dukungan Konseptual Konseptual dalam Analisis Klaster
Percaya atau tidak , analisis klaster dapat dikritik karena bekerja terlalu baik dalam arti bahwa hasil statistik yang diproduksi bahkan ketika secara logis untuk klaster tidak jelas. Dengan demikian, peneliti harus memiliki dasar konseptual yang kuat untuk menangani
masalah-masalah seperti mengapa kelompok ada di tempat pertama dan variabel apa yang logis menjelaskan mengapa benda berakhir di kelompok yang mereka lakukan. Bahkan jika analisis klaster yang digunakan dalam pengembangan konseptual yang baru saja disebutkan, beberapa alasan konseptual sangat penting. Berikut ini adalah kritik yang paling umum yang harus ditangani oleh konseptual daripada dukungan empiris:
Analisis klaster adalah deskriptif , atheoretical , dan noninferential. analisis klaster tidak memiliki dasar statistik yang di atasnya untuk menarik kesimpulan dari sampel ke populasi, dan banyak berpendapat bahwa hanya teknik eksplorasi. Tidak ada yang menjamin solusi yang unik, karena klaster keanggotaan untuk sejumlah solusi tergantung pada banyak unsur prosedur, dan banyak solusi yang berbeda dapat diperoleh dengan memvariasikan satu atau lebih elemen.
Analisis klaster akan selalu menciptakan klaster, terlepas dari keberadaan yang sebenarnya dari setiap struktur dalam data. Bila menggunakan analisis klaster, peneliti membuat asumsi beberapa struktur antara objek-objek . peneliti harus selalu ingat bahwa hanya karena klaster dapat ditemukan tidak memvalidasi keberadaan mereka. Hanya dengan dukungan konseptual yang kuat dan kemudian validasi adalah klaster berpotensi bermakna dan relevan.
Solusi klaster tidak digeneralisasikan karena benar-benar tergantung pada variabel yang digunakan sebagai dasar untuk mengukur kesamaan. Kritik ini dapat dibuat terhadap teknik statistik, tetapi analisis klaster umumnya dianggap lebih tergantung pada kebijakan yang digunakan untuk mengkarakterisasi obyek daripada teknik multivariat lainnya. Dengan variate klaster sepenuhnya ditentukan oleh peneliti, penambahan variabel palsu atau penghapusan variabel yang relevan dapat memiliki dampak besar pada solusi yang dihasilkan. Akibatnya, peneliti harus terutama sadar variabel yang digunakan dalam analisis, memastikan bahwa mereka memiliki dukungan konseptual yang kuat. Dengan demikian, dalam penggunaan analisis klaster peneliti harus peduli mengurus
fakta-fakta tertentu dalam memastikan bahwa dukungan konseptual yang kuat mendahului penerapan teknik ini. Hanya dengan dukungan ini di tempat peneliti harus kemudian menangani setiap keputusan tertentu yang terlibat dalam melakukan analisis klas ter.
BAGAIMANA CARA KERJA ANALISIS KLASTER?
Analisis klaster melakukan tugas bawaan untuk semua pengakuan individu-pola dan pengelompokan. Kemampuan manusia untuk memproses bahkan sedikit perbedaan dalam karakteristik yang tak terhitung banyaknya adalah proses kognitif yang melekat pada diri manusia yang tidak mudah cocok dengan semua kemajuan teknologi kami. Ambil contoh tugas menganalisis dan mengelompokkan wajah manusia. Bahkan sejak lahir, individu dapat dengan cepat mengidentifikasi sedikit perbedaan dalam ekspresi wajah dan kelompok wajah yang berbeda dalam kelompok yang homogen sambil mempertimbangkan ratusan karakteristik wajah. Namun kita masih berjuang dengan program pengenalan wajah untuk menyelesaikan tugas yang sama. Proses identifikasi pengelompokan alami adalah salah satu yang bisa menjadi sedikit rumit agak dengan cepat. Untuk menunjukkan bagaimana analisis klaster beroperasi, kita meneliti contoh sederhana yang menggambarkan beberapa isu kunci: mengukur kesamaan, membentuk klaster, dan memutuskan jumlah klaster yang paling mewakili struktur. Kami juga sempat membahas keseimbangan pertimbangan objektif dan subjektif yang harus ditangani oleh peneliti apapun.
Sebuah Contoh Sederhana
Sifat analisis klaster dan keputusan dasar pada bagian dari peneliti akan digambarkan dengan contoh sederhana yang melibatkan identifikasi segmen pelanggan dalam pengaturan ritel. Misalkan seorang peneliti pemasaran ingin menentukan segmen pasar dalam masyarakat berdasarkan pola kesetiaan kepada merek dan toko. Sebuah contoh kecil dari tujuh responden dipilih sebagai uji coba bagaimana analisis klaster diterapkan. Dua langkah loyalitas-V1 (store loyalty) dan V2 (loyalitas merek)-were diukur untuk masing-masing responden pada skala 0-10. Nilai untuk masing-masing tujuh responden diperlihatkan pada Gambar 1, bersama dengan diagram persebaran yang menggambarkan setiap pengamatan pada dua variabel. Tujuan utama dari analisis klaster adalah untuk menentukan struktur data dengan menempatkan pengamatan paling mirip ke dalam grup. Untuk menyelesaikan tugas ini, kita harus mengatasi tiga pertanyaan dasar: 1.
Bagaimana kita mengukur kesamaan? Kami memerlukan metode secara bersamaan membandingkan pengamatan pada dua variabel pengelompokan (V1 dan V2). Beberapa metode yang mungkin, termasuk korelasi antara objek atau mungkin ukuran kedekatan
mereka dalam ruang dua dimensi sehingga jarak antara pengamatan menunjukkan kesamaan. 2.
Bagaimana kita membentuk klaster? Tidak peduli seberapa kesamaan diukur, kelompok prosedur keharusan mereka pengamatan yang paling mirip dalam klaster, sehingga menentukan keanggotaan kelompok gugus setiap pengamatan untuk setiap set klaster yang terbentuk.
3.
Berapa banyak kelompok yang kita bentuk? Tugas akhir adalah untuk memilih satu set klaster sebagai solusi akhir. Dalam melakukannya, peneliti menghadapi trade-off: lebih sedikit klaster dan kurang homogenitas dalam klaster versus jumlah yang lebih besar dari klaster dan lebih homogenitas dalam kelompok. struktur sederhana, di berjuang menuju kekikiran, tercermin dalam sedikitnya klaster mungkin. Namun karena jumlah klaster menurun, heterogenitas dalam klaster tentu meningkat. Dengan demikian, keseimbangan harus dibuat antara mendefinisikan struktur paling dasar (sedikit klaster ) yang masih mencapai tingkat yang dapat diterima dari heterogenitas antara klaster.
Setelah kita memiliki prosedur untuk mengatasi setiap masalah ini, kita dapat melakukan analisis klaster. Kami akan menggambarkan prinsip-prinsip yang mendasari masing-masing masalah ini melalui contoh sederhana kami.
Data Values Clustering
Respondents
Variable
A
B
C
D
F
G
H
V1
3
4
4
2
6
7
6
V2
2
5
7
7
6
7
4
MENGUKUR KESAMAAN. Tugas pertama adalah mengembangkan beberapa ukuran
kesamaan antara masing-masing objek yang akan digunakan dalam proses clustering. Kesamaan mewakili tingkat korespondensi antara objek-objek di semua karakteristik yang digunakan dalam analisis. Di satu sisi, langkah-langkah kesamaan lebih deskriptif langkah perbedaan dalam jumlah yang lebih kecil mewakili kesamaan yang lebih besar dan jumlah yang lebih besar mewakili kurang kesamaan.
Kesamaan harus ditentukan antara masing-masing dari tujuh pengamatan (responden A-G) untuk memungkinkan setiap observasi untuk dibandingkan satu sama lain. Dalam contoh ini, kemiripan akan diukur sesuai dengan Euclidean (garis lurus) jarak antara setiap pasangan pengamatan (lihat Tabel 1) berdasarkan dua karakteristik (V1 dan V2). Dalam kasus dua dimensi ini (di mana karakteristik masing-masing bentuk salah satu sumbu grafik) kita dapat melihat jarak sebagai kedekatan setiap titik yang lain. Dalam menggunakan jarak sebagai ukuran kedekatan, kita harus ingat bahwa jarak yang lebih kecil menunjukkan kesamaan yang lebih besar, sehingga pengamatan E dan F adalah yang paling mirip (1,414), dan A dan F yang paling berbeda (6,403). TABLE 1 Proximity Matrix of Euclidean Distancea Between Observations
Observations Observations
A
A
-
B
3.162
-
C
5.009
2.000
-
D
5.009
2.828
2.000
-
E
5.000
2.236
2.236
4.123
-
F
6.403
3.606
3.000
5.000
1.414
-
G
3.606
2.236
3.606
5.000
2.000
3.162
B
C
D
E
F
G
-
PEMBENTUKAN KLASTER. Dengan langkah-langkah kesamaan yang dihitung, sekarang
kita pindah ke membentuk cluster berdasarkan ukuran kesamaan setiap pengamatan. Biasanya kita membentuk sejumlah solusi klaster (solusi dua-klaster, solusi tiga klaster, dll ). Setelah klaster terbentuk, kita kemudian pilih klaster solusi akhir dari set solusi yang mungkin. Pertama kita akan membahas bagaimana klaster terbentuk dan kemudian memeriksa proses untuk memilih klaster solusi akhir. Setelah menghitung ukuran kesamaan, kita harus mengembangkan prosedur untuk membentuk klaster. Seperti ditunjukkan kemudian dalam bab ini, banyak metode telah diusulkan, tetapi untuk tujuan kita di sini, kita menggunakan aturan sederhana ini: Mengidentifikasi dua yang paling mirip (terdekat) pengamatan belum di klaster yang sama dan menggabungkan mereka.
Kami menerapkan aturan ini berulang kali untuk menghasilkan sejumlah solusi klaster, dimulai dengan setiap pengamatan sebagai "klaster" sendiri dan kemudian menggabungkan dua kelompok pada suatu waktu sampai semua pengamatan berada dalam satu klaster. Proses ini disebut prosedur hirarki karena bergerak secara bertahap untuk membentuk berbagai seluruh solusi klaster. Ini juga merupakan metode agglomerative karena klaster dibentuk dengan menggabungkan klaster yang ada. Tabel 2 Rincian langkah-langkah dari proses agglomerative hirarkis, pertama menggambarkan keadaan awal dengan semua tujuh pengamatan di klaster anggota tunggal, bergabung dengan mereka dalam proses agglomerative sampai hanya satu cluster tetap. Proses pengelompokan enam langkah dijelaskan di sini: Langkah 1: Identifikasi dua pengamatan terdekat (E dan F) dan menggabungkan mereka ke
sebuah klaster, bergerak dari 7-6 klaster. Langkah 2: Cari pasangan terdekat berikutnya dari pengamatan. Dalam hal ini, tiga pasang
memiliki jarak yang sama dari 2.000 (E-G, C-D, dan B-C). Untuk tujuan kita, memilih pengamatan E-G. G adalah satu klaster-anggota, tapi E dikombinasikan pada langkah sebelumnya dengan F. Jadi, klaster yang terbentuk pada tahap ini kini memiliki tiga anggota: G, E, dan F. Langkah 3: Campurkan klaster anggota tunggal dari C dan D sehingga kita sekarang
memiliki empat kelompok. Langkah 4: Gabungkan B dengan CD klaster dua anggota yang dibentuk pada langkah 3.
Pada titik ini, kita sekarang memiliki tiga klaster: klaster 1 (A), klaster 2 (B, C, dan D), dan klaster 3 ( E, F, dan G). Langkah 5: Menggabungkan dua kelompok tiga-anggota dalam klaster enam anggota
tunggal. Jarak terkecil berikutnya adalah 2,236 untuk tiga pasang pengamatan (E-B, B-G, dan C-E). Kami hanya menggunakan salah satu dari jarak ini, bagaimanapun, karena setiap pasangan pengamatan berisi anggota dari masingmasing dua kelompok yang ada (B, C, dan D vs E, F, dan G). Langkah 6: Campurkan pengamatan A dengan klaster yang tersisa (enam observasi) ke
dalam satu klaster pada jarak 3,162. Anda akan mencatat bahwa menjauhkan kecil atau sama dengan 3,162 tidak digunakan karena mereka antara anggota klaster yang sama.
TABLE 2 Agglomerative Hierarchical Clustering Process
AGGLOMERATION
CLUSTER SOLUTION
PROCESS
Minimum
Step
1
Distance
Overall Similarity
Between
Number Measure (Average
Unclustered
Observation
of
Within-Cluster
Observations
pair
Cluster Membership
Cluster
Distance)
Initial
(A) (B) (C) (D) (E) (F)
7
0
Solution
(G)
6
1.414
1.414
E-F
(A) (B) (C) (D) (E-F) (G)
2
2.000
E-G
(A) (B) (C) (D) (E-F-G)
5
2.192
3
2.000
C-D
(A) (B) (C-D) (E-F-G)
4
2.144
4
2.000
B-C
(A) (B-C-D) (E-F-G)
3
2.234
5
2.236
B-E
(A) (B-C-D-E-F-G)
2
2.896
6
3.162
A-B
(A-B-C-D-E-F-G)
1
3.420
Proses pengelompokan hirarki dapat digambarkan secara grafis dalam beberapa cara. Gambar 2 mengilustrasikan dua metode tersebut. Pertama, karena prosesnya hirarkis, proses clustering dapat ditampilkan sebagai rangkaian kelompok bersarang (lihat Gambar 2a). Proses ini, bagaimanapun, dapat mewakili kedekatan pengamatan hanya dua atau tiga variabel pengelompokan di sebar atau grafik tiga dimensi. Pendekatan yang lebih umum adalah dendrogram, yang mewakili proses pengelompokan dalam grafik treelike. Sumbu horizontal mewakili koefisien aglomerasi, dalam hal ini jarak yang digunakan dalam bergabung klaster . Pendekatan ini sangat berguna dalam mengidentifikasi outlier, seperti pengamatan A. Hal ini juga menggambarkan ukuran relatif dari berbagai kelompok, meskipun menjadi berat ketika jumlah pengamatan meningkat.
PENENTUAN JUMLAH KELOMPOK DI SOLUSI AKHIR. Sebuah hasil metode
hirarkis di sejumlah klaster solusi-dalam hal ini dimulai dengan solusi tujuh klaster dan
terakhir solusi satu-klaster. solusi yang kita pilih? Kita tahu bahwa kita bergerak dari singlemember klaster dalam larutan tujuh klaster, heterogenitas meningkat. Jadi mengapa tidak tinggal di tujuh klaster, mungkin yang paling homogen? Jika semua pengamatan diperlakukan sebagai klaster unik mereka sendiri, tidak ada reduksi data telah terjadi dan tidak ada segmen yang
benar
telah
ditemukan.
Tujuannya
adalah
mengidentifikasi
segmen
dengan
menggabungkan pengamatan, tetapi pada saat yang sama memperkenalkan hanya sejumlah kecil hetereogeneity. Mengukur Heterogenitas . Apa ukuran heterogenitas dari klaster solusi harus
mewakili keragaman keseluruhan antara pengamatan di semua klaster. Pada solusi awal dari pendekatan agglomerative mana semua pengamatan berada dalam kelompok yang terpisah, tidak ada heterogenitas yang keluar. Seperti pengamatan digabungkan untuk membentuk klaster, heterogenitas meningkat. Ukuran heterogenitas sehingga harus dimulai dengan nilai nol dan meningkatkan menunjukkan tingkat heterogenitas sebagai klaster yang digabungkan. Dalam contoh ini, kita menggunakan ukuran sederhana heterogenitas: rata-rata semua jarak antara pengamatan dalam cluster (lihat Tabel 2). Seperti yang sudah dijelaskan, ukuran harus meningkatkan sebagai penggabungan klaster:
Pada solusi awal dengan kelompok tujuh, keseluruhan ukuran kesamaan kami adalah 0-tidak ada observasi dipasangkan dengan yang lain.
Kelompok Enam: keseluruhan kesamaan adalah jarak antara dua pengamatan (1,414) bergabung pada langkah 1.
kelompok Lima: Langkah 2 bentuk tiga anggota klaster ( E , F , dan G ), sehingga ukuran kesamaan keseluruhan adalah rata-rata jarak antara E dan F (1,414), E dan G (2.000), dan F dan G (3,162), untuk rata-rata 2,192.
Kelompok Empat: Dalam langkah berikutnya klaster dua anggota baru dibentuk dengan jarak 2.000, yang menyebabkan keseluruhan rata-rata jatuh sedikit ke 2,144.
Kelompok tiga, dua, dan satu: terakhir tiga langkah membentuk klaster baru dengan cara ini sampai solusi tunggal-klaster terbentuk (langkah 6), di mana rata-rata semua jarak dalam matriks jarak 3,420.
Memilih Sebuah Solusi Akhir Klaster. Sekarang, bagaimana kita menggunakan
ukuran keseluruhan ini kesamaan untuk memilih solusi klaster? Ingat bahwa kita berusaha untuk mendapatkan struktur paling sederhana yang masih merupakan kelompok yang homogen. Jika kita memantau ukuran heterogenitas sebagai jumlah klaster yang menurun,
peningkatan besar dalam heterogenitas menunjukkan bahwa dua kelompok yang agak berbeda yang bergabung pada tahap itu. Dari Tabel 2, kita dapat melihat bahwa ukuran keseluruhan heterogenitas meningkatkan seperti yang kita menggabungkan klaster sampai kita mencapai solusi satuklaster akhir. Untuk memilih solusi akhir klaster, kita memeriksa perubahan dalam ukuran homogenitas untuk mengidentifikasi peningkatan besar yang menunjukkan penggabungan kelompok yang berbeda:
Ketika kami pertama kali bergabung dengan dua pengamatan (langkah 1) dan kemudian lagi ketika kita membuat klaster three-member pertama kami (langkah 2), kita melihat peningkatan yang cukup besar.
Dalam dua langkah berikutnya (3 dan 4), ukuran keseluruhan tidak berubah secara substansial, yang menunjukkan bahwa kita membentuk kelompok lainnya dengan dasar heterogenitas yang sama dari kelompok yang ada.
Ketika kita masuk ke langkah 5, yang menggabungkan dua kelompok tiga anggota, kita melihat peningkatan besar. Perubahan ini menunjukkan bahwa bergabungnya dua kelompok tersebut mengakibatkan satu klaster yang nyata kurang homogen. Sebagai hasilnya, kami akan mempertimbangkan solusi tiga cluster langkah 4 jauh lebih baik daripada solusi dua-klaster yang ditemukan pada langkah 5.
Kita juga dapat melihat bahwa pada langkah 6 ukuran keseluruhan lagi meningkat tajam, yang menunjukkan saat pengamatan tunggal ini bergabung di langkah terakhir, secara substansial berubah klaster homogenitas. Mengingat profil agak unik pengamatan ini (pengamatan A) dibandingkan dengan yang lain, mungkin terbaik ditunjuk sebagai anggota dari kelompok e ntropi, mereka pengamatan yang outlier dan independen dari cluster yang ada
Dengan demikian, saat meninjau berbagai solusi klaster, solusi tiga cluster langkah 4 tampaknya yang paling tepat untuk solusi akhir klaster, dengan dua klaster berukuran sama dan pengamatan tunggal terpencil. Pertimbangan objektif Versus subyektif
Sepertinya mungkin jelas sekarang, pemilihan solusi akhir klaster memerlukan pertimbangan peneliti substansial dan dianggap oleh banyak orang sebagai terlalu subjektif.
Meskipun metode canggih telah dikembangkan untuk membantu dalam mengevaluasi solusi klaster, masih jatuh kepada peneliti untuk membuat keputusan akhir untuk jumlah klaster untuk menerima sebagai solusi akhir. Selain itu, keputusan pada karakteristik yang akan digunakan, metode menggabungkan klaster, dan bahkan penafsiran solusi klaster bergantung sebanyak pada penilaian dari peneliti sebagai beberapa uji empiris. Bahkan ini contoh yang agak sederhana dari hanya dua karakteristik dan tujuh pengamatan menunjukkan kompleksitas potensi melakukan analisis klaster. Para peneliti di pengaturan realistis dihadapkan dengan analisis yang mengandung lebih banyak karakteristik dengan lebih banyak pengamatan. Dengan demikian peneliti penting mempekerjakan apapun dukungan obyektif yang tersedia dan dibimbing oleh penilaian yang beralasan, terutama dalam tahap desain dan interpretasi.
PROSES PENGAMBILAN KEPUTUSAN ANALISIS KLASTER
analisis klaster, seperti teknik multivariat lainnya yang dibahas sebelumnya, dapat dilihat dari enam tahap pendekatan model bangunan (lihat Gambar 3 untuk tahap 1-3 dan Gambar 6 untuk tahap 4-6). Dimulai dengan tujuan penelitian yang dapat berupa eksplorasi atau konfirmasi, desain sebuah penawaran dari analisis klaster sebagai berikut:
Partisi kumpulan data untuk membentuk kelompok dan memilih solusi klaster.
Menafsirkan klaster untuk memahami karakteristik masing-masing klaster dan mengembangkan nama atau label yang tepat mendefinisikan sifatnya.
Memvalidasi hasil solusi akhir klaster (yaitu, menentukan stabilitas dan generalisasi) , bersama
dengan
menggambarkan
karakteristik
masing-masing
klaster
untuk
menjelaskan bagaimana mereka dapat berbeda pada dimensi yang relevan seperti demografi.
Bagian berikut lebih detail membahas semua masalah dalam enam tahapan proses model tersebut:
Tahap 1 : Objek dari Analisis Cluster
Objek utama dari analisis cluster adalah untuk partisi satu set objek menjadi dua atau lebih kelompok berdasarkan kesamaan obyek untuk satu set karakteristik tertentu (cluster variate ). Dalam memenuhi tujuan dasar ini, peneliti harus mengatasi dua masalah utama: pertanyaan penelitian
yang dibahas
dalam analisis
ini dan variabel
yang digunakan untuk
mengkarakterisasi obyek dalam proses clustering. Kami akan membahas setiap masalah di bagian berikut. PERTANYAAN PENELITIAN DALAM ANALISIS KLASTER Dalam membentuk
kelompok yang homogen, analisis cluster dapat mengatasi kombinasi dari tiga dasar pertanyaan penelitian. 1. Deskripsi Taksonomi. Sebagian besar penggunaan tradisional yang sebagian besar dari analisis cluster telah akan untuk tujuan eksplorasi dan pembentukan taksonomi klasifikasi berdasarkan empiris dari objek. Seperti dijelaskan sebelumnya, analisis cluster telah digunakan dalam berbagai aplikasi karena kemampuan partisi nya. Analisis Cluster juga dapat menghasilkan hipotesis yang berkaitan dengan struktur objek. Akhirnya, meskipun dilihat terutama sebagai teknik eksplorasi, analisis cluster dapat digunakan untuk tujuan konfirmasi. Dalam kasus tersebut, tipologi yang diusulkan ( klasifikasi secara teoritis berdasarkan ) dapat dibandingkan dengan yang berasal dari analisis cluster. 2. Data penyederhanaan. Dengan mendefinisikan struktur antara pengamatan, analisis cluster
juga
mengembangkan
perspektif
yang
disederhanakan
dengan
mengelompokkan pengamatan untuk analisa lebih lanjut. Sedangkan analisis faktor mencoba untuk memberikan dimensi atau struktur variabel, analisis cluster melakukan tugas yang sama untuk pengamatan. Jadi, bukannya melihat semua pengamatan yang unik, mereka dapat dilihat sebagai anggota kelompok dan diprofilkan oleh karakteristik umum mereka. 3. Identifikasi Hubungan. Dengan mendefinisikan cluster dan struktur yang mendasari dari data yang mewakili dalam cluster, peneliti memiliki sarana mengungkapkan hubungan antara pengamatan yang biasanya tidak mungkin dengan pengamatan individu. menganalisis apakah seperti analisis diskriminan digunakan untuk mengidentifikasi hubungan secara empiris, atau kelompok diperiksa dengan metode yang
lebih
kualitatif,
struktur
disederhanakan
dari
analisis
cluster
sering
mengidentifikasi hubungan atau persamaan dan perbedaan yang sebelumnya tidak terungkap.
PEMILIHAN VARIABEL CLUSTERING. Tujuan dari analisis cluster tidak dapat
dipisahkan dari pemilihan variabel yang digunakan untuk mencirikan objek yang berkerumun. Apakah tujuannya adalah eksplorasi atau konfirmasi, peneliti secara efektif membatasi kemungkinan hasil dengan variabel yang dipilih untuk digunakan. cluster yang berasal mencerminkan struktur yang melekat pada data dan didefinisikan hanya oleh variabel. Dengan demikian, memilih variabel untuk dimasukkan dalam variate cluster harus dilakukan sehubungan dengan teoritis dan konseptual serta pertimbangan praktis. Pertimbangan konseptual . Setiap aplikasi dari analisis cluster harus memiliki
beberapa alasan atas mana variabel yang dipilih. Apakah alasan yang didasarkan pada teori eksplisit, penelitian terakhir, atau anggapan, peneliti harus menyadari pentingnya termasuk hanya variabel yang ( 1 ) mencirikan objek yang berkerumun dan ( 2 ) berhubungan secara khusus untuk tujuan dari analisis cluster. Teknik analisis cluster tidak memiliki sarana untuk membedakan yang relevan dari variabel yang tidak relevan dan berasal kelompok yang paling konsisten, namun berbeda, benda di semua variabel. Dengan demikian, seseorang harus pernah memasukkan variabel tanpa pandang bulu. Sebaliknya, hati-hati memilih variabel dengan tujuan penelitian sebagai kriteria untuk seleksi. Mari kita gunakan data HBAT diatur untuk memberikan contoh bagaimana untuk memilih variabel yang sesuai untuk analisis cluster. Pertama, variabel X1 untuk X5 adalah nonmetric variabel klasifikasi data warehouse. Dengan demikian, mereka tidak sesuai untuk analisis cluster. Selanjutnya, mari kita mempertimbangkan variabel X6 untuk X18. Ini 13 variabel sesuai karena mereka semua memiliki dasar-mereka yang umum berhubungan dengan persepsi pelanggan dari kinerja HBAT dan mereka diukur secara metrik. Jika kita menggunakan variabel persepsi ini untuk analisis cluster, tujuan akan melihat apakah ada kelompok pelanggan HBAT yang menunjukkan persepsi khas yang berbeda dari kinerja HBAT antara kelompok, tetapi persepsi yang sama dalam masing-masing kelompok. Akhirnya, kita perlu mempertimbangkan variabel x19 untuk X23. Variabel ini tidak akan dianggap sebagai bagian dari variabel persepsi klaster karena mereka berbeda dari variabel X6 untuk X18. Kami mungkin mempertimbangkan x19 untuk X21 untuk clustering karena mereka semua berhubungan dengan membangun komitmen pelanggan atau loyalitas. Tapi, mereka akan dianggap oleh mereka sendiri untuk solusi cluster yang berbeda dari variabel persepsi Pertimbangan praktis. Analisis Cluster dapat dipengaruhi secara dramatis oleh masuknya hanya satu atau dua variabel yang tidak pantas atau tidak dibedakan [ 17 ]. Peneliti selalu didorong untuk memeriksa hasil dan untuk menghilangkan variabel yang tidak khas
(yaitu, yang tidak berbeda secara signifikan ) di cluster berasal. Prosedur ini memungkinkan teknik cluster untuk maksimal mendefinisikan cluster berdasarkan hanya pada variabel menunjukkan perbedaan antar objek.
Tahap 2 : Desain Penelitian dalam Analisis Cluster
Dengan tujuan yang telah ditetapkan dan variabel yang dipilih, peneliti harus mengatasi empat pertanyaan sebelum memulai proses partisi. 1. Apakah ukuran sampel memadai? 2. Bisa outlier terdeteksi dan, jika demikian, mereka harus dihapus? 3. Bagaimana seharusnya obyek kesamaan diukur? 4. Harus data dibakukan? Banyak pendekatan yang berbeda dapat digunakan untuk menjawab pertanyaan-pertanyaan ini. Namun, tidak satupun dari mereka telah dievaluasi cukup untuk memberikan jawaban yang pasti untuk pertanyaan-pertanyaan ini, dan sayangnya, banyak pendekatan memberikan hasil yang berbeda untuk set data yang sama. Dengan demikian, analisis cluster, bersama dengan analisis faktor, adalah sebanyak seni sebagai ilmu. Untuk alasan ini, tinjauan diskusi kita dalam masalah ini dengan memberikan contoh-contoh pendekatan yang paling umum yang digunakan dan sebuah penilaian terhadap keterbatasan praktis di mana memungkinkan. Pentingnya masalah ini dan keputusan yang dibuat di tahap-tahap selanjutnya menjadi jelas ketika kita menyadari bahwa meskipun analisis cluster mencari struktur dalam data, itu harus benar-benar memaksakan struktur melalui metodologi yang dipilih. Analisis Cluster tidak dapat mengevaluasi semua partisi yang mungkin karena bahkan masalah yang relatif kecil dari partisi 25 objek ke dalam lima kelompok nonoverlapping yang melibatkan 2,431*1015 partisi mungkin [2]. Sebaliknya, berdasarkan keputusan dari peneliti, teknik mengidentifikasi bagian kecil dari solusi yang mungkin sebagai "benar". Dari sudut pandang ini, masalah desain penelitian dan pilihan metodologi yang dibuat oleh peneliti mungkin memiliki dampak yang lebih besar daripada dengan teknik multivariat lainnya.
CONTOH UKURAN. Persoalan dari ukuran sampel dalam analisis klaster tidak
berhubungan dengan masalah inferensi statistik (yaitu, kekuatan statistik). Sebaliknya ukuran sampel harus cukup besar untuk memberikan representasi yang cukup kelompok-kelompok kecil dalam populasi dan merupakan struktur yang mendasari. Masalah ini representasi menjadi penting dalam mendeteksi outlier (lihat bagian berikutnya), dengan primer
pertanyaan makhluk: Ketika sebuah outlier terdeteksi, itu perwakilan dari kelompok kecil tapi substantif? kelompok-kelompok kecil secara alami akan muncul angka kecil dari pengamatan, terutama ketika ukuran sampel kecil. Sebagai contoh, ketika sampel hanya 100 atau lebih sedikit pengamatan, kelompok yang benar-benar membuat 10 persen dari populasi dapat diwakili oleh hanya satu atau dua pengamatan karena proses sampling. Dalam kasus seperti perbedaan antara outlier dan perwakilan dari kelompok kecil jauh lebih sulit untuk membuat. sampel yang lebih besar meningkatkan kemungkinan bahwa kelompok-kelompok kecil akan diwakili oleh kasus cukup untuk membuat kehadiran mereka lebih mudah diidentifikasi. Akibatnya, peneliti harus memastikan ukuran sampel cukup besar untuk cukup mewakili semua kelompok yang relevan dari populasi. Dalam menentukan ukuran sampel, peneliti harus menentukan kelompok ukuran yang diperlukan untuk relevansi untuk pertanyaan penelitian yang diminta . Jelas, jika tujuan analisis memerlukan identifikasi dari kelompok-kelompok kecil dalam populasi, peneliti harus berusaha untuk ukuran sampel yang lebih besar. Jika peneliti hanya tertarik pada kelompok yang lebih besar ( misalnya, segmen utama untuk kampanye promosi ), bagaimanapun, maka perbedaan antara outlier dan perwakilan dari kelompok kecil kurang penting dan mereka berdua bisa ditangani dengan cara yang sama Program baru juga telah dikembangkan untuk aplikasi yang menggunakan ukuran sampel yang besar mendekati 1.000 observasi atau lebih. SPSS mencakup program klaster dua langkah yang memiliki kemampuan untuk cepat menentukan jumlah yang sesuai kelompok dan kemudian menggolongkan mereka menggunakan rutin nonhierarchical. Prosedur ini relatif baru, tetapi mungkin berguna dalam aplikasi dengan sampel besar di mana metode pengelompokan tradisional tidak efisien.
MENDETEKSI OUTLIERS. Dalam pencarian untuk struktur, kita telah membahas
bagaimana analisis cluster sensitif terhadap masuknya variabel tidak relevan. Tapi analisis cluster juga sensitif terhadap outlier ( objek yang berbeda dari yang lain ). Outliers dapat mewakili dengan baik.
pengamatan Sesungguhnya menyimpang yang tidak mewakili populasi umum.
pengamatan Perwakilan segmen kecil atau tidak signifikan dalam populasi.
Sebuah undersampling kelompok yang sebenarnya (s) pada populasi yang menyebabkan representasi miskin dari kelompok (s) dalam sampel.
Dalam kasus pertama, outlier mendistorsi struktur yang sebenarnya dan membuat kelompok berasal representatif dari struktur populasi yang sebenarnya. Dalam kasus kedua, outlier dihilangkan sehingga cluster yang dihasilkan lebih akurat mewakili segmen yang relevan dalam populasi. Namun, dalam kasus ketiga outlier harus dimasukkan dalam solusi cluster, bahkan jika mereka kurang terwakili dalam sampel, karena mereka mewakili kelompok valid dan relevan . Untuk alasan ini, skrining awal untuk outlier selalu diperlukan. Pendekatan grafis . Salah satu cara paling sederhana untuk menyaring data untuk
outlier adalah untuk mempersiapkan diagram profil grafis, daftar variabel sepanjang sumbu horisontal dan nilai-nilai variabel sepanjang sumbu vertikal. Setiap titik pada grafik merupakan nilai dari variabel yang sesuai, dan titik-titik yang terhubung untuk memfasilitasi interpretasi visual. Profil untuk semua objek kemudian diplot pada grafik, garis untuk setiap objek. Outliers adalah mereka responden yang memiliki profil yang sangat berbeda dari responden lebih khas . Sebuah contoh dari diagram profil grafis ditunjukkan pada Gambar 4. Pendekatan empiris. Meski cukup sederhana, prosedur grafis menjadi rumit dengan
sejumlah besar objek dan bahkan lebih sulit karena jumlah variabel meningkat . Selain itu , mendeteksi outlier harus melampaui pendekatan univariate , karena outlier juga dapat didefinisikan dalam pengertian multivariat sebagai memiliki profil unik di seluruh set variabel yang membedakan mereka dari semua pengamatan lainnya . Akibatnya , ukuran empiris diperlukan untuk mempermudah perbandingan dengan obyek . Untuk hal ini , prosedur untuk mengidentifikasi outlier dapat diterapkan . Kombinasi bivariat dan pendekatan multivariat memberikan seperangkat alat untuk mengidentifikasi outlier dari berbagai perspektif . Pendekatan lain adalah untuk mengidentifikasi outlier melalui langkah-langkah
kesamaan. Contoh yang paling jelas dari outlier adalah pengamatan tunggal yang paling berbeda dengan pengamatan lainnya. Sebelum analisis, kesamaan dari semua pengamatan dapat dibandingkan dengan massa kelompok keseluruhan ( khas responden ). pengamatan terisolasi menunjukkan perbedaan yang besar dapat dijatuhkan . pola Clustering juga dapat diamati setelah program klaster telah dijalankan. Namun, karena jumlah objek untuk meningkat cluster, beberapa iterasi yang diperlukan untuk mengidentifikasi outlier . Selain itu, beberapa pendekatan pengelompokan cukup sensitif untuk menghapus hanya beberapa kasus [14]. Dengan demikian, penekanan harus ditempatkan pada identifikasi outlier sebelum analisis dimulai
Mengukur Kesamaan antar Objek
Konsep kesamaan adalah hal yang fundamental dalam analisis cluster. Kesamaan antar objek merupakan ukuran korespondensi antar objek. Ada tiga metode yang dapat diterapkan, yaitu ukuran korelasi, ukuran jarak, dan ukuran asosiasi. a. Ukuran Korelasi Ukuran ini dapat diterapkan pada data dengan skala metrik, namun jarang digunakan karena titik beratnya pada nilai suatu pola tertentu, padahal tisik berat analisis cluster adalah besarnya objek. Kesamaan antar objek dapat dilihat dari koefisien korelasi antar pasangan objek yang diukur dengan beberapa variabel. b. Ukuran Jarak Merupakan ukuran yang paling sering digunakan. Diterapkan untuk data berskala metrik. Sebenarnya merupakan ukuran ketidakmiripan, dimana jarak yang besar menunjukkan sedikit kesamaan sebaliknya jarak yang pendek/kesil menunjukkan bahwa suatu objek makin mirip dengan objek lain. Bedanya dengan ukuran korelasi adalah bnahwa ukuran jarak fokusnya pada besarnya nilai. Cluster berdasarkan ukuran korelasi bisa saja tidak memiliki kesamaan nilai tapi memiliki kesamaan pola, sedangkan cluster dberdasrkan ukuran jarak lebih memiliki kesamaan nilai meskipun polanya berbeda. Ada empat tipe ukuran jarak antara lain, yaitu
Euclidean distance adalah ukuran yang paling sering digunakan untuk mengukur jarak. Jarak Euklidian adalah besarnya jarak suatu garis lurus yang menghubungkan antar objek. Misalkan ada dua objek yaitu A dengan koordinat ( X 1 , Y1 ) dan B dengan koordinat (X2 , Y2
)
maka jarak antar kedua objek tersebut dapat diukur dengan rumus,
Distance = √((X2 – X1)2 + (Y2 – Y1)2)
Squared euclidean distance merupakan penjumlahan dari perbedaan kuadrat tanpa diakarkuadratkan. Squared euclidean distance memiliki kelebihan tidak harus diakarkuadratkan, yang bisa mempercepat hitungan. Ukuran ini cocok untuk pengukuran jarak dengan metode
clustering centroid dan Ward’s.
City-blok distance menggunakan penjumlahan dari perbedaan variabel yang mutlak. Prosedur ini paling sederhana untuk menghitung, tetapi
dapat menyebabkan cluster tidak valid jika variabel-variabel clustering memiliki korelasi yang tinggi.
Mahalanobis distance (D2) merupakan ukuran jarak yang umumnya menyebabkan korelasi antara variabel dengan bobot masing-masing variabel sama.
c. Ukuran Asosiasi Ukuran asosiasi dipakai untuk mengukur data berskala nonmetrik (nominal atau ordinal).
C. Standarisasi Data a. Standarisasi Variabel Bentuk paling umum dalam standarisasi variabel adalah konversi setiap variabel terhadap skor standar ( dikenal dengan Z score) dengan melakukan substraksi nilai tengan dan membaginya dengan standar deviasi tiap variabel. b. Standarisasi Data Berbeda dengan standarisasi variabel, standarisasi data dilakukan terhadap observasi/objek yang akan dikelompokkan.
Tahap Ketiga : Asumsi-asumsi dalam Analisis Cluster Seperti hal teknik analisis lain,analisis cluster juga menetapkan adanya suatu asumsi. Ada dua asumsi dalam analisis cluster, yaitu : A. Kecukupan Sampel untuk merepresentasikan/mewakili Populasi Biasanya suatu penelitian dilakukan terhadap populasi diwakili oleh sekelompok sampel. Sampel yang digunakan dalam analisis ckuster harus dapat mewakili populasi yang ingin dijelaskan, karena analisis ini baik jika sampel representatif. Jumlah sampel yang diambil tergantung penelitinya, seorang peneliti harus yakin bahwa sampil yang diambil representatif terhadap populasi. B. Pengaruh Multukolinieritas Ada atau tidaknya multikolinieritas antar variabel sangat diperhatikan dalam analisis cluster karena hal itu berpengaruh, sehingga variabel-variabel yang bersifat multikolinieritas secara eksplisit dipertimbangkan dengan lebih seksama.
Tahap Keempat : Proses Mendapatkan Cluster dan Menilai kelayakan secara keselur uhan Ada dua proses penting yaitu algoritma cluster dalam pembentukan cluster dan menentukan jumlah cluster yang akan dibentuk. Keduanya mempunyai implikasi substansial
tidak hanya pada hasil yang diperoleh tetapi juga pada interpretasi yang akan dilakukan terhadap hasil tersebut. Ada dua metode untuk pemilihan Clustering Algorithm, yaitu Metode hirarki, metode nonhirarki dan Kombinasi. A. Metode Hirarkhi Prosedur hirarki melibatkan keputusan pengelompokan serangkaian n-1 (dimana n merupakan jumlah observasi) yang mengkombinasikan observasi kedalam struktur hirarki.Tipe dasar dalam metode ini adalah aglomerasi dan pemecahan. Dalam metode aglomerasi tiap observasi pada mulanya dianggap sebagai cluster tersendiri sehingga terdapat
cluster sebanyak jumlah observasi. Kemudian dua cluster yang terdekat kesamaannya digabung menjadi suatu cluster baru, sehingga jumlah cluster berkurang satu pada tiap tahap. Sebaliknya pada metode pemecahan dimulai dari satu cluster besar yang mengandung seluruh observasi, selanjutnya observasi-observasi yang paling tidak sama dipisah dan dibentuk cluster-cluster yang lebih kecil. Proses ini dilakukan hingga tiap observasi menjadi cluster sendiri-sendiri.
Hal penting dalam metode hirarkhi adalah bahwa hasil pada tahap sebelumnya sela lu bersarang di dalam hasil pada tahap berikutnya, membentuk sebuah pohon. Dendrogram (Figure 8) merupakan diagram cluster yang dibentuk hanya dengan menggabungkan cluster
yang ada, setiap anggota cluster bisa menelusuri awal keanggotannya dengan garis lurus sebagai pengamatan tunggal. Clustering alghotithm didefinisikan bagaimana kesamaan antara beberapa anggota cluster dalam proses clustering. Ada lima metode aglomerasi dalam pembentukan cluster, yatiu : a. Pautan Tunggal (Single Linkage)
Metode ini didasarkan pada jarak minimum. Dimulai dengan dua objek yang dipisahkan dengan jarak paling pendek maka keduanya akan ditempatkan pada cluster pertama, dan seterusnya. Metode ini dikenal pula dengan nama pendekatan tetangga terdekat. b. Pautan Lengkap (Complete Linkage) Disebut juga pendekatan tetangga terjauh. Dasarnya adalah jarak maksimum. Dalam metode ini seluruh objek dalam suatu cluster dikaitkan satu sama lain pada suatu jarak maksimuma atau dengan kesamaan minimum. c. Pautan Rata-rata (Average Linkage) Dasarnya adalah jarak rata-rata antar observasi. pengelompokan dimulai dari tengan atau pasangan observasi dengan jarak paling mendekati jarak rata -rata. d. Metode Ward (Ward’s Method) Dalam metode ini jarak antara dua cluster adalah jumlah kuadrat antara dua cluster untuk seluruh variabel. Metode ini cenderung digunakan untuk mengkombinasi cluster-cluster dengan jumlah kecil. e. Metode Centroid Jarak antara dua cluster adalah jarak antar centroid cluster tersebut. Centroid cluster adalah nilai tengah observasi pada variabel dalam suatu set variabel cluster. Keuntungannya adalah outlier hanya sedikit berpengaruh jika dibandingkan dengan metode lain. B. Metode Non Hirarkhi Nonhirarchical clustering procedures tidak menggunakan treelike construction process. Sebagai gantinya, mereka memasukkan objek ke dalam cluster yang mana jumlah cluster telah ditentukan sebelumnya. Sebagai contoh, solusi dari enam cluster tidak hanya kombinasi dua cluster dari solusi tujuh cluster, tetapi ini hanya sebagai dasar untuk memutuskan solusi dari enam cluster yang paling baik. Proses Nonhierarchical cluster selalu melalui dua tahap, yaitu : a. Specify cluster seed : step pertama adalah mengidentifikasi titik awal, disebut cluster seeds, untuk cluster lainnya. Cluster seed mungkin sudah ditentukan oleh peneliti atau mungkin memilih observasi, biasanya dalam proses acak. b. Assignment : tahap selajutnya adalah menentukan setiap pengamatan satu dari beberapa cluster seed yang berdasarkan kesamaan cluster. Selecting seed points, ada dua pendekatan untuk memilih cluster seed, yaitu :
a. researcher specified, pada pendekatan ini, peneliti menyediakan seed ponts berdasarkan data eksternal. Mungkin juga teknik multivariat yang lain dapat digunakan untuk menghasilkan seed points. Contoh yang umum penggunaan algoritma cluster hirarki untuk menentukan jumlah cluster, dan hasilnya menetapkan seed points. b. Menentukan sample, pendekatan kedua adalah menetapkan cluster seed dari observasi sample, hanya melalui pemilihan acak. Peneliti dapat menetukan cluster mana yang akan direvisi dengan cara menghitung seed cluster setiap kali observasi ditentukan. Delam pendekatan ini, peneliti bergantung pada proses seleksi untuk memilih seed points yang mencerminkan cluster yang alamiah sebagai poin awal untuk algoritma cluster. Mungkin kelemahannya adalah replikasi dari hasil sulit jika observasi diulang lagi. Peneliti harus peka terhadap pengaruh dari proses seleksi biji kluster pada hasil akhir. Semua algoritma pengklusteran, bahkan pada pengoptimalan sifat, akan membangkitkan solusi kluster yang berbeda terhantung pada biji kluster permulaan. Perbedaan diantara solusi kluster semoga akan minimal dengan menggunakan titik biji yang berbeda, namun hal itu menekankan pentingnya pemilihan biji kluster dan pengaruhnya pada solusi kluster akhir. Algoritma Pengklusteran Nonhierarki. Beberapa algoritma klustering telah diusulkan dan yang paling banyak dikutip adalah sequential, parallel, dan optimization. Metode sequential threshold mulai dengan pemilihan satu biji kluster dan mencakup semua objek pada jarak yang telah ditentukan sebelumnya. Biji kluster kedua kemudia dipilih, dan semua objek pada jarak yang telah ditentukan dari biji itu dimasukkan. Biji ketiga dipilih dan proses berlanjut seperti sebelumnya. Kelemahan utama dari pendekatan ini adalah ketika observasi ditugaskan untuk kluster, ini tidak dapat ditugaskan kepada kluster yang lain, sekalipun biji kluster tersebut lebih serupa. Metode parallel threshold mempertimbangkan semua biji kluster bersamaan dan menugaskan observasi pada jarang ambang ke biji terdekat. Metode ketiga, disebut sebagai prosedur optimizing, adalah serupa dengan dua prosedur nonhierarki yang lain kecuali bahwa metode ini memungkinkan penugasan kembali observasi terhadap suatu biji selain daripada biji yang dengannya telah terkait pada asalnya. Semua ini milik grup algoritma kluster yang disebut K-means. Algoritma K-means bekerja dengan cara memporsikan data kedalam sejumlah kluster yang ditentukan pengguna dan kemudian secara iterasi menugaskan kembali observasi kedalam kluster-kluster hingga beberapa kriteria numerikal terpenuhi. Kriteri menspesifikasikan suatu tujuan terkait meminimalkan jarak dari observasi dari satu yang lainnya di dalam kluster tertentu dan memaksimalkan jarak di antara kluster.
Prosedur pemgoptimalan memungkinkan untuk penugasan kembali observasi berdasarkan tujuan dari menciptakan cluster yang paling berbeda/unik. Apabila dalam penugasan obeservasi, suatu obeservasi menjadi dekat/mirip dengan kluster lainnya yang
pada penugasan ini ia tidak masuk di dalamnya, maka prosedur pengoptimalan akan memindahkan observasi tersebut ke kluster yang lebih serupa/mirip. METODE HIERARKI ATAU NONHIERARKI YANG SEHARUSNYA DIPAKAI?Jawaban definitif untuk pertanyaan tersebut tidak dapat diberikan. Kita dapat memeriksa kekuatan dan kelemahan dari tiap-tiap metode untuk menentukan metode mana yang paling tepat untuk seperangkat penelitian unik tertentu. Pros and Cons Metode Hierarki. Prosedur Hierarki merupakan metode pengklusteran yang awal dikembangkan. Beberapa keunggulan dari prosedur hierarki sehingga dipakai meluas adalah:
1. Simplicity Peneliti dapat mengevaluasi beberapa kemungkinan solusi pengklusteran dari satu analisis. 2. Measures of similarity Adanya pengembangan secara ekstensif atas ukuran similaritas untuk kebanyakan tipe variabel klustering. Teknik hierarki dapat diterapkan pada beberapa pertanyaan penelitian. 3. Speed Metode hierarki mampu menghasilkan perangkat keseluruhan solusi pengklusteran (dari semua kluster terpisah menjadi saru kluster) dengan cara efisien. Walaupun digunakan skala luas namun metode hierarki mempunyai kelemahan yang berpengaruh pada solusi pengklusteran yang dihasilkan yaitu: 1. Metode hierarkis dapat menyesatkan karena kombinasi awal yang tidak diinginkan mungkin tetap ada selama analisis dan menyebabkan hasil buatan. Perhatian khusus adalah dampak dari outlier pada metode ini terutama dengan metode complete-linkage. 2. Untuk mengurangi dampak outlier, peneliti dapat menganalisis kluster beberapa kali untuk menghapus outlier. Upaya penghapusan ini dapat mendistorsikan solusi. Untuk itu, peneliti harus sangat peduli/hati-hati dalam penghapusan observasi untuk beberapa pertimbangan. 3. Meskipun perhitungan pada proses pengklusteran relatif cepat, metode hierarki merepotkan untuk menganalisis sampel dalam jumlah besar atau bahkan jumlah variabel yang besar. Emergensi dari Metode Nonhierarki. Metode nonhierarki mengalami peningkatan tingkat penerimaan dan penggunaan, tetapi beberapa penerapan akan tergantung pada kemampuan peneliti untuk memilih seed point berdasarkan beberapa praktek, sasaran, atau basis teori. Beberapa keunggulan metode nonhierarki atas metode hierarki adalah:
1. Hasil kurang begitu peka terhadap outlier pada data.
2. Mampu menganalisis data yang begitu besar karena tidak mensyaratkan perhitungan matrik similaritas diantara semua observasi. Walaupun mempunyai keunggulan yang jelas, namun metode nonhierarki mempunyai kelemahan: 1. Metode ini cocok diterapkan dengan penggunaan seed point nonrandom. Namun hasil metode unhierarki pada seed point yang random akan kurang baik dibandingkan dengan metode hierarki. 2. Memerlukan analisis dan validasi tambahan bagi peneliti untuk menentukan jawaban/solusi yang optimal. 3. Metode nonhierarki juga tidak dianggap efisien dalam memeriksa jumlah banyak solusi kluster potensial. Suatu Kombinasi dari Kedua Metode. Beberapa peneliti merekomendasikan pendekatan kombinasi dari dua teknik tersebut. Dengan cara ini, keunggulan suatu pendekatan dapat mengkompensasikan kelemahan yang lain. Metode ini perlu 2 langkah:
1. Pertama, teknik hierarki digunakan untuk menghasilkan seperangkat lengkap solusi kluster, membangun solusi kluster yang dapat diterapkan, dan mendirikan jumlah kluster yang tepat. 2. Setelah outlier dihilangkan, observasi yang tersisa dapat diklusterkan dengan metode nonhieraki. Dengan jalan ini, keunggulan metode hierarki dilengkapi dengan kemampuan metode nonhierarki untuk memperbaiki hasil dengan cara mengizinkan pertukaran keanggotaan kluster.
Stage 5: Interpretasi dari Kluster
Tahap interpretasi kluster ini mencakup pemeriksaan tiap kluster untuk memberikan nama atau pemberian label yang secara akurat mendeskripsikan sifat/karakter dari kluster. Stage 6: Validasi dan Profiling dari Kluster VALIDASI SOLUSI KLUSTER. Validasi mencakup upaya untuk menjamin bahwa solusi kluster adalah mewakili polulasi umum dan dapat digeneralisasikan pada objek lain dan selalu stabil. Validasi Silang. Pendekatan yang paling langsung adalah dengan melakukan analisis kluster sample terpisah, membandingkan solusi kluster, dan menilai korespondensi dari hasilhasilnya. Membuat Validitas Kriteria. Peneliti juga dapat berupaya untuk membuat beberapa bentuk validitas kriteria atau prediktif. Peneliti memilih variabel yang tidak digunakan untuk membentuk kluster namun diketahui akan bervariasi lintas kluster. PROFILING SOLUSI KLUSTER. Profiling melibatkan penilaian bagaimana setiap cluster berbeda dengan cluster lain pada dimensi deskriptif yang relevan.
Hanya variabel yang tidak digunakan dalam analisis cluster yang digunakan dalam profiling. Sering kali, variabel yang digunakan dalam langkah ini adalah demografi, psikografis, atau pola konsumsi. Analisis diskriminan adalah teknik yang sering digunakan.
SEBUAH CONTOH ILUSTRASI Stage 1: Sasaran dari Analisis Kluster PENGKLUSTERAN SASARAN PENGKLUSTERAN VARIABEL Stage 2: Desain Penelitian dari Analisis Kluster MENDETEKSI OUTLIER
PENDEFINISIAN SIMILARITAS UKURAN SAMPEL STANDARISASI Stage 3: Asumsi dalam Analisis Kluster KEMAMPUAN MEWAKILI DARI SAMPEL MULTIKOLINEARITAS. Jika ada multikolinearitas diantara variabel kluster, set dari variabel cluster diasumsikan independen, tapi kenyataannya bisa jadi berhuhungan. Akan menjadi masalah jika beberapa variabel dalam set variabel kluster sangat berhubungan dan yang lainnya relatif tidak berhubungan. Dalam situasi ini, variabel yang berhubungan mempengaruhi solusi kluster lebih banyak daripada variabel yang tidak berhubungan.
Tim Riset HBAT meminimalkan beberapa efek dari multikolineariti melalui proses pemilihan variabel. Mereka memilih variabel kluster berdasarkan penemuan dari analisis faktor yang dilakukan sebelumnya. Menggunakan Metode Hierarki dan Nonhierarki. Tim Riset memutuskan untuk menggunakan kombinasi metode hierarki dan nonhierarki melalui dua proses berikut:
1. The Partitioning Stage. Prosedur hierarki digunakan untuk mengidentifikasi set awal solusi kluster sebagai basis menentukan jumlah kluster yang tepat. 2. Prosedur nonhierarki untuk memperbaiki hasil dan melakukan profil serta validasi solusi final cluster. Step 1: Analisis Cluster Hierarki (Stage 4)
Peneliti harus melakukan urutan tugas : 1. 2. 3. 4.
Memilih algoritma pengklusteran Mencari hasil kluster dan memeriksa cluster yang tidak tepat. Memilih solusi awal kluster dengan menerapkan the stopping rule. Melakukan profile variabel pengklusteran untuk menentukan solusi kluster yang paling tepat.
PEMILIHAN ALGORITMA PENGKLUSTERAN. Ada beberapa algoritma
pengklusteran yang dapat dipilih. The Ward’s method digunakan karena kecenderungannya untuk menghasilkan kluster yang homogen dan relatif sama ukurannya.
HASIL AWAL DENGAN KLASTER dengan mengukur kesamaan dan pengelompokan algoritma tertentu, tim peneliti HBAT kini dapat menerapkan prosedur pengelompokan hirarki. Hasil harus ditinjau untuk memunculkan berbagai penyelesaian klaster yang dipilih. Proses ini memungkinkan kita untuk mengidentifikasi setiap klaster yang mungkin perlu dihapus karena ukurannya yang kecil atau alasan lain (outlier, tidak representatif, dll). Setelah diperiksa, setiap klaster diidentifikasi atau data akan dihapus dan analisis klaster dijalankan lagi dengan dataset yang telah dikurangi.
Tabel 6 berikut ini menunjukkan sebagian dari jadwal aglomerasi yang dihasilkan oleh hasil klaster hirarkis. Jadwal aglomerasi dapat berguna dalam mengidentifikasi setiap klaster yang tidak biasa atau pengamatan yang menolak bergabung dengan pengamatan lain dalam sebuah klaster. Informasi kunci dalam jadwal aglomerasi mencakup informasi tentang kapan klaster
muncul dan koefisien aglomerasi. HASIL KLASTER R E S P E C I F I E D Penghapusan dua pengamatan mengharuskan analisis klaster dilakukan lagi pada 98 pengamatan yang tersisa. Kita sekarang membahas temuan dari solusi klaster baru, termasuk mengamati ukuran klaster dan kriteria clustering . Mengevaluasi UKURAN CLUSTER Proses hasil seperti sebelumnya, dengan hasil cluster respecified juga diperiksa untuk ukuran klaster yang tidak pantas. klaster yang dianggap di bawah ukuran manajerial yang signifikan adalah kandidat untuk dihapus. Diharapkan outlier telah diidentifikasi sebelum respecification. Namun, peneliti dapat mempertimbangkan tambahan klaster beranggota tunggal atau sangat kecil serta outlier dan mungkin ingin menghapusnya dari analisis berikutnya. Jadwal Clustering dan Koefisien Aglomerasi. Semua kelompok individu dalam solusi kami memenuhi kriteria ukuran klaster minimum. Oleh karena itu kami melanjutkan untuk memeriksa lebih lanjut proses pengelompokan yang sebenarnya melalui jadwal koefisien clustering dan aglomerasi. Jadwal pengelompokan yang dihasilkan oleh SPSS ditunjukkan pada Tabel 6. lima elemen yang menggambarkan setiap pengelompokan tahap adalah:
stage: Ingatlah bahwa stage adalah langkah dalam proses pengelompokan di mana dua klaster paling mirip digabungkan. Untuk proses hirarkis, selalu ada N - 1 tahap, di mana N adalah jumlah observasi yang berkerumun. Dengan demikian, di HBAT klaster sebelumnya kami awalnya memiliki ukuran sampel 100 dan ada 99 tahap. Cluster Combined : Informasi merinci mana dua klaster digabungkan tahap dateach. Agglomeration Coefficient : Tindakan peningkatan heterogenitas (pengurangan kesamaan dalam klaster) yang terjadi ketika dua klaster digabungkan. Untuk metode yang paling hirarkis, koefisien aglomerasi adalah jarak antara dua pengamatan terdekat di klaster yang dikombinasikan. Stage Cluster First Appears: Mengidentifikasi tahap sebelumnya di mana setiap kelompok yang dikombinasikan terlibat. Nilai nol menunjukkan pengamatan masih anggota klaster. Artinya, pengamatan belum pernah tergabung sebelum tahap itu. Tahap berikutnya di muncul klaster baru muncul: menunjukkan tahap berikutnya di mana clusteris baru dikombinasikan dengan klaster lain. Mari kita kembali ke jadwal aglomerasi yang ditunjukkan pada Tabel 6. Kami akan memeriksa beberapa tahap secara rinci untuk menggambarkan informasi yang terkandung dalam jadwal dan untuk menunjukkan bagaimana informasi ini dapat membantu menentukan jumlah yang sesuai klaster untuk mengekstrak dari solusi.
Stage1: Cluster 3 dan 94 adalah yang pertama untuk bergabung dengan koefisien (yang merupakan jumlah diantara-subyek-subyek dari kotak ketika menggunakan algoritma Ward) hanya 0.080. Dalam hal ini, kedua kelompok berada dalam pengamatan individu yang sebenarnya. Kita tahu hal ini dikarenakan nol dalam kolom berlabel "panggung" di mana cluster pertama muncul (kolom di sisi kanan tabel). Cluster ini akan terlihat lagi dalam tahap 18 ketika pengamatan (cluster sekarang) 3 bergabung pengamatan 38. Perhatikan "1" di kolom di bawah "Tahap Cluster Pertama Muncul" untuk cluster 1. Hal ini mengacu kembali ke kenyataan bahwa terakhir kali klaster 1 bergabung dengan apa pun berada di tahap 1. 67 pada tahap berikutnya
dalam kolom berarti waktu berikutnya klaster ini akan bergabung dengan sesuatu yang lain adalah di tahap 67. Tahap 99: Cluster 1 dan 6 yang bergabung. Hasilnya adalah bahwa semua 100 pengamatan sekarang dalam cluster tunggal yang besar dan tahap ini memiliki koefisien aglomerasi 812,8. Ini jauh lebih besar daripada koefisien dalam tahap 1. Informasi dari jadwal pengelompokan memberikan gambaran tentang proses clustering, memungkinkan peneliti untuk mengikuti setiap pengamatan tunggal atau klaster seluruh proses. Hal ini juga memberikan informasi diagnostik, seperti kemampuan untuk dengan cepat mengidentifikasi kelompok anggota tunggal (yaitu, nol dalam " Stage Cluster First Appears " kolom) dan koefisien aglomerasi.
Dendrogram . Dendrogram memberikan gambaran grafis dari proses clustering. Struktur treelike dari dendrogram menggambarkan setiap tahap dari proses clustering. Biasanya, grafik adalah skala, sehingga jarak yang lebih dekat antara kombinasi menunjukkan homogenitas yang lebih besar.
Dendrogram adalah tampilan visual dari informasi dari jadwal aglomerasi. Hasil dari analisis cluster hirarkis revisi, setelah menghapus pengamatan 6 dan 87, menghasilkan jadwal pengelompokan baru dan dendrogram baru. Beberapa mungkin akan lebih mudah untuk visual menganalisis informasi dalam bentuk grafik ini bukan di jadwal aglomerasi. Sebagian dari jadwal aglomerasi baru (N = 98) ditunjukkan pada Tabel 7. dendrogram tersebut tidak direproduksi di sini, tetapi umumnya menampilkan pola yang sama seperti yang ditunjukkan dalam jadwal aglomerasi. Menentukan Cluster Solusi Awal . Sampai saat ini kita memiliki aspek rinci dari proses clustering . Tapi kita masih belum membahas pertanyaan mendasar: Apa solusi klaster akhir? kita harus mencatat bahwa dalam kebanyakan situasi solusi akhir tunggal tidak akan diidentifikasi dalam analisis hirarkis. Sebaliknya, satu set solusi klaster awal diidentifikasi. solusi klaster ini membentuk dasar untuk analisis nonhierarchical pada klaster solusi akhir yang dipilih. Meskipun cluster solusi akhir tidak diidentifikasi pada tahap ini, peneliti harus membuat keputusan penting untuk berapa banyak klaster yang akan digunakan dalam analisis nonhierarchical . Mudah-mudahan, keputusan akan relatif jelas dan jumlah potensial dari solusi dapat deterministik ditambang. Namun, para peneliti secara rutin memutuskan bahwa sejumlah kecil solusi klaster harus dianalisis menggunakan prosedur nonhierarchical . Analisis lebih lanjut dari beberapa kelompok dapat membantu menyelesaikan pertanyaan tentang berapa banyak klaster yang paling tepat. Menerapkan stopping rule. Berapa banyak cluster yang harus kita miliki? Karena profil data HBAT melibatkan pelanggan dan minat kita dalam mengidentifikasi jenis pelanggan atau profil yang mungkin membentuk dasar untuk strategi berbeda, sejumlah dikelola segmen dari perspektif strategis dan taktis akan lebih dari dua tetapi tidak lebih dari enam atau tujuh.
Perubahan persentase heterogenitas . Stopping rule yang kita terapkan didasarkan pada penilaian perubahan heterogenitas antara solusi klaster. Alasan mendasar adalah bahwa ketika kenaikan besar dalam heterogenitas terjadi dalam perpindahan dari satu
tahap ke tahap berikutnya, peneliti memilih cluster solusi awal (sebelumnya) karena kombinasi baru tergabung pada klaster yang cukup berbeda.
Koefisien aglomerasi ini sangat berguna untuk menghentikan aturan ini. Koefisien kecil menunjukkan bahwa cluster yang cukup homogen sedang bergabung, sedangkan ketika tergabung pada dua klaster yang sangat berbeda akan menghasilkan sebuah koefisien yang besar. Karena setiap kombinasi dari klaster peningkatan heterogenitas, kita fokus pada perubahan persentase besar di koefisien, mirip dengan tes scree dalam analisis faktor, untuk
mengidentifikasi klaster tahap kombinasi yang sangat berbeda. Satu-satunya pengecualian adalah bahwa pendekatan ini, meskipun algoritma yang cukup akurat, memiliki kecenderungan untuk menunjukkan klaster yang terlalu sedikit.
Kita saat ini mencari peningkatan relatif besar dalam koefisien aglomerasi. Koefisien aglomerasi menunjukkan peningkatan yang cukup besar ak an 94-95 tahap (465,38 vs 536,24), 95-96 tahap (536,24 vs 613,79), dan tahap 96-97 (613,79 vs 752,50). Persentase meningkat menunjukkan peningkatan proporsional terkait dengan kombinasi klaster dari satu tahap ke tahap berikutnya.
Rata-rata peningkatan proporsional untuk semua tahapan ditampilkan (90-97) adalah 14,2 persen dan berfungsi sebagai panduan kasar dalam menentukan peningkatan mana yang besar. Tahap 97 hasil dari kondensasi solusi dua-cluster untuk solusi satu-cluster. Artinya, kesemua 98 pengamatan dalam satu cluster di stage 97. Menggabungkan dua klaster menjadi satu menghasilkan peningkatan proporsional dari 22,6 persen ((752,50-613,79) /613.79 = 0,226). Meskipun hal ini merupakan kenaikan terbesar, solusi klaster hampir selalu menunjukkan peningkatan besar untuk tahap ini. Sebuah solusi dua-klaster juga dapat mewakili nilai terbatas dalam memenuhi berbagai tujuan penelitian. Peneliti harus menghindari kecohan untuk mengatakan solusi dua-cluster adalah yang terbaik, karena melibatkan perubahan terbesar dalam heterogenitas. Sebuah solusi dua-cluster harus didukung oleh penalaran teoritis yang kuat. Dengan demikian, kita tidak akan memilih solusi dua-cluster.
Sekarang mari kita lihat tahap lain ditunjukkan pada Tabel 7. Gerakan antara tahap 93, 94, dan 95 juga dikaitkan dengan peningkatan yang relatif besar pada heterogenitas (14,2%, 15,2%, dan 14,5%, masing-masing). Apa artinya bagi solusi klaster? Mari kita lihat kenaikan terbesar (bergerak dari tahap 94-95). Peningkatan proporsional bergerak dari klaster empat untuk solusi klaster enam sejumlah 15,2 persen ((536,24-465,39) /465.39). Ini berarti bahwa cluster solusi terkait dengan empat klaster secara proporsional lebih kecil tingkat heterogenitasnya dibanding solusi tiga klaster. Klaster yang lebih homogen adalah klaster yang memiliki karakteristik yang baik. Dengan demikian, kita akan fokus pada solusi empat klaster karena peningkatan persen terbesar (selain tahap 97-96) akan terjadi jika kita menggunakan hasil tahap ini. Namun, peneliti juga harus mencatat bahwa kenaikan yang cukup besar dalam koefisien terjadi ketika bergerak dari lima cluster untuk solusi empat cluster. Menggunakan lebih dari plot logika scree, argumen dapat dibuat bahwa ini akan menjadi titik. Juga, kenaikan terbesar kedua terjadi di bergerak dari tiga cluster ke solusi duacluster (14,5%). Oleh karena itu, tiga klaster dan lima klaster solusi adalah kandidat yang masuk akal untuk membandingkan dengan solusi empat klaster, terutama jika solusi empat klaster terbukti sulit untuk diinterpretasikan atau memiliki karakteristik lain yang tidak
diinginkan. Beberapa mungkin memilih suatu gambaran grafis dari perubahan persen, seperti yang ditunjukkan pada Gambar 11.
Memprofil Clustering Variables. Sebelum melanjutkan ke analisis nonhierarchical , kita akan profil variabel pengklasteran untuk solusi empat klaster sebagai konfirmasi bahwa perbedaan antara kelompok yang khas dan signifikan dalam pertanyaan penelitian dan untuk menentukan karakteristik cluster. Informasi profil dit unjukkan pada Gambar 12.
Mari kita memeriksa kekhasan tersebut. Di sisi paling kanan dari gambar adalah statistik F dari satu arah ANOVAs yang menguji apakah ada perbedaan yang signifikan secara statistik antara empat kelompok pada masing-masing dari lima variabel clustering. Variabel bebas adalah anggota klaster (yang dari empat kelompok, masing-masing dari 98 pengamatan ditempatkan melalui proses pengelompokan), dan variabel dependen adalah lima variabel clustering. Hasil penelitian menunjukkan ada perbedaan yang signifikan antara kelompok pada semua lima variabel. Statistik F yang signifikan memberikan bukti awal bahwa masing-masing dari empat cluster yang khas.
Sekarang kita memeriksa rata-rata variabel lima klaster. Tahap dalam proses profiling ini didasarkan pada interpretasi dari kedua nilai rata-rata dan nilai rata-rata yang berpusat. Klaster 1 berisi 49 pengamatan dan memiliki rata-rata yang relatif rendah pada X15 (Produk Baru) dari tiga cluster lainnya. Sarana dari tiga klaster lain agak di atas rata-rata. Klaster 2 berisi 18 pengamatan dan terbaik ditandai dengan dua variabel: berarti sangat rendah pada X8 (Dukungan Teknis) dan skor tertinggi pada X15 (Produk Baru). Klaster 3 memiliki 14 pengamatan dan terbaik ditandai dengan skor yang relatif rendah pada X6 (kualitas produk). Cluster 4 memiliki 17 pengamatan dan ditandai dengan skor yang relatif rendah pada X12 (Salesforce Image). Hasil ini menunjukkan bahwa masing-masing dari empat cluster menunjukkan karakteristik yang khas. Selain itu, klaster mengandung tidak kurang dari 10 persen dari pengamatan. Oleh karena itu, semua klaster dipertahankan, karena penilaian awal ini cukup menguntungkan untuk pindah untuk menunjukkan pengelompokan nonhierarchical . Ukuran klaster akan berubah di dalam analisis nonhierarchical dan pengamatan akan dipindahkan. Akibatnya, makna akhir dari empat cluster akan ditentukan dalam analisis nonhierarchical .
Langkah 2: Analisis Cluster Nonherarchial (Tahapan 4, 5, dan 6)
Metode pengelompokan hierarchical memfasilitasi evaluasi menyeluruh dari berbagai solusi klaster. Solusi ini terkena dampak, bagaimanapun, dengan karakteristik umum, setelah pengamatan bergabung dalam sebuah klaster, mereka tidak pernah dipisahkan (dipindahkan) dalam proses clustering . Dalam proses pengelompokan hirarki, kami memilih algoritma (Ward) yang meminimalkan dampak dari proses ini. Tapi metode pengelompokan nonhierarchical memiliki keuntungan karena lebih mampu "mengoptimalkan" solusi klaster dengan pemindahan pengamatan sampai homogenitas maksimum (kesamaan) diantara klaster dicapai.
Langkah kedua Hal ini dalam proses pengelompokan menggunakan hasil dari proses hirarkis untuk mengeksekusi pengelompokan nonhierarchical . Secara khusus, jumlah klaster ditentukan dari hasil hirarkis. Prosedur nonhierarchical kemudian mengembangkan sebuah solusi klaster yang "optimal". Solusi klaster ini kemudian dibandingkan dalam hal validitas kriteria serta penerapannya untuk pertanyaan penelitian untuk memilih solusi tunggal sebagai
cluster solusi akhir. TAHAP 4: Mendapatkan Cluster dan menilai KESELURUHAN FIT Tujuan utama dari langkah kedua adalah menggunakan teknik nonhierarchical untuk menyesuaikan, atau "finetune" hasil dari prosedur hirarkis. Dalam melaksanakan klaster nonhierarchical , peneliti harus membuat dua keputusan:
1. Bagaimana poin benih untuk cluster dihasilkan? 2. Apa algoritma clustering yang akan digunakan? Pembahasan berikut alamat kedua titik-titik ini dengan menunjukkan menggunakan hasil hirarkis untuk meningkatkan prosedur nonhierarchical.
bagaimana
Menentukan Cluster Seed Poin. Tugas pertama dalam analisis klaster nonhierarchical adalah untuk memilih metode untuk menentukan benih klaster. Benih klaster adalah titik awal untuk setiap klaster. Dari sana, algoritma clustering memberikan pengamatan untuk setiap benih dan bentuk cluster. Ada dua metode untuk memilih poin benih klaster: generasi sampel oleh software cluster (yaitu, pilihan acak) spesifikasi dan oleh peneliti. metode sampel yang dihasilkan kadang-kadang menghasilkan klaster yang sulit untuk direplikasi di sampel dan tidak didasarkan pada dukungan teoritis. Sebaliknya, benih klaster yang ditentukan oleh peneliti membutuhkan beberapa dasar konseptual atau empiris untuk memilih poin benih. metode yang dipilih peneliti mengurangi masalah dengan peniruan solusi klaster. Tapi memilih poin benih terbaik bisa sulit
Pendekatan yang paling umum untuk mengidentifikasi benih klaster yang ditentukan oleh peneliti adalah solusi hirarkis. Hal ini melibatkan memilih salah satu pengamatan dari setiap cluster untuk mewakili cluster atau, lebih umum, untuk menggunakan centroid klaster sebagai poin benih. Perhatikan bahwa derivative di centroid klaster biasanya membutuhkan analisis tambahan untuk (a) memilih solusi klaster yang akan digunakan dalam analisis nonhierarchical dan (b) untuk memperoleh centroid dengan profil masing-masing cluster solusi. Profil ini tidak biasanya dihasilkan dalam analisis hirarkis, karena hal itu membutuhkan usaha yang luar biasa, seperti N - 1 solusi klaster (97 solusi dalam contoh HBAT) yang dihasilkan, dan menurunkan profil untuk masing-masing akan memakan waktu dan tidak efisien. Ingat bahwa solusi klaster empat hirarki terpilih sebagai salah satu yang akan selanjutnya dianalisis menggunakan prosedur nonhierarchical . Semua lima variabel pengelompokan akan digunakan dalam analisis nonhierarchical . Dengan demikian, poin benih klaster memerlukan nilai awal pada setiap variabel untuk setiap klaster. Untuk contoh HBAT, tim peneliti memutuskan untuk menggunakan poin benih awal random yang teridentifikasi oleh perangkat lunak. Poin benih ini dipengaruhi oleh urutan pengamatan pada data file. Untuk mengevaluasi stabilitas solusi klaster, beberapa peneliti mereorganisasi data (mengubah urutan pengamatan) dan jalankan kembali analisis klaster. Jika solusi klaster diubah secara substansial, yang menunjukkan mereka sangat tidak stabil, poin benih yang ditentukan oleh peneliti mungkin perlu digunakan.
Memilih Algoritma Clustering. Peneliti kini harus memilih algoritma clustering yang digunakan dalam membentuk kelompok. Manfaat utama dari metode klaster nonhierarchical adalah kemampuan untuk mengembangkan solusi klaster kemudian dalam proses yang tidak didasarkan pada cluster yang terbentuk sebelumnya. Hal ini karena pengamatan diarahkan pada klaster tertentu pada awal proses pengelompokan yang nantinya bisa diarahkan kembali (pindah dari satu cluster yang lain) untuk klaster lain yang terbentuk kemudian dalam sebuah proses. Hal ini berbeda dengan metode hirarkis, di mana solusi klaster dibentuk kemudian dalam proses pengelompokan secara langsung didasarkan pada penggabungan dua kelompok terbentuk sebelumnya dalam proses. Untuk alasan ini, metode nonhierarchial umumnya lebih disukai, bila mungkin, karena mereka "fine-tuning" dari solusi klaster yang ada dari proses hirarkis.
Untuk contoh HBAT, kami memilih algoritma mengoptimalkan dalam SPSS yang memungkinkan untuk signment reas- dari pengamatan antara kelompok sampai tingkat minimum heterogenitas tercapai. Menggunakan algoritma ini, pengamatan pada awalnya dikelompokkan ke benih klaster terdekat. Ketika semua pengamatan ditugaskan, setiap pengamatan dievaluasi untuk melihat apakah masih dalam cluster terdekat. Jika tidak, itu dipindahkan ke cluster lebih dekat. Proses berlanjut sampai homogenitas dalam cluster tidak dapat ditingkatkan dengan gerakan lebih lanjut (penugasan) pengamatan antara cluster.
Pembentukan Cluster. Dengan benih cluster dan algoritma pengelompokan yang ditentukan, proses pengelompokan dapat dimulai. Untuk melaksanakan klaster nonhierarchical, kita tentukan jumlah klaster empat, berdasarkan hasil dari klaster solusi hirarkis. Menggunakan algoritma optimalisasi, proses berlanjut untuk menetapkan kembali pengamatan sampai penugasan tidak akan membaik dalam-cluster homogenitas.
Hasil dari solusi empat klaster nonhierarchical ditunjukkan pada Gambar 13. Ada dua perbedaan mencolok antara hasil hirarkis dan nonhierarchical :
Ukuran klaster. Solusi nonhierarchical , mungkin karena kemampuan untuk menetapkan kembali klaster antara observasi, memiliki lebih bahkan dispersi pengamatan antara klaster. Sebagai contoh, analisis klaster nonhierarchical mengakibatkan ukuran 25, 29, 17 dan 27, dibandingkan dengan kelompok 49, 18, 14, dan 17 dalam analisis hirarkis. Signifikansi dari perbedaan variabel clustering. Perbedaan mendasar lain antara dua solusi klaster adalah kemampuan proses untuk menggambarkan klaster nonhierarchical yang biasanya lebih khas dari klaster solusi hirarkis. Gambar 13 menampilkan hasil ANOVA yang menunjukkan perbedaan rata-rata dari tiap variabel di empat cluster. Mengingat bahwa variabel pengelompokan lima yang digunakan untuk menghasilkan klaster, hasil harus secara statistik signifikan. Nilai F menunjukkan bahwa rata-rata empat dari lima variabel yang berbeda signifikan secara statistik. Hanya rata-rata X18 (kecepatan pengiriman) tidak berbeda secara signifikan pada kelompok. Bahkan, tiga dari lima variabel pengelompokan memiliki nilai F yang sangat besar (X6, X8, dan X15). Dengan demikian, hasil nonhierarchical
menunjukkan bahwa solusi klaster memadai dalam membedakan pengamatan, dengan pengecualian dari X18, kecepatan pengiriman.
Proses pengelompokan nonhierarchical menghasilkan solusi empat klaster berdasarkan poin-poin benih yang dihasilkan oleh perangkat lunak. Analisis lebih lanjut dalam hal profil solusi dan menilai kriteria validitasnya berikut menyediakan unsur yang dibutuhkan untuk memilih solusi klaster akhir.
TAHAP 5: INTERPRETASI DARI KELOMPOK Tim peneliti HBAT menafsirkan makna dari kelompok dengan menganalisis pola cara cluster dan nilai-nilai rataa-rata dan meancentered seperti yang ditunjukkan pada Gambar 13, yang diplot dalam diagram profil di bagian bawah gambar. Interpretasi dimulai dengan mencari nilai-nilai ekstrim yang terkait dengan setiap cluster. Dengan kata lain, variabel yang memiliki rata-rata tertinggi atau terendah dibandingkan dengan kelompok lainnya yang berguna dalam proses ini.
Cluster 1 memiliki 25 observasi dan paling terkemuka oleh produk baru (X15) yang rata-ratanya relatif rendah. Nilai rata-rata untuk variabel lain (kecuali kualitas produk) juga relatif rendah. Dengan demikian, klaster ini merupakan segmen pasar yang ditandai dengan keyakinan bahwa HBAT tidak berkinerja baik pada umumnya, khususnya dalam menawarkan produk baru, dan nilai rata-rata yang lebih rendah secara keseluruhan menunjukkan segmen ini bukan target kemungkinan untuk pengenalan produk baru. Cluster 2 memiliki 29 observasi dan paling terkemuka dengan rata-rata yang relatif lebih tinggi dari dukungan teknis (X8) dan pada kualitas produk (X6). Oleh karena itu, HBAT menafsirkan segmen pasar ini sebagai kepercayaan bahwa HBAT memberikan dukungan yang kuat untuk produk-produk berkualitas tinggi. HBAT meyakini ini adalah segmen yang menguntungkan bagi produk dan layanan lainnya. Ini adalah klaster terbesar. Cluster 3 memiliki 17 pengamatan dan dibedakan dengan rata-rata relatif lebih tinggi untuk produk baru (X15). Sebaliknya, klaster 3 memiliki rata-rata yang relatif lebih rendah untuk dukungan teknis (X8). Dengan demikian, segmen ini menunjukkan bahwa HBAT menawarkan produk baru dan inovatif, tetapi dukungan dari produk produk baru sangat tidak baik. Perlu dicatat bahwa produk baru berarti dari 6,75, meskipun tertinggi untuk cluster apapun, masih hanya moderat secara keseluruhan, dan HBAT bisa meningkatkan di daerah ini bahkan dengan klaster ini. Klaster 3 berkebalikan dengan klaster 2. Cluster 4 memiliki 27 pengamatan dan dibedakan dengan nilai rata-rata terendah dari semua cluster pada kualitas produk (X6). Semua rata-rata dari variabel X6 dalam klaster lain jauh lebih tinggi. Selain itu, nilai rata-rata pada variabel clustering lainnya relatif berkisar di angka rata-rata untuk cluster ini, dengan pengecualian dari rata-rata agak lebih tinggi pada gambar Salesforce (X12) dan dukungan teknis (X6). Dengan demikian, segmen ini ditandai sebagai salah satu yang menunjukkan bahwa produk HBAT adalah di bawah rata-rata dalam kualitas, tetapi Salesforce dan dukungan teknis yang sedikit lebih baik dari rata-rata. Ini adalah klaster terbesar kedua.
TAHAP 6: VALIDASI DAN PROFIL KELOMPOK. Pada tahap akhir ini, proses validasi dan profiling sangat penting untuk eksplorasi dan sering menjadi dasar nonteoritis untuk analisis klaster. Peneliti harus melakukan tes untuk mengkonfirmasi keabsahan solusi klaster sementara juga memastikan solusi klaster memiliki signifikansi praktis. Para peneliti yang meminimalkan atau melewatkan resiko langkah ini menerima solusi klaster yang khusus hanya untuk sampel dan memiliki generalisasi yang terbatas, atau bahkan sedikit digunakan di luar deskripsi belaka dari data pada variabel clustering .
Stabilitas Cluster. Pada titik ini, peneliti sering menilai stabilitas solusi klaster. Mengingat bahwa perangkat lunak memilih poin benih awal, faktor-faktor seperti pengurutan
kasus dalam data dapat mempengaruhi anggota klaster. Untuk melakukannya, peneliti dapat mengurutkan pengamatan dalam urutan yang berbeda dan kemudian melakukan analisis klaster sekali lagi (dengan titik awal yang baru dipilih oleh perangkat lunak, tetapi dengan jumlah yang sama dari kelompok tertentu). Solusi klaster kemudian dapat dibandingkan untuk melihat apakah kelompok yang sama teridentifikasi. Sebuah klasifikasi silang dari anggota klaster antara solusi harus mengungkapkan sebagian besar kesesuaian antara dua solusi. Dengan kata lain, pengamatan yang mengelompok bersama-sama dalam satu analisis harus untuk sebagian besar kelompok bersama-sama dalam solusi klaster berikutnya. Hal ini diilustrasikan oleh contoh. Stabilitas klaster nonhierarchical empat kelompok telah diperiksa. Awalnya peneliti mengurutkan pengamatan ke dalam urutan yang berbeda. Untuk melakukannya, peneliti memilih variabel dari kumpulan data dan menggunakan fungsi semacam SPSS untuk mengubah urutan pengamatan. Dalam hal ini, pengamatan yang diurutkan berdasarkan jenis pelanggan (X1), mulai dari orang-orang dengan sedikit waktu melakukan bisnis dengan HBAT kepada mereka dengan sebagian besar waktu melakukan bisnis dengan HBAT . Algoritma K-means sekali lagi digunakan untuk menempatkan pengamatan menjadi salah satu dari empat kelompok. Setelah routine clustering , lintas-klasifikasi dilakukan (seperti matriks confusion dalam analisis diskriminan), dengan menggunakan variabel anggota cluster dari solusi K-cara pertama sebagai salah satu variabel dan variabel anggota cluster dari solusi K-cara kedua sebagai variabel lainnya. Hasilnya ditunjukkan pada Tabel 8.
Kebanyakan pengamatan dikelompokkan dengan pengamatan yang sama mereka bergerombol dengan dalam solusi K-means pertama. Meskipun klaster 1 di K-means pertama menjadi klaster 4 di kedua K-means analisis (seperti yang ditunjukkan oleh 24 di baris pertama, kolom keempat dari klasifikasi silang), semua kecuali satu dari pengamatan berakhir pengelompokan bersama-sama. Satu observasi tidak tinggal bersama-sama sekarang dalam cluster 3. Untuk cluster 2, 8 dari 29 pengamatan berakhir tidak klastering bersama-sama. Semua klaster 3 pengamatan tinggal bersama-sama. klaster 4, yang sekarang klaster 1,
mempertahankan 22 dari 27 anggota asli. Sempurna cross-validasi akan muncul jika hanya satu sel di setiap baris atau kolom dari klasifikasi silang terkandung nilai. Dengan demikian, semua tapi 14 pengamatan telah mempertahankan keanggotaan cluster yang sama di seluruh solusi hasil yang mendukung validitas solusi empat cluster. Dengan kata lain, solusi empat klaster muncul relatif stabil dengan hanya empat belas persen dari kasus beralih cluster antara solusi. Analisis klaster tambahan dilakukan berdasarkan menyortir data dengan cara yang berbeda dapat dilakukan untuk memeriksa lebih lanjut stabilitas data. Menilai Kriteria Validitas. Untuk menilai validitas prediktif, kita fokus pada variabel yang memiliki hubungan secara teoritis berdasarkan pada variabel pengelompokan tapi tidak dimasukkan dalam larutan cluster. Mengingat hubungan ini, kita harus melihat perbedaan yang signifikan dalam variabel ini di cluster. Jika perbedaan yang signifikan memang ada pada variabel-variabel ini, kita dapat menarik kesimpulan bahwa cluster menggambarkan kelompok yang memiliki validitas prediktif. Untuk tujuan ini, kita mempertimbangkan empat ukuran hasil dari dataset HBAT:
x19 – Kepuasan X20 - Kemungkinan untuk Rekomendasikan X21 - Kemungkinan Pembelian X22 - Pembelian Tingkat Sebuah model MANOVA diperkirakan menggunakan empat variabel validitas kriteria sebagai variabel dependen dan keanggotaan klaster sebagai variabel independen. MANOVA dipilih karena variabel dependen diketahui berkorelasi dengan satu sama lain. Tabel 9 menampilkan hasil. Pertama, model MANOVA keseluruhan adalah signifikan (F = 2,23, P = 0,01), memberikan dukungan awal untuk gagasan bahwa variabel-variabel tersebut dapat diprediksi dengan mengetahui ke segmen mana milik pelanggan HBAT. Individu univariat Fstatistik juga signifikan, lanjut memverifikasi temuan ini.
Hasil menunjukkan, karena itu, bahwa solusi cluster dapat memprediksi hasil utama lainnya, yang menyediakan bukti validitas kriteria. Misalnya, cluster 2, yang diyakini HBAT adalah menerima bisnis yang lebih berdasarkan profil klaster (dijelaskan di atas), menampilkan skor tertinggi pada masing-masing variabel hasil kunci ini. Dengan demikian, HBAT mungkin akan menemukan solusi klaster berguna dalam memprediksi hasil kunci lain dan membentuk strategi yang tepat.
Profil Cluster Solusi Akhir. Tugas terakhir adalah profil cluster pada set variabel tambahan yang tidak termasuk dalam variate pengelompokan atau digunakan untuk menilai validitas prediktif. Pentingnya mengidentifikasi profil unik pada variabel-variabel tambahan dalam menilai baik signifikansi praktis dan teori dasar cluster diidentifikasi. Dalam menilai signifikansi praktis, peneliti sering membutuhkan bahwa cluster menunjukkan perbedaan pada set variabel tambahan.
Dalam contoh ini, lima karakteristik pelanggan HBAT tersedia. Ini termasuk X1 (Customer Type), X2 (Jenis Industri), X3 (Firm Size), X4 (Region), dan X5 (Sistem
Distribusi). Masing-masing variabel adalah nonmetric, mirip dengan anggota cluster yang mewakili variabel untuk setiap pengamatan. Dengan demikian, klasifikasi silang digunakan
untuk menguji hubungan.
Hasil dari klasifikasi silang diberikan dalam Tabel 10. signifikan nilai chi-square yang diamati untuk tiga dari lima variabel profil. Beberapa pola yang jelas. Misalnya, klaster 4 hampir seluruhnya terdiri dari pelanggan dari luar Amerika Serikat / Amerika Utara (26 dari 27). Sebaliknya, cluster 2 terdiri terutama dari pelanggan dari Amerika Serikat / Amerika Utara. Dari variabel-variabel ini, profil khas dapat dikembangkan untuk setiap cluster. profil tersebut mendukung kekhasan dari kelompok pada variabel tidak digunakan dalam analisis pada setiap titik sebelumnya. Sebuah analisis segmentasi sukses tidak hanya membutuhkan identifikasi homogeny kelompok (cluster), tetapi juga bahwa kelompok yang homogen dapat diidentifikasi (unik dijelaskan oleh variabel lain). Ketika analisis cluster digunakan untuk memverifikasi tipologi atau pengelompokan diusulkan lain dari objek, variabel-baik terkait anteseden atau hasil biasanya diprofilkan untuk memastikan korespondensi dari kelompok yang diidentifikasi dalam model teoritis yang lebih besar.
MENELITI SEBUAH SOLUSI KLASTER ALTERNATIF: TAHAP-TAHAP 4, 5, dan 6 Solusi empat cluster diperiksa pertama karena memiliki penurunan terbesar dalam koefisien error jadwal aglomerasi (selain dua kelompok solusi-lihat Tabel 7). Tim manajemen HBAT kemudian dianggap melihat kedua solusi lima cluster dan tiga cluster. Setelah refleksi,
manajemen menyarankan bahwa sejumlah kecil dari cluster berarti segmen pasar yang lebih sedikit untuk mengembangkan strategi terpisah, dan hasilnya kemungkinan akan biaya yang lebih rendah untuk menjalankan strategi. Selain itu, solusi tiga klaster tidak hanya memiliki cluster yang lebih sedikit, tetapi juga dipamerkan kenaikan terbesar kedua di heterogenitas dari tiga kelompok untuk dua, menunjukkan bahwa tiga cluster secara substansial lebih
berbeda dari dua. Akibatnya, tim peneliti memutuskan untuk meneliti solusi tiga klaster nonhierarchical. Hasil solusi tiga klaster ditunjukkan pada Tabel 11. Cluster 1 memiliki 44 pelanggan, sedangkan cluster 2 dan 3 masing-masing memiliki 27 pelanggan. perbedaan signifikan antara tiga kelompok pada tiga variabel-X6, X12, dan X15-sehingga solusinya adalah membedakan antara tiga kelompok pelanggan. Menafsirkan cluster, kita meneliti baik sarana dan nilai rata-rata yang berpusat. HBAT dirasakan sangat tidak baik oleh klaster 1. Tiga variabel (X12, X15, dan X18) yang dinilai sangat buruk, sedangkan X8 hanya rata-rata (5,3). Hanya X6 (Kualitas Produk) berperingkat menguntungkan (8,4). Dengan demikian, HBAT pasti melakukan buruk dengan cluster 1 dan
peningkatan kebutuhan. Cluster 2 views HBAT lebih menguntungkan daripada cluster 1 dengan satu pengecualian besar. HBAT melakukan sedikit di atas rata-rata pada empat dari lima variabel (X8, X12, X15, dan X18) menurut klaster 2. skor pada X12 (5.7) jelas merupakan tertinggi di antara semua kelompok. Namun, rating pada X6 adalah 6,1. Ini adal ah jauh terendah Peringkat dari variabel ini di tiga cluster. HBAT demikian keseluruhan melihat sedikit lebih baik oleh cluster 2 dari cluster 1, tetapi memiliki masalah dengan persepsi kualitas produk relatif terhadap kelompok lain. Cluster 3 pelanggan melihat HBAT relatif menguntungkan. Memang, HBAT melakukan cukup tinggi pada X6 (Kualitas Produk) dan tertinggi dari semua segmen pelanggan pada X15 (Produk Baru). Dengan demikian, HBAT dapat mempertimbangkan mempertahankan penekanan pada kebaruan dan inovasi di antara pelanggan di grup ini. Validitas kriteria untuk solusi tiga klaster diperiksa menggunakan pendekatan yang sama seperti dengan solusi empat cluster. Variabel x19, X20, X21, dan X22 diserahkan ke analisis MANOVA sebagai variabel dependen, dan variabel independen adalah anggota cluster. The keseluruhan F-statistik untuk MANOVA, serta univariat F-statistik, semua signifikan, sehingga memberikan bukti validitas kriteria. Tugas terakhir adalah profil tiga cluster sehingga manajemen dapat menentukan karakteristik setiap cluster dan target mereka dengan strategi yang berbeda. Hasil dari klasifikasi silang diberikan dalam Tabel 12. Seperti yang telah ditentukan sebelumnya, nilai chi-square yang signifikan diamati untuk tiga dari lima variabel profil. Beberapa pola yang jelas. Misalnya, cluster 2 terdiri seluruhnya dari pelanggan dari luar Amerika Serikat / Amerika Utara (27 dari 27). Sebaliknya, cluster 1 dan 3 yang agak terbagi rata antara pelanggan dari USA / Amerika Utara. Perbedaan lain menunjukkan bahwa cluster 2 pelanggan tidak antara pelanggan yang telah dengan HBAT terpanjang. profil ini juga mendukung kekhasan dari kelompok pada variabel tidak digunakan dalam analisis pada setiap titik sebelumnya. Selain itu, temuan ini dapat digunakan untuk mengembangkan strategi yang berbeda untuk setiap cluster pelanggan. Pertanyaan yang tersisa: cluster solusi mana yang terbaik? Setiap solusi, termasuk solusi fivecluster, yang tidak dibahas, memiliki kekuatan dan kelemahan. Empat cluster dan fivecluster solusi menyediakan lebih diferensiasi antara pelanggan, dan masing-masing klaster merupakan set yang lebih kecil dan lebih homogen dari pelanggan. Sebaliknya, solusi tiga klaster lebih pelit dan cenderung lebih mudah dan lebih murah untuk manajemen HBAT untuk melaksanakan. Jadi, pada akhirnya, pertanyaan yang terbaik adalah tidak oleh ditentukan oleh hasil statistik saja. Tinjauan Manajerial Proses Clustering. Cluster analisis (hirarkis dan nonhierarchical) berhasil dalam melakukan segmentasi pasar pelanggan HBAT. Proses ini tidak hanya menciptakan pengelompokan homogen dari pelanggan berdasarkan persepsi mereka terhadap HBAT, tetapi juga menemukan bahwa kelompok ini bertemu pengujian validitas prediktif dan kekhasan pada set tambahan dari variabel, yang semuanya diperlukan untuk mencapai signifikansi praktis. Segmen mewakili perspektif pelanggan cukup berbeda dari HBAT, bervariasi di kedua jenis variabel yang dipandang paling positif serta besarnya