DATA MINING FINAL PROJECT Laporan Laporan ini diajukan diajukan untuk untuk memenuhi memenuhi tugas tugas Mata Kuliah Data Data Mining Mining Tahun 2013/2014
Disusun Oleh: 117006118
SAEPUL MILLAH
TEKNIK INFORMATIKA FAKULTAS TEKNIK UNIVERSITAS SILIWANGI
Jln. Siliwangi no. 24 tasikmalaya tasikmalaya kotak pos 164 tlp. (0265) (0265) 323537
E-mail :
[email protected] ; url : www.unsil.ac.id 2014
KATA PENGANTAR
Puji dan syukur kami ucapkan ke hadirat Allah SWT, bahwasannya atas segala pertolon pertolongan gan-Ny -Nyaa penyusun penyusun dapat dapat menyeles menyelesaikan aikan makalah makalah ini walaupun walaupun masih masih banyak banyak sekali kekurangannya. Shalawat dan salam semoga dilimpah curahkan kepada junjungan alam Nabi Muhammad SAW, yang menjadi panutan di muka bumi ini. Tujuan penyusunan penyusunan ini adalah untuk menyelesaikan menyelesaikan salah satu tugas besar Data Mining, melalui tugas yang diberikan dosen kepada penyusun. Makalah ini disusun guna memenuhi tugas mata kuliah Data Mining tahun pelajaran 2013/2014. Walaupun begitu penyusun menyadari sepenuhnya dalam pembuatan laporan ini masih banyak sekali kekurangan baik dalam penulisan ataupun dalam penyusunan sumbersumbe sumber. r. Untuk Untuk itu maka maka peny penyusu usun n mengh menghara arapka pkan n dari dari semua semua pihak pihak untuk untuk ikut ikut adil adil memperbaiki laporan ini agar lebih sempurna lagi. Akhirnya penyusun memohon kepada Allah SWT, semoga makalah ini berguna bagi penyusun sendiri khususnya dan bagi para pembaca umumnya.
Tasikmalaya, 24 Juni 2014
Penyusun
i
DAFTAR ISI Kata Pengantar ........................................................................................................................................i Daftar Isi...................................................................................................................................... ii BAB I PENDAHULUAN................................................................................................................... 1 A. PENDAHULUAN................................................................................................................ 1 B. RUMUSAN MASALAH....................................................................................................... 1 C. TUJUAN ........................................................................................................................... 1 BAB II PEMBAHASAN ................................................................................................................... 2 1. PEMBAHASAN TEORITIS................................................................................................... 2 2. METODOLOGI .................................................................................................................. 5 3. PENGUMPULAN DAN PENGOLAHAN DATA ....................................................................... 6 4. ANALISIS DAN PEMBAHASAN ......................................................................................... 11 5. HASIL KESELURUHAN ..................................................................................................... 17 BAB III KESIMPULAN DAN SARAN ............................................................................................... 18 A. KESIMPULAN ................................................................................................................. 18 B. SARAN........................................................................................................................... 18 DAFTAR PUSTAKA...................................................................................................................... 19
ii
BAB I PENDAHULUAN A. PENDAHULUAN
Penemuan pattern dari data medis dalam dunia kedokteran saat ini menjadi fokus yang cukup penting. Dalam hal ini, pentingnya peranan data Mining akan mampu memberikan hasil yang optimal serta merupakan solusi yang potensial, khususnya bagi knowledge Discovery techniques. Konsumsi minuman beralkohol di dunia saat ini cukup banyak ditemui pada masyarakat, khususnya pada negara-negara Eropa dan Amerika. Sayangnya, hal tersebut memiliki efek yang kurang baik bagi kesehatan. Di samping itu, konsumsi minuman beralkohol yang berlebih juga mampu merusak fungsi hati sebagai organ vital manusia.
B. RUMUSAN MASALAH
Berdasarkan Latar belakang diatas maka rumusan masalahnya adalah : 1. Pembahasan Teoritis Data Mining, Weka, Alkohol. 2. Algoritma J48 dan Simple K-MEANS? 3. Perhitungan Data diagnosa Alcoholic Liver Disease (ALD) dengan menggunakan metode klasifikasi maupun Clustering?
C. TUJUAN
Tujuan pembuatan laporan ini : a) Untuk Mengenal secara menyeluruh Konsep dasar tahapan data Mining yang dilakukan. b) Untuk bisa memahami fungsi dari setiap tahapan Data Mining. c) Untuk memahami alur penyelesaian kasus dalam tahapan data Mining dengan menggunakan Algoritma J48 dan Simple K-Means
1
BAB II PEMBAHASAN
1. PEMBAHASAN TEORITIS
A. ALKOHOL
Minuman beralkohol adalah minuman yang mengandung etanol. Etanol adalah bahan psikoaktif dan konsumsinya menyebabkan penurunan kesadaran. Etanol ialah sejenis bahan kimia yang berupaya menekankan aktivitas otak, justru mengubah kewibawaan akal pikiran. Minuman beralkohol dibuat dengan cara fermentasi dari bahan baku yang mengandung pati atau gula tinggi. Penggunaan alkohol secara berterusan untuk jangka masa yang lama boleh menyebabkan kesan toleransi yaitu peminum terpaksa mengambil ramuan yang semakin banyak bagi mendapatkan kesan yang serupa. Di berbagai negara, penjualan minuman beralkohol dibatasi ke sejumlah kalangan saja, umumnya orang-orang yang telah melewati batas usia tertentu. Kandungan alkohol di atas 40 gram untuk pria setiap hari atau di atas 30 gram untuk wanita setiap hari dapat berakibat kerusakan pada organ/bagian tubuh peminumnya.
B. ALCOHOLIC LIVER DISEASE (ALD)
Hati adalah organ vital hadir dalam vertebrata. Sampai saat ini, masih belum ada cara untuk mentolerir ketiadaan fungsi hati. Banyak gangguan hati dapat terjadi seperti penyakit akibat alkohol hati. Penyakit kelainan hati akibat alkohol atau Alcoholic Liver Disease (ALD) adalah akibat potensial yang diakibatkan oleh konsumsi alkohol. Diagnosis dari ALD dapat didasarkan dari beberapa hal, yakni data-data historis konsumsi alkohol, tanda-tanda fisik, serta tes laboratorium. Studi ini akan menggunakan data mengenai Alcoholic Liver Disease (ALD) dari UCI Machine Learning Repository. Secara keseluruhan, data ALD mengandung 7 atribut yang dijelaskan pada tabel berikut.
2
Tabel 1. Deskripsi Atribut pada Data ALD
Lima atribut pertama diperoleh dari hasil laporan tes darah yang dianggap sensitif terhadap gangguan hati yang mungkin timbul dari konsumsi alkohol yang berlebihan. Variabel keenam, yakni 'miras', berisikan pengukuran konsumsi alkohol, dan variabel terakhir adalah variabel 'Class' yang merupakan class atribut pada data.
C. DATA MINING
Secara umum, data Mining dapat disebut juga dengan knowledge discovery. Definisi dari data Mining adalah sebuah proses menganalisis data dari perspektif yang berbeda dan merangkumnya menjadi sebuah informasi yang berguna, informasi berguna ini contohnya informasi yang dapat digunakan untuk meningkatkan pendapatan, mengurangi biaya atau bahkan keduanya. Software data Mining adalah salah satu dari sejumlah alat-alat analisis untuk menganalisis data yang ada. Hal ini memungkinkan pengguna untuk menganalisis data dari berbagai dimensi atau sudut pandang, mengkategorikan dan merangkumnya, mengidentifikasi hubungannya. Secara teknis, data Mining adalah proses menemukan korelasi atau pola antara puluhan field dalam satu basis data yang besar dan memiliki relasi.
3
D. CLASSIFICATION METHOD
Metode klasifikasi adalah suatu proses untuk mengelompokkan sejumlah data ke dalam kelas-kelas tertentu yang sudah ditentukan berdasarkan kesamaan sifat dan pola yang ada dalam data-data tersebut. Umumnya, proses klasifikasi dimulai dengan diberikannya sejumlah data yang dijadikan acuan untuk membuat aturan klasifikasi data. Data-data ini biasa disebut dengan Training set. Dari Training set itu kemudian dibuat sebuah model untuk mengklasifikasikan data. Model tersebut kemudian dijadikan sebagai acuan untuk mengklasifikasikan data-data yang belum diketahui kelasnya, ini disebut dengan Test set. Beberapa metode klasifikasi adalah dengan menggunakan pohon Keputusan (decision tree), kaidah (rule), Memory Based Reasoning, Neural Networks, Naïve Bayes, dan Support Vector Machine.
E. CLUSTERING METHOD
Metode clustering digunakan untuk menganalisis pengelompokkan terhadap data, mirip dengan klasifikasi, namun pengelompokkan belum didefinisikan sebelum dijalankannya tool data Mining. Biasanya menggunakan metode Neural network atau statistik. Clustering membagi item menjadi kelompok-kelompok berdasarkan temuan yang ditemukan tool data Mining. Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar cluster. Clustering dapat dilakukan pada data yang memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi.
F. WEKA
WEKA (Wakaito Environment for Knowledge Analysis) adalah aplikasi yang dikembangkan oleh University of Waikato, New Zealand. WEKA menyediakan banyak metode-metode untuk data Mining seperti re-processing, classification, clustering, regression,association dan beberapa metode lainnya. Sebagian besar kasus yang bertujuan untuk menganalisis pengelompokkan data umumnya menggunakan metode klasifikasi dan klastering. Berikut ini merupakan beberapa jenis classifier yang ada pada metode klasifikasi maupun metode klastering.
1) J48
J48 merupakan salah satu jenis classifier pada metode klasifikasi dalam data Mining. J48 classifier adalah C4.5 decision tree yang sederhana. Ini menciptakan sebuah binary tree. Pendekatan decision tree adalah hal yang paling penting dalam masalah klasifikasi. Dengan 4
menggunakan teknik ini, sebuah tree dibentuk untuk model proses klasifikasi. Setelah tree dibentuk, itu diterapkan untuk setiap record dalam database dan hasil dalam klasifikasi record itu.
2) SIMPLE K-MEANS
Simple K-Means merupakan salah satu jenis classifier pada metode klastering dalam data Mining. K-Means adalah suatu metode analisis data atau metode data Mining yang melakukan proses pemodelan tanpa supervisi (unsupervised) dan merupakan salah satu metode yang melakukan pengelompokan data dengan sistem partisi. Metode k-means berusaha mengelompokkan data yang ada ke dalam beberapa kelompok, dimana data dalam satu kelompok mempunyai karakteristik yang sama satu sama lainnya dan mempunyai karakteristik yang berbeda dengan data yang ada di dalam kelompok yang lain. Dengan kata lain, metode ini berusaha untuk meminimalkan variasi antar data yang ada di dalam suatu cluster dan memaksimalkan variasi dengan data yang ada di cluster lainnya.
2. METODOLOGI
Metodologi yang digunakan meliputi tiga proses utama, yakni: (1)input, (2)proses, dan (3)output. Gambaran metodologi tersebut dapat dilihat pada gambar berikut.
Gambar 1. Metode Pengerjaan
Adapun tahapan pengelolaan data akan dibagi lagi ke dalam dua proses, yakni:
•
Proses Klasifikasi dengan Tree J48
Metode ini digunakan untuk mengelompokkan data ke dalam dua class yang berbeda, yakni: (1)cukup beresiko, dan (2)sangat beresiko. Proses ini akan melibatkan beberapa pilihan test, yakni: Use Training Set, Supplied Test Set, Cross Validation, dan Percentage Split. 5
•
Proses Clustering dengan Simple K-Means
Proses ini juga akan melibatkan beberapa pilihan test, yakni: Use Training Set, Supplied Test Set, Cross Validation, dan Percentage Split.
Gambar 2. Teknik Pengolahan Data
3. PENGUMPULAN DAN PENGOLAHAN DATA
A. DATA ALCOHOLIC LIVER DISEASE
Data yang akan digunakan dalam proses pengolahan terdiri atas data Training dan data testing. 1) TRAINING
Data Training yang digunakan berisikan sebanyak 190 line data yang mengandung ketujuh atribut yang telah dijelaskan di awal. Berikut ini merupakan beberapa data Training yang akan digunakan.
6
Gambar 3. Raw Data Training 2) TESTING
Data testing terdiri atas 155 line data (jumlah yang lebih sedikit dibandingkan dengan data Training). Berikut ini merupakan beberapa data Training yang akan digunakan.
Gambar 4. Raw Data Testing
B. PEMBUATAN DATA INPUT
Dikarenakan pengolahan data selanjutnya akan dilakukan menggunakan aplikasi WEKA, maka format data input harus diolah terlebih dahulu agar aplikasi dapat membaca set data yang ada. Dalam hal ini, akan digunakan data input dengan format C45. Data ini terdiri atas dua bagian, yakni file.names serta file.data, dimana file.names akan berisikan mengenai entri mengenai class, atribut, serta nilai dari set data. Berikut ini merupakan file.names yang digunakan.
Gambar 5. file.names
File.data mengandung contoh data yang membentuk set data. Terdapat dua file.data yakni untuk set data Training serta untuk set data testing. 7
Gambar 6. Data input Training
Gambar 7. Data input testing
C. PENGOLAHAN DATA PADA WEKA
Langkah selanjutnya yang dilakukan yaitu proses pengolahan data (Explorer) dengan menggunakan aplikasi WEKA.
8
Gambar 8. WEKA GUI
Data input (Training) yang telah diolah sebelumnya, akan dimasukkan dan diolah dengan metode klasifikasi maupun Clustering. Gambar berikut menampilkan bahwa pada data Training, terdapat 78 orang yang cukup beresiko terhadap ALD, sedangkan 112 orang lainnya telah tergolong sangat beresiko mengenai ALD.
Gambar 9. Instances dalam Pengujian
1) CLASSIFICATION
Metode klasifikasi pada WEKA akan menggunakan classifier tree J48. Pemilihan classifier tersebut ditampilkan pada gambar berikut.
9
Gambar 10. Classifier Tree J48
2) CLUSTERING
Metode Clustering menggunakan Simple K-MEANS diharapkan akan membentuk sebanyak dua cluster. Pengaturan cluster tersebut ditampilkan pada gambar berikut.
Gambar 11. Pengaturan cluster
10
4. ANALISIS DAN PEMBAHASAN
A. CLASSIFICATION
Hasil pengolahan data menggunakan classifier tree J48 menghasilkan sebanyak 10 leaf node.
Gambar 12. Tree dan Leaves
Gambaran tree yang dibentuk oleh Training data adalah sebagai berikut.
Gambar 13. Visualisasi Tree
1) Use Training Set
Pengolahan klasifikasi data ALD pada tree J48 dengan pilihan tes untuk set data Training, menghasilkan data sebagai berikut.
11
Gambar 16. Hasil Cross Validation
•
Akurasi yang diperoleh adalah 61,5789% dengan jumlah correctly classified instances sebanyak 90.
•
Jumlah incorrectly classified instances adalah sebanyak 73 atau 38,4211%.
•
Hasil akar dari mean squared error adalah 0,5475.
4) Percentage split
Pilihan tes untuk set data Training, dengan pembagian prosentase 66% untuk Training dan 34% untuk testing menghasilkan data sebagai berikut.
Gambar 17. Hasil Percentage split
12
•
Akurasi yang diperoleh adalah 56,9231% dengan jumlah correctly classified instances sebanyak 37.
•
Jumlah incorrectly classified instances adalah sebanyak 28 atau 43,0769%.
•
Hasil akar dari mean squared error adalah 0,4961.
B. CLUSTERING
1) Use Training Set
Pengolahan klasifikasi data ALD pada simple K-Means dengan pilihan tes untuk set data training, menghasilkan data sebagai berikut.
Gambar 18. Hasil Use Training Set
•
Jumlah iterasi yang diperoleh yakni sebanyak 2 iterasi.
•
Nilai SSE (Sum of Squared Error) antar kluster adalah 24,62.
•
Waktu yang dibutuhkan dalam membuat model adalah 0,02 detik.
•
Data yang terbentuk oleh kedua kluster, terbagi atas diagnosa sangat beresiko serta cukup beresiko.
13
2) Supplied Test Set
Pilihan tes untuk set data testing, menghasilkan data sebagai berikut.
Gambar 19. Hasil Supplied Test Set
•
Jumlah iterasi yang diperoleh yakni sebanyak 2 iterasi.
•
Nilai SSE (Sum of Squared Error) antar kluster adalah 24,62.
•
Waktu yang dibutuhkan dalam membuat model adalah 0 detik.
•
Data yang terbentuk oleh kedua kluster, terbagi atas diagnosa sangat beresiko serta cukup beresiko.
3) Cross Validation
Pilihan tes untuk cross validation, dengan jumlah folds sebanyak 10 menghasilkan data sebagai berikut.
14
Gambar 20. Hasil Cross Validation
•
Jumlah iterasi yang diperoleh yakni sebanyak 6 iterasi.
•
Nilai SSE (Sum of Squared Error) antar kluster adalah 62,91.
•
Waktu yang dibutuhkan dalam membuat model adalah 0 detik.
•
Data yang terbentuk oleh kedua kluster, hanya mencakup atas diagnosa sangat beresiko saja.
4) Percentage split
Pilihan tes untuk set data training, dengan pembagian prosentase 66% untuk training dan 34% untuk testing menghasilkan data sebagai berikut.
15
Gambar 21. Hasil Percentage split
•
Jumlah iterasi yang diperoleh yakni sebanyak 6 iterasi.
•
Nilai SSE (Sum of Squared Error) antar kluster adalah 18,42.
•
Waktu yang dibutuhkan dalam membuat model adalah 0,01 detik.
•
Pada percentage split, dapat ditunjukkan bahwa terdapat 92 incorrectly clustered instances atau sejumlah 48,4211%.
Gambar 22. Assignment Percentage split 16
5. HASIL KESELURUHAN
Hasil yang diperoleh dari keseluruhan tes pengolahan data dapat dilihat pada tabel-tabel berikut.
Tabel 2. Hasil Classification pada WEKA
Untuk pengolahan data dengan metode klasifikasi, diperoleh tingkat akurasi yang cukup tinggi, yakni diatas 50% untuk masing-masing tes. Namun, menimbang jumlah incorrectly classified instances, correctly classified instances, dan mean er ror jenis tes yang baik digunakan adalah Use training set dengan jumlah paling minimal incorrectly classified instances 39, tingkat akurasi tertinggi yakni 79,473%, dan mean Error paling minimal sebanyak 0,3887.
Tabel 3. Hasil Clustering pada WEKA
Untuk pengolahan data dengan metode Clustering, dengan menimbang hasil keseluruhan, maka tes yang sesuai adalah Use training set dan Supplied test set. Namun dari segi kecepatan, Supplied test set sedikit lebih unggul dibandingkan Use training set.
17
BAB III KESIMPULAN DAN SARAN
A. KESIMPULAN
Data diagnosa Alcoholic Liver Disease (ALD) dapat diolah dengan baik menggunakan metode klasifikasi maupun Clustering yang diproses menggunakan Software WEKA. Pemilihan metode dan jenis tes yang diperlukan dapat disesuaikan dengan tujuan maupun kebutuhan yang ingin diolah selanjutnya.
B. SARAN
pengolahan Data diagnosa Alcoholic Liver Disease diharapkan dapat dikembangkan kembali dengan menggunakan metode lain dan menggunakan Software analisis data Mining yang berbeda.
18
DAFTAR PUSTAKA
Rayned Alfred, 2008, Data mining, Academia.edu (https://www.academia.edu/769175/A_Data_Summarization_Approach_to_Knowledge_Disc overy) di akses pada 24 juni 2014 pukul 16.10 WIB Ika Nurlaily Isnainiah, 2008, Clasification Clustering ADL, Academia.edu (https://www.academia.edu/7019870/Uji_Coba_Classification_dan_Clustering_pada_Data_A lcoholic_Liver_Disease_Data_Mining_Experimental_on_the_data_of_ALD_) diakses pada 24 juni 2014 pukul 16.10 WIB Yudho Giri Sucahyo, 2003, Penerapan Data Mining, Artikel Populer IlmuKomputer.Com (Artikel Internet www.google.com) diakses pada 24 juni 2014 pukul 16.15 WIB Iko Pramudiono, 2003, Pengantar Data Mining, Kuliah Umum IlmuKomputer.Com (Artikel Internet www.google.com) diakses pada 24 juni 2014 pukul 16.15 WIB Radhiyatul Fajri, 2011, “WEKA [software for Data Mining]” http://radhiyatulfajri.wordpress.com/2011/11/08/weka-software-for-datamining/ , diakses pada 24 juni 2014 pukul 17.11 WIB
19