[KNOWLEDGE DISCOVERY IN DATABASE ]
Data Mining Perkem Perkemban bangan gan data data minin mining(D g(DM) M) yang yang pesat pesat tidak tidak dapat dapat lepas lepas dari dari perkem perkemban bangan gan teknol teknologi ogi informasi informasi yang memungkinkan memungkinkan data dalam jumlah besar terakumulasi. terakumulasi. Sebagai contoh, contoh, toko swalayan merekam setiap penjualan barang dengan memakai alat PS (point of sales). Database data penjualan tsb. bisa mencapai beberapa !" setiap harinya untuk sebuah jaringan toko swalayan berskala nasional. Perkembangan Perkembangan internet juga punya punya andil cukup besar dalam dalam akumulasi data. Data mining dapat didefinisikan sebagai proses eksplorasi dan analisis, secara otomatis atau semi otomatis dari sekumpulan data dalam ukuran besar dengan tujuan untuk menemukan pola dan aturan aturan yang yang berman bermanfaa faat. t. Data Data minin mining g merupa merupakan kan salah salah satu satu tahapa tahapan n dalam dalam proses proses Knowledge Discovery in Database Database.. Data Mining sebagai sebagai proses dalam #nowledge #nowledge Disco$ery Disco$ery in Data (#DD). Data mining adalah elemen utama dalam proses knowledge discovery, discovery , lengkapnya seperti pada gambar berikut.
%rsitektur Data %rsitektur Data Mining dapat dapat dilihat pada gambar berikut.
[KNOWLEDGE DISCOVERY IN DATABASE ]
&ugas'tugas dalam data mining secara umum dibagi ke dalam dua ketegori utama •
•
Predikti . Memprediksi atribut target ($ariabel tak bebas) berdasarkan atribut'atribut lainnya ($ariabel bebasexplanatory) De!kri"ti . Menemukan pola'pola yang meringkas hubungan dalam data.
Teknik#Teknik Data Mining Dengan definisi DM yang luas, ada banyak jenis teknik analisa yang dapat digolongkan dalam DM. #arena keterbatasan tempat, disini akan memberikan sedikit gambaran tentang tiga teknik DM yang paling populer. Association Rule Mining Association rule mining adalah teknik mining untuk menemukan aturan assosiatif antara suatu kombinasi item. *ontoh dari aturan assosiatif dari analisa pembelian di suatu pasar swalayan adalah bisa diketahui berapa besar kemungkinan seorang pelanggan membeli roti bersamaan dengan susu. Dengan pengetahuan tsb. pemilik pasar swalayan dapat mengatur penempatan barangnya atau merancang kampanye pemasaran dengan memakai kupon diskon untuk kombinasi barang tertentu. Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter, support yaitu persentase kombinasi item tsb. dalam database dan confidence yaitu kuatnya hubungan antar item dalam aturan assosiatif.
%lgoritma yang paling populer dikenal sebagai %priori dengan paradigma generate and test, yaitu pembuatan kandidat kombinasi item yang mungkin berdasar aturan tertentu lalu diuji apakah kombinasi item tersebut memenuhi syarat support minimum. #ombinasi item yang memenuhi
[KNOWLEDGE DISCOVERY IN DATABASE ]
syarat tsb. disebut frequent itemset , yang nantinya dipakai untuk membuat aturan'aturan yang memenuhi syarat confidence minimum. %lgoritma baru yang lebih efisien bernama +P'&ree. Classification *lassification adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Model itu sendiri bisa berupa aturan jika'maka-, berupa decision tree, formula matematis atau neural network . Proses classification biasanya dibagi menjadi dua fase learning dan test . Pada fase learning, sebagian data yang telah diketahui kelas datanya diumpankan untuk membentuk model perkiraan. #emudian pada fase test model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi dari model tsb. "ila akurasinya mencukupi model ini dapat dipakai untuk prediksi kelas data yang belum diketahui. Clustering "erbeda dengan association rule mining dan classification dimana kelas data telah ditentukan sebelumnya, clustering melakukan penge'lompokan data tanpa berdasarkan kelas data tertentu. "ahkan clustering dapat dipakai untuk memberikan label pada kelas data yang belum diketahui itu. #arena itu clustering sering digolongkan sebagai metode unsupervised learning .
Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelascluster. *lustering dapat dilakukan pada data yan memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi. lustrasi dari clustering dapat dilihat di !ambar / dimana lokasi, dinyatakan dengan bidang dua dimensi, dari pelanggan suatu toko dapat dikelompokkan menjadi beberapa cluster dengan pusat cluster ditunjukkan oleh tanda positif (0). "anyak algoritma clustering memerlukan fungsi jarak untuk mengukur kemiripan antar data, diperlukan juga metode untuk normalisasi bermacam atribut yang dimiliki data. "eberapa kategori algoritma clustering yang banyak dikenal adalah metode partisi dimana pemakai harus menentukan jumlah k partisi yang diinginkan lalu setiap data dites untuk dimasukkan pada salah satu partisi, metode lain yang telah lama dikenal adalah metode hierarki yang terbagi dua lagi bottom'up yang menggabungkan cluster kecil menjadi cluster lebih besar dan top'down yang memecah cluster besar menjadi cluster yang lebih kecil. #elemahan metode ini adalah bila bila salah satu penggabunganpemecahan dilakukan pada tempat yang salah, tidak dapat didapatkan cluster yang optimal. Pendekatan yang banyak diambil adalah menggabungkan metode hierarki dengan metode clustering lainnya seperti yang dilakukan oleh *hameleon.
[KNOWLEDGE DISCOVERY IN DATABASE ]
Kn$%&edge Di!'$(er) in Data*a!e #DD ( Knowledge Discovery in Database) merupakan keseluruhan proses kon$ersi data mentah menjadi pengetahuan yang bermanfaat yang terdiri dari serangkaian tahap transformasi meliputi data preprocessing dan postprocessing . "erdasarkan gambar di atas proses #DD secara garis besar dapat dijelaskan sebagai berikut a. Data Selection Pemilihan ( selection) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam #DD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining , disimpan dalam suatu berkas, terpisah dari basis data operasional. b. Pre-processing Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus #DD. Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak ( tipografi). 1uga dilakukan proses enrichment , yaitu proses memperkaya- data yang sudah ada dengan data atau informasi lain yang rele$an dan diperlukan untuk #DD, seperti data atau informasi eksternal. c. Transformation Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining . Proses coding dalam #DD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data. d. Data mining Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. &eknik, metode, atau algoritma dalam data mining sangat ber$ariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses #DD secara keseluruhan. e. Interpretation Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. &ahap ini merupakan bagian dari proses #DD yang disebut dengan interpretatio n. &ahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya.
[KNOWLEDGE DISCOVERY IN DATABASE ]
Te+t Mining &e2t mining adalah salah satu bidang khusus dari data mining . Sesuai dengan buku The Text Mining andbook , te2t mining dapat didefinisikan sebagai suatu proses menggali informasi dimana seorang user berinteraksi dengan sekumpulan dokumen menggunakan tools analisis yang merupakan komponenkomponen dalam data mining yang salah satunya adalah kategorisasi. &ujuan dari text mining adalah untuk mendapatkan informasi yang berguna dari sekumpulan dokumen. 1adi, sumber data yang digunakan pada text mining adalah kumpulan teks yang memiliki format yang tidak terstruktur atau minimal semi terstruktur. %dapun tugas khusus dari text mining antara lain yaitu pengkategorisasian teks !text categori"ation# dan pengelompokan teks !text clustering#. Text mining bisa dianggap subjek riset yang tergolong baru. &e2t mining dapat memberikan solusi dari permasalahan seperti pemrosesan, pengorganisasian pengelompokkan dan menganalisa unstructured te2t dalam jumlah besar. Dalam memberikan solusi, te2t mining mengadopsi dan mengembangkan banyak teknik dari bidang lain, seperti Data mining, nformation 3etrie$al, Statistik dan Matematik, Machine 4earning, 4inguistic, 5atural 4anguange Processing, dan 6isuali7ation. #egiatan riset untuk te2t mining antara lain ekstraksi dan penyimpanan te2t, preprocessing akan konten te2t, pengumpulan data statistik dan inde2ing dan analisa konten. Permasalahan yang dihadapi pada te2t mining sama dengan permasalahan yang terdapat pada data mining, yaitu jumlah data yang besar, dimensi yang tinggi, data dan struktur yang terus berubah, dan data noise$ Perbedaan di antara keduanya adalah pada data yang digunakan. Pada data mining, data yang digunakan adalah structured data, sedangkan pada te2t mining, data yang digunakan te2t mining pada umumnya adalah unstructured data, atau minimal semistructured . 8al ini menyebabkan adanya tantangan tambahan pada te2t mining yaitu struktur te2t yang comple2 dan tidak lengkap, arti yang tidak jelas dan tidak standard, dan bahasa yang berbeda ditambah translasi yang tidak akurat. K$&ek!i D$k,-en
Salah satu elemen kunci dari text mining adalah kumpulan dokumen yang berbasis teks. Pada prakteknya, text mining ditujukan untuk menemukan pola dari sekumpulan dokumen yang jumlahnya sangat besar dan bisa mencapai jumlah ribuan bahkan sampai jutaan. #oleksi dokumen bisa statis, dimana dokumen tidak berubah, atau dinamis, dimana dokumen selalu di update sepanjang waktu. Re"re!enta!i eat,re "ada d$k,-en
%lgoritma yang digunakan pada te2t mining, biasanya tidak hanya melakukan perhitungan hanya pada dokumen, tetapi pada juga feature. 9mpat macam feature yang sering digunakan :. *haracter, merupakan komponan indi$idual, bisa huruf, angka, karakter spesial dan spasi, merupakan block pembangun pada le$el paling tinggi pembentuk semantik feature, seperti kata,term dan concept.Pada umumnya, representasi character'based ini jarang digunakan pada beberapa teknik pemrosesan teks.
[KNOWLEDGE DISCOVERY IN DATABASE ]
;.
Struktur data yang baik dapat memudahkan proses komputerisasi secara otomatis. Pada te2t mining, informasi yang akan digali berisi informasi'informasi yang strukturnya sembarang. leh karena itu, diperlukan proses pengubahan bentuk menjadi data yang terstruktur sesuai kebutuhannya untuk proses dalam data mining , yang biasanya akan menjadi nilai'nilai numerik. Proses ini sering disebut &e2t Preprocessing. Setelah data menjadi data terstruktur dan berupa nilai numerik maka data dapat dijadikan sebagai sumber data yang dapat diolah lebih lanjut. Ek!trak!i D$k,-en
&eks yang akan dilakukan proses text mining , pada umumnya memiliki beberapa karakteristik diantaranya adalah memiliki dimensi yang tinggi, terdapat noise pada data, dan terdapat struktur teks yang tidak baik. *ara yang digunakan dalam mempelajari suatu data teks, adalah dengan terlebih dahulu menentukan fitur'fitur yang mewakili setiap kata untuk setiap fitur yang ada pada dokumen. Sebelum menentukan fitur > fitur yang mewakili, diperlukan tahap pre processing yang dilakukan secara umum dalam text mining pada dokumen, yaitu case folding, tokeni7ing, filtering, stemming, tagging dan analy7ing. Case folding adalah mengubah semua huruf dalam dokumen menjadi huruf kecil. 8anya huruf ?a@ sampai dengan ?7@ yang diterima. #arakter selain huruf dihilangkan dan dianggap delimiter. &ahap tokeni"ing % parsing adalah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya. *ontoh dari tahap ini adalah sebagai berikut
[KNOWLEDGE DISCOVERY IN DATABASE ]
&ahap filtering adalah tahap mengambil kata ' kata penting dari hasil token. "isa menggunakan algoritma stoplist (membuang kata yang kurang penting) atau wordlist (menyimpan kata penting). &toplist % stopword adalah katakata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag' of'words. *ontoh stopwords adalah yang-, dan-, di-, dari- dan seterusnya. *ontoh dari tahapan ini adalah sebagai berikut
&ahap stemming adalah tahap mencari root kata dari tiap kata hasil filtering$ Pada tahap ini dilakukan proses pengembalian berbagai bentukan kata ke dalam suatu representasi yang sama. &ahap ini kebanyakan dipakai untuk teks berbahasa inggris dan lebih sulit diterapkan pada teks berbahasa ndonesia. 8al ini dikarenakan bahasa ndonesia tidak memiliki rumus bentuk baku yang permanen. *ontoh dari tahapan ini pada teks berbahasa inggris adalah sebagai berikut
[KNOWLEDGE DISCOVERY IN DATABASE ]
Kateg$ri!a!i Tek!
#ategorisasi adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Pada kategorisasi teks, diberikan sekumpulan kategori (label) dan koleksi dokumen yang berfungsi sebagai data latih, yaitu data yang digunakan untuk membangun model, dan kemudian dilakukan proses untuk menemukan kategori yang tepat untuk dokumen test, yaitu dokumen yang digunakan untuk menentukan akurasi dari model. Misalkan ada sebuah dokumen x sebagai inputan, maka output yang dihasilkan oleh model tersebuat adalah kelas atau kategori y dari beberapa kategori tertentu yang telah didefinisikan sebelumnya ( y'()(yk ). %dapun contoh dari pemanfaatan kategorisasi teks adalah pengkategorisasian berita ke dalam beberapa kategori seperti bisnis, teknologi, kesehatan dan lain sebagainyaA pengkategorisasian email sebagai spam atau bukanA pengkategorisasian kilasan film sebagai film fa$orit, netral atau tidak fa$oritA pengkategorisasian paper yang menarik dan tidak menarikA dan penggunaan dari kategorisasi teks yang paling umum adalah kategorisasi otomatis dari web pages yang dimanfaatkan oleh portal nternet seperti Bahoo. #ategorisasi otomatis ini memudahkan proses browsing artikel berdasarkan topik tertentu yang dilakukan oleh user . Salah satu algoritma kategorisasi yang sering digunakan adalah algoritma 5ai$e bayes multinomial. %lgoritma ini merupakan algoritma yang menerapkan metode probabilistic learning method.
[KNOWLEDGE DISCOVERY IN DATABASE ]
We* Mining *eb mining adalah ekstraksi pola'pola penting dan bermanfaat namun tersimpan secara implisit pada kumpulan data yang relatif besar pada layanan world wide web. *eb mining teridiri atas tiga bagian yaitu web content mining , web structure mining , dan web usage mining . *eb content mining adalah suatu proses otomatis untuk menemukan informasi yang berguna dari dokumen atau data. Pada prinsipnya teknik ini mengekstraksi kata kunci yang terkandung pada dokumen. si data web antara lain dapat berupa teks, citra, audio, $ideo, metadata, dan h yperlink. %da dua strategi yang umum digunakan pertama langsung melakukan mining terhadap data, dan kedua melakukan pencarian serta mengimprove hasil pencarian seperti layaknya search engine$ *eb struncture mining dikenal juga sebagai web log mining adalah teknik yang digunakan untuk menemukan struktur link dari hyperlink dan membangun rangkuman website dan halaman web. Salah satu manfaatnya adalah untuk menentukan pagerank pada suatu halaman web. *eb usage mining adalah teknik untuk mengenali perilaku pelanggan dan struktur web melalui informasi yang diperoleh dari log, click stream, cookies, dan Cuery. "erbagai tool yang sudah ada antara lain
[KNOWLEDGE DISCOVERY IN DATABASE ]
M,&ti-edia Mining Multimedia mining adalah salah satu bagian ilmu data mining untuk menambangmenggali pengetahuan dari informasi atau data multimedia. %kan tetapi multimedia mining tidak sekedar perluasan dari data mining, karena merupakan upaya interdisipliner yang memanfaatkan keahlian dalam multimedia retrie$al, pengolahan data multimedia, computer $ision, machine learning, dan kecerdasan buatan. Multimedia mining berkaitan dengan ekstraksi pengetahuan implisit, relasi data multimedia, atau pola lain yang tidak secara eksplisit disimpan dalam file multimedia. Sistem multimedia mining dapat secara otomatis mengekstraksi informasi semantik sebagai pengetahuan dari file multimedia. mumnya, sistem database multimedia mengelola koleksi besar objek multimedia, seperti image, $ideo, audio dan data hyperte2t. Secara umum, file multimedia dari database harus mengalami praproses sesuai dengan format data yang sesuai, selanjutnya mengalami berbagai transformasi dengan ekstraksi fitur untuk menghasilkan fitur penting dari file multimedia. Dengan fitur yang dihasilkan, mining dapat dilaksanakan dengan menggunakan teknik data mining untuk menemukan pola signifikan untuk kemudian die$aluasi dan diinterpretasikan untuk mendapatkan pengetahuan yang diinginkan. Proses aplikasi multimedia mining dapat dilihat pada !ambar berikut (#otsiantis et al , ;EE/).
Pengumpulan data adalah titik awal dari sebuah pembelajaran sistem, sehingga kualitas data mentah dicapai pada kinerja secara keseluruhan. Disini akan dilakukan ekstraksi fitur yang sesuai dengan tipe data yang ada (teks, gambar, audio, $ideo), misalkan untuk data teks dengan tokenisasi, dan data audio dilihat dari pitch atau frekuensi audio. #emudian, tujuan dari pra'proses data adalah untuk menemukan fitur penting atau seleksi fitur dari data mentah. Pra'proses data meliputi pembersihan data, normalisasi, transformasi, seleksi fitur, dll. Proses pembelajaran bisa cepat, jika informatif fitur dapat diidentifikasi pada tahap pra'proses. 8asil dari pra'proses data adalah training set . 1ika diberikan sebuah training set , sebuah model pembelajaran harus memilih untuk belajar dari itu. #emudian dengn machine learning dapat diperoleh model yang diinginkan dengan cara klasifikasi atau kluster.
[KNOWLEDGE DISCOVERY IN DATABASE ]
M,&ti-edia Retrie(a& 1ika multimedia mining adalah bagian ilmu dari data mining, maka multimedia retri$al adalah bagian dari ilmu temu kembali informasi yang menfokuskan pada temu kembali informasi dari data multimedia. Secara umum, teknik'teknik yang dilakukan sama pada temu kembali informasi untuk data bukan multimedia. "erbeda dengan data yang hanya berupa numeric atau teks, karena data multimedia bisa apa saja (teks, audio, image dan $ideo) maka multimedia retrie$al adalah model temu kembali informasi berbasis konten ( content+base infromastion retrieval ). Disini yang bisa menjadi Cuery tidak hanya teks atau angka saja, bisa audio atau gambar tergantung jenis data yang akan dicari.
Dalam content+base information retrieval system( konten media dalam database diekstrak dan dideskripsikan oleh $ector fitur multi'dimensi, atau disebut deskriptor. 6ektor fitur media merupakan fitur dataset. ntuk mengambil data yang diinginkan, pengguna mengirimkan contoh query untuk system temu kembali. Sistem kemudian merepresentasikan contoh'contoh ini dengan $ector fitur. 1arak (yaitu, dalam arti ukuran kesamaan) antara $ektor fitur dari contoh Cuery dan yang ada di media dalam fitur dataset kemudian dihitung dan dirangking. &emu kembali dilakukan dengan menerapkan suatu skema pengindeksan untuk memberikan cara yang efisien untuk mencari database media. %khirnya, sistem merangking hasil pencarian dan kemudian mengembalikan hasil pencarian teratas yang paling mirip dengan contoh Cuery. ntuk content+base information retrieval system, seorang perancang harus mempertimbangkan empat aspek fitur ekstraksi dan representasi, dimensi reduksi fitur, pengindeksan, dan spesifikasi Cuery.
[KNOWLEDGE DISCOVERY IN DATABASE ]
Per*edaan M,&ti-edia Mining dengan M,&ti-edia Retrie(a& Bang dilakukan dalam multimedia retrie$al adalah bagaimana mengekstraksi pengetahuan implisit, relasi data multimedia, atau pola lain yang tidak secara eksplisit disimpan dalam file multimedia (disco$ering), dibanding pada multimedia retrie$al yang hanya untuk merangking Cuery yang dicari untuk disajikan ke user (searching).
Multimedia retrie$al hanya menekankan pada temu kembali datainformasi yang sesuai dengan Cuery yang diminta. Sedangkan multimedia mining mengelola datainformasi yang sesuai dengan proses analisa yang diterapkan agar diperoleh informasi yang lebih banyak (pengetahuan) berdasarkan Cuery yang diminta. #arena data perlu dianalisa berdasarkan teori dalam data mining, maka dalam multimedia mining harus melakukan cleaning data dan seleksi fitur untuk membuat analisanya menjadi lebih cepat dan sederhana, artinya data yang tidak baik- dibuang saja dan fitur yang tidak signifikan mempengaruhi tidak perlu diikutkan dalam analisa. Sedangkan pada multimedia retrie$al, hal ini tidak dilakukan.