Laporan Praktikum Data Mining Teknik Industri Universitas Islam Indonesia Yogyakarta
Data Mining is defined as the procedure of extracting information from huge sets of data. Now a day, Data Mining technique placing a vital role in the Information Industry.
Descripción: Data Mining
miningFull description
Data mining studi kasus Alcoholic Liver Disease (ALD) akibat potensial yang diakibatkan oleh konsusi alkohol
Data MiningDeskripsi lengkap
Data warehousing and data mining (both data & text) provide a technology that enables the decision-maker in the corporate sector/govt. to process this huge amount of data in a reasonable amo…Description complète
This paper includes the application that is implemented at my college. Here is perfect explanation of Data Warehousing and Data Mining with full description of the project.
This paper includes the application that is implemented at my college. Here is perfect explanation of Data Warehousing and Data Mining with full description of the project.
The data warehouse allows the storage of data in a format that facilitates its access, but if the tools for deriving information and/or knowledge and presenting them in a format that is useful for ...
Descripción completa
Descripción completa
Descripción: Introducción al mundo de Data Mining
Deskripsi lengkap
Buku Data Mining libre
Data Mining, Algoritma CartFull description
jurnalku
free to download
Description complète
Perbandingan Metode Naive Bayes dan Random Forest Dalam Klasifikasi Internet User Search !ery "ategori#ation $St!di Kas!s % Data KDD "UP &''()
Oleh Kelompok
3
Anggota : I Kadek Roby Sanjaya Sanjaya 2. Dede Surya rad!pta 3. utu $ede %!mantara () I *ade *ade +a +ahyu hyu +!d +!d!an !anaa 5. ,aru- Ahmad ,a!.al Kela. SID/03
Program St!di S* +eknik +eknik Informatika Fak!ltas Informatika Universitas +elkom &'*,
*- Pendah!l!an *-*
.atar Belakang
enar!an !nternet menggunakan .earh eng!ne telah menjad! bag!an dar! keh!dupan .ehar!har! bag! banyak orang dan dalam uru.an pekerjaan) *eng!ngat pertumbuhan ek.ponen.!al dar! keter.ed!aan !n2orma.! !n! dalam bentuk elektron!k penar!an menjad! .alah .atu pendekatan yang pal!ng pent!ng dan e2ekt!2 untuk menemukan !n2orma.! yang benar atau rele4an untuk memenuh! kebutuhan pengguna) Seorang pengguna dapat menget!kkan kata kun! d! .earh eng!ne untuk menar! tahu apa yang pengguna !ng!nkan) Seorang pengguna juga dapat menemukan berbaga! hal .epert! !n2orma.! !.ata !n2orma.! med!. perkembangan uaa kur. dollar dan la!nla!n) In! hanya beberapa ontoh baga!mana penar!an dapat membantu keh!dupan .ehar!har! pengguna) *e.k!pun penel!t! dan prakt!.! !ndu.tr! telah menapa! .uk.e. luar b!a.a dalam mengembangkan .earh eng!ne dalam prakteknya ma.!h menghadap! banyak tantangan be.ar .erah eng!ne .aat !n! t!dak mengha.!lkan ha.!l yang akurat) erbedaannya adalah ma.!h ukup be.ar antara apa yang .earh eng!ne dapat lakukan dan apa yang k!ta harapkan) 6al !n! t!dak jarang baha .ebuah .earh eng!ne mengha.!lkan ha.!l yang t!dak rele4an atau ha.!l yang .alah .etelah pengguna menget!kkan -uery) Karena jumlah data yang ter.ed!a be.ar dar! .et!ap me.!n penar! dan banyak ma.alah penar!an dapat berubah menjad! ma.alah dalam mah!ne learn!ng atau model!ng ada poten.! be.ar untuk tekn!k data m!n!ng untuk berkontr!bu.! pada keberha.!lan penar!an) ada ma.alah yang d!paparkan d!taarkan .olu.! menggunakan metode na4e baye. atau random 2ore.t untuk menar! keenderungan dar! -uery yang d!!nputkan dengan kategor! yang d!.ed!akan) *-&
R!m!san Masalah
Se.ua! dengan ka.u. yang d!angkat pada paparan d!ata. maka rumu.an ma.alah yang d!amb!l adalah .ebaga! ber!kut : a) %aga!mana akura.! keenderungan -uery dalam meng!dent!2!ka.! data KDD 8up &005 Internet Searh 9uery 8ategor!at!on ; b) %aga!mana meng!mplementa.!kan perangkat lunak +eka dalam melakukan kla.!2!ka.! terka!t ka.u. data tek.;
*-/
+!0!an
Batasan Masalah
%er!kut merupakan bata.an ma.alah yang d!amb!l pada tuga. be.ar !n!) a) Data yang d!gunakan adalah data KDD 8up &005 Internet Searh 9uery 8ategor!at!on dar! .!tu. )kdd)org=kddup ) b) engolahan data meman2aatkan perangkat lunak +eka)
2. Dasar +eori
&-*
Data Mining Ada beberapa pengert!an mengena! penambangan data (data minig)) *enurut >?!ae! 6an *!hel!ne Kamber &00#@ dalam bukunya Data Mining : Concepts and Techniques memaparkan baha data mining refers to extracting or “mining” knowledge from large amounts of data 1B) Catar belakang munulnya data mining
adalah .emak!n mel!mpahnya data namun data yang d!olah menjad!
knowledge .angat d!k!t) Data m!n!ng d!perlukan untuk menggal! .eopt!mal mungk!n .uatu data yang be.ar .eh!ngga d!temukan knowledge yang berharga) Ada beberapa penyebutan untuk !.t!lah data mining d!antarannya knowledge mining from
data,
knowledge
extraction,
data/pattern
analysis,
data
archaeology, and data dredging 1B) Dalam mengek.trak.! !n2orma.! berharga
dar! .uatau terdapat beberapa tahapan) >?!ae! 6an *!hel!ne Kamber &00#@ dalam bukunya Data Mining : Concepts and Techniques menerangkan baha tahapan data m!n!ng dapat d!bedakan menjad! 1B a- Data cleaning (to remoe noise and inconsistent data) b- Data integration (where multiple data sources ma! "e com"ined) c- Data selection (where data releant to the anal!sis task are retrieed from
the data"ase) d- Data transformation (where data are transformed or consolidated into
forms appropriate for mining "! performing summar! or aggregation operations# for instance) e- Data mining (an essential process where intelligent methods are applied in
order to extract data patterns) f- Pattern eval!ation (to identif! the trul! interesting patterns representing
knowledge "ased on some interestingness measures) g- Kno2ledge 3resentat!on (where isuali$ation and knowledge representation
techniques are used to present the mined knowledge to the user) &-&
KDD "!3
KDD >Knoledge D!.o4ery and Data *!n!ng@ 8up merupakan kompet!.! data m!n!ng tahunan yang d!mula! .ejak tahun 1''7) Dalam kompet!.! !n! mempertemukan berbaga! re.earher untuk menyele.a!kan beragam ka.u. penambangan !n2orma.! yang d!.e.ua!kan dengan tema tahunan kompet!.!
ter.ebut) Dalam .et!ap pelak.anaan KDD 8up data.et telah ter.ed!a untuk d!olah oleh pe.erta kompet!.! .eh!ngga menapa! tujuan dar! ka.u. kompet!.! ter.ebutB) D! baah !n! merupakan da2tar ka.u. yang pernah d!ajukan dalam kompet!.! KDD 8up .ejak tahun 1''7 h!ngga .ekarang &B) +able &4* +ema KDD "!3 5ear "om3etition KDD "!3 &'*,
KDD "!3 &'*1
Descri3tion +ho.e paper. are aepted the mo.t: toard. mea.ur!ng the !mpat o2 re.earh !n.t!tut!on. red!t 2und!ng re-ue.t. that de.er4e an A
KDD "!3 &'*/ $+rack &)
Ident!2y h!h author. orre.pond to the .ame per.on
KDD "!3 &'*/ $+rack *)
Determ!ne hether an author ha. r!tten a g!4en paper
KDD "!3 &'*& $+rack &)
KDD "!3 &'*& $+rack *)
red!t the l!kthrough rate o2 ad. g!4en the -uery and u.er !n2ormat!on red!t h!h u.er. >or !n2ormat!on .oure.@ one u.er m!ght 2ollo !n
KDD "!3 &'**
+eka >+a!kato /n4!ronment 2or Knoledge Analy.!.@ merupakan tool. open+ source dengan l!.en.! $C) +eka menyed!akan kumpulan algor!tma machine learning yang dapat d!gunakan untuk keperluan data mining ) +eka berba.!. ?a4a .eh!ngga peng!mplementa.!annya dapat d!gunakan .ebaga! li"rar! dalam berbaga! apl!ka.! ja4a 3B) +eka menangan! banyak pengolahan data.et d!antaranya adalah preprocessing data regression classification# clustering# association rules dan isuali$ation (B) eny!mpanan 2!le +eka d!namakan AR,, (,ttri"ute -elation ile ormat) yang dapat d!ed!t menggunakan text editor* Sela!n !tu eka juga menyed!akan kon4er.! dar! 2!le .4)
&-1
Na:ve Bayes
;ambar &4* <3likasi 9eka
Fa4e %aye. 8la..!2!er merupakan .ebuah metoda kla.!2!ka.! yang berakar pada teorema %aye.) 8!r! utama dar! Fa4e %aye. 8la..!2!er !n! adalah a.um.! yang .angat kuat
>na2@
akan
!ndependen.!
dar!
ma.!ngma.!ng
kond!.!=kejad!an) Sebelum menjela.kan Fa4e %aye. 8la..!2!er !n! akan d!jela.kan terleb!h dahulu m!.alkan A dan %@ maka teorema %aye. d!rumu.kan .ebaga! ber!kut:
&-(
Random Forest
Random 2ore.t merupakan perkembangan dar! de!.!on tree pada random 2ore.t de!.!on tree telah d!lakukan tra!n!ng menggunakan .ampel !nd!4!du dan .et!ap atr!but d!peah pada tree yang d!p!l!h antara atr!but .ub.et yang ber.!2at aak dan pada pro.e. kla.!2!ka.!nya .et!ap !nd!4!du d!da.arkan pada 4ote dar! .uara terbanyak pada kumpulan popula.! tree) Random 2ore.t adalah .ebuah la..!2!er yang terd!r! dar! .ekumpulan tree .trutured la..!2!er. h>Jk @ kL1 )))M d!mana kM merupakan 4etor aak !ndependen yang terd!.tr!bu.! .eara !dent!k dan ma.!ng ma.!ng dar! pohon ter.ebut d!p!l!h untuk yang pal!ng popular d! kela. !nput J) D!ber!kan .ebuah en.emble dar! la..!2!er. h1>J@h&>J@ ))) hK >J@ dan dengan tra!n!ng .et yang d!amb!l .eara aak dar! d!.tr!bu.! 4etor random N d!de2!n!.!kan 2ung.! marg!n .ebaga! ber!kut : mg>N@ L a4k I >hk >@ L N@ P maJ j Q N a4k I >hk >@ L j @
>1@
d!mana I>)@ merupakan 2ung.! !nd!ator ) marg!n mengukur .ejauh mana rata rata jumlah dar! 4ote pada N untuk kela. yang tepat yang meleb!h! ratarata 4ote untuk kela. yang la!nnya) Semak!n be.ar n!la! marg!n maka akan leb!h on2!dene dalam kla.!2!ka.!) ntuk ke.alahan general!.a.! d! tunjukkan oleh : / L N >mg>N@ T 0@
>&@
D!mana .ub.r!pt N meng!nd!ka.!kan baha probab!lta. meleb!h! ruang N)
3. Im3lementasi dan
/-*
;ambaran Um!m
%er!kut adalah gambaran umum dar! .et!ap tahapan yang d!lakukan d!gambarkan dalam bentuk 2lohart)
;ambar /4& Flo2chart +aha3an Proses Im3lementasi
/-&
Datasets
ada penel!t!an kal! !n! data.et yang d!gunakan adalah data.et KDD 8up &005 mengena! .nternet /ser 0earch 1uer! Categori$ation* Data.et KDD 8up &005 berupa data.et multi+la"el yang ber!.! .ekumpulan quer!
yang telah d!label!
kategor!.a.!nya) Seara .ederhana data.et KDD 8up &005 dapat d!l!hat pada gambar 3)&
;ambar /4/ Dataset KDD "!3 &''(
/-/- Pre43rocessing Data
Sebelum melakukan pengolahan data d!lakukan pre+processing terleb!h dahulu 2re+processing data berguna untuk men!ngkatkan ha.!l anal!.!. data m!n!ng) 2re+ processing yang d!lakukan pada data.et adalah .ebaga! ber!kut /-/-*-
+ransformasi Data
Data.et KDD 8up &005 terma.uk ke dalam data mult! label) %er!kut adalah ontoh data yang ada dalam data.et KDD 8up &005) +abel /-* M!lti4label Dataset KDD "!3 &''(
In2ormat!onUArt.
In2ormat!onUCa V
/nterta!nme
V 6uman!t!e.
ol!t!.
ntUFe.
alcoholic
C!4!ngU,ood V
C!4!ngU6ealth V ,!tne..
reci3es
8ook!ng
lcd tv
/nterta!nmentU
*6/6
Shopp!ngUStore.
+abel /-& +ransformasi Dataset *6/6
In2ormat!onUArt. V 6uman!t!e.
*6/6
In2ormat!onUCa V ol!t!.
*6/6
/nterta!nmentUFe.
alcoholic reci3es
C!4!ngU,ood V 8ook!ng
alcoholic reci3es
C!4!ngU6ealth V ,!tne..
lcd tv
/nterta!nmentU
lcd tv
Shopp!ngUStore.
/-/-&-
Missing >al!e
Missing alue merupakan !n2orma.! ko.ong yang terdapat pada .ebuah objek) Dalam penel!t!an kal! !n! missing alue terdapat pada atr!but 3ategori dan data missing alue !n! akan k!ta aba!kan dalam pengolahan) ro.e. -emoeMissing4alue !n! d!lakukan dengan menggunakan tool. +eka) %er!kut adalah langkahlangkah pengh!langan missing alue*
a) !l!h tombol Choose d! kolom ilter pada tab 2reprocess lalu p!l!h pada bag!an Remo4e+!thWalue d! 2older unsuperi$ed+instance+ -emoe5ith4alue b) Kl!k pada kolom ilter untuk melakukan kon2!gura.! ) Set attri"ute.ndicies menjad! & >!ndek. atr!but 3ategori@ d) Set matchMissing4alues menjad! G
;ambar /41 Missing >al!e
;ambar /4( Missing >al!e
/-/-/ Filter String +o Nominal
Atr!bute Str!ng t!dak dapat d!baa pada apl!ka.! dapat d!l!hat pada gambar d!baah:
8ara melakukan pengubahan atr!bute .tr!ng ke nom!nal dengan menggunakan 2!lter Str!ngtoFom!nal yang ada pada 2!lter n.uper4!.ed) Setelah !tu gant! atr!bute range la.t dengan atr!but yang !ng!n d! ubah ke nom!nal ya!tu atr!bute -uery.earh maka d! gunakan atr!bute range 1) $ambar .epert! d!baah:
6a.!l dar! 2!lter Str!ngtoFom!nal dapat d!l!hat pada gambar d!baah:
/-/-1 Sam3le Data
D!gunakan Re.ample data ya!tu pada 2!lter un.per4!.ed X In.tane .ample yang d!gunakan ya!tu dengan .ampleS!eenent 50Y) $ambar dapat d!l!hat .epert! d!baah:
/-1 Klasifikasi
Kla.!2!ka.! yang d!lakukan ya!tu dengan menggunkan metode Fa!4e %aye. dan Random ,ore.t yang nant! ha.!l dar! kedua metode akan d!band!ngkan) 6a.!l dar! penerapan metode na!4e baye. dapat d!l!hat pada gambar d!baah:
6a.!l dar! penerapan metode random 2ore.t dapat d!l!hat pada gambar d!baah: