REGRESI LOGISTIK BINER Dian fitriana arthati Dwi afrizal Dwina wardhani nasution Edi kurniawan Fajri iramaya purwanti Felasofa rahmatanti Fitra aulia
Pendahuluan •
•
Analisis regresi logistik biner merupakan suatu teknik untuk menganalisis data yang peubah responnya memiliki dua kategori dengan satu atau lebih peubah bebas yang berskala kategorik atau kontinu. Regresi logistik biner telah banyak digunakan secara luas sebagai salah satu alat analisis pemodelan ketika variabel responnya (Y) bersifat biner. biner. Istilah biner merujuk meruj uk pada penggunaan dua buah bilangan 0 dan 1 untuk menggantikan dua kategori kategori pada variabel respon. Contoh variabel respon yang dimaksud adalah kesuksesan (sukses – gagal), kesetujuan (setuju – tidak setuju), keinginan membeli (ya – tidak), terpilih atau tidak terpilih, lulus atau tidak lulus, mendapat promosi atau tidak, dan masih banyak lagi.
Asumsi Asumsi Asumsi dalam regresi logistik: 1. Tidak Tidak meng mengasu asumsi msika kan n hubu hubung ngan an lini linier er anta antarr vari variabe abell dependen dan independent. 2. Variabe ariabell depend dependen en harus harus bersi bersiffat dik dikotomi otomi (2 vari variabe abel). l). 3. Variabel ariabel inde indepen penden dentt tidak tidak harus harus memilik memilikii ker kerag agaman aman yang yang sama antar kelompok variabel. 4. Kateg Kategori ori dalam dalam varia variabel bel indepe independe ndent nt harus harus terp terpisa isah h satu satu sama lain atau bersifat eksklusif. 5. Sampel Sampel yang yang dipe diperluk rlukan an dalam dalam jumla jumlah h relati relatiff besar besar, minimu minimum m dibutuhkan hingga 50 sampel data untuk sebuah variabel prediktor (bebas).
Pendugaan koefisien model regresi logistik tidak dapat dilakukan dengan metode kuadrat terkecil (ordinary least squares) seperti halnya regresi linear karena pelanggaran asumsi kehomogenan ragam. Metode kemungkinan maksimum (maximum likelihood) menjadi salah satu alternatif yang dapat digunakan. Regresi logistik membentuk persamaan atau fungsi dengan pendekatan maximum likelihood, yang memaksimalkan peluang pengklasifikasian objek yang diamati menjadi kategori yang sesuai kemudian mengubahnya menjadi koefisien regresi yang sederhana. Dua nilai yang biasa digunakan sebagai variabel dependen yang diprediksi adalah 0 dan 1 (ex. 1=berhasil, 0=gagal).
Hosmer dan Lemeshow (2000) menjelaskan bahwa model regresi logistik dibentuk dengan menyatakan nilai P(Y=1|x) sebagai π(x), yang dinotasikan sebagai berikut: ( x)
exp( x ) 1 exp( x)
Karena x , maka ( x)mendekati 0 ketika <0, dan (x) mendekati 1 ketika >1
Odds Rasio
•
Log odds rasio
Log odds sering pula disebut sebagai logit. Sehingga, Jika π(x) menyatakan peluang suatu individu ke-i memiliki nilai Y = 1, maka model regresi logistik dengan k buah variabel bebas dapat dituliskan sebagai
dengan
Pengujian terhadap parameter-parameter model dilakukan baik secara simultan maupun secara parsial. Menurut Hosmer dan Lemeshow (2000), pengujian parameter model secara simultan menggunakan uji nisbah kemungkinan ( Likelihood Ratio Test ) dengan hipotesis: H0: β1 = … = βk = 0 H1: minimal ada satu βi ≠ 0; i =1, 2, …, k
Statistik uji G dirumuskan:
dimana: : fungsi kemungkinan tanpa peubah penjelas. : fungsi kemungkinan dengan peubah penjelas.
.
Dengan mengasumsikan H0 benar, statistic uji G akan mengikuti sebaran Chi-Square dengan derajat bebas k. Keputusan tolak H0 jika G > •
Pengujian parameter secara parsial menggunakan uji Wald. Hipotesis yang akan diuji adalah: H0 : βi = 0 H1 : βi ≠ 0; i=1, 2, … , k Statistik uji yang dipakai adalah statistik W , yaitu:
dengan sebagai penduga β i dan sebagai penduga galat baku β i. Statistik W akan mengikuti persebaran normal baku jika H0 benar. Keputusan tolak H0 diambil ketika |W | > Zα /2.
•
Interpretasi koefisien untuk model regresi logistik biner dapat dilakukan dengan menggunakan nilai rasio oddsnya. Odd sendiri dapat diartikan sebagai rasio peluang kejadian sukses dengan kejadian tidak sukses dari peubah respon. Rasio odds mengindikasikan seberapa lebih mungkin munculnya kejadian sukses pada suatu kelompok dibandingkan dengan kelompok lainnya.
Interpreting Parameters in Logistic Regression •
Untuk variabel respon (Y) biner dan sebuah variabel penjelas (X), misal: (x)
= P(Y=1 | X=x) = 1-P(Y=0 | X=x).
Model regresi logistik adalah: (x)
=
(5.1)
atau dengan log odds (logit), yang mempunyai hubungan linier:
logit [ (x)] = log
= α+βx
(5.2)
Interpreting β: Odds, Probability, Linear Approach •
•
•
•
•
Tanda pada β menunjukkan apakah (x) naik atau turun saat x naik. Saat β mendekati 0, kurvanya mendatar ke garis horizontal. Saat β=0, Y independen dari X. Untuk x yang kuantitatif dengan β>0, kurva membentuk distribusi logistic cdf.
(x)
Mengeksponensiasi kedua sisi dari (5.2) menunjukkan bahwa odds adalah fungsi eksponensial dari x. Odds meningkat dengan ganda oleh e β untuk setiap 1-unit yang bertambah di x. Dengan kata lain, e β adalah odds ratio, odds pada saat X=x+1 dibagi dengan odds pada saat X=x
•
Garis tangent di kurva pada x untuk setiap (x) = 1/2, mempunyai slope β(1/2)(1/2) = β/4; ketika (x)=
0.9 atau 0.1, slopenya 0.09β. (x)
•
Slope mendekati 0 saat
•
Slope yang curam terjadi pada x untuk setiap (x)
•
mendekati 1.0 atau 0.
=½
Nilai x adalah –α/β. Nilai x ini kadang kadang disebut level efektif median dan dinotasikan sebagai EL50 .
Looking at The Data •
Sebelum mencocokkan model dan membuat interpretasi, lihat data untuk mengecek apakah model reglognya layak. Disaat Y
mempunyai nilai 0 dan 1, sulit untuk mengeceknya dengan membuat plot antara Y dan x. •
Dengan membuat plot sampel proporsi atau logit terhadap x. Misal ni adalah jumlah observasi, yi dinotasikan sebagai nilai pada saat outcomenya 1 dengan p i=y /n i i. Sampel logit i adalah log [p /(1-p i i)]= log[y /(n i i-yi)] infinite saat yi=0 atau ni=0.
Logistic Regression with retrospective studies Pada regresi ini berkaitan dengan situasi dimana variabel X adalah penjelas dari variabel respon Y yang bersifat acak. Hal interjadi pada design sampling retrospective seperti pembelajaran case-control biomedical. Misalnya subjek dari sampel memiliki nilai Y=1 (cases) dan Y=0 (control), X merupakan nilai dari observasi. Efek model ini merujuk pada odd rasio. Misalny z adalah... 1 = P(Z = 1 | y = 1) menunjukan peluang dari case dan 0 = P(Z = 1 | y = 0) menunjukan peluang dari control. Asumsikan bahwa P(Y = 1 |x) mengikuti model logistik .
P(Y 1| z 1, x)
P ( Z 1| y 1, x) P (Y 1| x ) 1
P(Z 1| y j, x) P(Y j | x ) j 0
Andaikan bahwa P(Z=1 | y,x) = P(Z=1 | y) untuk y=0 dan 1. Untuk setiap y, nilai peluang sampelnya tidak tergantung dari nilai x. Misalnya, x mengacu pada pemaparan beberapa tipe seperti apakah seseorang telah merokok. Lalu, untuk case dan untuk control nya, peluang terpilihnya sampel adalah sama antara perokok dan bukan perokok.
Substitusi 1 dan 0 kemudian bagi pembilang dan penyebut dengan P(Y=0 | x) sehingga P (Y
1| z 1, x )
1 exp( x) 0 1 exp( x)
Lalu bagi pembilanglogdan it[ P(Y penyebut 1| z 1, x)] x dengan gunakan bentuk 1/0 = exp [log (1/0)] *
log it[ P (Y
1| z 1, x )] * x
dengan α* = α + log (1/0)
0
dan
•
•
Model regresi tersebut memiliki efek yang sama dengan parameter β sebagai model pada P(Y=1 | x). Pada model case-control, salah satu saja tidak dapat mengestimasi nilai β pada model binary-response yang lain. Tidak seperti odd rasio, efek conditional distribution dari X given Y tidak sama dengan Y given X. Regresi logistik terkadang bisa atau tidak bisa untuk mendeskripsikan suatu hubungan variabel dengan baik. Pada suatu kasus spesial, misalkan nilai Y = i dan X berdistribusi N(µ i , 2) dimana i = 0,1. Lalu bayes teori, P(Y=1 | X=x) sama dengan (5.1), β = (µ 1-µ 0)/ 2. Ketika suatu populasi adalah sebuah campuran dari 2 tipe subjek, tipe pertama nilai Y=1 kira-kira berdistribusi normal pada X dan tipe lainnya Y=0 dengan kira-kira berdistribusi normal juga pada X dengan nilai varians yang sama maka fungsi regresi logistiknya seperti pada (5.1) dengan bentuk kurva (x) yang baik. Jika keduanya berdistribusi normal dengan variansnya berbeda maka kurva yang terbentuk adalah kuadrat. Pada kasus tersebut, hubungan variabelnya nonmonotone dengan (x) menaik dan menurun atau sebaliknya.
Tipe Inferensi •
•
•
•
Untuk model dengan sebuah predictor:
Uji signifikansi fokus pada H0 : β = 0 (hipotesis independensi). Uji Wald menggunakan log Likelihood pada , dengan statistik uji atau kuadratnya. Di bawah H0, z2 adalah asimtotik Uji Likelihood-rasio menggunakan dua kali deferens di antara maximized log likelihood pada dan pada β = 0 dan juga mempunyai asimtotik . Uji score menggunakan log likelihood pada β = 0 melalui derivatif log likelihood pada titik tersebut. Statistik uji membandingkan sufisien statistik untuk β dengan nilai harapannya, standardized yang sesuai [N(0,1) atau ].
Tipe Inferensi •
•
Untuk sampel besar, ketiga tes tersebut biasanya memberikan hasil yang sama. Uji Likelihood-rasio lebih disukai daripada Uji Wald. Likelihood-rasio menggunakan informasi yang lebih karena hal itu menggabungkan log likelihood pada H 0 sebaik pada . Ketika | β| relatif besar, maka uji Wald tidak sekuat uji Likelihood-rasio dan bahkan dapat menunjukkan perilaku menyimpang. Selang kepercayaan lebih informatif daripada uji-uji. Selang untuk β dihasilkan dari pembalikan uji dari H0 : β = β0. Interval adalah kumpulan dari β0 dimana statistik uji Chi-Squarenya tidak lebih besar daripada . Untuk pendekatan Wald, hal ini berarti ; intervalnya adalah .
Tipe Inferensi •
•
Untuk meringkas hubungan, karakteristik lain mungkin memiliki kepentingan yang lebih besar daripada β, seperti π(x) pada berbagai nilai x. Untuk fixed , , memiliki SE sampel besar yang diberikan oleh estimasi square root dari: Selang kepercayaan 95% untuk adalah Substitusi setiap endpoint ke transformasi inverse memberikan interval yang sesuai untuk
•
.
.
Tiap metode inferensi juga dapat menghasilkan selang kepercayaan dan uji untuk sampel kecil.
Checking Goodness of Fit; Ungrouped and Grouped Data •
•
Dalam prakteknya, tidak ada jaminan bahwa model regresi logistik tertentu sesuai dengan data. Untuk beberapa tipe data biner, salah satu cara untuk mendeteksi lack of fit adalah menggunakan uji Likelihood-rasio untuk membandingkan model dengan model yang lebih kompleks. Model yang lebih kompleks mungkin berisi sebuah efek nonlinier, seperti bentuk kuadratik. Model-model dengan multiple prediction akan mempertimbangkan interaksi. Jika model yang lebih kompleks tidak memberikan kesesuaian yang lebih baik, maka ini akan menyediakan beberapa jaminan bahwa model yang dipilih adalah masuk akal. Pendekatan lain untuk mendeteksi lack of fit search untuk banyak cara model gagal. Hali ini simpel ketika variabel penjelas hanya kategori. Pada masing-masing pengaturan x, salah satu akan mengalikan perkiraan probability dari dua hasil banyaknya subjek yang diatur untuk memenuhi frekuensi ekspektasi estimasi untuk y = 0 dan y = 1. Itu semua adalah fitted value.
Checking Goodness of Fit; Ungrouped and Grouped Data •
•
Uji dari model membandingkan jumlah observasi dan fitted value menggunakan statistik Pearson X2 atau Likelihood-rasio G2. Untuk jumlah pengaturan yang tetap, sebagai peningkatan jumlah, X2 dan G2 mendekati distribusi Chi-Square. Derajat bebas disebut residual df untuk model, mengurangi banyaknya parameter di dalam model dari banyaknya parameter di dalam saturated model. Alasan pembatasan untuk prediktor kategori untuk uji secara umum berhubungan dengan perbedaan di Section 4.5.3 bahwa kita menyebutkan diantara grouped and ungrouped data untuk model binomial. Saturated model berbeda pada dua kasus. Sebuah asimtotik distribusi Chi-Square hasil deviance sebagai dengan banyaknya parameter yang tetap di dalam model dan karenanya sebuah jumlah yang tetap dari pengaturan nilai prediktor.
Pengecekan kebaikan suai (goodness of fit) data tidak berkelompok dengan cara pengelompokan
Sebagai catatan,: •
•
dengan data tidak berkelompok atau penduga yang kontinu atau hampir kontinu, dan tidak mempunyai batas pada distribusi chi square, akan tetapi masih berguna dalam membandingkan model untuk memeriksa bentuk kuadrat dapat diterapkan dalam berbagai perkiraan untuk pengamatan berkelompok dan nilai yang cocok untuk sebuah partisi dari nilai x. seumpama jumlah variabel penjelas meningkat, meskipun kelompok nilai secara keseluruhan untuk setiap variabel dapat menghasilkan sebuah tabel kontingensi dengan jumlah sel yang besar, sebagian besar memiliki perhitungan yang sangat kecil
•
Pembentukan ini merupakan dasar dari uji Hosmer dan Lemeshow (19980) yang mengemukakan statistik pearson yang membandingkan pengamatan dengan perhitungan yang pas untuk partisi ini.
y ij Menunjukan hasil biner untuk pengamatan j dalam group i pada partisi, i=1,……,g, j=1,…..,...ni .
ij
Menunjukan coresponding fitted probability untuk model yang tepat dari data yang tidak berkelompok.
g
( i 1
( j yij j ij )
j
2
ij )[1 ( j ij ) / n]
•
•
Ketika banyak pengamatan yang memiliki peluang estimasi yang sama, ada beberapa kesewenang2an dalam pembentukan kelompok, dan berbeda software dapat menghasilkan nilai yang berebda. Statistik ini tidak memiliki batas distribusi chi square, karena pengamatan dalam kelompok merupakan percobaan yang tidak identik. Dan karena pengamatan dalam kelompok tidak memiliki sebaran peluang yang umum. Bagaimanapun, Hosmer dan Lemeshow mencatat bahwa ketika jumlah perbedaan pola nilai kovariat sama dengan ukuran sampel, distribusi nol mendekati distribusi chisquare dengan derajat bebas. Df = g-2.
5.3 MODEL LOGIT DENGAN PREDIKTOR KATEGORIK 5.3.1 ANOVA-Type Representasi Faktor •
Pertimbangkan faktor X tunggal, dengan kategori I. Dalam baris i dari tabel I x 2, y i adalah jumlah hasil kolom pertama (sukses) dari uji coba ni. Nyatakan Yi sebagai binomial dengan parameter πi. Model logit dengan faktor adalah
•
Sisi kanan persamaan (5.4) menyerupai rumus model untuk cara sel dalam ANOVA satu arah. Dengan kategori I, X memiliki I-1 parameter nonredundan. Salah satu parameter dapat diatur ke 0, katakanlah βi = 0. Jika nilainya tidak memenuhi, kita dapat merecode sehingga = β – β menjadi benar. Misalnya, bentuk β i 1 =0. Maka = α + β1 yang memenuhi β dan α 1
•
•
Ketika β1=0, α sama dengan logit dalam baris I, dan βi adalah perbedaan antara logits dalam baris i dan I. Jadi, βi sama dengan rasio log odds untuk pasangan baris-baris itu. Untuk setiap {πi > 0}, { βi } berlaku seperti model (5.4). Model ini mempunyai banyak parameter I sebagai pengamatan binomial. Ketika sebuah faktor tidak berpengaruh, β1= β2 = ... = βI . Karena ini setara dengan π1 = ... = πI, model ini hanya dengan sebuah intersep menentukan independensi dari X dan Y secara statistik.
5.3.2 Dummy Variabel dalam Model Logit •
•
Sebuah persamaan setara model (5.4) menggunakan variabel dummy. Misalkan xi=1 untuk pengamatan di baris i dan xi=0 untuk lainnya, i = 1, ..., I - 1. Modelnya adalah
Cara lain untuk memaksakan kendala bentuk . Misalkan X yang memiliki I=2 kategori, jadi β1 = - β2. Hasil ini dari efek coding untuk dummy variabel, x=1 dalam kategori 1 dan x=-1 dalam kategori 2.
•
•
Hasil substantif yang sama terjadi untuk setiap skema coding. Untuk model (5.4), terlepas dari kendala untuk {β1}, } oleh karena itu { } adalah sama. Perbedaan { + β − β untuk pasangan (a,b) kategori X adalah identik dan β mewakili estimasi rasio log odds. Dengan demikian, − β ) adalah estimasi peluang sukses dalam kategori a exp(β dari X dibagi dengan estimasi peluang sukses dalam kategori b dari X. Reparameterisasi model dapat merubah parameter estimasi tapi tidak mengubah model fit. tidak relevan untuk kategori tunggal. Berbagai Nilai βi atau β sistem kendala menghasilkan nilai yang berbeda. Untuk prediktor biner, misalnya, menggunakan variabel dummy dengan nilai referensi β2 = 0, rasio log odds sama dengan β1 β2 = β1 ; Sebaliknya, untuk efek coding dengan ± 11 variabel dummy maka β1 - β2 = 0 , rasio log odds yang sama β1 - β2 = β1 – (-β1) = 2β1. Sebuah parameter atau estimasinya masuk akal hanya dengan dibandingkan dengan satu untuk kategori lain.
Likelihood equation ketika ada lebih dari 1 observasi/ percobaan pada nilai xi maka jumlah observasi dinyatakan ni dan jumlah sukses adalah xi . Yi menunjukan sukses yang dihitung dari sekian percobaan dimana Yi…YN adalah independent binomial dengan mean E(Yi)= , dimana , 2, … , = . Joint probability nya untuk N fungsi binomial adalah .
Joint probability nya untuk N fungsi binomial adalah
− − − − − − − − 1
=1
=
log
=1
= exp
log
1
1
1
1
1
1
pada model, logit ke – i adalah
exp
, jadi persamaan eksponensialnya menjadi
= exp
− −
. dan karena 1
log likelihoodnya sama dengan :
= 1 + exp
− =
turunanan dari fungsi log nya
log 1 + exp
( )
− ( )
dimana
=
exp
1+exp
= 0 , karena
=
exp
1+exp
, sehingga Likelihood Rationya adalah
− … = 0,
= 1,
, ,
1
, maka
,
•
•
•
Distribution of Probability Estimator Menggunakan , kita dapat melakukan inferensia terhadap β dan dihubungkan pada efek, seperti pada odds rasio. Kita dapat juga membuat convidence interval untuk peluang respon pada pengaturan x tertentu. Estimasi varians dari logit adalah . Untuk jumlah sampel yang besar, logit adalah convidence interval untuk logit yang benar. Titik akhir kebalikan pada interval yang sesuai untuk menggunakan transformasi π=exp(logit)/[1+exp(logit)].
•
•
•
Newton-Raphson Method Applied to logistik regresion
Kita kembali ke Section 4.6.1 untuk metode “ITERATIVE” Newton-Raphson. Misalkan
Disini,
, perkiraan t untuk
, diperoleh dari
melalui
′ − − ′− Kita menggunakan
()
dan
()
dengan formula (4.39) untuk memperoleh nilai
berikutnya, yang mana dalam konteks ini adalah: ( +1)
=
Dimana
()
()
+{
=
1
()
}
1
. Ini digunakan untuk memperoleh
( +1)
, (5.22)
( +1)
, dan juga seterusnya.
Dengan perkiraan pertama (0), persamaan (5.21) menghasilkan (0), dan untuk t > 0 diproses berulang-ulang sebagaimana yang diperlihatkan menggunakan (5.22) dan (5.21). Dalam