regresi logistik

Bacaan Selanjutnya ...

Regresi linier seperti yang kita ketahui tidak dapat menyelesaikan kasus dimana variabel dependent bersifat dikotomi dan kategori dengan dua atau lebih kemungkinan (ex. sukses atau Gagal; terpilih atau tidak terpilih; lulus atau tidak lulus; melakukan pembelian atau tidak; mendapat promosi atau tidak, dan lain-lain). Regresi logistik umumnya melibatkan berbagai macam variabel prediktor baik numerik ataupun kategorik, termasuk variabel dummy. Pada regresi linier, variabel prediktor yang digunakan biasanya numerik, tetapi jika kita melibatkan campuran antara numerik maupun kategorik kita dapat menggunakan regresi logistik.

Regresi logistik membentuk persamaan atau fungsi dengan pendekatan maximum likelihood, yang memaksimalkan peluang pengklasifikasian objek yang diamati menjadi kategori yang sesuai kemudian mengubahnya menjadi koefisien regresi yang sederhana. Dua nilai yang biasa digunakan sebagai variabel dependen yang diprediksi adalah 0 dan 1 (ex. 1=berhasil, 0=gagal).

Regresi logistik menghasilkan rasio peluang (odds ratios) antara keberhasilan atau kegagalan suatu dari analisis. Dapat kita contohkan dengan seorang tokoh yang ingin menjadi presiden, akan lebih baik peluangnya jika menjadi ketua partai politik tertentu. Disini odds ratio yang dimaksud adalah seberapa besar peluang tokoh tersebut dengan mempertimbangkan variabel prediktor yang ada.

Regresi logistik akan membentuk variabel prediktor/respon (log (p/(1-p)) yang merupakan kombinasi linier dari variabel independen. Nilai variabel prediktor ini kemudian ditransformasikan menjadi probabilitas dengan fungsi logit.

Asumsi-asumsi dalam regresi logistik

Tidak mengasumsikan hubungan linier antar variabel dependen dan independent
Variabel dependen harus bersifat dikotomi (2 variabel)
Variabel independent tidak harus memiliki keragaman yang sama antar kelompok variabel
Kategori dalam variabel independent harus terpisah satu sama lain atau bersifat eksklusif
Sampel yang diperlukan dalam jumlah relatif besar, minimum dibutuhkan hingga 50 sampel data untuk sebuah variabel prediktor (bebas).

Persamaan Regresi Logistik

Regresi logistik menghasilkan rasio peluang yang dinyatakan dengan transformasi fungsi logaritma (log), dengan demikian fungsi transformasi log ataupun ln diperlukan untuk p-value, dengan demikian dapat dinyatakan bahwa logit(p) merupakan log dari peluang (odds ratio) atau likelihood ratio dengan kemungkinan terbesar nilai peluang adalah 1, dengan demikian persamaan regresi logistik menjadi:

logit(p) = log (p/1-p) = ln (p/1-p)

dimana p bernilai antara 0-1.

Model yang digunakan pada regresi logistik adalah:

Log (P / 1 – p) = β0 + β1X1 + β2X2 + …. + βkXk

Dimana p adalah kemungkinan bahwa Y = 1, dan X1, X2, X3 adalah variabel independen, dan b adalah koefisien regresi.

Konsep Log Odds, Odds Ratio

Logit (log odds) merupakan koefisien slope (b) dari persamaan regresi. Slope disini adalah perubahan nilai rata-rata dari Y dari satu unit perubahan nilai X. Regresi logistik melihat perubahan pada nilai variabel dependen yang ditransformasi menjadi peluang, bukan nilai aslinya seperti pada regresi linier. Sebagai ilustrasi jika nilai peluang adalah 0,25, maka nilai odds adalah 3 (25 : 75), sedangkan jika nilai peluang 50, maka nilai odds adalah 1 (50 : 50), atau jika nilai peluang 0,33, maka nilai odds adalah 2 (33 : 67) dengan total keseluruhan nilai peluang adalah 1. Nilai odds ratio biasanya dapat kita lihat pada kolom B pada ‘variables in the equation’ output SPSS.

Kecocokan Model (model fit) dan fungsi likelihood

Likelihood berarti juga peluang atau probabilitas untuk hipotesis tertentu. Seperti yang kita ketahui pada kurva regresi linier kita lihat adanya hubungan linier, peningkatan pada sumbu Y akan diikuti dengan peningkatan pada sumbu X dan sebaliknya. Tetapi pada regresi logistik dengan nilai Y antara 0 dan 1, pendekatan linier tidak bisa kita gunakan. Oleh karena itu metode maximum likelihood sangat berguna dalam menentukan kecocokan model yang tepat bagi persamaan yang kita miliki.

Hipotesis dalam regresi logistik antara lain:

h0 = ketika persamaan regresi bernilai 0 [logit(p) = 0].

h1 = persamaan regresi berbeda nyata dari 0 [logit(p) ≠ 0].

Regresi logistik merupakan regresi non linier dimana model yang ditentukan akan mengikuti pola kurva linier seperti gambar di bawah ini.

Regresi logistik juga menghasilkan rasio peluang (odds ratios) terkait dengan nilai setiap prediktor. Peluang (odds) dari suatu kejadian diartikan sebagai probabilitas hasil yang muncul yang dibagi dengan probabilitas suatu kejadian tidak terjadi. Secara umum, rasio peluang (odds ratios) merupakan sekumpulan peluang yang dibagi oleh peluang lainnya. Rasio peluang bagi prediktor diartikan sebagai jumlah relatif dimana peluang hasil meningkat (rasio peluang > 1) atau turun (rasio peluang < 1) ketika nilai variabel prediktor meningkat sebesar 1 unit.

Lebih jelasnya kita dapat mengikuti ilustrasi berikut ini:

Kita ingin mengetahui apakah berat badan (weightgain) sapi para peternak di kota elgrow bertambah signifikan atau tidak, dengan variabel prediktor adalah sex yang terdiri atas male (M) atau female (F), pemberian obat cacing (anthelmintic) secara rutin sesuai dosis yang dinyatakan dengan yes dan no, dan biaya pemeliharaan per bulan yang dinyatakan dalam US$. Kali ini kita akan menjalankan model logit menggunakan bantuan software IBM SPSS versi 23, untuk yang masih menggunakan SPSS seri di bawahnya jangan khawatir, masih kurang lebih sama koq cara aplikasinya,
kamu bisa download datanya disini

1. tahap impor data (misalnya dari excel), Buka SPSS kamu,

file > read text data,

pada kotak dialog open data, files of type > pilih excel, maka datanya muncul di layar, pilih lalu klik > open,

kemudian dimunculkan lagi jendela opening data, checklist seperti gambar > ok,

data telah masuk dalam record spss, berikut adalah dataview, lihat sususannya tidak beraturan, kamu bisa atur dalam variable view:

atur label, desimal, dan lain-lain dalam variabel view,

2. Tahap Analisis,

Analyze > regression > binary logistic,

Setelah muncul jendela logistic regression, masukkan weightgain kedalam dependen, dan variabel kategorik yaitu sex dan anthelmintic ke kotak covariates, lalu klik categorical, untuk menyesuaikan tipe data variabel kategorik,

Di jendela define covariates variables pilih reference category first, kemudian klik changes > continue,

klik next lalu masukkan variabel kontinyu cost, ke dalam covariates, kemudian option,

kemudian continue > ok, maka outputnya akan ditampilkan,

Chi-Square model sebesar 18,440, angka ini menjelaskan kemampuan model dalam memprediksi variabel dependen weightgain. Dengan signifikansi 0,000 < 0,05, berarti terdapat peningkatan signifikansi dengan penambahan variabel sex, dan anthelmintic, ke dalam model.
-2 log likelihood menjelaskan signifikansi model layaknya R-sq pada regresi linier OLS.
Tabel Hosmer and Lemeshow test menunjukkan nilai penambahan signifikansi model dari konstanta, dan model sesudah ditambahkan variabel independen sex dan anthelmintic. Penambahannya cukup kecil dengan signifikansi 0,631 (>0.05).

Kita lihat kembali pada output variables in the equation menunjukkan model sesuai hipotesis null atau model tanpa prediktor,

Output variables not in the equation menunjukkan signifikansi masing-masing variabel independen terhadap weightgain. Dari tabel dapat kita lihat bahwa variabel anthelmintic(1) memberikan peningkatan yang signifikan terhadap model (0,000), sedangkan sex(1) tidak signifikan (0,298). Tetapi secara keseluruhan signifikan terhadap perbaikan model (overall statistics, sig = 0,000).

Dari output variables in the equation persamaan yang kita peroleh adalah (lihat nilai pada kolom B) :

Log odds(weightgain) = B0 + B1*sex(1) + B2*anthelmintic(1) + B3*cost

atau dengan nilai aslinya;

Log odds(weightgain) = -3,502 + 0,116*sex(1) + 2,638*anthelmintic(1) + 0,011*cost

Jika sex(1)=1 (lihat output coding), anthelmintic(1)=1 (lihat output coding), dan cost=US$ 100, maka persamaannya menjadi:

Log odds(weightgain) = -3,502 + 0,116(1) + 2,638(1) + 0,011(100)

Log odds(weightgain) = -3,502 + 0,116 + 2,638 + 1,1

Jika kita hilangkan log maka persamaan akan dalam bentuk eksponensial:

odds(weightgain) = e^{-3,502 + 0,116 + 2,638 + 1,1}

Interpretasi dari Persamaan

Untuk setiap perubahan per unit pada variabel sex(1) (koding dummy untuk variabel M/jantan), akan meningkatkan weightgain sebesar 0,116.
Untuk setiap kenaikan pada variabel anthelmintic(1)sebesar 1 unit, maka akan meningkatkan weightgain sebesar 2,638.
Untuk setiap penambahan sebesar US$1 terhadap variabel cost, maka akan meningkatkan peluang weightgain sebesar 0,011. Dari nilai signifikansi dapat kita simpulkan bahwa variabel yang signifikan berpengaruh terhadap log odds (weightgain) adalah pemberian obat cacing secara rutin (anthelmintic(1)), dan cost dengan nilai signifikansi berturut-turut 0,02 dan 0,018 (pada tingkat signifikansi 95%).

Kemudian mari kita interpretasikan nilai exp(B) pada output variables in the equation di atas:

Variabel sex(1) yang mengacu pada Male/Jantan, memiliki kecenderungan untuk mendapatkan pertambahan berat badan (weightg ain) 1,122 kali daripada Female/betina yang menjadi kategori referensi kita (ini adalah koding dummy, dimana 0 untuk F dan 1 untuk M).
Variabel anthelmintic(1) yang mengacu pada yes, dimana pemberian obat cacing secara teratur dan sesuai dosis memiliki peluang sebesar 13,988 kali daripada kategori referensi kita yang mengacu pada no, dimana no dinyatakan sebagai tidak memberikan asupan obat cacing secara rutin dan sesuai dosis. variabel ini sangat signifikan mempengaruhi log odds (weightgain) dengan nilai signifikansi 0,002.
Variabel cost cenderung meningkatkan weightgain sebesar 0,030 kali dengan nilai signifikansi yang baik yaitu 0,018 < 0,05.(yoso)