Rumus Regresi Logistik
Regresi logistik adalah salah satu metode paling populer dalam statistika dan data science untuk memodelkan hubungan antara sejumlah variabel independen (prediktor) dengan variabel dependen yang bersifat kategorik, terutama biner (misalnya: ya/tidak, sukses/gagal, sakit/sehat). Berbeda dari regresi linear yang menghasilkan keluaran berupa nilai kontinu, regresi logistik dirancang untuk memperkirakan probabilitas suatu kejadian, sehingga hasil akhirnya berada pada rentang 0 hingga 1. Dalam artikel ini, kita akan membahas rumus regresi logistik, makna setiap komponennya, serta bagaimana cara menafsirkannya.
Mengapa Regresi Logistik Dibutuhkan?
Jika kita menggunakan regresi linear untuk memprediksi probabilitas, model bisa menghasilkan nilai di bawah 0 atau di atas 1, yang jelas tidak masuk akal untuk probabilitas. Regresi logistik mengatasi masalah ini dengan memakai fungsi non-linear yang memetakan hasil perhitungan (yang dapat bernilai apa saja) menjadi nilai probabilitas antara 0 dan 1. Fungsi yang paling umum digunakan adalah fungsi logistik atau sigmoid.
Misalnya, kita ingin memprediksi apakah seorang pelanggan akan berhenti berlangganan (churn) berdasarkan usia, lama berlangganan, dan frekuensi penggunaan. Hasil yang ingin diprediksi hanya dua kemungkinan: churn (1) atau tidak churn (0). Regresi logistik sangat cocok untuk kasus seperti ini.
Rumus Dasar Regresi Logistik
Inti dari regresi logistik adalah memodelkan probabilitas \( p \) bahwa \( Y = 1 \) (kejadian terjadi), diberikan nilai variabel prediktor \( X \).
Model regresi logistik biasanya dituliskan dalam dua bentuk penting:
1) Bentuk Probabilitas (Sigmoid)
\[
p = P(Y=1 \mid X) = \frac{1}{1 + e^{-z}}
\]
dengan
\[
z = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_k X_k
\]
Keterangan:
– \( p \) adalah probabilitas kejadian (misalnya: churn = 1).
– \( e \) adalah bilangan Euler (sekitar 2,71828).
– \( z \) adalah kombinasi linear dari prediktor.
– \( \beta_0 \) adalah intercept (konstanta).
– \( \beta_1, \beta_2, \ldots, \beta_k \) adalah koefisien regresi.
– \( X_1, X_2, \ldots, X_k \) adalah variabel independen.
Fungsi sigmoid memastikan bahwa berapa pun nilai \( z \), nilai \( p \) tetap berada di antara 0 dan 1.
2) Bentuk Logit (Log Odds)
Bentuk lain yang sangat penting adalah bentuk logit, yaitu logaritma dari odds:
\[
\text{logit}(p) = \ln\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_k X_k
\]
Keterangan:
– \( \frac{p}{1-p} \) disebut odds (peluang relatif).
– \( \ln \) adalah logaritma natural.
Bentuk logit menjelaskan bahwa regresi logistik sebenarnya memodelkan log odds sebagai fungsi linear dari prediktor. Ini membuat interpretasi koefisien menjadi lebih jelas, terutama dalam konteks odds ratio.
Memahami Odds dan Odds Ratio
Agar rumus regresi logistik benar-benar dipahami, kita perlu membedakan antara probabilitas dan odds.
– Probabilitas \( p \): peluang kejadian terjadi (0 sampai 1).
– Odds : perbandingan peluang terjadi terhadap tidak terjadi:
\[
\text{odds} = \frac{p}{1-p}
\]
Contoh: jika \( p = 0{,}8 \), maka:
\[
\text{odds} = \frac{0{,}8}{0{,}2} = 4
\]
Artinya, kejadian tersebut 4 kali lebih mungkin terjadi daripada tidak terjadi.
Dalam regresi logistik, koefisien \( \beta \) sering ditafsirkan melalui odds ratio :
\[
\text{OR} = e^{\beta}
\]
– Jika \( \beta > 0 \), maka \( e^{\beta} > 1 \): prediktor meningkatkan odds kejadian.
– Jika \( \beta < 0 \), maka \( e^{\beta} < 1 \): prediktor menurunkan odds kejadian.
- Jika \( \beta = 0 \), maka \( e^{\beta} = 1 \): tidak ada pengaruh terhadap odds.
Misalnya, jika \( \beta_1 = 0{,}7 \), maka:
\[
e^{0{,}7} \approx 2{,}01
\]
Artinya, setiap kenaikan 1 satuan \( X_1 \) akan mengalikan odds kejadian sekitar 2,01 kali (dengan asumsi variabel lain tetap).
Contoh Model Regresi Logistik Sederhana
Misalkan kita hanya punya satu variabel prediktor \( X \), misalnya jumlah jam belajar per minggu, untuk memprediksi kelulusan ujian (lulus = 1, tidak lulus = 0). Modelnya: