Rumus regresi logistik

Rumus Regresi Logistik

Regresi logistik adalah salah satu metode paling populer dalam statistika dan data science untuk memodelkan hubungan antara sejumlah variabel independen (prediktor) dengan variabel dependen yang bersifat kategorik, terutama biner (misalnya: ya/tidak, sukses/gagal, sakit/sehat). Berbeda dari regresi linear yang menghasilkan keluaran berupa nilai kontinu, regresi logistik dirancang untuk memperkirakan probabilitas suatu kejadian, sehingga hasil akhirnya berada pada rentang 0 hingga 1. Dalam artikel ini, kita akan membahas rumus regresi logistik, makna setiap komponennya, serta bagaimana cara menafsirkannya.

Mengapa Regresi Logistik Dibutuhkan?

Jika kita menggunakan regresi linear untuk memprediksi probabilitas, model bisa menghasilkan nilai di bawah 0 atau di atas 1, yang jelas tidak masuk akal untuk probabilitas. Regresi logistik mengatasi masalah ini dengan memakai fungsi non-linear yang memetakan hasil perhitungan (yang dapat bernilai apa saja) menjadi nilai probabilitas antara 0 dan 1. Fungsi yang paling umum digunakan adalah fungsi logistik atau sigmoid.

Misalnya, kita ingin memprediksi apakah seorang pelanggan akan berhenti berlangganan (churn) berdasarkan usia, lama berlangganan, dan frekuensi penggunaan. Hasil yang ingin diprediksi hanya dua kemungkinan: churn (1) atau tidak churn (0). Regresi logistik sangat cocok untuk kasus seperti ini.

Rumus Dasar Regresi Logistik

Inti dari regresi logistik adalah memodelkan probabilitas \( p \) bahwa \( Y = 1 \) (kejadian terjadi), diberikan nilai variabel prediktor \( X \).

Model regresi logistik biasanya dituliskan dalam dua bentuk penting:

1) Bentuk Probabilitas (Sigmoid)

\[
p = P(Y=1 \mid X) = \frac{1}{1 + e^{-z}}
\]

dengan

\[
z = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_k X_k
\]

Keterangan:
– \( p \) adalah probabilitas kejadian (misalnya: churn = 1).
– \( e \) adalah bilangan Euler (sekitar 2,71828).
– \( z \) adalah kombinasi linear dari prediktor.
– \( \beta_0 \) adalah intercept (konstanta).
– \( \beta_1, \beta_2, \ldots, \beta_k \) adalah koefisien regresi.
– \( X_1, X_2, \ldots, X_k \) adalah variabel independen.

READ Statistika untuk inovasi

Fungsi sigmoid memastikan bahwa berapa pun nilai \( z \), nilai \( p \) tetap berada di antara 0 dan 1.

2) Bentuk Logit (Log Odds)

Bentuk lain yang sangat penting adalah bentuk logit, yaitu logaritma dari odds:

\[
\text{logit}(p) = \ln\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_k X_k
\]

Keterangan:
– \( \frac{p}{1-p} \) disebut odds (peluang relatif).
– \( \ln \) adalah logaritma natural.

Bentuk logit menjelaskan bahwa regresi logistik sebenarnya memodelkan log odds sebagai fungsi linear dari prediktor. Ini membuat interpretasi koefisien menjadi lebih jelas, terutama dalam konteks odds ratio.

Memahami Odds dan Odds Ratio

Agar rumus regresi logistik benar-benar dipahami, kita perlu membedakan antara probabilitas dan odds.

– Probabilitas \( p \): peluang kejadian terjadi (0 sampai 1).
– Odds : perbandingan peluang terjadi terhadap tidak terjadi:

\[
\text{odds} = \frac{p}{1-p}
\]

Contoh: jika \( p = 0{,}8 \), maka:

\[
\text{odds} = \frac{0{,}8}{0{,}2} = 4
\]

Artinya, kejadian tersebut 4 kali lebih mungkin terjadi daripada tidak terjadi.

Dalam regresi logistik, koefisien \( \beta \) sering ditafsirkan melalui odds ratio :

\[
\text{OR} = e^{\beta}
\]

– Jika \( \beta > 0 \), maka \( e^{\beta} > 1 \): prediktor meningkatkan odds kejadian.
– Jika \( \beta < 0 \), maka \( e^{\beta} < 1 \): prediktor menurunkan odds kejadian. - Jika \( \beta = 0 \), maka \( e^{\beta} = 1 \): tidak ada pengaruh terhadap odds. Misalnya, jika \( \beta_1 = 0{,}7 \), maka: \[ e^{0{,}7} \approx 2{,}01 \] Artinya, setiap kenaikan 1 satuan \( X_1 \) akan mengalikan odds kejadian sekitar 2,01 kali (dengan asumsi variabel lain tetap). Contoh Model Regresi Logistik Sederhana Misalkan kita hanya punya satu variabel prediktor \( X \), misalnya jumlah jam belajar per minggu, untuk memprediksi kelulusan ujian (lulus = 1, tidak lulus = 0). Modelnya:

READ Peran statistika dalam ilmu sejarah

\[ \text{logit}(p) = \beta_0 + \beta_1 X \] Jika hasil estimasi: - \( \beta_0 = -4 \) - \( \beta_1 = 0{,}8 \) Maka: \[ z = -4 + 0{,}8X \] \[ p = \frac{1}{1 + e^{-(-4 + 0{,}8X)}} = \frac{1}{1 + e^{4 - 0{,}8X}} \] Jika \( X = 6 \) jam belajar: \[ z = -4 + 0{,}8(6) = 0{,}8 \] \[ p = \frac{1}{1 + e^{-0{,}8}} \approx 0{,}69 \] Interpretasi: dengan 6 jam belajar per minggu, probabilitas lulus sekitar 69%. Estimasi Koefisien: Mengapa Bukan Metode Kuadrat Terkecil? Pada regresi linear, koefisien sering dihitung dengan metode kuadrat terkecil (least squares). Namun pada regresi logistik, hubungan antara prediktor dan probabilitas bersifat non-linear, sehingga pendekatan kuadrat terkecil tidak ideal. Regresi logistik umumnya menggunakan Maximum Likelihood Estimation (MLE) untuk mencari nilai koefisien \( \beta \) yang memaksimalkan kemungkinan data yang diamati. Secara ringkas, likelihood untuk pengamatan biner \( y_i \in \{0,1\} \) dan prediksi \( p_i \) adalah: \[ L(\beta) = \prod_{i=1}^{n} p_i^{y_i}(1-p_i)^{(1-y_i)} \] Kemudian sering diubah menjadi log-likelihood agar lebih mudah dihitung: \[ \ell(\beta) = \sum_{i=1}^{n} \left[ y_i \ln(p_i) + (1-y_i)\ln(1-p_i) \right] \] Nilai \( \beta \) dipilih untuk memaksimalkan \( \ell(\beta) \). Metode numerik seperti Newton-Raphson atau gradient descent sering digunakan oleh perangkat lunak statistik. Kelebihan dan Keterbatasan Regresi Logistik Kelebihan 1. Hasil berupa probabilitas sehingga mudah diterjemahkan menjadi keputusan. 2. Interpretasi koefisien jelas melalui odds ratio. 3. Cocok untuk masalah klasifikasi biner dan dapat diperluas ke multinomial/ordinal. Keterbatasan 1. Mengasumsikan hubungan linear antara prediktor dan log odds , bukan langsung ke probabilitas. 2. Bisa bermasalah jika ada multikolinearitas atau data sangat tidak seimbang (imbalance). 3. Untuk pola hubungan yang sangat kompleks, metode non-linear lain (misalnya random forest atau neural network) bisa lebih unggul.

READ Statistika dalam data besar

Penutup Rumus regresi logistik pada dasarnya memadukan kombinasi linear dari variabel prediktor dengan fungsi sigmoid untuk menghasilkan probabilitas. Bentuk yang paling umum adalah: \[ p = \frac{1}{1 + e^{-(\beta_0 + \beta_1 X_1 + \cdots + \beta_k X_k)}} \] atau dalam bentuk logit: \[ \ln\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1 X_1 + \cdots + \beta_k X_k \] Dengan memahami kedua bentuk rumus ini, kita dapat membangun model prediksi untuk berbagai masalah klasifikasi biner sekaligus menafsirkan pengaruh variabel melalui odds ratio \( e^{\beta} \). Regresi logistik tetap menjadi fondasi penting dalam analisis data karena sederhana, kuat, dan interpretatif—serta sering menjadi langkah awal sebelum mencoba model yang lebih kompleks. Jika Anda ingin, saya bisa menambahkan contoh perhitungan dengan data kecil (tabel), atau contoh implementasi regresi logistik di Python/R beserta interpretasi outputnya.

Tinggalkan komentar Batalkan balasan