Analisis Survival dalam Statistika
Analisis survival (survival analysis) adalah cabang statistika yang berfokus pada pemodelan dan analisis waktu hingga terjadinya suatu peristiwa . Peristiwa tersebut bisa berupa kematian pasien, kekambuhan penyakit, kegagalan komponen mesin, berhentinya pelanggan berlangganan (churn), atau waktu sampai seorang pencari kerja memperoleh pekerjaan. Keunikan utama analisis survival dibanding teknik statistika lain terletak pada kemampuannya menangani data yang tidak “lengkap” akibat sensoring (censoring) , yakni kondisi ketika peristiwa belum terjadi sampai akhir masa pengamatan atau tidak teramati secara penuh.
Dalam penelitian medis, analisis survival sering digunakan untuk membandingkan efektivitas terapi berdasarkan durasi bertahan hidup; dalam teknik, untuk memperkirakan umur pakai komponen; dan dalam bisnis, untuk memprediksi retensi pelanggan. Dengan menggabungkan konsep probabilitas, estimasi nonparametrik, serta model regresi, analisis survival menjadi alat yang sangat penting dalam pengambilan keputusan berbasis data.
Konsep dasar: waktu kejadian dan censoring
Inti dari analisis survival adalah variabel acak \(T\) yang menyatakan waktu sampai kejadian . Misalnya, \(T\) dapat berupa jumlah hari setelah terapi sampai pasien mengalami kekambuhan. Namun, sering kali peneliti tidak mengamati \(T\) secara lengkap. Ada beberapa bentuk censoring yang umum:
1. Right censoring (sensor kanan) : Paling sering terjadi, misalnya pasien belum mengalami kejadian hingga studi berakhir, atau pasien keluar dari studi. Kita hanya tahu bahwa \(T\) lebih besar dari waktu terakhir diamati.
2. Left censoring (sensor kiri) : Kejadian terjadi sebelum awal pengamatan, tetapi waktu pastinya tidak diketahui.
3. Interval censoring : Kejadian diketahui terjadi di antara dua waktu pengamatan (misalnya, pasien diperiksa tiap bulan dan kejadian diketahui terjadi antara bulan ke-2 dan ke-3).
Sebagian besar metode dasar yang populer (seperti Kaplan–Meier dan model Cox) berfokus pada kasus right censoring .
Fungsi survival dan hazard
Analisis survival banyak menggunakan dua fungsi utama:
1) Fungsi survival
Fungsi survival didefinisikan sebagai:
\[
S(t) = P(T > t)
\]
Artinya, \(S(t)\) adalah peluang bahwa individu/objek bertahan melewati waktu \(t\). Misalnya, \(S(12)=0{,}80\) dapat diartikan bahwa 80% subjek diperkirakan belum mengalami kejadian hingga 12 bulan.
2) Fungsi hazard
Fungsi hazard (laju risiko) menggambarkan risiko kejadian “saat ini” dengan syarat subjek masih bertahan sampai waktu tersebut:
\[
h(t) = \lim_{\Delta t \to 0} \frac{P(t \le T < t+\Delta t \mid T \ge t)}{\Delta t}
\]
Hazard bukan probabilitas, melainkan laju . Dalam konteks medis, hazard yang lebih tinggi berarti risiko mengalami kejadian pada waktu itu lebih tinggi bagi individu yang masih bertahan.
Kedua konsep ini saling terkait melalui:
\[
S(t)=\exp\left(-\int_0^t h(u)\,du\right)
\]
Hubungan ini penting karena sebagian model memfokuskan pada hazard, lalu menurunkan survival, atau sebaliknya.
Estimasi nonparametrik: Kaplan–Meier
Salah satu metode paling terkenal dalam analisis survival adalah Kaplan–Meier estimator , yakni estimasi nonparametrik untuk fungsi survival tanpa mengasumsikan bentuk distribusi tertentu. Estimator ini membangun kurva survival sebagai hasil perkalian peluang bertahan pada setiap waktu kejadian.
Secara konseptual, Kaplan–Meier menghitung:
- pada tiap waktu kejadian \(t_i\),
- \(d_i\) = jumlah kejadian pada \(t_i\),
- \(n_i\) = jumlah subjek “berisiko” tepat sebelum \(t_i\),
maka:
\[
\hat{S}(t) = \prod_{t_i \le t}\left(1 - \frac{d_i}{n_i}\right)
\]
Keunggulan Kaplan–Meier adalah:
- mudah diinterpretasikan melalui kurva survival,
- dapat menangani right censoring,
- berguna untuk eksplorasi data dan perbandingan kelompok.
Namun, Kaplan–Meier pada dasarnya bersifat deskriptif. Untuk menguji apakah dua kurva survival berbeda secara signifikan, sering digunakan uji log-rank .
Perbandingan kelompok: uji log-rank
Log-rank test digunakan untuk menguji hipotesis apakah ada perbedaan survival antara dua (atau lebih) kelompok, misalnya kelompok terapi A vs terapi B. Uji ini membandingkan jumlah kejadian yang “diobservasi” dengan yang “diharapkan” pada tiap waktu kejadian, dengan mempertimbangkan jumlah subjek yang masih berisiko.