Analisis survival dalam statistika

Analisis Survival dalam Statistika

Analisis survival (survival analysis) adalah cabang statistika yang berfokus pada pemodelan dan analisis waktu hingga terjadinya suatu peristiwa . Peristiwa tersebut bisa berupa kematian pasien, kekambuhan penyakit, kegagalan komponen mesin, berhentinya pelanggan berlangganan (churn), atau waktu sampai seorang pencari kerja memperoleh pekerjaan. Keunikan utama analisis survival dibanding teknik statistika lain terletak pada kemampuannya menangani data yang tidak “lengkap” akibat sensoring (censoring) , yakni kondisi ketika peristiwa belum terjadi sampai akhir masa pengamatan atau tidak teramati secara penuh.

Dalam penelitian medis, analisis survival sering digunakan untuk membandingkan efektivitas terapi berdasarkan durasi bertahan hidup; dalam teknik, untuk memperkirakan umur pakai komponen; dan dalam bisnis, untuk memprediksi retensi pelanggan. Dengan menggabungkan konsep probabilitas, estimasi nonparametrik, serta model regresi, analisis survival menjadi alat yang sangat penting dalam pengambilan keputusan berbasis data.

Konsep dasar: waktu kejadian dan censoring

Inti dari analisis survival adalah variabel acak \(T\) yang menyatakan waktu sampai kejadian . Misalnya, \(T\) dapat berupa jumlah hari setelah terapi sampai pasien mengalami kekambuhan. Namun, sering kali peneliti tidak mengamati \(T\) secara lengkap. Ada beberapa bentuk censoring yang umum:

1. Right censoring (sensor kanan) : Paling sering terjadi, misalnya pasien belum mengalami kejadian hingga studi berakhir, atau pasien keluar dari studi. Kita hanya tahu bahwa \(T\) lebih besar dari waktu terakhir diamati.
2. Left censoring (sensor kiri) : Kejadian terjadi sebelum awal pengamatan, tetapi waktu pastinya tidak diketahui.
3. Interval censoring : Kejadian diketahui terjadi di antara dua waktu pengamatan (misalnya, pasien diperiksa tiap bulan dan kejadian diketahui terjadi antara bulan ke-2 dan ke-3).

Sebagian besar metode dasar yang populer (seperti Kaplan–Meier dan model Cox) berfokus pada kasus right censoring .

READ Analisis faktor dalam statistika

Fungsi survival dan hazard

Analisis survival banyak menggunakan dua fungsi utama:

1) Fungsi survival
Fungsi survival didefinisikan sebagai:
\[
S(t) = P(T > t)
\]
Artinya, \(S(t)\) adalah peluang bahwa individu/objek bertahan melewati waktu \(t\). Misalnya, \(S(12)=0{,}80\) dapat diartikan bahwa 80% subjek diperkirakan belum mengalami kejadian hingga 12 bulan.

2) Fungsi hazard
Fungsi hazard (laju risiko) menggambarkan risiko kejadian “saat ini” dengan syarat subjek masih bertahan sampai waktu tersebut:
\[
h(t) = \lim_{\Delta t \to 0} \frac{P(t \le T < t+\Delta t \mid T \ge t)}{\Delta t} \] Hazard bukan probabilitas, melainkan laju . Dalam konteks medis, hazard yang lebih tinggi berarti risiko mengalami kejadian pada waktu itu lebih tinggi bagi individu yang masih bertahan. Kedua konsep ini saling terkait melalui: \[ S(t)=\exp\left(-\int_0^t h(u)\,du\right) \] Hubungan ini penting karena sebagian model memfokuskan pada hazard, lalu menurunkan survival, atau sebaliknya. Estimasi nonparametrik: Kaplan–Meier Salah satu metode paling terkenal dalam analisis survival adalah Kaplan–Meier estimator , yakni estimasi nonparametrik untuk fungsi survival tanpa mengasumsikan bentuk distribusi tertentu. Estimator ini membangun kurva survival sebagai hasil perkalian peluang bertahan pada setiap waktu kejadian. Secara konseptual, Kaplan–Meier menghitung: - pada tiap waktu kejadian \(t_i\), - \(d_i\) = jumlah kejadian pada \(t_i\), - \(n_i\) = jumlah subjek “berisiko” tepat sebelum \(t_i\), maka: \[ \hat{S}(t) = \prod_{t_i \le t}\left(1 - \frac{d_i}{n_i}\right) \] Keunggulan Kaplan–Meier adalah: - mudah diinterpretasikan melalui kurva survival, - dapat menangani right censoring, - berguna untuk eksplorasi data dan perbandingan kelompok. Namun, Kaplan–Meier pada dasarnya bersifat deskriptif. Untuk menguji apakah dua kurva survival berbeda secara signifikan, sering digunakan uji log-rank . Perbandingan kelompok: uji log-rank Log-rank test digunakan untuk menguji hipotesis apakah ada perbedaan survival antara dua (atau lebih) kelompok, misalnya kelompok terapi A vs terapi B. Uji ini membandingkan jumlah kejadian yang “diobservasi” dengan yang “diharapkan” pada tiap waktu kejadian, dengan mempertimbangkan jumlah subjek yang masih berisiko.

READ Penggunaan statistika dalam psikologi

Log-rank efektif ketika asumsi perbedaan hazard antar kelompok relatif konstan sepanjang waktu. Jika hazard bersilangan (crossing hazards), interpretasinya menjadi lebih rumit dan uji alternatif bisa dipertimbangkan. Model regresi: Cox Proportional Hazards Ketika peneliti ingin memasukkan banyak kovariat (umur, jenis kelamin, biomarker, jenis terapi, dll.), metode yang paling umum adalah Cox Proportional Hazards Model . Model Cox menyatakan hazard individu dengan kovariat \(X\) sebagai: \[ h(t \mid X) = h_0(t)\exp(\beta^\top X) \] di mana: - \(h_0(t)\) adalah baseline hazard (tidak perlu ditentukan bentuknya), - \(\beta\) adalah parameter yang diestimasi. Interpretasi utama Cox adalah melalui hazard ratio (HR) : \[ HR = \exp(\beta) \] Jika \(HR = 1{,}5\), maka kelompok dengan kovariat tertentu memiliki hazard 1,5 kali (50% lebih tinggi) dibanding kelompok referensi, dengan asumsi kovariat lain konstan. Keunggulan model Cox: - fleksibel karena tidak memerlukan bentuk distribusi khusus untuk \(h_0(t)\), - dapat memasukkan banyak kovariat, - interpretasi melalui hazard ratio relatif mudah. Tantangan utama model Cox adalah asumsi proportional hazards , yaitu perbandingan hazard antar kelompok dianggap konstan sepanjang waktu. Asumsi ini dapat diperiksa melalui: - grafik log(-log(S(t))) antar kelompok, - residu Schoenfeld, - pendekatan time-varying covariates bila asumsi tidak terpenuhi. Model parametrik: Exponential, Weibull, dan lainnya Berbeda dari Cox yang semiparametrik, model parametrik mengasumsikan bentuk distribusi tertentu untuk waktu survival, misalnya: - Exponential : hazard konstan sepanjang waktu, - Weibull : hazard bisa meningkat atau menurun, - Log-normal dan Log-logistic : berguna untuk pola hazard yang tidak monoton. Model parametrik unggul dalam: - prediksi jangka panjang, - estimasi kuantitas seperti mean survival (bila terdefinisi), - efisiensi jika asumsi distribusi tepat. Namun, jika asumsi distribusi keliru, hasilnya bisa bias. Oleh karena itu, pemilihan model perlu mempertimbangkan diagnostik, AIC/BIC, dan kecocokan kurva.

READ Dasar-dasar uji hipotesis

Aplikasi praktis di berbagai bidang 1. Kesehatan dan epidemiologi : waktu sampai kematian, kekambuhan kanker, waktu sampai pasien sembuh atau relapse, evaluasi perawatan. 2. Teknik dan reliabilitas : waktu sampai komponen rusak, analisis garansi, perencanaan pemeliharaan. 3. Bisnis dan pemasaran : waktu sampai pelanggan churn, waktu sampai pembelian ulang, retensi pengguna aplikasi. 4. Sosial dan ekonomi : durasi menganggur, waktu sampai pernikahan, durasi studi sampai lulus. Dengan data yang tepat, analisis survival membantu organisasi memahami dinamika “ketahanan” suatu sistem dan faktor-faktor yang mempercepat atau memperlambat terjadinya peristiwa. Hal penting dalam praktik analisis survival Beberapa hal yang perlu diperhatikan agar analisis tepat dan dapat dipercaya: - Definisikan peristiwa dengan jelas : misalnya, “kegagalan” harus konsisten (apakah termasuk kerusakan minor?). - Tentukan awal waktu (time origin) : misalnya sejak diagnosis, sejak terapi dimulai, atau sejak pemasangan komponen. - Censoring harus non-informatif : idealnya, peluang tersensor tidak bergantung pada risiko kejadian setelah mengondisikan kovariat. Jika censoring informatif, perlu pendekatan khusus. - Kualitas data dan follow-up : kehilangan data follow-up dapat memengaruhi kesimpulan. - Diagnostik model : cek asumsi proportional hazards untuk Cox atau kecocokan distribusi untuk model parametrik. Kesimpulan Analisis survival merupakan metode statistika yang sangat kuat untuk mempelajari waktu hingga terjadinya peristiwa, terutama ketika data mengandung censoring. Dengan alat seperti Kaplan–Meier, uji log-rank, model Cox proportional hazards, dan model parametrik, peneliti dapat mengestimasi peluang bertahan, membandingkan kelompok, serta menilai pengaruh kovariat terhadap risiko kejadian. Pemahaman konsep survival dan hazard, serta kehati-hatian terhadap asumsi model dan kualitas data, menjadi kunci agar hasil analisis survival dapat diandalkan dan bermanfaat dalam pengambilan keputusan di berbagai bidang. Jika Anda ingin, saya bisa membuat versi artikel yang lebih akademik (dengan referensi), atau menyertakan contoh perhitungan dan ilustrasi kurva Kaplan–Meier serta interpretasi hazard ratio.

Tinggalkan komentar Batalkan balasan