Analisis regresi linear sederhana

Analisis Regresi Linear Sederhana

Regresi linear sederhana adalah salah satu teknik statistika yang digunakan untuk menganalisis hubungan antara dua variabel kuantitatif. Variabel yang kita coba prediksi disebut sebagai variabel dependen atau respons, sedangkan variabel yang digunakan untuk membuat prediksi disebut sebagai variabel independen atau prediktor. Dalam regresi linear sederhana, kita berusaha menemukan garis lurus terbaik yang menggambarkan hubungan antara kedua variabel ini.

Konsep Dasar Regresi Linear Sederhana

Regresi linear sederhana didasarkan pada asumsi bahwa ada hubungan linear antara variabel dependen \(Y\) dan variabel independen \(X\). Bentuk umum model regresi linear sederhana adalah:

\[ Y = \beta_0 + \beta_1 X + \epsilon \]

Di mana:
– \( Y \) adalah variabel dependen.
– \( X \) adalah variabel independen.
– \( \beta_0 \) adalah intercept, yaitu nilai \(Y\) ketika \(X = 0\).
– \( \beta_1 \) adalah slope atau gradien, yaitu perubahan rata-rata pada \(Y\) untuk setiap unit perubahan pada \(X\).
– \( \epsilon \) adalah term error atau residual yang mewakili variabilitas \(Y\) yang tidak dapat dijelaskan oleh \(X\).

Tujuan dari regresi linear sederhana adalah untuk memperkirakan parameter \(\beta_0\) dan \(\beta_1\) sehingga model tersebut dapat digunakan untuk memprediksi nilai \(Y\) yang terkait dengan nilai \(X\).

Metode Least Squares

Salah satu metode yang paling umum digunakan untuk menyesuaikan model regresi linear sederhana adalah metode Least Squares. Metode ini bertujuan untuk meminimalkan jumlah kuadrat dari deviasi vertikal antara pengamatan sebenarnya dan nilai yang diprediksi oleh model. Misalkan, kita memiliki n pengamatan yang terdiri dari pasangan \((x_i, y_i)\) untuk \(i = 1, 2, …, n\). Fungsi yang harus diminimalkan adalah:

\[ S(\beta_0, \beta_1) = \sum_{i=1}^{n} (y_i – (\beta_0 + \beta_1 x_i))^2 \]

READ  Statistika dalam agribisnis

Untuk menemukan \(\beta_0\) dan \(\beta_1\) yang meminimalkan fungsi ini, kita mengambil turunan parsial dari \(S(\beta_0, \beta_1)\) terhadap masing-masing parameter dan mengatur turunan ini menjadi nol. Sedangkan perhitungan matematisnya dapat disederhanakan dalam bentuk berikut:

\[ \beta_1 = \frac{\sum_{i=1}^{n} (x_i – \bar{x})(y_i – \bar{y})}{\sum_{i=1}^{n} (x_i – \bar{x})^2} \]

\[ \beta_0 = \bar{y} – \beta_1 \bar{x} \]

Di mana:
– \(\bar{x}\) adalah rata-rata dari \(X\)
– \(\bar{y}\) adalah rata-rata dari \(Y\)

Setelah mendapatkan parameter \(\beta_0\) dan \(\beta_1\), model regresi linear sederhana dapat digunakan untuk memprediksi nilai \(Y\) untuk setiap nilai \(X\).

Asumsi dalam Regresi Linear Sederhana

Untuk hasil yang valid dan dapat diandalkan, regresi linear sederhana mengasumsikan beberapa hal:
1. Linearitas : Hubungan antara variabel dependen dan variabel independen harus linear.
2. Independensi : Observasi harus independen satu sama lain.
3. Homoskedastisitas : Variabilitas residual harus konstan di sepanjang rentang nilai variabel independen.
4. Normalitas Residual : Residual (error) harus mengikuti distribusi normal.

Jika asumsi-asumsi ini tidak terpenuhi, hasil dari model regresi linear sederhana tidak dapat dipercaya dan bisa jadi tidak dapat digunakan untuk membuat prediksi yang akurat.

Penilaian Model Regresi

Salah satu cara untuk menilai seberapa baik model regresi linear sederhana telah memprediksi adalah dengan menggunakan Koefisien Determinasi (\(R^2\)). Koefisien determinasi menunjukkan proporsi variabilitas dalam variabel dependen yang bisa dijelaskan oleh variabilitas dalam variabel independen.

\[ R^2 = \frac{\sum_{i=1}^{n} (\hat{y}_i – \bar{y})^2}{\sum_{i=1}^{n} (y_i – \bar{y})^2} \]

Di mana:
– \(\hat{y}_i\) adalah nilai \(Y\) yang diprediksi.
– \(y_i\) adalah nilai \(Y\) yang sebenarnya.
– \(\bar{y}\) adalah rata-rata dari nilai \(Y\).

Nilai \(R^2\) berkisar dari 0 hingga 1. Nilai \(R^2\) yang mendekati 1 menunjukkan bahwa model tersebut bisa menjelaskan sebagian besar variabilitas dalam variabel dependen.

READ  Statistika dalam ilmu komunikasi

Implementasi dalam Bahasa Pemrograman

Untuk mengimplementasikan regresi linear sederhana, kita dapat menggunakan berbagai perangkat lunak statistik atau bahasa pemrograman. Di bawah ini adalah contoh implementasi dalam bahasa Python menggunakan pustaka `scikit-learn`:

“`python
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

Data
X = np.array([[1], [2], [3], [4], [5]]).astype(np.float64)
y = np.array([1.5, 3.6, 3.5, 2.9, 5.5]).astype(np.float64)

Model
model = LinearRegression()
model.fit(X, y)

Prediksi
y_pred = model.predict(X)

Koefisien
beta_0 = model.intercept_
beta_1 = model.coef_[0]

print(f’Intercept: {beta_0}’)
print(f’Slope: {beta_1}’)
print(f’Mean squared error: {mean_squared_error(y, y_pred)}’)
print(f’Coefficient of determination (R^2): {r2_score(y, y_pred)}’)

Plot data dan garis regresi
plt.scatter(X, y, color=’blue’)
plt.plot(X, y_pred, color=’red’)
plt.xlabel(‘X’)
plt.ylabel(‘Y’)
plt.show()
“`

Dalam contoh di atas, kita pertama-tama mengimpor pustaka yang diperlukan, mendefinisikan data \(X\) dan \(Y\), dan kemudian menggunakan objek `LinearRegression` dari `scikit-learn` untuk menyesuaikan model dengan data tersebut. Setelah model dipasang, kami melakukan prediksi dan menghitung koefisien serta kesalahan kuadrat rata-rata dan koefisien determinasi. Terakhir, kita membuat plot data dan garis regresi.

Kesimpulan

Regresi linear sederhana adalah alat analisis statistika yang kuat yang digunakan untuk menjelaskan hubungan antara dua variabel kuantitatif. Dengan beberapa asumsi dasar tentang linearitas, independensi, homokedastisitas, dan normalitas, kita dapat memprediksi nilai variabel dependen berdasarkan nilai variabel independen. Metode Least Squares memberikan cara efektif untuk menyesuaikan garis regresi dan menentukan parameter yang optimal. Evaluasi model melalui koefisien determinasi (\(R^2\)) memberikan wawasan tentang seberapa baik model kita bekerja.

Meski regresi linear sederhana memiliki keterbatasan, seperti hanya bisa menangani dua variabel dan asumsi-asumsi yang harus dipenuhi, teknik ini tetap menjadi fondasi penting dalam statistika dan analisis data, serta sering digunakan sebagai langkah pertama dalam memahami hubungan antara variabel sebelum beralih ke metode yang lebih kompleks.

Tinggalkan komentar