Regresi linier sederhana adalah salah satu teknik statistik paling fundamental yang digunakan untuk memodelkan hubungan antara dua variabel: satu variabel independen (prediktor) dan satu variabel dependen (respons). Tujuannya adalah untuk menemukan garis lurus yang paling sesuai dengan sebaran data titik-titik tersebut. Meskipun saat ini banyak perangkat lunak statistik yang dapat melakukannya dengan mudah, memahami bagaimana menghitungnya secara manual memberikan wawasan mendalam tentang prinsip-prinsip yang mendasarinya.
Dalam konteks regresi linier sederhana, kita berasumsi bahwa hubungan antara variabel independen (biasanya dilambangkan dengan X) dan variabel dependen (biasanya dilambangkan dengan Y) dapat dijelaskan oleh sebuah persamaan linier:
Y = β₀ + β₁X + ε
Di sini:
Y adalah variabel dependen yang ingin kita prediksi.X adalah variabel independen yang digunakan untuk memprediksi Y.β₀ (beta nol) adalah intersep (atau konstanta). Ini adalah nilai Y ketika X bernilai nol.β₁ (beta satu) adalah gradien (atau koefisien regresi). Ini menunjukkan perubahan rata-rata pada Y untuk setiap satu unit perubahan pada X.ε (epsilon) adalah error term (atau residu). Ini merepresentasikan variabilitas dalam Y yang tidak dapat dijelaskan oleh X.Dalam analisis regresi, kita berusaha untuk menemukan nilai estimasi untuk β₀ dan β₁, yang sering dilambangkan sebagai b₀ dan b₁, sehingga garis regresi yang dihasilkan (Ŷ = b₀ + b₁X) paling baik mewakili data.
Metode yang paling umum untuk menemukan garis regresi terbaik adalah metode Kuadrat Terkecil (Least Squares). Metode ini bertujuan untuk meminimalkan jumlah kuadrat dari selisih antara nilai observasi aktual Y dan nilai prediksi Ŷ. Selisih ini dikenal sebagai residu.
Untuk menghitung b₁ (gradien) dan b₀ (intersep) secara manual, kita membutuhkan beberapa nilai statistik dari data kita:
n: jumlah pasangan data observasi.ΣX: jumlah dari semua nilai variabel independen X.ΣY: jumlah dari semua nilai variabel dependen Y.ΣXY: jumlah dari perkalian setiap pasangan X dan Y.ΣX²: jumlah dari kuadrat setiap nilai X.Dengan nilai-nilai ini, rumus untuk menghitung koefisien regresi adalah:
b₁ = [ n(ΣXY) - (ΣX)(ΣY) ] / [ n(ΣX²) - (ΣX)² ]
Setelah kita mendapatkan nilai b₁, kita dapat menghitung b₀ menggunakan rata-rata dari X (X̄) dan rata-rata dari Y (Ȳ):
b₀ = Ȳ - b₁X̄
Di mana X̄ = ΣX / n dan Ȳ = ΣY / n.
Misalkan kita memiliki data berikut tentang jam belajar (X) dan nilai ujian (Y):
Data: (1, 60), (2, 70), (3, 80), (4, 85), (5, 90)
Mari kita hitung:
n = 5ΣX = 1 + 2 + 3 + 4 + 5 = 15ΣY = 60 + 70 + 80 + 85 + 90 = 385ΣXY = (1*60) + (2*70) + (3*80) + (4*85) + (5*90) = 60 + 140 + 240 + 340 + 450 = 1230ΣX² = 1² + 2² + 3² + 4² + 5² = 1 + 4 + 9 + 16 + 25 = 55Menghitung b₁:
b₁ = [ 5(1230) - (15)(385) ] / [ 5(55) - (15)² ]
b₁ = [ 6150 - 5775 ] / [ 275 - 225 ]
b₁ = 375 / 50 = 7.5
Menghitung X̄ dan Ȳ:
X̄ = 15 / 5 = 3
Ȳ = 385 / 5 = 77
Menghitung b₀:
b₀ = 77 - 7.5 * 3
b₀ = 77 - 22.5 = 54.5
Jadi, persamaan regresi linier sederhananya adalah: Ŷ = 54.5 + 7.5X.
Ini berarti bahwa rata-rata, setiap jam tambahan belajar diprediksi akan meningkatkan nilai ujian sebesar 7.5 poin, dan jika seseorang tidak belajar sama sekali (X=0), nilai ujian yang diprediksi adalah 54.5.
Meskipun alat otomatis sangat efisien, memahami proses manual ini membantu kita:
Regresi linier sederhana adalah alat yang ampuh, dan dengan sedikit usaha untuk memahami perhitungannya secara manual, Anda akan lebih siap untuk menerapkannya dengan percaya diri.