Dalam dunia analisis statistik dan pemodelan prediktif, kita seringkali dihadapkan pada data yang tidak hanya terdiri dari angka, tetapi juga kategori. Variabel-variabel seperti jenis kelamin (pria/wanita), status pernikahan (menikah/belum menikah/cerai), tingkat pendidikan (SD/SMP/SMA/S1/S2), atau bahkan warna (merah/biru/hijau) adalah contoh umum dari variabel kategorikal. Namun, sebagian besar teknik regresi tradisional, seperti regresi linear, dirancang untuk bekerja dengan variabel numerik. Di sinilah konsep regresi dummy menjadi sangat krusial.
Ilustrasi representasi variabel kategorikal.
Variabel dummy, juga dikenal sebagai variabel indikator atau variabel biner, adalah variabel yang mengambil nilai 0 atau 1 untuk mengindikasikan apakah suatu kategori hadir atau tidak. Ide dasarnya adalah mengubah variabel kategorikal menjadi format yang dapat dipahami oleh model regresi.
Misalnya, jika kita memiliki variabel "Jenis Kelamin" dengan tiga kategori: "Pria", "Wanita", dan "Lainnya". Kita tidak bisa langsung memasukkan teks "Pria" ke dalam persamaan regresi. Dengan variabel dummy, kita bisa merepresentasikannya sebagai berikut:
is_wanita: Bernilai 1 jika jenis kelamin adalah "Wanita", dan 0 jika bukan.is_lainnya: Bernilai 1 jika jenis kelamin adalah "Lainnya", dan 0 jika bukan.
Mengapa kita mengurangi satu kategori? Ini untuk menghindari multicollinearity, yaitu ketika satu variabel prediktor dapat diprediksi secara sempurna dari kombinasi variabel prediktor lainnya. Jika kita membuat tiga variabel dummy untuk tiga kategori, salah satunya akan selalu menjadi linear kombinasi dari yang lain (misalnya, jika is_wanita=0 dan is_lainnya=0, maka itu pasti "Pria").
Dalam model regresi linear, kita biasanya memiliki persamaan seperti:
Y = β₀ + β₁X₁ + β₂X₂ + ... + ε
Di mana:
Y adalah variabel dependen (yang ingin kita prediksi).X₁, X₂,... adalah variabel independen (prediktor).β₀ adalah intersep.β₁, β₂,... adalah koefisien regresi yang menunjukkan perubahan rata-rata pada Y untuk setiap satu unit peningkatan pada variabel prediktor yang sesuai, dengan asumsi variabel lain konstan.ε adalah error term.
Ketika kita memasukkan variabel dummy, model kita menjadi seperti ini:
Y = β₀ + β₁X₁ + ... + βᵢ(Dummyᵢ) + βⱼ(Dummyⱼ) + ... + ε
Interpretasi koefisien dari variabel dummy menjadi penting. Mari kita kembali ke contoh jenis kelamin, dengan "Pria" sebagai kategori referensi.
β₀ (Intersep): Ini akan merepresentasikan nilai rata-rata dari Y ketika semua variabel prediktor kontinu bernilai nol DAN ketika kita berada di kategori referensi (dalam hal ini, "Pria").βᵢ (Koefisien untuk is_wanita): Koefisien ini menunjukkan perbedaan rata-rata dalam Y antara kategori "Wanita" dan kategori referensi "Pria", dengan asumsi semua variabel prediktor kontinu memiliki nilai yang sama.βⱼ (Koefisien untuk is_lainnya): Koefisien ini menunjukkan perbedaan rata-rata dalam Y antara kategori "Lainnya" dan kategori referensi "Pria", dengan asumsi semua variabel prediktor kontinu memiliki nilai yang sama.
Bayangkan kita ingin memprediksi gaji seseorang (Y) berdasarkan pengalaman kerja dalam tahun (X₁) dan jenis kelamin (variabel kategorikal). Jika kita tidak menggunakan regresi dummy, kita tidak bisa memodelkan pengaruh jenis kelamin. Dengan regresi dummy, modelnya bisa menjadi:
Gaji = β₀ + β₁ * Pengalaman + β₂ * is_wanita + β₃ * is_lainnya + ε
Misalkan hasil regresi memberikan koefisien sebagai berikut:
β₀ = 30.000.000β₁ = 2.000.000β₂ = 5.000.000β₃ = -1.000.000is_wanita=0 dan is_lainnya=0) dengan 0 tahun pengalaman diprediksi memiliki gaji dasar sebesar Rp 30.000.000.Dalam praktiknya, regresi dummy adalah alat yang sangat berharga bagi para analis data, ilmuwan data, dan siapa saja yang ingin membangun model prediktif yang komprehensif dan akurat. Dengan memahami cara kerjanya, kita dapat membuka wawasan baru dari data yang kompleks.