Dalam dunia analisis data, khususnya di bidang statistik dan ilmu data, kemampuan untuk memprediksi hasil berdasarkan berbagai faktor adalah hal yang krusial. Salah satu metode yang sangat ampuh untuk tugas ini, terutama ketika variabel dependen yang ingin diprediksi bersifat biner (memiliki dua kemungkinan hasil, seperti "ya" atau "tidak", "sukses" atau "gagal", "terkena penyakit" atau "tidak terkena penyakit"), adalah regresi logistik. Ketika kita ingin mempertimbangkan pengaruh dari lebih dari satu variabel prediktor secara bersamaan, kita beralih ke pendekatan uji multivariat regresi logistik.
Regresi logistik adalah teknik statistik yang digunakan untuk memodelkan probabilitas suatu peristiwa terjadi berdasarkan satu atau lebih variabel prediktor. Berbeda dengan regresi linier yang memprediksi nilai kontinu, regresi logistik memprediksi probabilitas, yang kemudian dapat diinterpretasikan sebagai kemungkinan terjadinya suatu kategori tertentu. Fungsi logistik (atau sigmoid) digunakan untuk memetakan output linier dari variabel prediktor ke rentang probabilitas antara 0 dan 1.
Dalam banyak skenario dunia nyata, sebuah hasil tidak hanya dipengaruhi oleh satu faktor tunggal. Sebagai contoh, risiko seorang pasien terkena penyakit jantung tidak hanya ditentukan oleh kadar kolesterolnya, tetapi juga oleh faktor lain seperti tekanan darah, usia, riwayat merokok, dan pola makan. Jika kita hanya menganalisis pengaruh kadar kolesterol saja (regresi univariat), kita mungkin mendapatkan gambaran yang tidak lengkap atau bahkan menyesatkan. Uji multivariat regresi logistik memungkinkan kita untuk:
Inti dari regresi logistik multivariat adalah persamaan yang menggabungkan beberapa variabel prediktor (misalnya, X1, X2, X3, ... Xn) untuk memprediksi log-odds dari hasil biner (misalnya, Y).
Persamaan dasarnya dapat ditulis sebagai:
log(P(Y=1) / (1 - P(Y=1))) = β0 + β1*X1 + β2*X2 + ... + βn*Xn
Di sini:
P(Y=1) adalah probabilitas hasil Y bernilai 1.(1 - P(Y=1)) adalah probabilitas hasil Y bernilai 0.log(P(Y=1) / (1 - P(Y=1))) dikenal sebagai log-odds atau logit.β0 adalah intercept atau konstanta.β1, β2, ..., βn adalah koefisien regresi untuk masing-masing variabel prediktor X1, X2, ..., Xn. Koefisien ini menunjukkan perubahan dalam log-odds ketika variabel prediktor yang sesuai berubah satu unit, dengan variabel lain dianggap konstan.Setelah model dilatih dan koefisien (β) diperoleh, kita dapat menghitung probabilitas hasil untuk pengamatan baru. Selain itu, pengujian statistik (seperti uji Wald atau uji Likelihood Ratio) dilakukan untuk menentukan signifikansi dari setiap koefisien prediktor. Nilai p yang rendah (biasanya < 0.05) menunjukkan bahwa variabel prediktor tersebut memiliki pengaruh yang signifikan secara statistik terhadap hasil.
Teknik ini sangat luas aplikasinya di berbagai bidang:
Uji multivariat regresi logistik adalah alat analisis yang kuat untuk memahami hubungan kompleks antara beberapa variabel prediktor dan hasil biner. Dengan kemampuannya untuk mengontrol pengaruh variabel lain dan mengidentifikasi prediktor yang paling penting, metode ini memberikan wawasan yang mendalam dan memungkinkan pembangunan model prediksi yang akurat. Dalam menghadapi data yang semakin kompleks, pemahaman dan penerapan uji multivariat regresi logistik menjadi semakin vital bagi para analis dan peneliti.