dr.
Ari Probandari
Sekarang
kita mau bicarain tentang menghubungkan 2 atau lebih varibel yang jenis datanya
kontinyu.
Data kontinyu itu maksudnya data
angka.
Inget-inget
lagi ni kemarin.
Data secara umum ada 2: data
kategorikal dan data numeric.
Lha, yang dimaksud data kontinyu itu
yang data numeric.
Ada variabel bebas dan variabel
terikat dan masing-masing datanya numeric udah termasuk uji korelasi regresi.
Ntar cek secara korelasi dan cek juga
regresi linear.
(PS:
regresi itu ada banyak. Tapi buat S1 cukup diajari yang linear. Kalau pingin
yang lebih kompleks, ambil S2-S3 atau spesialis aja ya teman. Aamiin…)
Misal kita mau meneliti hubungan Hb
dengan hematokrit.
Penelitian ini bisa buat analisis
korelasi regresi. Soalnya kedua variabel ini numeric kan.
Jadi syarat pertama: variabel punya skala numeric.
Sebenarnya,
apa sih bedanya korelasi dan regresi??
Persamaannya
dulu ni teman:
Korelasi dan regresi sama-sama
digunakan untuk mengetahui 2 variabel yang skalanya kontinyu.
Korelasi adalah…
Teknik analisis untuk melihat hubungan
antara minimal 2 variabel numeric yang mencari:
-
asosiasi linear (hubungan linear)
-
kekuatan asosiasi (kekuatan hubungan)
Misal dari 20 orang yang kita ambil
dalam penelitian tadi kita plot-kan mulai dari subjek 1 sampe 20.
Dari hasil plot itu kita akan tahu
datanya memiliki hubungan yang linear atau ga. Dilihat dari bentuk plotnya
membentuk garis atau ga.
Regresi adalah…
Teknik analisis untuk mencari:
-
Ketergantungan variabel terikat
terhadap variabel bebas.
Misal
ada perubahan 1 unit saja variabel bebas, variabel terikat akan berubah jadi
berapa.
Jadi
regresi itu bisa untuk analisis prediksi.
-
Kemiringan garis dan perpotongan
Berapa
kenaikan dari variabel terikat kalo variabel bebasnya naik.
Kalo perpotongan
garis pada sumbu y, berapa nilai variabel terikat kalo variabel bebasnya = 0.
Jadi intinya, korelasi dan regresi
sama-sama buat mencari hubungan linear (sama-sama bentuknya garis).
Bedanya…
-
kalo regresi bisa buat nyari analisis
ketergantungan. Kalo korelasi ga bisa.
-
Korelasi lebih ke kekuatan hubungan.
Regresi lebih ke prediksi hubungan.
Regresi linear ada regresi linear
sederhana dan regresi linear berganda.
Bedanya? Jumlah variabel bebas.
Kalo variabel bebasnya 1, berarti
sederhana. Kalo lebih dari 1 berarti berganda.
Kapan korelasi dipakai dan kapan
regresi dipakai?
Misal kita mau neliti ttg hubungan Hb
dengan hematokrit, pake korelasi atau regresi?
Kata kuncinya di kerangka pemikiran.
Kalo Hb dapat mempengaruhi langsung
bisa pake regresi. Kalo hubungannya tidak secara langsung, lebih baik pake
korelasi.
Misal lagi: hubungan berat badan lahir
dengan hemangioma.
Kan berat badan lahir harus apa dulu,
harus gimana dulu dll baru bisa jadi hemangioma. Hubungannya belum jelas kan.
Jadi pake korelasi.
Jadi intinya, regresi itu untuk
hubungan yang direct consequence. Kalo belum jelas, pake korelasi.
KORELASI
Gimana langkah-langkah korelasi?
-
Pake scatter plot
Kita
kenali dulu data kita itu bentuknya gimana. Distribusinya gimana.
-
Cek lagi normalitas distribusi taip
variabel. Kenapa harus cek ini juga?
Soalnya
korelasi ada 2 macam:
o
Korelasi pearson: dipakai kalo salah
satu variabel distribusi datanya normal
o
Korelasi spearman rank: dipakai kalo
kedua variabel ga distribusi normal
Ntar
bedanya di rumusnya.
Dari rumus itu ntar dicari besarnya
koefisien korelasi. Buat yang pearson lambangnya R. kalo spearman rank Rs.
Koefisien korelasi itu besarnya dari
-1 sampe 1.
1 tu maksudnya linear. Makin mendekati
1 berarti makin linear.
Makin mendekati 0, makin tidak bisa
diambil garis linear.
Makin liner berarti hubungan makin
kuat.
Antara (-) dan (+) itu untuk
membedakan arah hubungan.
Kalo (-) berarti x lebih tinggi, y
akan makin rendah.
Kalo (+) berarti x makin tinggi, y
juga makin tinggi.
Kalo R kuadrat menunjukkan proporsi
suatu variabel bisa dijelaskan variabel lainnya.
Misal: korelasi Hb dan hematokrit
0,69. Kalo dikuadratkan 0,45.
Artinya 45% Hb ditentukan oleh
hematokrit. 55%-nya faktor lain yang kita ga tau.
Jadi, dari rumus tadi bisa ketahui:
-
kekuatan hubungan
-
arah hubungan
-
proporsi hubungan.
Kita itung juga P-nya. P itu besarnya
probabilitas kalo hasil kita itu terjadi secara kebetulan.
Jadi kalo R-nya 0,8 (kuat) tapi P-nya
juga 0,8 (banyak kebetulannya), maka ga bagus juga.
Jadi, selain diperhitungkan R,
perhatikan juga P-nya.
Kapan korelasi ga boleh digunakan?
1.
Hubungannya terkesan ga linear.
Makanya
harus bikin scatter plot dulu.
Kalo
garisnya parabola, ga bisa pake korelasi. Tapi kalo regresi masih bisa.
2.
Out layer. Ada data yang sangat
berbeda jauh dari sampel-sampel lain di populasi.
Gimana
cara tau ada out layer?
Salah
satunya dengan bikin diagram scatter.
3.
Varibel diukur lebih dari 1 pada
kelompok yang berbeda.
Misal:
ngukur IPK. Ada yang diukur 2 semester, ada yang 3 semester. Trus datanya
dicampur.
4.
Penelitian yang analisisnya dosis
respon efek.
Kalo dosis sekian,
efeknya sekian. Cocoknya pake regresi. Biar bisa ngliat perubahan sedikit
variabel bebas, variabel terikatnya jadi gimana. Yang kaya gini malah ga boleh
pake korelasi.
Out layer itu Cuma 1 atau 2 sampel.
Kalo sampe 10 sampel ya bukan out
layer lagi. Tapi cara pengukuran kita mungkin ada kesalahan sehingga variasinya
terlalu tinggi.
Dalam analisis data, 1-2 sampel yang
‘aneh’ tadi bisa dibuang.
Tapi sebelum membuangnya, harus
benar-benar dicek. Itu out layer atau karena kesalahan pengumpulan data.
Intermezzo..
Ngantuk?
Capek?
“Ayo
berdiri dulu 2 menit,” kata dr.Ari.
Yang
nulis cakul berdiri juga ah…. :D
Lanjut
ke regresi linear sederhana
REGRESI
LINEAR
Regresi sama aja kayak korelasi
(dihitung R-nya). Cuma kalo di regresi yang diperhitungkan:
-
Kemiringannya
-
Perpotongan dengan sumbu y
Inget
lagi rumus kemiringan garis waktu SMA.
Y
= α + βx
Y: besaran variabel terikat/ outcome/
respon
X: variabel bebas/ prediktor
β: slope/kemiringan garisnya/ R (kalo
di korelasi)
α: perpotongan dengan sumbu y
Kalo regresi linear berganda (varibel
bebasnya lebih dari 1), ya berarti X-nya juga lebih dari 1.
Tambahan
ni…
Kalo menjelaskan buat populasi,
pakenya α, β (huruf yunani)
Tapi kalo di tingkat sampel pake huruf
latin (a, b)
Gimana langkah-langkah regresi?
-
Pake scatter plot
-
Buat persamaan garisnya
Persamaan
garis itu istilahnya model. Persamaan regresi = model regresi.
Setelah itu kita
mempertimbangkan residualnya.
Apa itu residual?
Residual itu jarak antara y observasi
dengan y yang diperkirakan dengan garis
Residual ini penting untuk menentukan
kontraindikasi/indikasi regresi.
-
Kalo residualnya linear, kesimpulannya
X dengan Y tidak linear.
-
Kalo residualnya ga linear, hubungan X
dan Y-nya malah linear.
Padahal, yang kita butuhin itu yang X
dan Y linear.
Intinya, regresi bisa dilakukan kalo
residualnya
-
terdistribusi normal, bukan kalo
residualnya linear
-
independent, bukan dependent (Y makin
tinggi residual makin tinggi. Kalo kayak
gini kan ujung-ujungnya jadi liear juga kan)
Regresi ga boleh dilakukan kalo hasil
observasi didapatkan berurutan waktu
Misal: pengukuran x dan pengukuran y
dilakukan pada waktu yang berbeda. X dulu baru Y. Harusnya x dan y diukur
bersamaan.
Ini nanti jadinya residualnya akan
dependent. Jadinya, ga bisa pake regresi.
Jadi, kalo regresi yang kita
pertimbangkan adalah
-
koefisien regresi
-
perpotongan terhadap sumbu y
-
residual
Gimana
teman-teman?
Masih
galau?
Kata
dr.Ari, misal kita galau,
Ngrasa
bingung dan ga tahu sesuatu…
Jangan
dijauhi sesuatu itu, tapi didekati.
TRUE
EXAMPLE
Kalo
galau penasaran dengan seseorang,
Dideketi
atau dijauhi???
Ups,
just kidding… :D
So,
AYO DEKATI STATISTIK
No comments:
Post a Comment