Follow Us @soratemplates

Thursday, 10 November 2011

Korelasi dan Regresi



dr. Ari Probandari

Sekarang kita mau bicarain tentang menghubungkan 2 atau lebih varibel yang jenis datanya kontinyu.

Data kontinyu itu maksudnya data angka.
Inget-inget lagi ni kemarin.
Data secara umum ada 2: data kategorikal dan data numeric.
Lha, yang dimaksud data kontinyu itu yang data numeric.

Ada variabel bebas dan variabel terikat dan masing-masing datanya numeric udah termasuk uji korelasi regresi.
Ntar cek secara korelasi dan cek juga regresi linear.
(PS: regresi itu ada banyak. Tapi buat S1 cukup diajari yang linear. Kalau pingin yang lebih kompleks, ambil S2-S3 atau spesialis aja ya teman. Aamiin…)

Misal kita mau meneliti hubungan Hb dengan hematokrit.
Penelitian ini bisa buat analisis korelasi regresi. Soalnya kedua variabel ini numeric kan.

Jadi syarat pertama: variabel punya skala numeric.

Sebenarnya, apa sih bedanya korelasi dan regresi??

Persamaannya dulu ni teman:
Korelasi dan regresi sama-sama digunakan untuk mengetahui 2 variabel yang skalanya kontinyu.

Korelasi adalah…
Teknik analisis untuk melihat hubungan antara minimal 2 variabel numeric yang mencari:
-      asosiasi linear (hubungan linear)
-      kekuatan asosiasi (kekuatan hubungan)

Misal dari 20 orang yang kita ambil dalam penelitian tadi kita plot-kan mulai dari subjek 1 sampe 20.
Dari hasil plot itu kita akan tahu datanya memiliki hubungan yang linear atau ga. Dilihat dari bentuk plotnya membentuk garis atau ga.

Regresi adalah…
Teknik analisis untuk mencari:
-      Ketergantungan variabel terikat terhadap variabel bebas.
Misal ada perubahan 1 unit saja variabel bebas, variabel terikat akan berubah jadi berapa.
Jadi regresi itu bisa untuk analisis prediksi.
-      Kemiringan garis dan perpotongan
Berapa kenaikan dari variabel terikat kalo variabel bebasnya naik.
Kalo perpotongan garis pada sumbu y, berapa nilai variabel terikat kalo variabel bebasnya = 0.

Jadi intinya, korelasi dan regresi sama-sama buat mencari hubungan linear (sama-sama bentuknya garis).

Bedanya…
-      kalo regresi bisa buat nyari analisis ketergantungan. Kalo korelasi ga bisa.
-      Korelasi lebih ke kekuatan hubungan. Regresi lebih ke prediksi hubungan.

Regresi linear ada regresi linear sederhana dan regresi linear berganda.
Bedanya? Jumlah variabel bebas.
Kalo variabel bebasnya 1, berarti sederhana. Kalo lebih dari 1 berarti berganda.

Kapan korelasi dipakai dan kapan regresi dipakai?
Misal kita mau neliti ttg hubungan Hb dengan hematokrit, pake korelasi atau regresi?
Kata kuncinya di kerangka pemikiran.
Kalo Hb dapat mempengaruhi langsung bisa pake regresi. Kalo hubungannya tidak secara langsung, lebih baik pake korelasi.

Misal lagi: hubungan berat badan lahir dengan hemangioma.
Kan berat badan lahir harus apa dulu, harus gimana dulu dll baru bisa jadi hemangioma. Hubungannya belum jelas kan. Jadi pake korelasi.

Jadi intinya, regresi itu untuk hubungan yang direct consequence. Kalo belum jelas, pake korelasi.

KORELASI
Gimana langkah-langkah korelasi?
-      Pake scatter plot
Kita kenali dulu data kita itu bentuknya gimana. Distribusinya gimana.
-      Cek lagi normalitas distribusi taip variabel. Kenapa harus cek ini juga?
Soalnya korelasi ada 2 macam:
o   Korelasi pearson: dipakai kalo salah satu variabel distribusi datanya normal
o   Korelasi spearman rank: dipakai kalo kedua variabel ga distribusi normal
Ntar bedanya di rumusnya.

Dari rumus itu ntar dicari besarnya koefisien korelasi. Buat yang pearson lambangnya R. kalo spearman rank Rs.
Koefisien korelasi itu besarnya dari -1 sampe 1.
1 tu maksudnya linear. Makin mendekati 1 berarti makin linear.
Makin mendekati 0, makin tidak bisa diambil garis linear.
Makin liner berarti hubungan makin kuat.

Antara (-) dan (+) itu untuk membedakan arah hubungan.
Kalo (-) berarti x lebih tinggi, y akan makin rendah.
Kalo (+) berarti x makin tinggi, y juga makin tinggi.

Kalo R kuadrat menunjukkan proporsi suatu variabel bisa dijelaskan variabel lainnya.
Misal: korelasi Hb dan hematokrit 0,69. Kalo dikuadratkan 0,45.
Artinya 45% Hb ditentukan oleh hematokrit. 55%-nya faktor lain yang kita ga tau.

Jadi, dari rumus tadi bisa ketahui:
-      kekuatan hubungan
-      arah hubungan
-      proporsi hubungan.

Kita itung juga P-nya. P itu besarnya probabilitas kalo hasil kita itu terjadi secara kebetulan.

Jadi kalo R-nya 0,8 (kuat) tapi P-nya juga 0,8 (banyak kebetulannya), maka ga bagus juga.

Jadi, selain diperhitungkan R, perhatikan juga P-nya.

Kapan korelasi ga boleh digunakan?
1.   Hubungannya terkesan ga linear.
Makanya harus bikin scatter plot dulu.
Kalo garisnya parabola, ga bisa pake korelasi. Tapi kalo regresi masih bisa.
2.   Out layer. Ada data yang sangat berbeda jauh dari sampel-sampel lain di populasi.
Gimana cara tau ada out layer?
Salah satunya dengan bikin diagram scatter.
3.   Varibel diukur lebih dari 1 pada kelompok yang berbeda.
Misal: ngukur IPK. Ada yang diukur 2 semester, ada yang 3 semester. Trus datanya dicampur.
4.   Penelitian yang analisisnya dosis respon efek.
Kalo dosis sekian, efeknya sekian. Cocoknya pake regresi. Biar bisa ngliat perubahan sedikit variabel bebas, variabel terikatnya jadi gimana. Yang kaya gini malah ga boleh pake korelasi.

Out layer itu Cuma 1 atau 2 sampel.
Kalo sampe 10 sampel ya bukan out layer lagi. Tapi cara pengukuran kita mungkin ada kesalahan sehingga variasinya terlalu tinggi.
Dalam analisis data, 1-2 sampel yang ‘aneh’ tadi bisa dibuang.
Tapi sebelum membuangnya, harus benar-benar dicek. Itu out layer atau karena kesalahan pengumpulan data.

Intermezzo..
Ngantuk? Capek?
“Ayo berdiri dulu 2 menit,” kata dr.Ari.
Yang nulis cakul berdiri juga ah…. :D

Lanjut ke regresi linear sederhana

REGRESI LINEAR
Regresi sama aja kayak korelasi (dihitung R-nya). Cuma kalo di regresi yang diperhitungkan:
-      Kemiringannya
-      Perpotongan dengan sumbu y

Inget lagi rumus kemiringan garis waktu SMA.
Y = α + βx
Y: besaran variabel terikat/ outcome/ respon
X: variabel bebas/ prediktor
β: slope/kemiringan garisnya/ R (kalo di korelasi)
α: perpotongan dengan sumbu y
Kalo regresi linear berganda (varibel bebasnya lebih dari 1), ya berarti X-nya juga lebih dari 1.

Tambahan ni…
Kalo menjelaskan buat populasi, pakenya α, β (huruf yunani)
Tapi kalo di tingkat sampel pake huruf latin (a, b)

Gimana langkah-langkah regresi?
-      Pake scatter plot
-      Buat persamaan garisnya
Persamaan garis itu istilahnya model. Persamaan regresi = model regresi.
Setelah itu kita mempertimbangkan residualnya.

Apa itu residual?
Residual itu jarak antara y observasi dengan y yang diperkirakan dengan garis

Residual ini penting untuk menentukan kontraindikasi/indikasi regresi.
-      Kalo residualnya linear, kesimpulannya X dengan Y tidak linear.
-      Kalo residualnya ga linear, hubungan X dan Y-nya malah linear.
Padahal, yang kita butuhin itu yang X dan Y linear.

Intinya, regresi bisa dilakukan kalo residualnya
-      terdistribusi normal, bukan kalo residualnya linear
-      independent, bukan dependent (Y makin tinggi residual makin tinggi. Kalo kayak gini kan ujung-ujungnya jadi liear juga kan)

Regresi ga boleh dilakukan kalo hasil observasi didapatkan berurutan waktu
Misal: pengukuran x dan pengukuran y dilakukan pada waktu yang berbeda. X dulu baru Y. Harusnya x dan y diukur bersamaan.
Ini nanti jadinya residualnya akan dependent. Jadinya, ga bisa pake regresi.

Jadi, kalo regresi yang kita pertimbangkan adalah
-      koefisien regresi
-      perpotongan terhadap sumbu y
-      residual

Gimana teman-teman?
Masih galau?
Kata dr.Ari, misal kita galau,
Ngrasa bingung dan ga tahu sesuatu…
Jangan dijauhi sesuatu itu, tapi didekati.
TRUE EXAMPLE
Kalo galau penasaran dengan seseorang,
Dideketi atau dijauhi???
Ups, just kidding… :D
So, AYO DEKATI STATISTIK

No comments:

Post a Comment