The words you are searching are inside this book. To get more targeted content, please make full-text search by clicking here.
Discover the best professional documents and content resources in AnyFlip Document Base.
Search
Published by elivasukmacipta, 2021-06-27 18:17:28

KORELASI DAN REGRESI

E Modul Tugas ICT Revisi

Kata Pengantar

Puja dan puji syukur penulis panjatkan kepada Allah SWT karena atas berkat dan
rahmat-Nya, penyusunan modul ini dapat terselesaikan dengan baik. Modul ini
merupakan terjemahan salah satu bab dari buku “Elementary Statistics” yang
ditulis oleh Allan G. Bluman. Semoga modul ini dapat bermanfaat menjadi
pelengkap dalam membantu mahasiswa atau siapapun yang sedang belajar
mengenai korelasi dan regresi.
Kepada semua pihak yang terlibat dalam penyusunan modul ini, penulis haturkan
terima kasih. Semoga segala kebaikannya Allah SWT balas dengan lebih berlimpah
lagi.

Bandung, Mei 2021
Penulis

i

Daftar isi

Kata Pengantar ……………………………………………………………………………………… i
Daftar Isi ………………………………………………………………………………………………… ii
Korelasi dan Regresi ……………………………………………………………………………….. 1
A. Pengantar ………………………………………………………………………………………… 1
B. Diagram Pencar dan Korelasi ……………………………………………………………. 3
C. Korelasi …………………………………………………………………………………………….. 12
D. Regresi ……………………………………………………………………………………………… 30
E. Koefisien Diterminasi ………………………………………………………………………… 43
F. Regresi Ganda ……………………………………………………………………………………. 57
G. Rangkuman ……………………………………………………………………………………….. 64
H. Latihan ……………………………………………………………………………………………….. 66
Daftar Pustaka …………………………………………………………………………………………… 70

ii

KORELASI DAN REGRESI

A. PENGANTAR

Bidang lain dari statistik inferensial melibatkan penentuan apakah ada
hubungan antara dua atau lebih variabel numerik atau kuantitatif. Misalnya,
seorang pebisnis mungkin ingin mengetahui apakah volume penjualan pada bulan
tertentu terkait dengan jumlah iklan yang dilakukan perusahaan pada bulan itu.
Pengajar tertarik untuk menentukan apakah jumlah jam belajar siswa terkait
dengan skor siswa pada ujian tertentu. Peneliti medis tertarik dengan pertanyaan
seperti, Apakah kafein terkait dengan kerusakan jantung? atau Apakah ada
hubungan antara usia seseorang dan tekanan darahnya? Seorang ahli zoologi
mungkin ingin mengetahui apakah berat lahir hewan tertentu terkait dengan masa
hidupnya. Ini hanya sedikit dari sekian banyak pertanyaan yang dapat dijawab
dengan menggunakan teknik analisis korelasi dan regresi. Korelasi adalah metode
statistik yang digunakan untuk menentukan ada tidaknya hubungan linier antar
variabel. Regresi adalah metode statistik yang digunakan untuk menggambarkan
sifat hubungan antar variabel, yaitu positif atau negatif, linier atau nonlinier.
Tujuan bab ini adalah untuk menjawab pertanyaan-pertanyaan ini secara statistik:

1. Apakah dua atau lebih variabel terkait secara linier?

2. Jika ya, apa kekuatan hubungan itu?

3. Jenis hubungan apa yang ada?

4. Prediksi seperti apa yang dapat dibuat dari hubungan tersebut?

Untuk menjawab dua pertanyaan pertama, ahli statistik menggunakan
ukuran numerik untuk menentukan apakah dua atau lebih variabel terkait secara
linier dan untuk menentukan kekuatan hubungan antara atau di antara variabel.
Ukuran ini disebut koefisien korelasi. Misalnya, ada banyak variabel yang

1

berkontribusi terhadap penyakit jantung, di antaranya kurang olahraga, merokok,
faktor keturunan, usia, stres, dan pola makan. Dari variabel-variabel ini, beberapa
lebih penting dari yang lain; Oleh karena itu, seorang dokter yang ingin membantu
pasien harus mengetahui faktor mana yang paling penting.

Untuk menjawab pertanyaan ketiga, harus memastikan jenis hubungan
yang ada. Ada dua jenis hubungan: sederhana dan ganda. Dalam hubungan
sederhana, ada dua variabel variabel independen, disebut juga variabel penjelas
atau variabel prediktor, dan variabel dependen, disebut juga variabel respons.
Analisis hubungan sederhana disebut regresi sederhana, dan ada satu variabel
independen yang digunakan untuk memprediksi variabel dependen. Misalnya,
seorang manajer mungkin ingin melihat apakah jumlah tahun penjual telah
bekerja untuk perusahaan ada hubungannya dengan jumlah penjualan yang
mereka lakukan. Jenis studi ini melibatkan hubungan sederhana, karena hanya ada
dua variabel — pengalaman bertahun-tahun dan jumlah penjualan.

Dalam hubungan ganda, yang disebut regresi berganda, dua atau lebih
variabel independen digunakan untuk memprediksi satu variabel dependen.
Misalnya, seorang pendidik mungkin ingin menyelidiki hubungan antara
keberhasilan siswa di perguruan tinggi dan faktor-faktor seperti jumlah jam yang
dihabiskan untuk belajar, IPK siswa, dan latar belakang sekolah menengah siswa.
Jenis penelitian ini melibatkan beberapa variabel.

Hubungan sederhana juga bisa positif atau negatif. Hubungan positif
terjadi ketika kedua variabel meningkat atau menurun pada saat yang bersamaan.
Misalnya, tinggi dan berat badan seseorang terkait; dan hubungannya positif,
karena semakin tinggi seseorang, secara umum, semakin berat orang tersebut.
Dalam hubungan negatif, ketika satu variabel meningkat, variabel lainnya
menurun, dan sebaliknya. Misalnya, jika mengukur kekuatan orang yang berusia
di atas 60 tahun, akan menemukan bahwa seiring bertambahnya usia, kekuatan

2

umumnya menurun. Kata tersebut umumnya digunakan di sini karena ada
pengecualian.

Terakhir, pertanyaan keempat menanyakan jenis prediksi apa yang bisa
dibuat. Prediksi dibuat di semua area dan setiap hari. Contohnya termasuk
ramalan cuaca, analisis pasar saham, prediksi penjualan, prediksi panen, prediksi
harga bensin, dan prediksi olahraga. Beberapa prediksi lebih akurat daripada yang
lain, karena kekuatan hubungan. Artinya, semakin kuat hubungan antar variabel,
semakin akurat prediksinya.

B. DIAGRAM PENCAR DAN KORELASI
Dalam studi korelasi dan regresi sederhana, peneliti mengumpulkan data

pada dua variabel numerik atau kuantitatif untuk melihat apakah ada hubungan
antar variabel. Misalnya, jika seorang peneliti ingin melihat apakah ada hubungan
antara jumlah jam belajar dan nilai ujian pada suatu ujian, dia harus memilih
sampel siswa secara acak, menentukan jam belajar masing-masing, dan
mendapatkan nilai mereka pada ujian tersebut. Tabel dapat dibuat untuk data,
seperti yang ditunjukkan di sini.

Siswa Jam Belajar (x) Nilai (y)
A 6 82
B 2 63
C 1 57
D 5 88
E 2 68
F 3 75

Seperti yang telah dikemukakan sebelumnya, kedua variabel dalam
penelitian ini disebut variabel independen dan variabel dependen. Variabel
independen adalah variabel dalam regresi yang dapat dikontrol atau dimanipulasi.
Dalam hal ini jumlah jam belajar merupakan variabel bebas dan ditetapkan
sebagai variabel x. Variabel dependen adalah variabel dalam regresi yang tidak

3

dapat dikontrol atau dimanipulasi. Nilai yang diterima siswa pada ujian adalah
variabel terikat, yang ditetapkan sebagai variabel y. Alasan untuk perbedaan
antara variabel ini adalah karena asumsi bahwa nilai yang diperoleh siswa
bergantung pada jumlah jam belajar siswa. Juga, asumsi bahwa, sampai batas
tertentu, siswa dapat mengatur atau mengontrol jumlah jam belajarnya untuk
ujian.

Penentuan variabel x dan y tidak selalu jelas dan terkadang merupakan
keputusan yang sewenang-wenang. Misalnya, jika seorang peneliti mempelajari
pengaruh usia terhadap tekanan darah seseorang, peneliti secara umum dapat
berasumsi bahwa usia mempengaruhi tekanan darah. Oleh karena itu, variabel
usia dapat disebut sebagai variabel bebas, dan variabel tekanan darah dapat
disebut sebagai variabel terikat. Di sisi lain, jika seorang peneliti mempelajari sikap
suami terhadap suatu persoalan tertentu dan sikap istrinya pada suatu persoalan
yang sama, sulit untuk mengatakan variabel mana yang merupakan variabel bebas
dan mana yang merupakan variabel terikat. Dalam penelitian ini, peneliti dapat
secara sewenang-wenang menetapkan variabel sebagai variabel independen dan
dependen.

Variabel independen dan dependen dapat diplot pada grafik yang disebut
diagram pencar. Variabel independen x diplot pada sumbu horizontal, dan variabel
dependen y diplot pada sumbu vertikal.
__________________________________________________________________

Diagram Pencar (Scatter Plot) adalah grafik pasangan berurutan (x, y) bilangan
yang terdiri dari variabel bebas x dan variabel terikat y.

__________________________________________________________________

Diagram pencar adalah cara visual untuk menggambarkan sifat hubungan
antara variabel independen dan dependen. Skala variabel bisa berbeda, dan
koordinat sumbu ditentukan oleh nilai data terkecil dan terbesar dari variabel.

4

Prosedur untuk menggambar diagram pencar ditunjukkan pada Contoh 1 hingga
3.

Contoh 1

Perusahaan Penyewaan Mobil

Buat plot sebar untuk data yang ditampilkan untuk perusahaan penyewaan mobil

di Amerika Serikat selama setahun terakhir.

Perusahaan Mobil Pendapatan
(dalam milyar)
(dalam sepuluh ribu)
$7.0
A 63.0

B 29.0 3.9

C 20.8 2.1

D 19.1 2.8

E 13.4 1.4

F 8.5 1.5

Penyelesaian
Langkah 1 Gambar dan beri label sumbu x dan y.
Langkah 2 Plot setiap titik pada grafik, seperti yang ditunjukkan pada Gambar 1.

Gambar 1 Scatter Plot Contoh 1

5

SPSS
Cara membuat Scatter Plot
1. Masukkan data yang mau dianalisis
2. Menu Graphs → Legacy Dialog → Scatter/Dots …, nampak pada layar

3. Pilih Simple Scatter, lalu klik define, nampak pada layar

6

SPSS
Cara membuat Scatter Plot
4. Y axis, masukan variabel pendapatan dan X axis, masukkan variable mobil

Tekan OK untuk memproses pembuatan grafik, akan Nampak output:

Contoh 2

Ketidakhadiran dan Nilai Akhir

Buatlah diagram sebar untuk data yang diperoleh dalam penelitian tentang jumlah

ketidakhadiran dan nilai akhir tujuh siswa yang dipilih secara acak dari kelas

statistik. Datanya ditampilkan sebagai berikut.

Siswa Ketidakhadiran (x) Nilai Akhir (y)
A 6 82
B 2 86
C 15 43
D 9 74
E 12 58
F 5 90
G 8 78

7

Penyelesaian
Langkah 1 Gambar dan beri label sumbu x dan y.
Langkah 2 Plot setiap titik pada grafik, seperti yang ditunjukkan pada Gambar 2.

Gambar 2 Scatter Plot Contoh 2

SPSS
Cara membuat Scatter Plot

1. Masukkan data yang mau dianalisis

2. Menu Graphs → Legacy Dialog → Scatter/Dots …,
3. Pilih Simple Scatter, lalu klik define,
4. Y axis, masukan variabel nilai akhir dan X axis, masukkan variable

ketidakhadiran
Tekan OK untuk memproses pembuatan grafik, akan nampak output:

8

SPSS
Cara membuat Scatter Plot

Contoh 3

Usia dan Kekayaan

Seorang Peneliti ingin melihat apakah ada hubungan antara usia dan kekayaan

bersih orang terkaya di Amerika. Data untuk tahun tertentu ditampilkan.

Orang Usia (x) Kekayaan Bersih (y) dalam $ milyar
A 73 16
B 65 26
C 53 50
D 54 21.5
E 79 40
F 69 16
G 61 19.6
H 65 19

9

Penyelesaian
Langkah 1 Gambar dan beri label sumbu x dan y.
Langkah 2 Plot setiap titik pada grafik, seperti yang ditunjukkan pada Gambar 3.

Gambar 3 Scatter Plot Contoh 3

SPSS
Cara membuat Scatter Plot
1. Masukkan data yang mau dianalisis

2. Menu Graphs → Legacy Dialog → Scatter/Dots …,
3. Pilih Simple Scatter, lalu klik define,
4. Y axis, masukan variabel kekayaan dan X axis, masukkan variable usia

Tekan OK untuk memproses pembuatan grafik, akan nampak output:

10

SPSS
Cara membuat Scatter Plot

Setelah plot dibuat, plot tersebut harus dianalisis untuk menentukan jenis
hubungan mana, jika ada, dan ada. Misalnya, plot yang ditunjukkan pada Gambar
1 menunjukkan hubungan yang positif, karena dengan meningkatnya jumlah
mobil yang disewa, pendapatan juga cenderung meningkat. Plot data yang
ditunjukkan pada Gambar 2 menunjukkan hubungan negatif, karena dengan
meningkatnya jumlah ketidakhadiran, nilai akhir menurun. Terakhir, plot data
yang ditunjukkan pada Gambar 3 tidak menunjukkan jenis hubungan tertentu,
karena tidak ada pola yang terlihat.
Perhatikan bahwa data yang ditunjukkan pada Gambar 1 dan 2 juga menunjukkan
hubungan linier, karena titik-titik tersebut tampaknya sesuai dengan garis lurus,
meskipun tidak sempurna. Terkadang scatter plot, seperti pada Gambar 4,
menunjukkan hubungan lengkung antara data. Dalam situasi ini, metode yang

11

ditunjukkan di bagian ini dan di Bagian 2 tidak dapat digunakan. Metode untuk
hubungan lengkung berada di luar cakupan bab ini.

Gambar 4 Hubungan Lengkung antar Data

C. KORELASI
Koefisien Korelasi Seperti yang dinyatakan dalam Pendahuluan, ahli

statistik menggunakan ukuran yang disebut koefisien korelasi untuk menentukan
kekuatan hubungan linier antara dua variabel. Ada beberapa jenis koefisien
korelasi. Yang dijelaskan di bagian ini disebut koefisien korelasi produk momen
Pearson / Pearson product moment correlation coefficient (PPMC), dinamai
menurut ahli statistik Karl Pearson, yang memelopori penelitian di bidang ini.

Koefisien korelasi yang dihitung dari data sampel mengukur kekuatan dan
arah hubungan linier antara dua variabel kuantitatif. Simbol untuk koefisien
korelasi sampel adalah r. Lambang untuk koefisien korelasi populasi adalah ρ
(huruf yunani rho).

Kisaran koefisien korelasi adalah dari -1 hingga +1. Jika ada hubungan linier
positif yang kuat antara variabel, nilai r akan mendekati +1. Jika ada hubungan
linier negatif yang kuat antara variabel, nilai r akan mendekati -1. Jika tidak ada

12

hubungan linier antar variabel atau hanya ada hubungan yang lemah, nilai r akan
mendekati 0. Lihat Gambar 5.

Gambar 5 Rentang Nilai Koefisien Korelasi

Grafik pada Gambar 6 menunjukkan hubungan antara koefisien korelasi
dan plot sebar yang sesuai. Perhatikan bahwa ketika nilai koefisien korelasi
meningkat dari 0 menjadi +1 (bagian a, b, dan c), nilai data menjadi semakin dekat
dengan hubungan yang semakin kuat. Ketika nilai koefisien korelasi menurun dari
0 menjadi -1 (bagian d, e, dan f), nilai data juga semakin mendekati garis lurus.
Sekali lagi ini menunjukkan hubungan yang lebih kuat.

Ada beberapa cara untuk menghitung nilai koefisien korelasi. Salah satu
caranya adalah dengan menggunakan rumus yang ditunjukkan di sini.

Rumus Koefisien korelasi r

r = n( xy) − ( x)( y)
)2 )2
 n (  x 2 ) − (  x   n (  y 2 ) − (  y 
   

dimana n adalah jumlah pasangan data.

13

Gambar 6 Hubungan antara koefisien korelasi dan diagram pencar

Asumsi untuk Koefisien Korelasi
1. Sampel adalah sampel acak
2. Pasangan data jatuh kira-kira pada garis lurus dan diukur pada interval
atau tingkat rasio
3. Variabel memiliki distribusi normal gabungan. (Ini berarti bahwa dengan
nilai x tertentu, nilai y terdistribusi secara normal; dan dengan nilai y apa
pun, nilai x terdistribusi normal)

Aturan Pembulatan untuk Koefisien Korelasi Bulatkan nilai r ke tiga
tempat desimal.

Rumusnya terlihat agak rumit, tetapi menggunakan tabel untuk
menghitung nilai, seperti yang diperlihatkan dalam Contoh 4, membuatnya lebih
mudah untuk menentukan nilai r.

Tidak ada unit yang terkait dengan r, dan nilai r tidak akan berubah jika nilai
x dan y diganti.

14

Contoh 4

Perusahaan Penyewaan Mobil

Hitung koefisien korelasi untuk data pada Contoh 1.

Penyelesaian:

Langkah 1 Buatlah tabel seperti yang ditunjukkan berikut.

Perusahaan Mobil x Pendapatan y xy X2 Y2
A (sepuluh ribu) (milyar)
7.0
63.0

B 29.0 3.9

C 20.8 2.1

D 19.1 2.8

E 13.4 1.4

F 8.5 1.5

Langkah 2 Temukan nilai xy, x2, dan y2 dan tempatkan nilai-nilai ini di kolom yang

sesuai pada tabel.

Tabel lengkap ditampilkan.

Perusahaan Mobil x Pendapatan y xy X2 Y2
(milyar) 441.00 3969.00 49.00
(sepuluh ribu) 7.0

A 63.0

B 29.0 3.9 113.10 841.00 15.21

C 20.8 2.1 43.68 432.64 4.41

D 19.1 2.8 53.48 364.81 7.84

E 13.4 1.4 18.76 179.56 1.96

F 8.5 1.5 12.75 72.25 2.25

∑ = 153.8 ∑ = 18.7 ∑ ∑ 2 ∑ 2

= 682.77 = 5859.26 = 80.67

15

Langkah 3 substitusikan hitungan Langkah 2 ke dalam rumus r dan selesaikan.

r = n( xy) − ( x)( y)
)2 )2
 n (  x 2 ) − (  x  n (  y 2 ) − (  y 
  

= (6)(682.77) − (153.8)(18.7)
(153.8)2 )2
( 6 ) (5859.26) −  ( 6 ) (80.67 ) − (18.7 
 

= 0.982

Koefisien korelasi menunjukkan hubungan yang kuat antara jumlah mobil yang

dimiliki agen penyewaan dan pendapatan tahunannya

SPSS
Cara mencari Koefisien Korelasi
1. Masukkan data yang mau dianalisis

2. Klik Analyze → Correlate → Bivariate, akan nampak pada layar:

16

SPSS
Cara mencari Koefisien Korelasi

3. Masukkan variable mobil dan pendapatan pada kotak variable, pilih
Pearson pada correlation coefficients, klik OK maka pada output SPSS akan
menampilkan hasil berikut:

Tabel Person Correlations memaparkan nilai koefisien korelasi sebesar 0.982
antara variable mobil dan pendapatan

17

Contoh 5

Ketidakhadiran dan Nilai Akhir

Hitung nilai koefisien korelasi untuk data yang diperoleh dalam studi tentang

jumlah ketidakhadiran dan nilai akhir dari tujuh siswa di kelas statistik yang

diberikan dalam Contoh 2.

Penyelesaian:

Langkah 1 Buatlah tabel.

Langkah 2 Temukan nilai xy, x2, dan y2 dan tempatkan nilai-nilai ini di kolom yang

sesuai pada tabel.

Siswa Ketidakhadiran Nilai Akhir (y) xy X2 Y2
A (x) 492 36 6,724
6 82

B2 86 172 4 7,396

C 15 43 645 225 1,849

D9 74 666 81 5,476

E 12 58 696 144 3,364

F5 90 450 25 8,100

G8 78 624 64 6,084

∑ = 57 ∑ = 511 ∑ ∑ 2 ∑ 2

= 3745 = 579 = 38,993

Langkah 3 substitusikan hitungan Langkah 2 ke dalam rumus r dan selesaikan.

r = n( xy) − ( x)( y)
)2 )2
 n (  x 2 ) − (  x   n (  y 2 ) − (  y 
   

= (7)(3745) − (57)(511)
)2 (511)2
( 7 ) ( 579 ) − ( 57  ( 7 ) ( 38.993) − 
 

= −0.944

18

Nilai r menunjukkan hubungan negatif yang kuat antara nilai akhir siswa dan
jumlah ketidakhadiran siswa. Artinya, semakin banyak siswa absen, semakin
rendah nilainya

SPSS
Cara mencari Koefisien Korelasi
1. Masukkan data yang mau dianalisis
2. Klik Analyze → Correlate → Bivariate
3. Masukkan variable ketidakhadiran dan nilai akhir pada kotak variable, pilih

Pearson pada correlation coefficients, klik OK maka pada output SPSS akan
menampilkan hasil berikut:

Tabel Person Correlations memaparkan nilai koefisien korelasi sebesar -0.944
antara variable ketidakhadiran dan nilai akhir

Contoh 6
Usia dan Kekayaan
Hitung nilai koefisien korelasi untuk data yang diberikan dalam Contoh 3 untuk
usia dan kekayaan orang terkaya di Amerika Serikat.

19

Penyelesaian:

Langkah 1 Buatlah tabel.

Langkah 2 Temukan nilai xy, x2, dan y2

Orang Usia (x) Kekayaan xy X2 Y2
A 73 Bersih (y)
1,168 5,329 256
16 1,690 4,225 676
2,650 2,809 2,500
B 65 26 1,161 2,916 462.25
3,160 6,241 1,600
C 53 50 1,104 4,761 256
1,195.6 3,721 384.16
D 54 21.5 1,235 4,225 361

E 79 40

F 69 16

G 61 19.6

H 65 19

∑ = 519 ∑ = 208.1 ∑ ∑ 2 ∑ 2

= 13,363.6 = 34,227 = 6,495.41

Langkah 3 substitusikan hitungan Langkah 2 ke dalam rumus r dan selesaikan.

r = n( xy) − ( x)( y)
)2 )2
 n (  x 2 ) − (  x  n (  y 2 ) − (  y 
  

= (8)(13,363.6) − (519)(208.1)
)2 208.1)2
( 8) ( 34, 227 ) − ( 519  (8) ( 6495.41) − ( 
 

= −0.176

Nilai r menunjukkan hubungan negatif yang sangat lemah antar variabel.

SPSS
Cara mencari Koefisien Korelasi

1. Masukkan data yang mau dianalisis
2. Klik Analyze → Correlate → Bivariate

20

SPSS
Cara mencari Koefisien Korelasi
3. Masukkan variable usia dan kekayaan pada kotak variable, pilih Pearson

pada correlation coefficients, klik OK maka pada output SPSS akan
menampilkan hasil berikut:

Tabel Person Correlations memaparkan nilai koefisien korelasi sebesar -0.176
antara variable usia dan kekayaan

Dalam Contoh 4, nilai r tinggi (mendekati 1,00); pada Contoh 6, nilai r jauh
lebih rendah (mendekati 0). Pertanyaan ini kemudian muncul, Kapan nilai r
terpilih, dan kapan menunjukkan hubungan linier yang signifikan antar variabel?
Pertanyaan ini akan terjawab selanjutnya.

Signifikansi Koefisien Korelasi Seperti yang telah dikemukakan
sebelumnya, kisaran koefisien korelasi adalah antara -1 dan +1. Ketika nilai r
mendekati +1 atau -1, ada hubungan linier yang kuat. Ketika nilai r mendekati 0,
hubungan liniernya lemah atau tidak ada. Karena nilai r dihitung dari data yang
diperoleh dari sampel, ada dua kemungkinan jika r tidak sama dengan nol: apakah
nilai r cukup tinggi untuk menyimpulkan bahwa ada hubungan linier yang
signifikan antara variabel, atau nilai r karena kebetulan.

Untuk membuat keputusan ini, gunakan prosedur pengujian hipotesis.
Metode tradisional mirip dengan yang digunakan di materi-materi sebelumnya.

Langkah 1 Nyatakan hipotesis.
Langkah 2 Temukan nilai kritisnya.

21

Langkah 3 Hitung nilai tes.
Langkah 4 Buat keputusan.
Langkah 5 Rangkum hasilnya.
Koefisien korelasi populasi dihitung dari pengambilan semua kemungkinan
pasangan (x, y); itu ditunjuk dengan huruf Yunani ρ (rho). Koefisien korelasi sampel
kemudian dapat digunakan sebagai penduga r jika asumsi berikut ini valid.
1. Variabel x dan y berhubungan linier.
2. Variabel adalah variabel acak.
3. Kedua variabel berdistribusi normal bivariat.
Distribusi normal biviarate berarti bahwa untuk pasangan nilai data (x, y),
nilai y yang sesuai memiliki distribusi berbentuk lonceng untuk nilai x tertentu, dan
nilai x untuk nilai y yang diberikan memiliki distribusi berbentuk lonceng.
Didefinisikan secara formal, koefisien korelasi populasi ρ adalah korelasi yang
dihitung dengan menggunakan semua kemungkinan pasangan nilai data (x, y)
yang diambil dari suatu populasi.
Dalam pengujian hipotesis, salah satunya benar:
0: = 0 Hipotesis nol ini berarti tidak ada korelasi antara variabel x dan

y dalam populasi.
1: ≠ 0 Hipotesis alternatif ini berarti terdapat hubungan yang

signifikan antara variabel dalam populasi.
Apabila hipotesis nol ditolak pada tingkat tertentu, artinya terdapat
perbedaan yang signifikan antara nilai r dan 0. Jika hipotesis nol tidak ditolak,
berarti nilai r tidak berbeda signifikan dengan 0 (nol) dan mungkin karena
kebetulan.
Beberapa metode dapat digunakan untuk menguji signifikansi koefisien
korelasi. Tiga metode akan ditampilkan di bagian ini. Yang pertama menggunakan
uji t.

22

Rumus Uji t untuk Koefisien Korelasi
t =r n−2

1− r2
dengan derajat kebebasan sama dengan n - 2.

Meskipun uji hipotesis dapat dilakukan satu sisi, sebagian besar hipotesis
yang melibatkan koefisien korelasi bersifat dua sisi. Ingatlah bahwa ρ mewakili
koefisien korelasi populasi. Juga, jika tidak ada hubungan linier, nilai koefisien
korelasi akan menjadi 0. Oleh karena itu, hipotesisnya adalah
0 ∶ = 0 1 ∶ ≠ 0

Tidak perlu mengidentifikasi klaim di sini, karena pertanyaannya adalah
apakah ada hubungan linier yang signifikan antara variabel.

Nilai kritis dua sisi digunakan. Nilai-nilai ini terdapat pada Tabel F di
Lampiran C. Selain itu, saat Anda menguji signifikansi koefisien korelasi, kedua
variabel x dan y harus berasal dari populasi yang berdistribusi normal.

Contoh 7
Ujilah signifikansi koefisien korelasi yang ditemukan pada Contoh 4. Gunakan α =
0,05 dan r = 0,982.
Penyelesaian:
Langkah 1 Nyatakan hipotesis.

0 ∶ = 0 1 ∶ ≠ 0
Langkah 2 Temukan nilai kritisnya.
Karena α = 0,05 dan ada 6 – 2 = 4 sebagai derajat kebebasan, nilai kritis yang
diperoleh dari Tabel F adalah ±2,776, seperti yang ditunjukkan pada Gambar 7.

23

Gambar 7 Nilai Kritis untuk contoh 7

Langkah 3 Hitung nilai t-tes

t=r n−2
1− r2

= 0,982 6−2

1− (0,982)2

= 10, 4

Langkah 4 Buat keputusan. Tolak hipotesis nol, karena nilai pengujian berada di
wilayah kritis, seperti yang ditunjukkan pada Gambar 8.

Gambar 8 Nilai uji untuk contoh 7
Langkah 5 Rangkum hasilnya. Ada hubungan yang signifikan antara jumlah mobil
yang dimiliki agen persewaan dan pendapatan tahunannya

24

Metode kedua yang dapat digunakan untuk menguji signifikansi r adalah
metode P-value. Metode ini menggunakan langkah-langkah berikut.
Langkah 1 Nyatakan hipotesis.
Langkah 2 Temukan nilai tes. (Dalam hal ini, gunakan uji t.)
Langkah 3 Temukan nilai-P. (Dalam hal ini, gunakan Tabel F.)
Langkah 4 Buat keputusan.
Langkah 5 Rangkum hasilnya.

Perhatikan contoh di mana t = 4.059 dan d.f. = 4. Menggunakan Tabel F
dengan d.f. = 4 dan baris Dua ekor, nilai 4,059 berada di antara 3,747 dan 4,604;
karenanya, 0,01 < nilai-P < 0,02. (Nilai P yang diperoleh dari kalkulator adalah
0,015.) Artinya, nilai P berada di antara 0,01 dan 0,02. Keputusannya, kemudian,
adalah menolak hipotesis nol karena nilai-P < 0,05.

Metode ketiga untuk menguji signifikansi r adalah dengan menggunakan
Tabel I pada Lampiran C. Tabel ini menunjukkan nilai koefisien korelasi yang
signifikan untuk tingkat tertentu dan jumlah derajat kebebasan tertentu.
Misalnya, untuk 7 derajat kebebasan dan α = 0,05, tabel tersebut memberikan nilai
kritis 0,666. Setiap nilai r yang lebih besar dari +0,666 atau kurang dari -0,666 akan
signifikan, dan hipotesis nol akan ditolak. Lihat Gambar 9. Jika Tabel I digunakan,
Anda tidak perlu menghitung nilai uji t. Tabel I hanya untuk pengujian dua sisi.

Gambar 9 Menemukan Nilai Kritis dari Tabel I

25

Contoh 8
Menggunakan Tabel I, uji signifikansi pada α = 0,01 dari koefisien korelasi r = -
0,176, yang diperoleh dalam Contoh 6.
Penyelesaian:

0 ∶ = 0 1 ∶ ≠ 0
Karena ukuran sampel adalah 8, ada n - 2, atau 8 – 2 = 6 sebagai derajat
kebebasan. Ketika α = 0,01 dan d.f. = 6, nilai yang diperoleh dari Tabel I adalah
0,834. Untuk hubungan yang signifikan, diperlukan nilai r lebih besar dari +0,834
atau kurang dari -0,834. Karena nilai r = -0,176 lebih besar dari -0,834 maka
hipotesis nol tidak ditolak. karena itu, tidak ada cukup bukti untuk mengatakan
bahwa ada hubungan linier yang signifikan antara usia dan kekayaan. Lihat
Gambar 10.

Gambar 10 Wilayah Penolakan dan Penerimaan untuk Contoh 8

Korelasi dan Penyebab Peneliti harus memahami sifat hubungan linier antara
variabel bebas x dan variabel terikat y. Ketika uji hipotesis menunjukkan bahwa
ada hubungan linier yang signifikan antara variabel, peneliti harus
mempertimbangkan kemungkinan yang diuraikan selanjutnya.
Kemungkinan Hubungan Antar Variabel
Jika hipotesis nol telah ditolak untuk nilai tertentu, salah satu dari lima
kemungkinan berikut ini dapat muncul.
1. Ada hubungan sebab-akibat langsung antara variabel. Yaitu, x

menyebabkan y. Misalnya, air menyebabkan tanaman tumbuh, racun
menyebabkan kematian, dan panas menyebabkan es mencair.

26

Kemungkinan Hubungan Antar Variabel
2. Ada hubungan sebab-akibat terbalik antara variabel-variabel. Yaitu, y

menyebabkan x. Misalnya, seorang peneliti percaya konsumsi kopi yang
berlebihan menyebabkan kegugupan, tetapi peneliti gagal
mempertimbangkan bahwa situasi sebaliknya dapat terjadi. Artinya,
mungkin orang yang sangat gugup sangat membutuhkan kopi untuk
menenangkan sarafnya.
3. Hubungan antar variabel mungkin disebabkan oleh variabel ketiga.
Misalnya, jika seorang ahli statistik mengkorelasikan jumlah kematian
akibat tenggelam dan jumlah kaleng minuman ringan yang dikonsumsi
setiap hari selama musim panas, dia mungkin akan menemukan hubungan
yang signifikan. Namun, minuman ringan tidak selalu bertanggung jawab
atas kematian, karena kedua variabel tersebut mungkin terkait dengan
panas dan kelembapan.
4. Mungkin ada kompleksitas keterkaitan di antara banyak variabel.
Misalnya, seorang peneliti mungkin menemukan hubungan yang
signifikan antara nilai sekolah menengah siswa dan nilai perguruan tinggi.
Tapi mungkin ada banyak variabel lain yang terlibat, seperti IQ, jam
belajar, pengaruh orang tua, motivasi, usia, dan instruktur.
5. Hubungan itu mungkin kebetulan. Misalnya, seorang peneliti mungkin
dapat menemukan hubungan yang signifikan antara peningkatan jumlah
orang yang melakukan latihan dan peningkatan jumlah orang yang
melakukan kejahatan. Tetapi akal sehat menyatakan bahwa hubungan
apa pun antara kedua nilai ini pasti karena kebetulan.

Ketika dua variabel sangat berkorelasi, item 3 di kotak menyatakan bahwa
ada kemungkinan korelasi disebabkan oleh variabel ketiga. Jika hal ini terjadi dan
variabel ketiga tidak diketahui peneliti atau tidak diperhitungkan dalam
penelitian, maka disebut variabel lurking. Sebuah upaya harus dilakukan oleh

27

peneliti untuk mengidentifikasi variabel tersebut dan menggunakan metode
untuk mengontrol pengaruhnya.

Penting untuk menyatakan kembali fakta bahwa meskipun korelasi antara
dua variabel tinggi, itu tidak selalu berarti sebab-akibat. Ada kemungkinan lain,
seperti variabel yang mengintai atau hanya hubungan kebetulan. Perhatikan
artikel Berbicara tentang Statistik.
Berbicara tentang Statistik
Dalam studi korelasi dan regresi, sulit untuk mengontrol semua variabel. Studi
ini menunjukkan beberapa konsekuensi ketika peneliti mengabaikan aspek-
aspek tertentu dalam penelitian. Sarankan cara agar variabel asing dapat
dikontrol dalam penelitian selanjutnya.

Kopi Bukan Penyebab Penyakit, Studi Berkata

NEW YORK (AP) —Dua penelitian baru menunjukkan bahwa minum kopi,
bahkan hingga 51 2 cangkir per hari, tidak meningkatkan risiko penyakit jantung,
dan penelitian lain yang mengklaim telah menemukan peningkatan risiko
mungkin telah melewatkan penyebab sebenarnya, kata seorang peneliti.
“Ini mungkin bukan cangkir kopi di satu tangan, itu mungkin rokok atau
gulungan kopi di tangan yang lain,” kata Dr. Peter W. F. Wilson, salah satu
penulis studi baru.
Dia mencatat dalam wawancara telepon Kamis bahwa banyak peminum kopi,
terutama peminum kopi berat, adalah perokok. Dan salah satu studi baru
menemukan bahwa peminum kopi memiliki lemak berlebih dalam makanannya.

28

Temuan studi baru ini bertentangan dengan studi yang dilaporkan pada
November 1985 oleh ilmuwan Universitas Johns Hopkins di Baltimore.
Ilmuwan Hopkins menemukan bahwa peminum kopi yang mengonsumsi lima
atau lebih cangkir kopi per hari memiliki risiko penyakit jantung tiga kali lebih
besar daripada yang bukan peminum kopi.
Alasan perbedaan tersebut tampaknya karena banyak peminum kopi dalam
penelitian Hopkins juga merokok — dan merokoklah yang meningkatkan risiko
penyakit jantung mereka, kata Wilson.
Wilson, direktur laboratorium untuk Framingham Heart Study di Framingham,
Mass., Mengatakan pada hari Kamis di sebuah konferensi yang disponsori oleh
American Heart Association di Charleston, SC, bahwa dia telah memeriksa
asupan kopi dari 3.937 peserta dalam studi Framingham selama 1956–66 dan
tambahan 2.277 selama tahun 1972–1982.
Berbeda dengan subjek dalam studi Hopkins, sebagian besar peminum kopi ini
mengonsumsi dua atau tiga cangkir kopi per hari, kata Wilson. Hanya 10 persen
minum enam cangkir atau lebih per hari.
Dia kemudian melihat kadar kolesterol darah dan penyakit jantung dan
pembuluh darah di dua kelompok. "Kami menjalankan analisis ini untuk
penyakit jantung koroner, serangan jantung, kematian mendadak, dan stroke
dan dalam setiap analisis, kami tidak menemukan hubungan dengan kopi," kata
Wilson.
Ia menemukan bahwa konsumsi kopi dikaitkan dengan penurunan yang
signifikan dalam total kolesterol darah pada pria, dan peningkatan moderat
dalam total kolesterol pada wanita.

Selain itu, harus berhati-hati saat data untuk satu atau kedua variabel
melibatkan rata-rata daripada data individual. Tidaklah salah untuk menggunakan
rata-rata, tetapi hasil tidak dapat digeneralisasikan untuk individu karena rata-
rata cenderung memuluskan variabilitas di antara nilai data individu. Hasilnya bisa
jadi korelasi yang lebih tinggi dari yang sebenarnya ada.

29

Jadi, ketika hipotesis nol ditolak, peneliti harus mempertimbangkan semua
kemungkinan dan memilih yang sesuai seperti yang ditentukan oleh penelitian.
Ingat, korelasi tidak selalu berarti sebab-akibat.

D. REGRESI

Dalam mempelajari hubungan antara dua variabel, kumpulkan data dan
kemudian buat diagram pencar. Tujuan dari diagram pencar, seperti yang
ditunjukkan sebelumnya, adalah untuk menentukan sifat hubungan.
Kemungkinannya termasuk hubungan linier positif, hubungan linier negatif,
hubungan lengkung, atau tidak ada hubungan yang terlihat. Setelah diagram
pencar dibuat, langkah selanjutnya adalah menghitung nilai koefisien korelasi dan
menguji signifikansi hubungan tersebut. Jika nilai koefisien korelasi signifikan,
langkah selanjutnya adalah menentukan persamaan garis regresi yang merupakan
garis data paling cocok. (Catatan: Menentukan garis regresi ketika r tidak signifikan
dan kemudian membuat prediksi menggunakan garis regresi tidak ada artinya.)
Tujuan garis regresi adalah agar peneliti dapat melihat tren dan membuat prediksi
berdasarkan data.

Garis Paling Sesuai

Gambar 11 menunjukkan diagram pencar untuk data dua variabel. Ini
menunjukkan bahwa beberapa garis dapat digambar pada grafik di dekat titik-titik
tersebut. Dengan adanya diagram pencar, selanjutnya harus bisa menggambar
garis yang paling sesuai. Paling cocok berarti jumlah kuadrat jarak vertikal dari
setiap titik ke garis minimal. Alasan kenapa membutuhkan garis yang paling sesuai
adalah karena nilai y akan diprediksi dari nilai x; oleh karena itu, semakin dekat
titik ke garis, semakin baik kecocokan dan prediksinya. Lihat Gambar 12. Jika r
positif, garis miring ke atas dan ke kanan. Jika r negatif, garis miring ke bawah dari
kiri ke kanan.

30

Gambar 11 Diagram pencar dengan tiga garis sesuai dengan data

Gambar 12 Garis Paling Cocok untuk Kumpulan Titik Data

Penentuan Persamaan Garis Regresi
Dalam aljabar, persamaan garis biasanya diberikan sebagai y = mx + b, di

mana m adalah kemiringan garis dan b adalah perpotongan dengan y. Dalam
statistik, persamaan garis regresi dituliskan sebagai y = a + bx, di mana a adalah
perpotongan y dan b adalah kemiringan garis. Lihat Gambar 13.

31

Gambar 13 Garis yang Diwakili dalam Aljabar dan Statistik

Ada beberapa metode untuk mencari persamaan garis regresi. Dua rumus
diberikan di sini. Rumus ini menggunakan nilai yang sama yang digunakan dalam
menghitung nilai koefisien korelasi. Perkembangan matematis dari rumus-rumus
ini berada di luar cakupan ini.

Rumus untuk Garis Regresi y = a + bx

a = (  y )( x2 ) − ( x)( xy )
n( x2 ) −( x)2

b = n ( xy) −( x)( y )
n( x2 ) −( x)2

dimana a adalah perpotongan y dan b adalah kemiringan garis

Aturan Pembulatan untuk Titik potong dan Kemiringan Bulatkan nilai a dan b ke
tiga tempat decimal

Contoh 9
Perusahaan Penyewaan Mobil
Temukan persamaan garis regresi untuk data pada Contoh 4, dan buat grafik garis
pada diagram pencar data.

32

Penyelesaian:

Nilai yang dibutuhkan untuk persamaan tersebut adalah

n = 6  x = 153.8  y = 18.7  xy = 682.77  x2 = 5859.26

Substitusikan ke rumus

( y)( x2 ) − ( x)( xy)
a = n( x2 ) −( x)2

(18.7)(5859.26) − (153.8)(682.77)

=

6(5859.26) − (153.8)2

= 0.396

b = n ( xy) − ( x)( y )
n( x2 ) −( x)2

6(682.77) − (153.8)(18.7)
= 6(5859.26) − (153.8)2

= 0.106

Oleh karena itu, persamaan garis regresi y’ = a + bx adalah
y ' = 0.396 + 0.106x

Untuk membuat grafik garis, pilih dua titik untuk x dan temukan nilai y yang sesuai.

Gunakan suatu nilai x antara 10 dan 60. Misalnya, misalkan x = 15. Gantikan

persamaan tersebut dan temukan nilai y’ yang sesuai.

y ' = 0.396 + 0.106x

= 0.396 + 0.106(15)

= 1.986

Misalkan x = 40, maka

y ' = 0.396 + 0.106x

= 0.396 + 0.106(40)

= 4.636

Kemudian gambarkan kedua titik (15, 1.986) dan (40, 4.636) dan gambar garis yang

menghubungkan kedua titik tersebut. Lihat Gambar 14.

33

Gambar 14 Regresi linier untuk contoh 9

Catatan: Saat menggambar garis regresi, terkadang grafik perlu dipotong. Hal ini
dilakukan jika jarak antara titik asal dan koordinat berlabel pertama pada sumbu
x tidak sama dengan jarak antara sisa koordinat x berlabel atau jarak antara titik
asal dan koordinat y berlabel pertama tidak sama dengan jarak antara koordinat
y' berlabel lainnya.
Jika sumbu x atau sumbu y telah dipotong, jangan gunakan nilai perpotongan y
untuk membuat grafik garis. Saat Anda membuat grafik garis regresi, selalu pilih
nilai x antara nilai data x terkecil dan nilai data x terbesar.

34

SPSS
Cara melakukan analisis regresi
1. Masukkan data yang mau dianalisis

2. Klik Analyze → Regression → Linier, akan nampak pada layar:

3. Masukkan variable mobil pada kotak independent dan variable
pendapatan pada kotak dependen

4. Klik tombol statistics, sehingga muncul tampilan sebagai berikut:

35

SPSS
Cara melakukan analisis regresi

Secara default estimates dan model fit terpilih
5. Klik Continue
6. Klik tombol options, pilih use probability of F kemudian masukkan tingkat

kepercayaan pada kotak entry

7. Klik continue
8. Klik OK maka pada output SPSS akan menampilkan hasil berikut:

36

SPSS
Cara melakukan analisis regresi

Tabel anova memaparkan uji kelinieran, dengan memandingkan nilai sig
(0.000) < α artinya menunjukkan adanya korelasi positif antara variable x
dan y

Table coefficients memaparkan nilai konstanta a dan b dari persamaan
linier y = a + bx = 0.396 + 0.106x artinya jumlah mobil berpengaruh positif
terhadap jumlah pendapatan, hal ini dilihat dari nilai koefisien x yaitu 0.106
yang bernilai positif yang berarti pula bahwa setiap mobil bertambah 1
satuan maka pendapatan bertambah 0.106 satuan
Berdasarkan nilai sig (0.000) < α artinya terdapat korelasi linier yang
signifikan

Contoh 10
Ketidakhadiran dan Nilai Akhir
Temukan persamaan garis regresi untuk data pada Contoh 10–5, dan buat grafik
garis pada plot sebar

37

Penyelesaian:

Nilai yang dibutuhkan untuk persamaan tersebut adalah

n = 7  x = 57  y = 511  xy = 3745  x2 = 579

Substitusikan ke rumus

( y)( x2 ) − ( x)( xy)
a = n( x2 ) −( x)2

(511)(579) − (57)(3745)

=

7 (579) − (57)2

= 102.493

b = n (  xy) − (  x)( y )
n( x2 ) −( x)2

7(3745) − (57)(511)
= 7(579) − (57)2

= −3.622

Oleh karena itu, persamaan garis regresi y’ = a + bx adalah

y ' = 102.493 − 3.622x

Grafik garis tersebut ditunjukkan pada Gambar 15.

Gambar 15 Regresi linier untuk contoh 10

38

Tanda koefisien korelasi dan tanda kemiringan garis regresi akan selalu sama.
Artinya, jika r positif, maka b akan positif; jika r negatif, maka b akan negatif.
Alasannya adalah pembilang rumusnya sama dan menentukan tanda dari r dan b,
dan penyebutnya selalu positif. Garis regresi akan selalu melewati titik yang
koordinat x adalah mean dari nilai x dan koordinat y adalah mean dari nilai y, yaitu,

(x, y).

Garis regresi dapat digunakan untuk membuat prediksi untuk variabel dependen.
Metode untuk membuat prediksi ditunjukkan pada Contoh 11.

Contoh 11
Perusahaan Penyewaan Mobil
Gunakan persamaan garis regresi untuk memprediksi pendapatan agen
penyewaan mobil yang memiliki 200.000 mobil
Penyelesaian:
Karena nilai x berada dalam 10.000, bagi 200.000 dengan 10.000 sehingga didapat
20, lalu gantikan 20 untuk x dalam persamaan tersebut.
y ' = 0.396 + 0.106x

= 0.396 + 0.106(20)

= 2.516
Oleh karena itu, ketika agen persewaan memiliki 200.000 mobil, pendapatannya
akan menjadi sekitar $ 2,516 miliar.

Nilai yang diperoleh dalam Contoh 11 adalah prediksi titik, dan dengan prediksi
titik, tidak ada tingkat akurasi atau keyakinan yang dapat ditentukan.
Besarnya perubahan dalam satu variabel ketika variabel lainnya berubah tepat 1
satuan disebut perubahan marjinal. Nilai kemiringan b dari persamaan garis
regresi mewakili perubahan marjinal. Misalnya, pada Contoh 9 kemiringan garis

39

regresi adalah 0,106, yang berarti untuk setiap kenaikan 10.000 mobil, nilai y rata-
rata berubah 0,106 unit ($ 106 juta).
Jika r tidak berbeda nyata dari 0, prediktor terbaik dari y adalah mean dari nilai
data y. Untuk prediksi yang valid, nilai koefisien korelasi harus signifikan. Juga, dua
asumsi lain harus dipenuhi.
Asumsi untuk Prediksi yang Valid dalam Regresi
1. Sampel adalah sampel acak.
2. Untuk nilai tertentu dari variabel bebas x, nilai variabel terikat y harus

berdistribusi normal di sekitar garis regresi. Lihat Gambar 16 (a).
3. Standar deviasi masing-masing variabel dependen harus sama untuk setiap

nilai variabel independen. Lihat Gambar 16 (b).

40

Gambar 16 Asumsi untuk Prediksi

Ekstrapolasi, atau membuat prediksi di luar batas data, harus
diinterpretasikan dengan hati-hati. Misalnya, pada 1979, beberapa ahli
meramalkan bahwa Amerika Serikat akan kehabisan minyak pada tahun 2003.
Prediksi ini didasarkan pada konsumsi saat ini dan cadangan minyak yang
diketahui pada saat itu. Namun, sejak saat itu, industri otomotif telah
menghasilkan banyak kendaraan baru yang hemat bahan bakar. Juga, masih
banyak ladang minyak yang belum ditemukan. Akhirnya, suatu hari ilmu
pengetahuan mungkin akan menemukan cara untuk menjalankan mobil dengan
sesuatu yang tidak mungkin tetapi sama umum dengan minyak kacang. Selain itu,
harga satu galon bensin diprediksi akan mencapai $ 10 beberapa tahun kemudian.
Untungnya ini belum terjadi. Ingatlah bahwa ketika prediksi dibuat, itu didasarkan
pada kondisi saat ini atau pada premis bahwa tren saat ini akan berlanjut. Asumsi
ini mungkin terbukti benar atau tidak di masa depan.

Langkah-langkah untuk mencari nilai koefisien korelasi dan persamaan
garis regresi dirangkum dalam Tabel Prosedur berikut:

41

Tabel Prosedur
Mencari Koefisien Korelasi dan Persamaan Garis Regresi
Langkah 1 Buat tabel, seperti yang ditunjukkan pada langkah 2.
Langkah 2 Temukan nilai xy, x2, dan y2. Tempatkan mereka di kolom yang
sesuai dan jumlahkan setiap kolom.

Langkah 3 Substitusikan hitungan Langkah 2 ke dalam rumus r

r = n( xy) − ( x)( y)
)2 )2
n (  x 2 ) − (  x  n (  y 2 ) − (  y 
 

Langkah 4 Jika r signifikan, substitusikan rumus untuk mencari nilai a dan b untuk

persamaan garis regresi y = a + bx.

( y)( x2 ) −( x)( xy)
a = n( x2 ) −( x)2

b = n ( xy) −( x)( y )
n( x2 ) −( x)2

Sebuah diagram pencar harus diperiksa untuk pencilan. Pencilan adalah
titik yang tampak tidak pada tempatnya jika dibandingkan dengan titik lainnya.
Beberapa titik tersebut dapat mempengaruhi persamaan garis regresi. Ketika ini
terjadi, titik-titik tersebut disebut titik-titik yang berpengaruh atau pengamatan
yang berpengaruh.

Ketika sebuah titik pada diagram pencar tampak sebagai pencilan, itu harus
diperiksa untuk melihat apakah itu adalah titik yang berpengaruh. Titik yang
berpengaruh cenderung "menarik" garis regresi ke arah titik itu sendiri. Untuk

42

memeriksa titik yang berpengaruh, garis regresi harus digambarkan dengan titik
yang termasuk dalam kumpulan data. Kemudian garis regresi kedua harus dibuat
grafik yang mengecualikan titik dari kumpulan data. Jika posisi baris kedua
berubah banyak, titik tersebut dikatakan sebagai titik yang berpengaruh. Titik-titik
yang menyimpang pada arah x cenderung menjadi titik-titik yang berpengaruh.

Peneliti harus menggunakan penilaian mereka, apakah akan memasukkan
observasi yang berpengaruh dalam analisis akhir data. Jika peneliti merasa
observasi tidak perlu, maka harus dikeluarkan agar tidak mempengaruhi hasil
penelitian. Namun, jika peneliti merasa perlu, maka ia mungkin ingin
mendapatkan nilai data tambahan yang nilai x-nya mendekati nilai x dari titik yang
berpengaruh dan kemudian memasukkannya ke dalam penelitian.

E. KOEFISIEN DETERMINASI DAN ESTIMASI STANDAR ERROR
Bagian sebelumnya menyatakan bahwa jika koefisien korelasi signifikan,

persamaan garis regresi dapat ditentukan. Juga, untuk berbagai nilai variabel
bebas x, nilai yang sesuai dari variabel terikat y dapat diprediksi. Beberapa ukuran
lain diasosiasikan dengan teknik korelasi dan regresi. Mereka termasuk koefisien
determinasi, kesalahan standar estimasi, dan interval prediksi. Tetapi sebelum
konsep-konsep ini dapat dijelaskan, berbagai jenis variasi yang terkait dengan
model regresi harus didefinisikan.
Jenis Variasi untuk Model Regresi
Perhatikan model regresi hipotetis berikut:

Persamaan garis regresinya adalah y' = 4,8 + 2,8x, dan r = 0,919. Nilai
sampel y adalah 10, 8, 12, 16, dan 20. Nilai prediksi, yang ditunjuk oleh y', untuk

43

setiap x dapat ditemukan dengan memasukkan setiap nilai x ke dalam persamaan
regresi dan menemukan y'. Misalnya, ketika x = 1,

y' = 4,8 + 2,8x = 4,8 + (2,8)(1) = 7,6

Sekarang, untuk setiap x, ada nilai y yang diamati dan nilai y’ yang
diprediksi; misalnya, ketika x = 1, y = 10, dan y' = 7,6. Ingatlah bahwa semakin dekat
nilai yang diamati dengan nilai yang diprediksi, semakin baik kecocokannya dan
semakin dekat r ke +1 atau -1

Variasi total ∑( − ̅ )2 adalah jumlah kuadrat jarak vertikal setiap titik dari
mean. Variasi total dapat dibagi menjadi dua bagian: yang dikaitkan dengan
hubungan x dan y dan yang disebabkan oleh kebetulan. Variasi yang diperoleh dari
hubungan (yaitu, dari nilai y’ yang diprediksi) adalah ∑( ′ − ̅ )2 dan disebut
variasi yang dijelaskan. Sebagian besar variasi dapat dijelaskan oleh hubungan.
Semakin dekat nilai r dengan +1 atau -1, semakin baik titik-titik tersebut sesuai
dengan garis dan semakin dekat ∑( ′ − ̅ )2 dengan ∑( − ̅ )2. Faktanya, jika
semua titik jatuh pada garis regresi, ∑( ′ − ̅ )2 akan sama dengan ∑( − ̅ )2,
karena y’ sama dengan y dalam setiap kasus.

Sebaliknya, variasi karena kebetulan, yang ditemukan oleh ∑( − ′)2,
disebut variasi tak terjelaskan. Variasi ini tidak dapat dikaitkan dengan hubungan.
Ketika variasi yang tidak dapat dijelaskan kecil, nilai r mendekati +1 atau -1. Jika
semua titik berada pada garis regresi, variasi tak terjelaskan ∑( − ′)2akan
menjadi 0. Oleh karena itu, variasi total sama dengan jumlah variasi terjelaskan
dan variasi tak terjelaskan. Itu adalah,

∑( − ̅ )2 = ∑( ′ − ̅ )2 + ∑( − ′)2

Nilai-nilai ini ditunjukkan pada Gambar 10-17. Untuk satu titik,
perbedaannya disebut deviasi. Untuk model regresi hipotetis yang diberikan
sebelumnya, untuk x = 1 dan y = 10, Anda mendapatkan y’ = 7,6 dan ̅ = 13,2.

44

Gambar 17 Penyimpangan untuk Persamaan Regresi

Prosedur untuk menemukan tiga jenis variasi diilustrasikan selanjutnya.

Langkah 1 Temukan nilai y' yang diprediksi

Untuk x = 1 y’ = 4,8 + 2,8x = 4,8 + (2,8)(1) = 7,6

Untuk x = 2 y’ = 4,8 + (2,8)(2) = 10,4

Untuk x = 3 y = 4,8 + (2,8)(3) = 13,2

Untuk x = 4 y = 4,8 + (2,8)(4) = 16.0

Untuk x = 5 y =4,8 + (2,8)(5) = 18,8

Oleh karena itu, nilai untuk contoh ini adalah sebagai berikut:

45

Langkah 2 Temukan mean dari nilai-nilai y
Langkah 3 Temukan total variasi ∑( − ̅ )2

Langkah 4 Temukan variasi yang dijelaskan ∑( ′ − ̅ )2

Langkah 5 Temukan variasi yang tidak dapat dijelaskan ∑( − ′)2

Perhatikan:
Variasi total = variasi yang dijelaskan + variasi yang tidak dapat dijelaskan

92,8 = 78,4 + 14,4
46

Catatan: Nilai (y – y’) disebut residual. Residu adalah perbedaan antara nilai
aktual y dan nilai prediksi y untuk nilai x tertentu. Rata-rata residual selalu nol.
Seperti yang dinyatakan sebelumnya, garis regresi yang ditentukan oleh rumus di
Bagian regresi adalah garis yang paling sesuai dengan titik-titik plot pencar. Jumlah
kuadrat dari residual yang dihitung dengan menggunakan garis regresi adalah nilai
terkecil yang mungkin. Untuk alasan ini, garis regresi juga disebut garis kuadrat
terkecil.
Residual Plots
Seperti yang dinyatakan sebelumnya, nilai y – y’ disebut residual (kadang-kadang
disebut kesalahan prediksi). Nilai-nilai ini dapat diplot dengan nilai x, dan plot,
yang disebut plot residual, dapat digunakan untuk menentukan seberapa baik
garis regresi dapat digunakan untuk membuat prediksi.

Residu untuk contoh sebelumnya dihitung seperti yang ditunjukkan.

Nilai x diplot menggunakan sumbu horizontal, dan residual diplot
menggunakan sumbu vertikal. Karena rata-rata residual selalu nol, garis horizontal
dengan koordinat y nol ditempatkan pada sumbu y seperti yang ditunjukkan pada
Gambar 18.

Plot x dan nilai residual seperti yang ditunjukkan pada Gambar 18.

47


Click to View FlipBook Version