The words you are searching are inside this book. To get more targeted content, please make full-text search by clicking here.

Panduan Penyediaan Fail dan Penyaringan Data

Discover the best professional documents and content resources in AnyFlip Document Base.
Search
Published by zolkepeli Haron, 2022-03-10 15:22:56

Asas Analisis Data SPSS

Panduan Penyediaan Fail dan Penyaringan Data

Seterusnya, pilih fail yang hendak digabungkan dengan fail bmi.sav
Pilih pembolehubah

49

Seterusnya
Save fail gabungan tersebut dengan nama baru. (bmi+2.sav)

50

Aktiviti 10b: Mengabungkan pembolehubah (Add variables)

Langkah 1.
Dari menu pilih Data → Merge files …
Langkah 2.
Pilih Add variables.
Mengabungkan fail bmi.sav yang mempunyai pembolehubah
Dengan fail bmi1.sav yang mempunyai pembolehubah
Kita ingin menghasilkan satu fail data yang mempunyai pembolehubah, id, jantina, berat, tinggi, saiz,
smatrw.

Buka fail bmi.sav, kemudian klik Data→Add Variables

51

Kita gunakan id sebagai “Key Variable” untuk menjadi indek gabungan fail kerana kedua-dua fail
mempunyai id responden yang sama.

Selepas klik OK

52

Anda boleh memberikan nama baru bagi hasil gabungan pembolehubah. Kita berikan nama
bmiLatest.sav.

53

Aktiviti
11

Analisis Penerokaan Data (Exploratory Data Analysis EDA)

Sebelum melakukan analisis statistik inferensi, adalah penting untuk melakukan analisis penerokaan data
(Exploratory Data Analysis EDA). Bahagian ini membantu anda memahami data, membantu anda
melihat jika ada ralat, dan membantu anda mengetahui sama ada data anda memenuhi andaian asas untuk
analisis statistik yang anda akan lakukan.
Untuk membolehkan anda memahami data anda, anda akan menjalankan pelbagai jenis analisis dan
membina jenis plot yang berbeza bergantung pada tahap pengukuran pembolehubah. Seperti yang
dibincangkan dalam bahagian pengenalan, program spss ini melabelkan tahap pengukuran kepada
nominal, ordinal dan skala.
Apakah Analisis Penerokaan Data (EDA)?
Selepas data dimasukkan ke dalam program spss, langkah pertama untuk diselesaikan (sebelum
menjalankan sebarang statistik inferensi ialah EDA, yang melibatkan pengiraan pelbagai statistik deskriptif
dan graf. Analisis penerokaan data digunakan untuk memeriksa dan mengenali data anda.
EDA penting untuk dilakukan kerana beberapa sebab:

1. Untuk melihat sama ada terdapat masalah dalam data seperti outlier, taburan bukan normal,
masalah
dengan pengekodan, nilai yang hilang dan/atau ralat daripada memasukkan data.
2. Untuk meneliti sejauh mana andaian statistik yang anda rancang untuk digunakan dipenuhi.
3. Untuk mendapatkan maklumat asas berkenaan demografi subjek untuk dilaporkan dalam
bahagian methodologi dan dapatan kajian.
4. Untuk mengkaji hubungan antara pembolehubah bagi menentukan cara menjalankan analisis
ujian hipotesis.
Cara Menjalankan EDA
Terdapat dua kaedah umum yang digunakan untuk EDA: menjana plot data dan menjana nombor
daripada data anda. Kedua-duanya adalah penting dan boleh menjadi kaedah yang sangat membantu
untuk menyiasat data. Statistik deskriptif (termasuk minimum, maksimum, min, sisihan piawai, dan
kepencongan, jadual taburan kekerapan, boxplot, histogram, dan plot “stem and leaf” adalah beberapa
prosedur yang digunakan dalam EDA.
Selepas mengumpul data dan memasukkannya, ramai pelajar segera melakukan inferensi
statistik (cth., ujian t dan ANOVA). Jangan lakukan ini! Banyak kali terdapat kesilapan atau masalah
dengan data yang perlu dikesan dan sama ada ditetapkan atau sekurang-kurangnya dicatat sebelum
melakukan sebarang analisis statistic inferensi.
Pada ketika ini, anda mungkin bertanya "Mengapa?" atau "Saya akan melakukan perkara deskriptif yang
membosankan”. Tunggu! Bersabar boleh mengurangkan banyak masalah di jalan raya.

54

Menyemak Ralat
Terdapat banyak cara untuk menyemak ralat. Sebagai contoh:

1. Semak data mentah (soal selidik, temu bual, spreatsheets atau borang pemerhatian) untuk
melihat jika terdapat ketidakkonsistenan, pengekodan berganda, ralat yang jelas, dan sebagainya.
Lakukan ini sebelum masuk data ke dalam SPSS.

2. Semak sebahagian, atau sebaik-baiknya semua, data mentah (cth. daripada soal selidik; data
"string") terhadap data dalam Paparan Data (Data View) anda untuk memastikan bahawa ralat
tidak dibuat dalam kemasukan/pengekodan data.

3. Bandingkan nilai minimum dan maksimum untuk setiap pembolehubah dalam output Deskriptif
anda dengan julat nilai yang dibenarkan dalam buku kod anda.

4. Periksa min dan sisihan piawai untuk melihat sama ada ia kelihatan munasabah, berdasarkan
kepada apa yang anda ketahui tentang pembolehubah.

5. Periksa lajur N untuk melihat sama ada mana-mana pembolehubah mempunyai banyak data
yang hilang, yang boleh menjadi masalah apabila anda melakukan statistik dengan dua atau lebih
pembolehubah. Data yang hilang juga boleh menunjukkan bahawa terdapat masalah dalam
kemasukan data.

6. Cari outlier (iaitu, skor melampau) dalam data.

Andaian Statistik
Setiap ujian statistik inferensi mempunyai andaian. Andaian statistik adalah sama seperti arahan untuk
penggunaan produk yang sesuai yang terdapat dalam manual pemilik (user manual). Andaian
menjelaskan bila masa dan kesesuaian untuk melakukan ujian statistik inferensi tertentu.
Jika andaian tidak dipenuhi, maka nilai yang dikira oleh program spss, yang memberitahu penyelidik
sama ada hasilnya signifikan atau tidak signifikan secara statistik, tidak akan tepat sepenuhnya malah boleh
menyebabkan penyelidik membuat kesimpulan yang salah tentang keputusan. Kesimpulan yang salah
dari analisis statistik akan membawa kepada dapatan kajian yang tidak sah.

Ujian parametrik
Ujian statistik parametrik yang biasa digunakan seperti ujian t, ANOVA, korelasi, regrasi dan lain-lain
mempunyai lebih banyak andaian daripada ujian bukan parametrik. Ujian statistik parametrik direka
untuk data yang mempunyai ciri-ciri tertentu, termasuk berciri taburan normal.
Beberapa ujian statistik parametrik telah didapati "robust" berkenaan dengan satu atau lebih dari siri
andaian sesuatu ujian. “Robust” bermakna andaian boleh dilanggar tanpa merosakkan kesahihan statistik.
Sebagai contoh, satu andaian ujian t dan ANOVA ialah pembolehubah bersandar perlu tertabur secara
normal bagi setiap kumpulan. Ahli statistik yang telah mengkaji statistik,
mendapati bahawa walaupun apabila data tidak tertabur secara normal (cth., berlaku kepencongan ) ianya
masih boleh digunakan dalam banyak keadaan.
Ujian Non-Parametrik
Ujian ini (cth., chi-square, Mann–Whitney U, Spearman rho) mempunyai kurang andaian dan selalunya
boleh digunakan apabila andaian ujian parametrik tidak dipatuhi oleh data. Misalnya, ujian statistik non-
parametrik tidak memerlukan pembolehubah bersandar tertabur secara normal atau berlaku
kehomogenan varians (homogeneity of variances).

55

Menyemak Andaian
Dua andaian yang sering disemak terutama untuk menjalankan ujian t dan ANOVA ialah Kehomogenan
varians dan Kenormalan data.

Kehomogenan varians
Kedua-dua ujian t dan ANOVA mungkin terjejas jika varians kumpulan yang hendak dibandingkan
adalah berbeza dengan ketara. Andaian kehomegenan varians adalah adalah kritikal dan perlu dipatuhi.
Kita bernasib baik kerana program spss ada menyediakan ujian Levene untuk kita menyemak andaian
ini, dan program spss dalam ujian t menyediakan cara untuk menyelaraskan keputusan jika varians adalah
ketara berbeza (tidak homogen).
Kenormalan
Banyak statistik parametrik menganggap bahawa pembolehubah bersandar tertentu adalah tertabur secara
normal atau lebih kurang kearah normal sebagai syarat andaian. Iaitu, taburan kekerapan akan kelihatan
seperti simetri berbentuk loceng atau lengkung normal, dengan kebanyakan subjek mempunyai nilai
dalam julat pertengahan dan dengan terdapat sebilangan kecil peserta yang mempunyai skor tinggi dan
skor rendah yang hampir sama bilangan mereka.
Apabila taburan itu tidak simetri, dengan skor lebih tinggi daripada rendah (atau sebaliknya) ianya
dikatakan berlaku kepencongan. Oleh itu, adalah penting untuk periksa kepencongan. Terdapat
beberapa cara luntuk menyemak kenormalan, antaranya adalah, kita melihat secara terperinci pada satu
kaedah grafik; boxplot, histogram dan Q-Q plot.
Terdapat dua ujian statistik di dalam program spss yang boleh digunakan untuk menyemak kenormalan
data iaitu ujian Shapiro-Wilk Test of Normality (bagi saiz sample kurang dari 50) dan Kolmogorov-
Smirnov Test (bagi saiz sampel yang lebih dari 50)
Ingatan Mesra, Jangan panik!!
Jangan rasa bersalah jika anda menghadapi masalah ketidaknormalan data dalam ujian t dan ANOVA,
ini kerana ujian t (jika dua ekor) dan ANOVA biasanya agak “robust” terhadap pelanggaran andaian
kenormalan, asalkan saiz sampel adalah besar dan tidak ada outlier yang melampau.

Aktiviti 11a. Menyemak Menggunakan Statistik Deskriptif Bagi Pembolehubah Ordinal dan Skala
Dalam aktiviti kita menggunakan fail data (data bengkel.sav). Kita cuba melihat kepada beberapa
pembolehubah yang mempunyai ciri ukuran odinal dan skala.
Kita akan menyemak, adakah data pembolehubah kita masuk akal (adalah mereka hampir dengan apa
yang anda jangkakan?), untuk memeriksa bentuk taburan data dengan menyemak kepencongan
(skewness).
Mari kita lihat satu pembolehubah dari fail data bengkel.sav. Kita melihat kepada tvhour (Jumlah jam
menonton television dalam sehari). Pembolehubah tvhours kita kategori didalam program spss sebagai
data berbentuk skala; iaitu responden memberikan jawapan berapa jam mereka memperuntukan
menonton dalam sehari.
Langkah 1. Kekuarkan output taburan frekuensi
Apa-apa sebelum analisis lanjutan dilakukan, mulakan dengan analisis frekuensi dahulu, ini adalah untuk
menyemak data yang dimasukkan ke dalam fail.
Keluarkan taburan frekuensi bagi pembolehubah tvhours. Dengan menggunakan menu
Analyze→Descriptive Statistics→Frequencies

56

Anda akan dapat paparan berikut.

Paparan output taburan frekuensi menunjukan jumlah responden yang sah untuk pembolehubah tvhours
ini adalah seramai 906 dari 1419 orang. Mereka yang tidak menjawab atau yang menjawab NAP atau NA
dikeluarkan dari analisis. Ini memberi ingatan kepada kita bahawa untuk mengalisis yang melibatkan
pembolehubah tvhours ini hanya akan melibatkan 906 orang responden (sebelum di buang outlier). Data
menunjukan tiada ralat kemasukan data kerana tiada data yang melebihi 24 jam.
Langkah 2. Meneroka data dengan menu Explore.
Klik Analyze→Descriptive Statistics→Explore

Seterusnya masukan tvhours kedalam Dependent List, kemudian klik Plots

57

Dalam menu Plots, klik Histogram dan Normality plots with test. Kemudian tekan butang Continue dan
OK untuk menamatkan prosedur.
Selepas anda menekan butang OK, anda akan di bawa ke paparan output. Berikut adalah siri dari
paparan output yang boleh kita bincangkan ciri pembolehubah tvhours.

58

1. Paparan Output Satistik Deskriptif

5% Trimmed Mean – Ini ialah min yang akan diperolehi jika 5% nilai bawah dan 5% nilai atas
pembolehubah dipadamkan. Jika nilai min trim 5% sangat berbeza dengan min, ini menunjukkan
terdapat beberapa outlier. Min yang diperolehi ialah 3.00 jam manakala min dari 5% Trimmed Mean
ialah 2.72. Kita masih tidak dapat memastikan lagi apa kemungkinan yang berlaku, adakah data ini
pencong atau terdapat outlier.

Indek Skewness (indeks kepencongan) dalam data kita ialah +2.460. Peraturan am (Rules of Thumb) bagi
indek skewness dalam kebanyakan buku rujukan statistik adalah seperti berikut.
Jika kepencongan adalah antara -0.5 dan 0.5, data adalah agak simetri (normal). Jika kepencongan adalah
antara -1 dan – 0.5 atau antara 0.5 dan 1, data adalah pencong secara sederhana (masih dianggap normal).
Jika kecondongan kurang daripada -1 atau lebih besar daripada 1, data adalah sangat pencong (tidak

59

normal). Indek skewness akan menjadi indikator pertama kepada kita untuk menjangkakan taburan data
kita normal atau tidak. Oleh kerana indek skewness kita +2.460 lebih besar dari +1, kita katakan taburan
data kita berlaku pencongan positif.

Julat Indek skewness Kepencongan
Kurang dari -1.0 atau lebih besar dari +1.0 Sangat pencong
-1 hingga -0.5 atau +0.5 hingga +1.0 Pencongan sederhana
-0.5 hingga +0.5 Menghampiri normal

sumber rujukan: http://brownmath.com/stat/shape.htm#SkewnessInterpret

Cara lain yang disyorkan oleh spss ialah membahagikan nilai skewness dengan std error.
Dalam kes kita, 2.46/0.081 = 30.37
Jika hasil bahagi tersebut kurang dari 2.5, kita boleh katakan bahawa taburan kita menghampiri normal.
Namun apa yang kita perolehi dari set data kita ialah 30.37 sangat jauh dari 2.5, ini menjadi pertunjuk
bahawa data kita tidak normal (berlaku pencongan).

2. Ujian Kenormalan
Dua ujian statistik kenormalan disediakan dalam program spss, iaitu Kolmogorov-Smirnov dan Shapiro-
Wilk.

Hipotesis untuk ujian kenomalan ialah;
Ho: Taburan adalah normal

dan H1: Taburan adalah tidak normal.
Nilai aras signifikan alpha yang kita gunakan ialah 0.05
Untuk mendapat keputusan statistik yang signifikan (menolak Ho) kita perlu mendapat nilai p<0.05
Keputusan menunjukan p <0.05, maka kita tolak hipotesis nol, jika kita tolak Ho, maka H1 akan
muncul. Kesimpulan dari ujian kenomalan Kolmogorov-Smirnov menunjukan bahawa data
pembolehubah tvhours adalah tidak normal. Untuk menyatakan data adalah normal dalam ujian ini, p
mesti p>0.05.

60

3. Pemerhatian menerusi Histogram
Menerusi paparan output dari histogram jelas menunjukan taburan data menunjukan berlaku
pencongan ke kanan.

4. Pemerhatian menerusi Q-Q Plot
Q-Q Plot atau kuantil-kuantil plot ialah teknik grafik untuk menentukan sama ada dua set data datang
daripada populasi dengan taburan yang sama. Dalam kes ini kita andaikan taburan populasi adalah
normal. Jika taburan data kita normal, semua titik-titik akan berada dekat atau bertindih dengan garis 45
darjah. Daripada pemerhatian kita jelas menunjukan terdapat banyak titik-titik yang menjauhi garis lurus
45 darjah tersebut, ini memberi petunjuk kepada kita bahawa taburan data kita adalah tidak normal.

61

5. Pemerhatian menerusi Boxplot

Output daripada boxplot merupakan satu kaedah pemerhatian untuk memperlihatkan kepada kita
bagaimana rupa serakan bagi sesuatu data yang bersifat skala. Kelebihan boxplot yang dikeluarkan oleh
program spss ini ialah ianya akan mengeluarkan kes-kes yang menjadi outlier (*) dan potensi menjadi
outlier(o). Kes yang bertanda * merupakan calon utama untuk disingkirkan, dan menjadi punca utama
data tidak menjadi normal. Bagi pendapat kami, kami rela membuang kes-kes yang bertanda (*) dan (o).

Kesan apabila kita membuang outlier.
Jika kita pasti bahawa punca data tidak normal adalah berpunca dari outlier, maka cara yang terbaik adalah
dengan melupuskan outlier dari data set kita.

Aktiviti 11a.

1. Dengan menggunakan ToolBar “Go to Case” cari kes-kes yang disenarai dalam boxplot
yang menjadi outlier. Padamkan Kes bernombor 712, 289,1174,1156, 661, 1309, 217,123,
1228, 719,109, dan 925 dari senarai data.

2. Keluarkan deskriptif statistik, histogram, q-q plot dan boxplot bagi data yang telah dibuang
outlier.

3. Lihat perbandingan antara data yang mempunyai outlier dengan data yang telah dibuang outlier
yang menjadi punca ketidaknormalan data.

62

Aktiviti
12

Pengenalan Kepada SPSS Syntax

SPSS syntax ialah sejenis bahasa arahan (command language) yang difahami oleh program SPSS. Syntax
merupakan arahan kepada SPSS untuk menganalisis, mengedit data, dan juga untuk menjalankan analisis
statistik pilihan, serta arahan-arahan lain dalam SPSS. Selalunya, pengguna SPSS biasa akan terus bekerja
dari menu di mana mereka tidak dapat melihat syntax yang sedang berjalan kerana mereka menggunakan
GUI (Graphic User Interface) pada SPSS. Sehingga kini kita telah menjalankan semua aktiviti analisis
mengunakan menu, klik sahaja (GUI). Sebelum kewujudan windows pada tahun 1990an, pengguna
bergantung harap kepada Syntax bagi menganalisis menggunakan program SPSS tetapi pengguna generasi
milinium semakin melupakan penggunaan Syntax.
Mengapa perlu menggunakan Syntax?

1. Untuk mengautomasikan seluruh proses analisis.
2. Mempercepatkan tugas operasi yang berulang.
3. Mengemaskini dengan melakukan perubahan/pembaikan kerja dengan lebih pantas.
4. Berkongsi penyediaan data dan analisis dengan orang lain
5. Menyediakan rekod atau audit kerja analisis data.
6. Kebaanyakan tugas dalam SPSS boleh diselesaikan menggunakan Syntax.
7. SPSS Syntax menggunakan bahasa mudah untuk difahami berbanding bahasa pengaturcaraan

data analisis yang lain seperti Python atau R.
Bagaimana untuk menjana SPSS Syntax
Sangat mudah—kebanyakan prosedur SPSS yang di akses melalui dialog box ada butang ‘Paste’

Apabila anda klik butang ‘Paste’ pada mana-mana prosedur kerja SPSS, arahan kerja itu akan terpapar
di syntax Editor Window. Anda tidak perlu menekan butang ‘OK’.

63

Command Descriptive
DESCRIPTIVES VARIABLES=age
/STATISTICS= MEAN STDDEV MIN MAX.

1. Semua prosedur syntax spss bermula dengan satu command: cth, Descriptive
2. Diikuti dengan katakunci opsyen: VARIABLE
3. Spesifikkan pembolehubah: age
4. Diikuti dengan tanda slash (/) dan katakunci: /STATISTICS
5. Pilihan analisis yang ingin dikeluarkan pada output: Mean, Sisihan Piawai, Minima, Maksima.

Perlu diakhiri dengan tanda noktah ( . ) sebagai pengakhiran command.
SPSS tidak akan melaksanakan command jika anda tertinggal tanda noktah pada akhir command.
Anda boleh menyimpan atau ‘Save’ syntax sebagai satu fail.

64

Untuk melaksanakan arahan syntax anda perlu highlight semua command line yang hendak
dilaksanakan dan seterusnya tekan butang ‘Play’ yang berwarna hijau.
Booom!! Anda Berjaya menjalankan satu analisis mudah menggunakan syntax.

65

Mengedit syntax.
Katakan anda ingin melakukan analisis deskriptif jumlah jam menonton tv dalam sehari (tvhours).
Apa yang perlu lakukan ialah ‘copy-paste’ command terdahulu dan tukar age kepada tvhours.

.

66

Untuk melaksanakan arahan statistik deskriptif bagi tvhours, highlight semua command tvhours dan
tekan butang ‘Play’.

Seperti biasa jangan lupa ‘Save’ setiap kali anda melakukan perubahan kepada fail asal. Perkara yang
paling malang ialah selesai menganalisis anda lupa untuk ‘save’ fail anda. Kini anda telah berjaya
menghasilkan satu fail syntax spss. Dengan membuka fail syntax anda tidak perlu pergi lagi ke menu
untuk mengulangi proses klik sana klik sini bagi mengeluarkan output. Anda hanya perlu buka fail
syntax dan highlight apa analisis yang anda mahu dari senarai command.
Aktiviti 12

1. Buka fail “data bengkel.sav”.
2. Buka satu fail syntax bernama “mysyntax.sps” dan keluarkan output analisis yang telah

dijalankan oleh penguna sebelum ini. Apakah analisis yang telah dia lakukan?

67


Click to View FlipBook Version