Wasidi-FKIP UNIB
ANALISIS BUTIR
1.1 Pendekatan Teori Tes Klasik
Analisis butir dilakukan untuk mengetahui kualitas butir masing-masing dalam
seperangkat instrumen. Analisis butir dilakukan setelah dilaksanakan uji-coba di lapangan.
Analisis butir ada dua pendekatan yaitu teori klasik atau classical test theory dan teori respon
butir (item response theory yang dibahas dalam bab terakhir dalam buku ini). Analisis butir teori
klasik menggunakan pendekatan tingkat kesulitan dan daya beda, sedangkan teori respon butir
menggunakan peluang kemampuan individu menjawab butir pertanyaan dengan tingkat kesulitan
tertentu. Perbedaan yang paling mudah kedua teori ini adalah pada penskoran akhir. Jika pada
CTT skor 1 1 0, dan 0 1 1 adalah 2. Pada IRT skor 1 1 0, dan 0 1 1 akan berbeda, hal ini karena
pada IRT skor akhir mempertimbangkan tingkat kesulitan masing-masing butir.
Dalam teori klasik, sebuah butir jika diberikan kepada siswa dengan kemampuan
abilitas tinggi, maka butir tersebut menjadi mudah, namun jika butir tersebut diberikan kepada
siswa dengan kemampuan rendah, maka butir tersebut menjadi sulit. Dengan demikian tingkat
kesulitan butir tergantung pada kemampuan pengambil tes atau testee, sehingga tingkat kesulitan
butir akan berubah-ubah tergantung pada kemampuan testi setempat.
Kesalahan atau ketidak-tepatan pengambilan sampel oleh pengembang instrumen akan
memberikan informasi yang kurang optimal. Jika sampel ujicoba berbeda dengan populasinya,
akan terjadi perubahan karakteristik yang berarti jika diterapkan kepada populasinya. Rata-rata
sampel dikenakan kepada semua subjek ukur, sehingga tidak diketahui karakteristik bagian-
bagian sampel tersebut.
Pemilihan butir instrumen khususnya tes dalam prosedur pengembangannya
didasarkan pada nilai kesukaran butir, dan korelasi antara skor butir dengan skor total atau
disingkat korelasi butir-total. Butir instrumen yang memiliki korelasi butir -total tinggi dipakai
sebagai petunjuk bahwa intrumen tersebut mempunyai konsistensi internal tinggi, sehingga akan
memperkecil sumbangan error skor-skor tes secara acak. Distribusi skor-skor dari ujicoba
lapangan dibandingkan dengan distribusi normal teoritik. Sejumlah butir mungkin perlu diganti
untuk memperoleh distribusi skor total ujicoba identik dengan distribusi skor total teoritik.
Format-format paralel pada umumnya diciptakan untuk memperoleh distribusi-distribusi skor tes
yang identik. Kesamaan dari nilai rata-rata, varians, dan error skor ditafsirkan sebagai bukti
bahwa format tes-tes bersifat paralel (Stark, 2001).
1.2 Tingkat Kesulitan
Allen & Yen (1979) menyatakan bahwa indeks kesulitan suatu butir sebaiknya
mempunyai nilai antara 0,3 – 0,7. Pada rentang nilai ini, informasi tentang kemampuan siswa
akan diperoleh secara optimal. Butir yang terlalu mudah TK < 0, atau terlalu sulit TK>0,7, maka
tidak diperoleh informasi yang lengkap tentang kemampuan siswa. Misalnya secara ekstrim butir
dijawab benar atau salah oleh semua siswa, maka tidak terlihat adanya varian jawaban, atau
varian sama dengan nol. Varian sama dengan nol kita tidak memperoleh informasi yang baik
untuk butir itu. Dalam merancang indeks kesukaran suatu perangkat tes, perlu dipertimbangkan
tujuan penyusunan perangkat tes tersebut.
Untuk memperoleh seperangkat instrumen yang baik secara empirik, tingkat kesulitan
semua butir instrumen harus seimbang (butir yang sangat mudah sama dengan butir yang sangat
sulit, sedangkan butir yang sedang sama dengan dua kali butir yang sangat mudah atau sulit).
Tingkat kesulitan yang seimbang ini akan diperoleh koefisien reliabilitas yang relatif mendekati
persyaratan minimal 0,7.
Wasidi-FKIP UNIB
Tingkat kesulitan pada item soal materi pelajaran tidaklah sulit untuk dipahami.
Pertanyaan muncul, apakah ada item angket mempunyai tingkat kesulitan? Banyak individu
menanyakan hal ini, bagaimana mungkin item angket mempunyai tingkat kesulitan? Diberikan
contoh untuk menjelaskan tingkat kesulitan angket. Item pertanyaan berbentuk berikut ini.
Perkawinan sejenis SS S N KS SKS
SS : sangat setuju
S : setuju
N : netral
KS : kurang setuju
SKS : sangat kurang setuju
Sebagai seorang yang beragama akan sangat sulit untuk menyetujui perkawinan sejenis.
Karena perkawinan sejenis dilarang dalam agama. Artinya item tersebut mempunyai tingkat
kesulitan yang tinggi.
Suatu butir dikatakan baik jika mempunyai daya beda lebih besar atau sama dengan 0,3.
Daya beda kurang dari 0,2 dianggap terlalu lemah, sehingga tidak layak digunakan. Indeks daya
pembeda suatu butir yang kecil nilainya akan menyebabkan butir tersebut tidak dapat
membedakan siswa yang kemampuannya tinggi dan siswa yang kemampuannya rendah.
Nilai daya beda akan bergerak dari -1 sampai dengan +1. Nilai daya beda harus positif,
hal ini menunjukkan bahwa rata-rata skor kelompok atas lebih besar dari rata-rata skor
kelompok bawah. Jika nilai daya beda negatif menunjukkan rata-rata skor kelompok atas lebih
kecil daripada rata-rata skor kelompok bawah. Jika nilai daya beda negatif, maka hal itu
menunjukkan bahwa keterbalikan, sehingga butir dengan daya beda negatif, berapapun besarnya
maka butir itu harus diganti atau dibuang. Pada analisis tes dengan Content-Referenced
Measures, indeks daya pembeda butir tidak terlalu perlu menjadi perhatian, asalkan tidak negatif
(Ebel & Frisbie, 2005). Jika nilainya kecil, menunjukkan bahwa kemencengan distribusi skor
dari populasi, yang juga mengakibatkan validitas tes menjadi rendah.
Analisis butir teori klasik digunakan rumus tingkat kesulitan dan daya beda.
1.2.1 Tes Objektif (skor dikotomi)
∑
TK : tingkat kesukaran/kesulitan
∑B : jumlah jawaban benar pada butir yang bersangkutan
N : jumlah peserta tes/ujian
Perhitungan Tingkat Kesulitan
Wasidi-FKIP UNIB
Nomor Butir nomor
siswa 1 2 3 4 5 6 7
11111111
21111111
31111111
41111111
51111110
6 1111100
7 1111000
8 1110000
9 1100000
10 1000000
∑B 10 9 8 7 6 5 4
TK 1 0,9 0,8 0,7 0,6 0,5 0,4
1.2.2 Tes Uraian (skor kontinyu)
Wasidi (2009) mengemukakan untuk menghitung tingkat kesulitan skor kontinyu
menggunakan rumus berikut ini.
∑ ∑( )
()
∑
∑
()
()
Butir Nomor
No siswa 1 2 3 4 5 6 7 Total
1 5 5 4 4 55 5 33
2 4 5 4 4 55 5 32
3 4 5 4 4 55 5 32
4 5 4 4 4 55 5 32
5 5 4 4 4 55 5 32
6 4 4 3 4 55 4 29
Wasidi-FKIP UNIB
7 44345 54 29
8 44345 54 29
9 44345 54 29
10 4 4 3 4 4 54 28
∑A= 23 23 20 20 25
∑B= 20 20 15 20 24 25 25 N=10
∑A +∑B= 43 43 35 40 49 25 20 Skormin= 1
TK= 0,83 0,83 0,63 0,75 0,98 50 45 Skormaks= 5
1 0,88
Kriteria baik tidaknya butir didasarkan pada interval berikut
Tabel 5. Kriteria Tingkat Kesulitan
No Tingkat kesulitan Keterangan
sulit
1 0,00 – 0,33 sedang
2 0,34 – 0,66 mudah
3 0,67 – 1
Pemilihan butir soal yang digunakan perlu dipertimbangkan penggunaan dan tujuan
pengukuran. Untuk tes seleksi maka butir soal banyak yang sulit, untuk tes penempatan dan
hasil belajar digunakan berimbang ada yang sulit, sedang dan mudah, di mana jumlah yang
sedang sama dengan dua kali yang mudah atau sulit. Dengan jumlah perbadingan tingkat
kesulitan itu diharapkan diperoleh hasil tes yang mendekati normal.
1.3 Daya Beda
Daya butir soal merupakan indek pembeda antara kelompok atas dan kelompok bawah
atau perbedaan kelompok skor tinggi dan kelompok skor rendah. Pada jumlah sampel yang
banyak kelompok atas dan kelompok diambil 27% dari jumlah sampel, sehingga jumlah kedua
kelompok tersebut 54%. Untuk menentukan kelompok atas atau bawah, skor total diurutkan dari
terbesar sampai terkecil. Jika persyaratan 27% kelempok bawah atau atas tidak terpenuhi, maka
sampel dipilah menjadi dua kelompok yang sama jumlahnya, atau dengan batas nilai tengah
(median).
1.3.1 Tes Objektif (skor dikotomi)
∑∑
TK = tingkat kesulitan butir butir
DB = daya beda butir butir
∑ = jumlah jawaban benar kelompok atas
∑ = jumlah jawaban benar kelompok bawah
N = jumlah peserta ujian
Untuk skor dikotomi, selain rumus daya beda tersebut di atas, daya beda dapat dihitung
dengan korelasi point-biserial (Michael, Norman & Guilford, 1952; Alen & Yen, 1979; Crocker
& Algina, 2008) berikut ini.
Wasidi-FKIP UNIB ̅̅
√
Dimana :
̅
̅
Wasidi-FKIP UNIB
No Butir nomor Jumlah
siswa 1234567
11111111 7
21111111 7
31111111 7 Kel Atas
41111111 7
51111110 6
6 11111 00 5
11110 00
7 11100 00 4 Kel
11000 00 3 Bawah
8 10000 00
55555 54 2
9 54321 00
0 0,2 0,4 0,6 0,8 1 0,8 1
10
∑BA
∑BB
Karena total masih ada bagian butir yang bersangkutan, maka perlu dibersihkan pengaruh
butir tersebut. Hal ini dilakukan untuk menghindari korelasi item dengan total yang over
estimate.
B7 Total Total-B7
17 6
17 6
17 6
17 6
06 6
05 5
04 4
03 3
02 2
01 1
4- 45
Contoh butir nomor 7
̅
̅
Wasidi-FKIP UNIB
√
1.3.2 Tes Uraian (skor kontinyu)
Wasidi (2009) mengemukakan untuk menghitung daya beda skor kontinyu atau non
dikotomi menggunakan rumus berikut ini.
(∑ ∑ )
()
Dimana : : jumlah skor kelompok atas
∑A : jumlah skor kelompok bawah
∑B
N : jumlah peserta tes
Skormaks : skor tertinggi ideal
Skormin : skor terendah ideal
Untuk menggunakan rumus tersebut, hasil ujicoba setiap peserta disajikan secara lengkap
skor setiap butir. Setiap peserta tes dijumlahkan skor totalnya. Berdasarkan skor total diurutkan
menurut totalnya. Sebagai contoh disajikan berikut ini.
Contoh perhitungan butir nomor 1
()
()
Wasidi-FKIP UNIB
No Butir nomor
siswa 1 2 3 4 5 6 7 Total
1 5 5 4 4 5 5 5 33
2 4 5 4 4 5 5 5 32
3 4 5 4 4 5 5 5 32
4 5 4 4 4 5 5 5 32
5 5 4 4 4 5 5 5 32
6 443 45 54 29
45 54 29
7 443 45 54 29
45 54 29
8 443 44 54 28
20 25 25 25 N=10
9 443 20 24 25 20 Skormin= 1
0 0,05 0 0,25 Skormaks= 5
10 4 4 3
∑BA 23 23 20
∑BB 20 20 15
DB= 0,15 0,15 0,25
Selain rumus daya beda tersebut di atas, nilai daya beda skor kontinyu dapat dihitung
dengan korelasi bagian total (Crocker & Algina, 2008; Alen & Yen, 1979), dengan rumus
produk momen. Daya beda dapat dihitung dengan korelasi karena korelasi dapat dikonversi ke
rumus t-test (Bruning & Kintz, 1977). Contoh butir nomor 7.
No B7 Total Y=Tot-B7 Y2 B7Y
1 5 33 28 25 784 140
2 5 32 27 25 729 135
3 5 32 27 25 729 135
4 5 32 27 25 729 135
5 5 32 27 25 729 135
6 4 29 25 16 625 100
7 4 29 25 16 625 100
8 4 29 25 16 625 100
9 4 29 25 16 625 100
10 4 28 24 16 576 96
Jumlah 45 260 205 6776 1176
Y sama dengan total dikurangi dengan B7 karena T masih ada skor B7. Korelasi antara
B7 dengan Y merupakan korelasi yang bebas dari skor B7 yang bersangkutan.
√* ∑ ∑ ∑∑ (∑ ) +
(∑ ) +* ∑
√( )( )
Wasidi-FKIP UNIB
Kriteria baik tidaknya butir didasarkan pada interval berikut (Crocker & Algina, 2008;
Ebel, 1991)
Tabel 6. Kriteria Daya Beda Keterangan
Buruk sekali - dihapus
No Daya beda direvisi
1 ≤ 0,19 Revisi kecil
2 0,20 – 0,29 Bagus tanpa revisi
3 0,30 – 0,39
4 ≥ 0,40