The words you are searching are inside this book. To get more targeted content, please make full-text search by clicking here.
Discover the best professional documents and content resources in AnyFlip Document Base.
Search
Published by cidicindiawati, 2022-03-10 00:12:23

Analisis Butir Soal Kelompok 2

Analisis Butir Soal Kelompok 2

Cidi Cindiawati
Gesti Marsaulina P

Neni Widias Tika

PENTING

Analisis Butir Soal ?

Syarat Uji Utama
Karakteristik Butir

KATA PENGANTAR

Kebahagiaan yang patut disyukuri bahwa pada mata kuliah evaluasi dalam
pembelajaran matematika di Pascasarjana Universitas Negeri Jakarta kami
berkesempatan untuk ikut berkontribusi dalam memperhatikan hal-hal yang penting
dalam evaluasi pembelajaran. Kami sajikan melalui sebuah karya penulisan e-book ini
tentang analisis butir soal (syarat utama dan karakteristik) dari instrumen tes. E-book ini
disusun berdasarkan kajian literatur dan diskusi bersama tim kelompok. Karya penulisan
ini dapat diimplementasikan bagi peneliti, dosen, atau guru yang sedang melakukan
penelitian atau evaluasi dari sebuah pembelajaran.

Kami berterima kasih kepada Dosen pengampu mata kuliah evaluasi yaitu Prof. Dr.
Pinta Deniyanti Sampoerno, M.Si dan Dr. Ellis Salsabila, M.Si yang telah memberikan
kesempatan kepada kami. Kami juga membuka pintu yang seluas-luasnya untuk para
ilmuwan dan pengguna e-book ini dalam menelaah dan memberikan masukan guna
melengkapi materi dari analisis butir soal. Semoga e-book ini dapat bermanfaat bagi kita
semua, khususnya bagi rekan-rekan sejawat di Pendidikan Matematika Pascasarjana
Universitas Negeri Jakarta angkatan 2021.

Jakarta, Maret 2021





Penulis

DAFTAR ISI

PENGESAHAN

BAB 1

SYARAT UTAMA

PENDAHULUAN

Akhir dari pembelajaran tentunya ada proses evaluasi, dimana proses ini dapat
dilakukan dengan cara formatif ataupun sumatif. Namun, pada umumnya sampai saat
ini sebagai seorang guru evaluasi pembelajaran masih menerapkan yang namanya
ulangan harian untuk menguji kemampuan peserta didik dalam melihat capaian
pembelajaran. Ulangan harian dapat berupa tes lisan atau tes tertulis. Baik hasilnya
menjadi pertimbangan guru untuk memberikan hasil evaluasi kepada peserta didik.

Pada dasarnya tes yang diberikan oleh guru sering kali hanya melibatkan beberapa
tahapan sebelum diujikan kepada peserta didik. Hal ini dikarenakan keterbatasan waktu
dan kurangnya kemampuan guru dalam menganalisis tes yang akan diujikan, khususnya
tes tertulis.

Tes tertulis dibagi menjadi dua, yaitu tes uraian atau essai dan tes objektif (peserta
didik dapat memilih salah satu atau lebih jawaban dari beberapa kemungkinan jawaban
yang tersedia). Tes objektif dapat berupa pilihan ganda, pilihan ganda majemuk (memilih
lebih dari satu jawaban tepat, menjodohkan, ataupun pernyataan benar-salah.
Sebagai seorang guru ada baiknya melakukan evaluasi secara menyeluruh. Salah
satunya yaitu dengan mengevaluasi tes tertulis. Hal ini disebut dengan evaluasi
instrumen penilaian. Dalam instrumen penilaian terdapat butir-butir soal yang akan
dijadikan tes.

Instrumen penilaian yang baik yaitu instrumen yang memiliki tingkat kevalidan dan
reliabilitas yang tinggi. Validitas yang tinggi menunjukkan keberhasilan dalam mengukur
apa yang akan diukur. Sedangkan, reliabilitas yang tinggi akan menunjukkan dan

memberikan kekonsistenan dalam mengukur apa yang akan diukur dari waktu ke
waktu. Karena hal itu dalam mengevaluasi suatu instrumen diperlukan pengujian
validitas dan reliabilitas sebagai syarat utama kelayakan dari suatu instrumen.

1. VALIDITAS

Kata validitas berasal dari kata validity yang berarti sejauh mana ketepatan dan
kecermatan suatu alat ukur dalam melakukan fungsi ukurannya. Sugiyono (2005),
validitas berkenaan dengan ketepatan alat penilaian terhadap konsep yang dinilai
sehingga betul-betul menilai apa yang seharusnya dinilai. Hasil penelitian akan dikatakan
valid bila terdapat kesamaan antara data yang terkumpul dengan data yang
sesungguhnya terjadi pada objek yang diteliti. Arikunto (2010), validitas adalah suatu
ukuran yang menunjukkan tingkat-tingkat kevalidan atau kesahihan suatu instrumen.
Instrumen penelitian dapat dikatakan valid, apabila alat tersebut cocok untuk mengukur
apa yang hendak diukur.

Instrumen tes yang disiapkan untuk sebuah penelitian perlu divalidasi sebelum
digunakan. Dalam pengujian validitas pada sebuah instrumen terdiri dari dua jenis, yaitu
validitas internal (rasional) dan validitas eksternal. Validitas internal instrumen yang
berupa tes harus memenuhi validitas konstruk dan validitas isi, sedangkan untuk
instrumen yang non-tes cukup memenuhi validitas konstruk.

The American Education Research Association (AERA), membedakan validitas menjadi
tiga jenis, yaitu validitas isi (content validity), validitas yang dikaitkan dengan kriteria
(criterion related validity), dan validitas konstruk (construct validity).

Gambar 1.1

A. Validitas Isi (Content Validity)

Validitas isi (content validity) menunjuk kepada sejauh mana tes tersebut
mencerminkan isi materi yang akan diukurnya. Validitas isi suatu instrumen merupakan
sejauh mana butir-butir dalam instrumen itu mewakili komponen-komponen dalam
keseluruhan kawasan isi objek yang hendak diukur dan sejauh mana butir-butir itu
mencerminkan ciri perilaku yang hendak diukur (Nunnally, 1978; Fernandes, 1984).

Validitas isi dilakukan untuk memastikan bahwa pengukuran menggunakan
sekumpulan item yang memadai dan mewakili konsep. Semakin item skala
mencerminkan kawasan atau keseluruh konsep yang diukur, semakin besar validitas isi.
Atau bisa dikatakan, validitas isi merupakan fungsi seberapa baik dimensi dan elemen
sebuah konsep yang telah digambarkan (Sekaran, 2006). Beberapa istlilah lain dari
validitas isi antara lain: content related validity, intrinsic validity, relevance validity,
representative validity dan logical atau sampling validity.

Pengujian validitas isi dari suatu istrumen dilakukan dengan pengujian terhadap
kelayakan atau relevansi isi tes melalui analisis rasional oleh panel yang berkompeten
atau melalui expert judgement (penilaian ahli). Secara teknis pengujian validitas isi
dilakukan oleh para ahli dengan menelaah kisi-kisi instrumen. Penelaahan kisi-kisi
instrumen oleh ahli (pakar) bertujuan untuk mengetahui apakah instrumen sudah
mencakup semua pokok bahasan yang hendak diukur kemudian menyatakan
pemeriksaan validitas melalui kategori cocok/tidak cocok.

Langkah-langkah untuk membuktikan validitas isi yaitu (Retnowati, 2015):
1). Memberikan kisi-kisi dan butir instrumen, berikut rubrik penskorannya jika ada
kepada beberapa ahli yang sesuai dengan bidang yang diteliti untuk mohon masukan.
Banyaknya ahli yang dimohon untuk memberi masukan paling tidak 3 orang ahli dengan
kepakaran yang relevan dengan bidang yang diteliti.

2). Masukan yang diharapakan dari ahli berupa kesesuaian komponen instrumen dengan
indikator, indikator dengan butir, benarnya substansi butir, kejelasan kalimat dalam
butir, jika merupakan tes, maka pertanyaan harus ada jawabannya/kuncinya, kalimat-
kalimat tidak membingungkan, format tulisan, simbol, dan gambar yang cukup jelas.
Proses ini sering disebut telaah kualitatif yang meliputi aspek substansi, bahasa, dan
budaya.

SYARAT UTAMA

3). Berdasarkan masukan ahli tersebut, kisi-kisi dan atau instrumen kemudian
diperbaiki.

4). Meminta ahli untuk menilai validitas butir, berupa kesesuaian antara butir dengan
indikator. Penilaian ini dapat dilakukan misalnya dengan skala Likert (Skor1: Tidak Valid,
Skor 2= kurang valid, Skor 3= cukup valid, skor 4= valid, skor 5 = sangat valid). Dapat pula
penskoran dengan melihat relevansi butir dengan indikator (Skor1: Tidak Relevan, Skor
2= kurang relevan, Skor 3= cukup relevan, skor 4= relevan, skor 5 = sangat relevan).

5). Menghitung indeks kesepakatan ahli (rater agreement) dengan indeks Aiken V atau
indeks Gregory, yang merupakan indeks untuk menunjukkan kesepakatan hasil
penilaian para ahli tentang validitas, baik untuk butir maupun untuk perangkatnya.

Validitas isi dirumuskan oleh Aiken (1985) didasarkan pada hasil penilaian dari para
ahli sebanyak n orang terhadap suatu item dari segi sejauh mana item tersebut mewakili
konstruk yang diukur, dirumuskan sebagai berikut:

Validitas per butir
Keterangan:
s : r – lo
lo : angka penilaian validitas yang terendah
c : angka penilaian validitas tertinggi
r : angka yang diberikan oleh penilai (ahli)
n : banyak panelis (ahli)
m : banyak butir soal

Kriteria yang digunakan untuk menginterpretasikan validitas Aiken disajikan pada
tabel berikut:

Tabel 1.1 Interpretasi Validitas Aiken

Pada bab ini disajikan contoh kasus, yaitu membuktikan validitas isi instrumen
penelitian yang berupa tes. Berikut adalah rekap hasil penilaian oleh 3 orang ahli (rater)
pada instrumen tes berjumlah 9 butir soal:

SYARAT UTAMA

Tabel 1.2 Rekap Penilaian Para Ahli

Penilaian para ahli dihitung dengan menggunakan formula Aiken’s V, selanjutnya
dihitung V untuk masing-masing butir. Hasil perhitungan disajikan pada Tabel 1.3.

Tabel 1.3 Hasil Perhitungan dengan Validitas Aiken

Hasil perhitungan tersebut selanjutnya diinterpretasikan dengan kriteria validitas
Aiken sebagai berikut:

Tabel 1.4 Interpretasi Indeks Validitas Aiken Para Ahli

SYARAT UTAMA

Tabel tersebut menunjukkan bahwa perhitungan pada butir soal nomor 3, 4, 8, 9
memiliki validitas instrumen yang sangat tinggi, butir soal nomor 1, 2, 6, dan 7 memiliki
validitas instrumen yang tinggi. Sedangkan, butir soal nomor 5 memiliki validitas
instrumen yang cukup. Dari hasil ini berarti butir soal tersebut dapat digunakan untuk
penelitian selanjutnya.

B. Validitas Berdasarkan Kriteria

Validitas berdasarkan kriteria (criterion related validity) merupakan sebuah ukuran
validitas yang ditentukan dengan cara membandingkan skor-skor tes dengan kinerja
tertentu pada sebuah ukuran luar yang memiliki hubungan teoritis dengan variabel yang
diukur oleh tes tersebut. Validitas dengan cara ini, diperlukan skor hasil pengukuran
menggunakan instrumen lain yang lebih berstandar.

Validitas berdasarkan kriteria terpenuhi jika pengukuran membedakan individu
menurut suatu kriteria yang diharapkan dan diprediksi dengan menghasilkan validitas
prediktif (predictive validity) dan validitas konkuren (concurrent validity). Fernandes (1984)
mengatakan bahwa validitas berdasarkan kriteria dimaksudkan untuk menjawab
pertanyaan sejauh mana tes memprediksi kemampuan peserta di masa mendatang
(predictive validity) atau mengestimasi kemampuan dengan alat ukur lain dengan
tenggang waktu yang hampir bersamaan (concurrent validity).

Adapun perbedaan antara concurrent validity dengan predictive validity terdapat di
waktu pengujian, dimana concurrent validity diambil dalam waktu yang sama (atau kurang
lebih sama). Instrumen memiliki validitas konkuren apabila data yang dihasilkan dari
instrumen tersebut sesuai dengan kriteria lain yang ada diluar instrumen penelitian yang
sudah tersedia dari masa lalu. Sedangkan predictive validity dilakukan beberapa saat
(dalam periode waktu tertentu) setelah terlebih dahulu dahulu skor hasil tes diperoleh,
(Hendriyadi, 2017). Contoh: seorang siswa lulus SMA, kemudian mengikuti tes di sebuah
perguruan tinggi. Siswa yang memiliki nilai yang bagus pada seleksi tersebut lalu diterima
di perguruan tinggi, diperkirakan akan berhasil ketika ia belajar di perguruan tinggi.
Apabila hal itu terjadi, maka tes masuk perguruan tinggi tersebut dikatakan memiliki
validitas prediksi bagus. Sebaliknya, apabila hasil di perguruan tinggi kurang baik, maka
tes seleksi dimaksud tidak memiliki validitas yang bagus.

Rumus untuk menenukan validitas konkuren dapat menggunakan korelasi Product
Moment dengan simpangan, yaitu:

SYARAT UTAMA

Hasil koefisien korelasi product moment dibandingkan dengan r tabel Product
Moment, dengan ketentuan:
Jika r hitung > r tabel maka, instrumen butir soal dikatakan valid,
Jika r hitung < r tabel maka, instrumen butir soal dikatakan tidak valid.

Pada bab ini disajikan contoh kasus menghitung validitas konkuren (concurrent
validity). Berikut data jawaban siswa atas 10 soal tes esai pada Ujian Akhir Semester (UAS)
dan data empat hasil ulangan harian siswa sebelum UAS.

Tabel 1.5 HASIL JAWABAN SISWA Tabel 1.6 DAFTAR NILAI ULANGAN
PADA UAS MATEMATIKA HARIAN MATEMATIKA



Akan dicari validitas konkuren soal yang dibuat oleh guru tersebut menggunakan
validitas eksternal. Validitas eksternal yang akan dilakukan adalah membandingkan
jawaban siswa pada soal UAS dengan nilai ulangan harian sebelumnya yang sudah
dilakukan oleh siswa. Maka kita akan menggunakan korelasi product moment dengan
simpangan. Dalam hal ini kita akan menggunakan tabel penolong dalam melakukan
perhitungan. Pertama-tama kita tentukan yang menjadi variabel X adalah jawaban siswa
pada soal UAS dan variabel Y adalah nilai ulangan harian matematika siswa. Maka akan
terlihat seperti tabel 1.7 dan tabel 1.8 berikut:

SYARAT UTAMA

Tabel 1.7 Hasil Jawaban UAS Matematika Siswa

Keterangan: X merupakan jawaban UAS matematika siswa
Tabel 1.8 Daftar Nilai Ulangan Harian Matematika

Keterangan: Y merupakan daftar nilai ulangan harian matematika siswa
Setelah menemukan mean dari variabel X dan Y, selanjutnya akan dioperasikan
pada rumus korelasi product momen pada tabel 1.9 berikut:

SYARAT UTAMA

Tabel 1.9 Perhitungan Product Moment

r xy = 0,995801

Berdasarkan perhitungan didapat r hitung 0,995801 dan r tabel 0,456 dengan taraf
signifikan 5% dan n = 19. Sehingga r hitung > r tabel, dapat disimpulkan bahwa soal UAS
yang dibuat oleh guru tersebut valid.

C. Validitas Konstruk (Construct Validity)

Validitas konstruk disebut sebagai validitas konsep. Validitas konstruk merupakan
salah satu validitas untuk mengukur instrumen yang berupa tes. Sebuah tes dikatakan
memiliki validitas konstruk apabila butir-butir soal yang membangun tes tersebut
mengukur setiap aspek berpikir seperti standar kompetensi, kompetensi dasar, serta
indikator yang terdapat dalam kurikulum. Dalam validitas konstruk suatu alat ukur
(dikatakan valid apabila telah cocok dengan kontruksi teoritik di mana tes itu dibuat. \

Validitas konstruk dilakukan melalui proses penelaah oleh para ahli. Jumlah tenaga
ahli yang digunakan minimal tiga orang dan umumnya telah bergelar doktor sesuai
dengan lingkup yang diteliti, (Sugiyono, 2015). Tolok ukur untuk menilai validitas
konstruk ini adalah konsep/ konstruk teori yang melatar-belakangi penyusunan tes/
instrumen yang bersangkutan. Konstuksi yang dimaksud pada validitas ini bukanlah
merupakan konstruksi seperti bangunan atau susunan, tetapi berupa rekaan psikologis
yang berkaitan dengan aspek-aspek ingatan, pemahaman, aplikasi, analisis, sintesis, dan
evaluasi.

Validitas konstruk dapat dilakukan dengan dua cara. Kedua cara tersebut yakni
analisis faktor eksploratori (AFE) dan analisis faktor konfirmatori (AFK). Pada bab ini akan
disajikan contoh melakukan analisis faktor eksploratori dan analisis faktor konfirmatori.

SYARAT UTAMA

Berikut merupakan contoh format analisis konstruksi soal pilihan ganda yang akan
diuji oleh para ahli.

Tabel 1.10 Format Analisis Konstruksi Soal Pilihan Ganda Oleh Para Ahli

SYARAT UTAMA

2. RELIABILITAS

A. Pengertian Reliabilitas

Reliabilitas berasal dari Bahasa Inggris yaitu reliable yang berarti dapat dipercaya.
Reliabilitas adalah suatu keajegan atau konsistensi instrumen apabila di berikan kepada
peserta didik yang berbeda, waktu yang berbeda, atau tempat yang berbeda akan
memberikan hasil yang sama. Menurut Djaali (2005), suatu hasil pengukuran dapat
dipercaya apabila dalam beberapa kali pelaksanaan pengukuran kepada suatu kelompok
subyek yang sama, diperoleh hasil pengukuran yang relatif sama selama aspek yang
diukur dalam diri subyek memang belum berubah.
Hasil yang ditunjukkan dari perhitungan reliabilitas akan berpengaruh pada kriteria yang
keajegan suatu butir soal. Semakin besar skor realibiltas suatu instrumen, maka akan
semakin kecil kesalahan pengukuran, demikian pula sebaliknya, semakin kecil skor
relibilitas maka akan semakin besar kesalahan pengukuran.

Kesalahan pengukuran memiliki beberapa faktor diantaranya dengan melihat
karakteristik instrumen yang digunakan, misalnya penyusunan dan pelaksanaan
pengukuran yang tidak mengikuti aturan baku, kualitas butir dalam instrumen tidak baik,
adanya kerjasama selama melaksanakan tes atau mengisi instrument, butir-butir
instrumen yang meragukan, keadaan peserta didik yang sedang lelah baik fisik atau
psikis, motivasi peserta didik dalam belajar kurang, lingkungan pada saat
penyelenggaraan tes kurang mendukung atau bisa saja kombinasi dari segala
permasalahan tersebut.

B. Jenis-Jenis Metode Perhitungan Reliabilitas

Proses perhitungan reliabilitas disebut sebagai estimasi. Estimasi reliabilitas dapat
dilakukan dengan beberapa cara, yaitu: secara eksternal dan reabilitas internal. Adapun
jenis-jenis perhitungan reliabilitas dapat menggunakan metode sebagai berikut:

1). Reliabilitas Eksternal

Reliabilitas eksternal terdiri dari metode tes ulang (Test-Retest- Method) dan

metode bentuk paralel (equivalent). Berikut dibawah ini akan di jelaskan jenis-jenis

dari reliabilitas eksternal.

a) Metode Tes Ulang (Test-Retest-Method)

Pada suatu instrumen tes perlu dilakukan dua kali pengukuran guna

mengetahui keajegan suatu butir soal. Pengukuran dapat dilakukan oleh peserta

didik yang sama atau berbeda. Namun, perlu dipastikan bahwa pada proses

pengukuran kedua benar-benar berada pada kondisi yang sama dengan

pengukuran pertama. Selanjutnya pengukuran pertama dan kedua dikorelasikan,

apabila koefisien korelasi menunjukkan hasil positif dan signifikan, maka

instrumen tersebut dinyatakan reliable. Pengujian ini disebut dengan stanbility.

Test retest method memiliki kelemahan yaitu adanya carry over effect. Efek ini

terjadi ketika tes pertama mempengaruhi tes kedua. Salah satu jenis yang

ditimbulkan dari efek ini adalah adanya efek latihan. Pada saat tes yang kedua

diikuti oleh peserta didik, akan sangat memiliki kemungkinan memperoleh hasil

yang lebih bagus karena kemampuan yang dimiliki peserta didik telah bertambah

saat mengikuti tes pertama. Hal ini diperlukan jeda atau batas antara kedua tes

agar dapat dievaluasi dengan baik.

SYARAT UTAMA

Metode tes ulang dapat dilakukan dengan menghitung Koefiensi Pearson
Product Moment antara skor pada pengukuran pertama (X) dengan skor hasil
pengukuran kedua (Y):

b) Metode Bentuk Pararel (Equivalent)
Pada metode ini diperlukan dua instrumen yang dikatakan paralel untuk
mengestimasi koefisien reliabilitas. Dua buah tes dikatakan paralel jika dua buah
instrumen yang mempunyai kesamaan tujuan dalam pengukuran, tingkat
kesukaran dan susunan juga sama. Namun butir-butir soalnya berbeda, atau
dikenal dengan istilah alternate forms method atau parallel forms. Sehingga
pengujian dengan metode ini dilakukan sekali, tetapi instrumennya dua, pada
responden yang sama, waktu sama tetapi dengan instrumen berbeda.
Dua buah instrumen paralel yaitu instrumen paket A yang akan diestimasi
reliabilitasnya dan instrumen paket B merupakan instrumen yang paralel dengan
paket A, keduanya diberikan kepada sekelompok responden yang sama,
kemudian kedua skornya di korelasikan. Apabila korelasi positif dan signifikan,
maka instrumen dapat dinyatakan reliable.
Ada beberapa kelemahan dari metode ini yaitu diperlukannya dua buah
instrumen dan masing-masing diberikan kepada sekelompok responden yang
sama. Sehingga harus mengembangkan 2 instrumen sekaligus menguji cobakkan
kedua instrumen. Estimasi reliabilitas dengan cara ini merupakan pekerjaan yang
cukup berat. Adapun langkah-langkah reliabilitas dengan menggunakan metode
bentuk paralel sebagai berikut:
i) Menyiapkan dua instrumen yang paralel,
ii) Menentukan subjek untuk menguji cobakan instrumen,
iii) Melaksanakan pengukuran dengan mengadministrasikan instrumen
tersebut,
iv) Melakukan penyekoran pada setiap jawaban responden terhadap kedua
perangkat tersebut,
v) Menghitung koefisien korelasi dari skor kedua instrumen tersebut.

Pengujian koefisien korelasi dan signifikannya dilakukan seperti pada uji test-
retest menggunakan rumus korelasi Product Moment. Reliabilitas yang baik apabila
hasil dari perhitungan menunjukkan bahwa koefisien korelasi memiliki skor tinggi
dari jawaban peserta didik. Sebaliknya, apabila reliabilitas kurang baik apabila
hasil perhitungan menunjukkan koefisien korelasi memiliki skor rendah dari
jawaban peserta didik.

SYARAT UTAMA

Berikut contoh perhitungan korelasi reliabililitas eksternal dengan berbantuan
Ms. Excel. Dengan metode ini diperlukan dua perangkat tes yang setara baik dari
segi tujuan, tingkat kesukaran, bentuk pertanyaan, yang berbeda hanya bilangan.
Contoh:

Tes hasil belajar matematika dibuat dua seri, seri I dan seri II masing-masing
berjumlah 30 butir soal. Tes diikuti oleh 10 orang siswa SMA kelas XI. Hasil tes seri I
(diberi nama X) dan tes seri II (diberi nama Y)

Akan dicari reliabilitas soal yang dibuat oleh guru tersebut menggunakan
reliabilitas eksternal. Reliabilitas eksternal yang akan dilakukan adalah
membandingkan jawaban siswa pada seri I dan seri II yang sudah dilakukan oleh
siswa. Maka kita akan menggunakan Koefiensi Pearson Product Moment antara
skor pada pengukuran pertama (X) dengan skor hasil pengukuran kedua (Y). Dalam
hal ini kita akan menggunakan tabel penolong dalam melakukan perhitungan.
Pertama-tama kita tentukan yang menjadi variabel X adalah seri I dan variabel Y
adalah seri II. Maka akan terlihat seperti tabel 1.11

Setelah di hitung dengan menggunakan rumuas Koef. Pearson Product Moment
di peroleh hasil rxy = 0.965 dan r_tabel = 0.632. Karena rxy > r-tabel dapat disimpulkan
bahwa kedua tes memiliki korelasi yang signifikan.

SYARAT UTAMA

2). Reliabilitas Internal
Pengujian reliabilitas internal ini, hanya dengan melakukan satu kali

pengumpulan data maka reliabilitas skor perangkat pengukuran dapat diestimasi.
Dalam metode ini ada beberapa cara yang dapat digunakan yang masing-masing
dapat memerlukan beberapa syarat atau asumsi tertentu yang harus di penuhi
oleh peneliti. Terdapat 4 formula yang dapat digunakan untuk mencari estimasi
reliabilitas internal yaitu dengan metode belah dua (Split Half Method), koefisien α
dari Cronbach, koefisien KR-20, dan koefisien KR-21.

a) Metode Belah Dua (Split Half Method)
Pengujian reliabilitas dengan metode belah dua dilakukan dengan satu
instrumen dikerjakan dalam satu kali oleh sejumlah subjek (sample) suatu
penelitian. Butir-butir dalam isntrumen dibagi menjadi dua. Pembagian dapat
dilakukan dengan menggunakan nomor ganjil-genap pada instrumen, atau
separuh pertama maupun separuh kedua, atau dengan membelah menggunakan
nomor acak atau tanpa pola tertentu. Skor responden merespons setengah
perangkat pada bagian yang kedua. Teknik ini berpegang pada asumsi, belahan
pertama dan belahan kedua mengukur konstruk yang sama, banyaknya butir
dalam instrumen belahan pertama dan kedua harus dapat dibandingkan dari sisi
banyaknya butir atau paling tidak jumlahnya hampir sama.
Ada beberapa rumus yang dapat digunakan untuk mengestimasi reliabilitas
dengan metode belah dua, diantaranya rumus Spearman-Brown, rumus Flanagan,
dan rumus Rulon. Berikut diberikan rumus-rumusnya.
i) Rumus Spearman Brown

Pengujian reliabilitas dengan Spearman Brown dilakukan pada instrumen
yang memiliki satu jawaban benar. Instrumen tersebut misalnya pilihan ganda,
mencocokan dan yang lainnya yang hanya memiliki satu jawaban benar.

SYARAT UTAMA

ii) Rumus Flanagan
Dalam mencari nilai reliabilitas dengan formula Flanagan tidak didasarkan

pada ada tidaknya korelasi antara belahan I dengan belahan II. Dasar dari formula
Flanagan adalah jumlah kuadrat deviasi (varians) pada tes belahan I dengan
jumlah kuadrat (varians) deviasi pada tes belahan II dan jumlah kuadrat deviasi
(varians) skor.

iii) Rumus Rulon
Rulon merumuskan suatu formula untuk mengestimasi reliabilitas belah

dua tanpa perlu berasumsi bahwa kedua belahan harus memiliki varians yang
sama. Perbedaan skor subjek pada kedua belahan instrumen akan membentuk
suatu perbedaan distribusi skor dengan varians yang besarnya ditentukan oleh
varian eror masing-masing belahan dapat menentukan varians eror keseluruhan
instrumen, sehingga varians eror instrumen dapat diestimasi melalui besarnya
varians perbedaan skor diantara kedua belahan. Dalam melakukan estimasi
reliabilitas skor instrumen, varians perbedaan skor diperhitungkan sebagai eror.
Untuk menggunakan rumus rulon ini dalam menghitung estimasi reliabilitas ,
peneliti harus menghitung terlebih dahulu varians selisih belahan pertama dan
kedua juga varians totalnya. Berikut rumus Rulon untuk mengestimasi reabilitas.

SYARAT UTAMA

Pada bagian ini akan diberikan contoh, bagaimana cara perhitungan korelasi
reliabililitas menggunakan metode belah dua (Split Half Method) dengan berbantuan Ms.
Excel. Dengan metode ini diperlukan dua perangkat tes yang setara baik dari segi tujuan,
tingkat kesukaran, bentuk pertanyaan, yang berbeda hanya bilangan.
Contoh:

Berikut terdapat hasil tes dari 10 responden yang memiliki 10 butir soal. Pada
tabel berikut hasil di bagi menjadi dua butir soal ganjil-genap atau awal-akhir.

Akan di cari koefisien korelasi reliabilitas menggunakan metode belah dua Ganjil-
Genap dan Awal-Akhir dengan cara Spearman-Brow, rumus Flanagan, dan rumus Rulon.

i. Untuk Ganjil-Genap

Rumus Spearman-Brown
Dengan menggunakan rumus Spearman-Brown diperoleh r = 0,431 sehingga
dapat disimpulkan test memiliki reliabilitas sedang atau cukup
Rumus Flanagan
Dengan menggunakan rumus Flanagan diperoleh r = 0,379 sehingga dapat
disimpulkan tes memiliki reliabilitas rendah
Rumus Rulon
Dengan menggunakan rumus Rulon diperoleh r = 0,379 sehingga dapat
disimpulkan tes memiliki reliabilitas rendah

SYARAT UTAMA

ii. Untuk Awal-Akhir

Rumus Spearman-Brown
Dengan menggunakan rumus Spearman-Brown diperoleh r = 0,153 sehingga dapat
disimpulkan test memiliki reliabilitas rendah
Rumus Flanagan
Dengan menggunakan rumus Flanagan diperoleh hasil r = 0,152 sehingga dapat
disimpulkan tes memiliki reliabilitas rendah
Rumus Rulon
Dengan menggunakan rumus Rulon diperoleh r=0,152 sehingga dapat dsimpulkan
tes memiliki reliabilitas rendah
b. Rumus Alpha dari Cronbanch

Rumus Alpha digunakan untuk mengestimasi reliabilitas instrumen yang skornya
bukan hanya 1 dan 0 tetapi skala politomus, misalnya angket (skala Likert 1-2-3-4-5) atau
soal bentuk uraian (skor maksimum dapat tergantumh dari peneliti). Rumus untuk
estimasi reliabilitas dengan menggunakan Alpha adalah sebagai berikut.

SYARAT UTAMA

Pada bagian ini akan diberikan contoh, bagaimana cara perhitungan korelasi
reliabililitas menggunakan metode Alpha-Cronbach dengan berbantuan Ms. Excel.
Contoh:

Diberikan data hasil uji coba instrumen sikap siswa terhadap PJJ!

Data tersebut akan di uji untuk mencari tahu tingkat reliabilitas yang dimiliki oleh
butir soal diatas dengan menggunakan metode Alpha-Cronbanch yang berbantuan
ms.excel .

SYARAT UTAMA

Karena koefisien korelasi reliabilitas memiliki nilai sebesar 0,984 sehingga
koefisien reliabilitas butir soal memiliki kriteria sangat tinggi. Ini berarti tingkat keajekan
di dalam soal juga tinggi.
c. Rumus Kuder-Richardson

Cara lain untuk mengestimasi reliabilitas komposit dengan menggunakan
reliabilitas komposit yaitu dengan menggunakan rumus Kuder dan Richardson atau
yang biasa di sebut cdengan formula KR. Terdapat 2 jenis formula Kuder-Richard yaitu
KR 20 dan KR 21.

Formula KR 20 dapat digunakan untuk menganalisis butir dikotomi dengan
penskoran misal 1-0, benar-salah, ya-tidak dan lain-lain. Formula untuk KR-20 adalah
sebagai berikut:

Formula KR-21 dapat digunakan untuk instrumen dengan skor tiap butirnya 1 dan
0, dan juga skala politomus. Misalnya angket (skala Likert 1-2-3-4-5) atau soal dengan
bentuk uraian. Formula untuk KR-21 adalah sebagai berikut:

SYARAT UTAMA

Pada bagian ini akan diberikan contoh, bagaimana cara perhitungan korelasi
reliabililitas menggunakan metode KR-20 dan KR-21 dengan berbantuan Ms. Excel.
Contoh:

Diberikan respon siswa dari hasil uji coba instrument tes matematika sebagai
berikut:

Data tersebut akan di uji untuk mencari tahu tingkat reliabilitas yang dimiliki oleh
butir soal diatas dengan menggunakan metode KR 20 dan KR-21 yang berbantuan
ms.excel .

SYARAT UTAMA

i. KR-20
Karena koefisien korelasi reliabilitas menggunakan rumus KR-20 memiliki nilai

sebesar 0,629 sehingga koefisien reliabilitas butir soal memiliki kriteria sedang.
ii . KR-21
Karena koefisien korelasi reliabilitas menggunakan rumus KR-21 memiliki nilai

sebesar 0,615 sehingga koefisien reliabilitas butir soal memiliki kriteria sedang.
d. Analisis Varians Hoyt (Anova Hoyt)

Untuk skor politomi

Untuk Skor Dikotomi

SYARAT UTAMA

Pada bagian ini akan diberikan contoh, bagaimana cara perhitungan korelasi
reliabililitas menggunakan metode Hoyt dengan berbantuan Ms. Excel.
Contoh:

Diberikan data hasil uji coba instrumen sikap siswa terhadap PJJ!

Data tersebut akan di uji untuk mencari tahu tingkat reliabilitas yang dimiliki oleh
butir soal diatas dengan menggunakan metode Hoyt yang berbantuan ms.excel .

Tabel 1.21 Hasil Perhitungan Koef. Korelasi Metode Hoyt

Dengan menggunakan rumus Hoyt untuk soal dikotomi, diperoleh hasil koefisien
korelasi reliabilitas sebesar r=0,984 sehingga koefisien reliabilitas butir soal memiliki
kriteria sangat tinggi. Ini berarti tingkat keajekan di dalam soal juga tinggi.

SYARAT UTAMA

Kriteria yang digunakan untuk menginterprestasikan derajat reliabilitas instrumen
yang disajikan pada tabel berikut:

SYARAT UTAMA

C. FAKTOR-FAKTOR YANG MEMPENGARUHI

RELIABLITAS

Ada beberapa faktor yang dapat mempengaruhi reliabilitas. Faktor tersebut dapat
dikategorikan menjadi dua yaitu mempengaruhi secara langsung dan tidak langsung.
Heri Retnawati (2015) menjabarkan faktor-faktor sebagai berikut:

a) Faktor-faktor yang mempengaruhi reliabilitas secara langsung
1.Waktu penyelenggaraan pengumpulan data pertama dan data kedua. Faktor
ini digunakan pada estimasi reliabilitas dengan menggunakan teknik test-retest.
Interval yang digunakan terlalu dekat atau terlalu jauh sehingga akan
mempengaruhi koefisien reliabilitas.
2.Panjang instrumen. Semakin panjang suatu instrumen pengumpulan data,
semakin banyak butir soal yang termuat di dalam instrumen. Hal ini akan
memberikan dampak bagi hasil pengumpulan data sehingga data akan
semakin mendekati keadaan yang sebenarnya dan akan mempertinggi
koefisien reliabilitas.
3.Penyebaran skor perolehan responden. Semakin tinggi nilai varians dari skor
hasil pengukuran, maka akan mempengaruhi reliabilitas.
4.Objektivitas penskoran. Semakin tinggi objektif penskoran suatu instrumen,
maka skor perolehan juga akan menjadi semakin reliabel.

b) Faktor-faktor yang mempengaruhi reliabilitas secara tidak langsung
1.Panjang tes dan kualitas butir-butir instrumen. Instrumen yang memiliki
banyak butir soal, tentu akan lebih reliabel dibandingkan dengan instrumen
yang hanya terdiri dari beberapa butir soal. Apabila semakin panjang suatu
instrumen maka estimasi reliabilitas juga semakin tinggi. Namun, perlu di catat
bahwa jika insrumen telalu panjang maka responden akan terlalu lelah
mengerjakannya. Faktor kelelahan responden ini yang akan menurunkan
reliabilitas
2.Kondisi penyelenggaraan pengumpulan data atau administrasi.
Diberikan contoh pada pelaksanaan tes, apabila petunjuk sebelum tes dimulai
dan terdapat instruksi yang jelas, maka tes akan berjalan lancar dan tidak akan
banyak pertanyaan atau komentar dari peserta didik. Hal ini akan menjamin
pelaksanaan tes yang tertib dan tenang sehingga skor yang diperoleh lebih
reliabel.
Pengawas yang tertib akan mempengaruhi nilai hasil perolehan peserta didik.
Pengawas yang terlalu ketat ketika pengumpulan data menyebabkan peserta
didik merasa kurang nyaman atau merasa takut dan tidak dapat dengan
leluasa dalam merespon instrumen. Namun, apabila pengawas kurang ketat,
maka peserta didik akan bekerjasama sehingga hasil pengumpulan data
kurang dapat dipercaya.
Suasana lingkungan dan tempat pengumpulan data, Dalam hal ini tempat
duduk yang tidak teratur suasana di sekelilingnya gaduh atau tidak tenang
akan mempengaruhi reliabilitas. Sebagai contoh pada pelaksanaan tes,
suasana yang panas dan dekat dengan sumber kegaduhan akan
mempengaruhi hasil tes.

SYARAT UTAMA

3. MANFAAT ANALISIS BUTIR SOAL

Dalam menganalsis butir soal ini tidak hanya memberikan manfaat bagi peneliti, namun
bagi siswa, guru dan pengawas. Hal ini dikarenakan dalam menganalisis kita dapat:

Mengetahui dan memberikan gambaran karakteristik setiap butir soal pada suatu
instrumen telah sesuai yang diharapkan.
Mengevaluasi kemampuan peserta didik dan dapat digunakan sebagai bahan diskusi
bagi peserta didik, guru, atau peneliti,
Memberikan informasi kepada guru atau peneliti mengenai materi yang belum
dikuasai peserta didik,
Memberikan masukan kepada pihak yang berwenang dalam upaya mengevaluasi
dan mengembangkan bahan ajar,
Memperbaiki tahapan materi yang diberikan kepada peserta didik,
Meningkatkan kemampuan penyusunan soal bagi guru atau peneliti.

SYARAT UTAMA

BAB 2

KARAKTERISTIK

BUTIR SOAL

Dalam rangka pengembangan tes dan pengukuran dikenal dengan adanya analisis
butir soal. Analisis butir soal ini digunakan untuk menjawab bahwa butir-butir soal
tersebut tidak hanya memiliki korelasi valid dan realiable, namun butir soal juga memiliki
karakteristik khusus. Karakteristik khusus yang dimaksudkan yaitu memiliki kriteria pada
taraf kesukaran, daya pembeda dan pengecoh.

1. TARAF KESUKARAN

Taraf kesukaran yaitu suatu instrumen dimana butir soal merupakan salah satu
parameter yang berguna dalam menganalisis suatu instrumen tes. Analisis taraf
kesukaran instrumen butir soal bertujuan untuk mengetahui apakah soal tergolong
sukar, sedang atau mudah. Suatu butir soal dikatakan memiliki indeks kesukaran yang
baik jika butir soal tersebut tidak terlalu mudah dan tidak terlalu sukar. Hal ini
dikarenakan jika butir soal yang terlalu mudah menjadikan peserta didik tidak ada upaya
lebih dalam memecahkan masalah, sedangkan butir soal yang terlalu sukar
menyebabkan peserta didik tidak mempunyai motivasi untuk memecahkan butir soal
sehingga peserta didik merasa putus asa. Taraf kesukaran soal dapat menggunakan
rumus berikut:

Instrumen bentuk pilihan ganda

Instrumen bentuk essai
Keterangan:

: indeks kesukaran butir soal,
: rata-rata skor jawaban peserta didik pada suatu butir soal,
: Skor Maksimum Ideal, skor maksimum yang diperoleh peserta didik jika

menjawab butir soal tersebut dengan tepat (sempurna).
: jumlah total responden yang mengikuti tes
: jumlah responden yang menjawab benar

Hasil perhitungan berdasarkan rumus yang digunakan selanjutnya diklasifikasikan
dengan range atau ketentuan yang telah ditetapkan sebagai berikut:

Tabel 2.1 Kriteria Interpretasi Indeks Kesukaran

2. DAYA PEMBEDA

Daya pembeda dari satu butir soal menyatakan seberapa jauh kemampuan butir
soal tersebut membedakan antara siswa yang menjawab soal dengan tepat dan siswa
yang tidak menjawab soal tersebut dengan tepat. Dengan kata lain menganalisis butir
soal ini mengetahui kemampuan suatu butir soal dalam membedakan antara peserta
didik yang berkemampuan tinggi dengan peserta didik yang berkemampuan rendah.

Lebih jelas jika suatu butir soal mampu dijawab oleh peserta didik yang
berkemampuan tinggi dan berkemampuan rendah, maka butir soal tersebut memiliki
interprestasi buruk atau sangat buruk. Hal ini dapat disimpulkan bawah butir soal
tersebut tidak memiliki daya pembeda. Namun, jika suatu butir soal mampu dijawab
oleh peserta didik yang berkemampuan tinggi dan mampu dijawab sebagian kecil dari
peserta didik berkemampuan rendah, maka memiliki interpretasi yang tinggi (baik atau
sangat baik). Jelas hal ini menyatakan bahwa butir soal tersebut memiliki daya pembeda.

Jika sudah diketahui skor hasil tes uji coba instrumen, maka nilai daya pembeda
dapat dihitung menggunakan rumus berikut:

Keterangan:
: indeks daya pembeda butir soal,
: rata-rata skor jawaban siswa kelompok atas,
: rata-rata skor jawaban siswa kelompok bawah,
: skor maksimum ideal, yaitu skor maksimum yang akan diperoleh siswa jika

menjawab butir soal tersebut dengan tepat (sempurna).
Kriteria yang digunakan untuk menginterpretasikan indeks daya pembeda disajikan
pada tabel berikut:

Tabel 2.2 Kriteria Interpretasi Daya Pembeda

Dalam menggunakan perhitungan taraf kesukaran dan daya pembeda, ada hal-hal
yang perlu diperhatikan terlebih dahulu, yaitu:

Menyusun lembar hasil penilaian/ skor peserta didik mulai skor tertinggi hingga skor
terendah
Mengambil 27% lembar hasil penilaian/ skor peserta didik dari atas, yang disebut
dengan kelompok atas, dan 27% lembar hasil penilaian/ skor peserta didik dari
bawah, yang disebut kelompok bawah, serta sebagian yang tidak termasuk kedua
kelompok tersebut disisihkan,
Membuat tabel untuk mengetahui hasil penilaian/ skor setiap peserta didik dari kelas
atas maupun kelompok bawah.

KARAKTERISTIK BUTIR SOAL

3. ANALISIS PENGECOH

Analisis pengecoh atau efektivitas diktraktor pada instrumen tes berupa pilihan
ganda terdapat alternatif jawaban (opsi) yang mana ini merupakan pengecoh. Butir soal
dianggap baik apabila pengecohnya akan dipilih secara merata oleh peserta didik yang
menjawab salah. Begitupun sebaliknya, butir soal dianggap kurang baik, apabila
pengecohnya akan dipilih secara tidak merata.

Menurut Depdikbud (1993) sebuah distraktor dapat dikatakan berfungsi dengan
baik jika dipilih oleh paling sedikit 5% untuk 4 pilihan jawaban dan 3% untuk 5 pilihan
jawaban. Fernandes (1984), distraktor dikatakan baik jika dipilih oleh minimal 2% dari
seluruh peserta. Distraktor yang tidak memenuhi kriteria tersebut sebaiknya diganti
dengan distraktor lain yang mungkin lebih menarik minat peserta tes untuk memilihnya.
Adapun perhitungan destraktor sebagai berikut:

Keterangan:
: indeks pengecoh,
: jumlah peserta didik yang memilih pengecoh,
: jumlah peserta didik yang mengikuti tes,
: jumlah peserta didik yang menjawab benar,
: jumlah alternatif jawaban,
: bilangan tetap.

Note: Apabila IP menunjukkan hasil 0 (nol), maka pengecoh tidak berfungsi.
Hasil perhitungan berdasarkan rumus yang digunakan selanjutnya diklasifikasikan
dengan range atau ketentuan yang telah ditetapkan sebagai berikut:

Tabel 2.3 Kriteria Interpretasi Indeks Pengecoh

Ciri-ciri distraktor adalah: a) Ada yang memilih, khususnya dari kelompok rendah.
b) Dipilih lebih banyak oleh kelompok rendah daripada kelompok tinggi. c) Jumlah
pemilih dari kelompok tinggi pada pengecoh itu tidak menyamai jumlah kelompok tinggi
yang memilih kunci jawaban.

KARAKTERISTIK BUTIR SOAL

4. ANALISIS HOMOGENITAS SOAL

Dalam menganalisis butir soal ada yang dinamakan dengan homogenitas soal, hal
ini mengetahui kehomogenan suatu butir soal dengan cara menghitung korelasi antara
skor butir soal dengan skor total. Perhitungan ini dilakukan sebanyak butir soal dalam
suatu tes, misalnya jika dalam sebuah tes terdapat 10 butir soal, maka perhitungan
korelasi sebanyak 10 kali. Perhitungan korelasi dapat menggunakan korelasi product
moment atau korelasi biserial.

Butir soal dapat dikatakan homogen apabila koefisien korelasinya sama atau lebih
dari taraf signifikan yang berlaku. Sedangkan, apabila koefisien korelasinya negatif atau
kurang dari taraf signifikan maka, butir soal tersebut tidak homogen. Butir soal yang
dinilai tidak homogen menandakan bahwa butir soal tersebut besar kemungkinan
mengukur aspek lain diluar materi. Karena hal ini, diperlukan perbaikan, kajian lebih
lanjut, atau dibuang.

5. EFEKTIFITAS FUNGSI OPSI JAWABAN

Setelah mengetahui intrepretasi dari taraf kesukaran, daya pembeda, analisis
pengecoh, dan homogenitas, perlu diketahui juga namanya efektifitas fungsi opsi
jawaban. Efektifitas ini berguna untuk mengetahui suatu opsi (alternatif jawaban) dari
setiap butir soal berfungsi secara efektif atau tidak. Perhitungan efektifitas ini dapat
digunakan hanya untuk bentuk soal pilihan ganda. Berikut rumus yang digunakan untuk
menghitung efektifitas fungsi opsi jawaban yang benar:

Keterangan:
: jumlah pemilih kelompok atas,
: jumlah pemilih kelompok bawah,
: jumlah peserta didik kelompok atas (27%),
: jumlah peserta didik kelompok bawah (27%).

Apabila nilai dari opsi kunci menunjukkan range 25% sampai 75%, maka opsi kunci
tersebut berfungsi efektif. Adapun rumus yang digunakan untuk melihat efektifitas
fungsi opsi pengecoh sebagai berikut:

Keterangan:
: jumlah opsi pengecoh,
: banyaknya peserta didik kelompok atas,
: banyaknya peserta didik kelompok bawah.

KARAKTERISTIK BUTIR SOAL

6. PERHITUNGAN KARAKTERISTIK BUTIR SOAL
DENGAN MS. EXCEL

a) Bentuk Tes Pilihan Ganda
Diberikan 10 jawaban peserta didik terhadap hasil tes matematika bentuk pilihan
ganda dengan lima option jawaban sebagai berikut:
Tabel 2.4 Jawaban Peserta Didik terhadap Hasil Tes Matematika

Dari respon jawaban dari peserta didik di ubah menjadi nilai 1 untuk respon
jawaban benar dan 0 untuk respon jawaban salah. Setelah itu, peneliti
mengaplikasikan rumus karakteristik pertama, yaitu mengukur tingkat kesukaran.
Perhitungan tersebut dapat disajikan sebagai berikut:

Tabel 2.5 Perhitungan Taraf Kesukaran Jenis Butir Pilihan Ganda

Berdasarkan perhitungan taraf kesukaran pada butir soal jenis pilihan ganda
menunjukkan kriteria mudah untuk nomor 1, 3, dan 4. Kriteria sedang ditunjukkan
pada butir soal nomor 5, 6, dan 8. Kriteria sukar ditunjukkan pada butir soal
nomor 2, dan kriteria terlalu sukar ditunjukkan pada butir nomor 7.

KARAKTERISTIK BUTIR SOAL

b) Bentuk Tes Essai
Diberikan 15 jawaban peserta didik terhadap hasil tes matematika bentuk essai
dengan lima option jawaban sebagai berikut:
Tabel 2.6 Jawaban Peserta Didik terhadap Hasil Tes Bentuk Essai

Dari respon jawaban dari peserta didik yang perlu diperhatikan total skor
maksimum yang diberikan kepada peserta didik, dimana skor maksimum total
akan menjadi pembagi untuk setiap masing-masing butir soal. Maksimum skor
total untuk setiap butir soal pada tes matematika ini adalah 10. Setelah itu, peneliti
mengaplikasikan rumus karakteristik butir soal yaitu mengukur tingkat kesukaran.
Perhitungan tersebut dapat disajikan sebagai berikut:

Tabel 2.7 Perhitungan Taraf Kesukaran Bentuk Essai

Berdasarkan perhitungan taraf kesukaran pada butir soal jenis essai menunjukkan
kriteria mudah untuk nomor 10. Kriteria sedang ditunjukkan pada butir soal
nomor 5, 7, 8, 9. Kriteria sukar ditunjukkan pada butir soal nomor 1, 2, 3, 4, dan 6.

KARAKTERISTIK BUTIR SOAL

7. PERHITUNGAN DAYA PEMBEDA BUTIR SOAL
DENGAN MS. EXCEL

Berikut adalah hasil tes dari bentuk essai dengan skor maksimum masing-masing
butir soal adalah 10, yang disusun berdasarkan total skor mulai skor terbesar
sampai skor terkecil. Berdasarkan aturan daya pembeda untuk menentukan kelas
atas dan kelas bawah yaitu dengan mengalikan total peserta didik yang mengikuti
tes dengan 27% dan diperoleh 4,05. Karena itu diambilah 5 responden teratas
(kelompok atas) dan 5 responden terbawah (kelompok bawah) seperti berikut:

Tabel 2.8 Kelompok Atas dan Kelompok Bawah

Tabel 2.9 Perhitungan Daya Pembeda

Berdasarkan perhitungan daya pembeda diatas nomor 1, 2, 3, 4, 5, 6, 7, 9, dan 10
menunjukkan bahwa tidak ada pembeda antara kelompok atas dengan kelompok
bawah. Dengan kata lain, bahwa butir soal tersebut dapat diselesaikan oleh 2
kelompok atas atau butir soal tersebut tidak dapat diselesaikan dengan baik
antara 2 kelompok tersebut. Namun, pada butir soal 8 menunjukkan daya
pembeda dengan kriteria cukup. Artinya, antara kelompok atas dengan kelompok
bawah memiliki selisih rata-rata yang cukup jauh sehingga terdapat perbedaan
antara 2 kelompok tersebut.

KARAKTERISTIK BUTIR SOAL

8. PERHITUNGAN PENGECOH BUTIR SOAL DENGAN
MS. EXCEL

Perhitungan pengecoh ini khusus untuk soal pilihan ganda, dengan tujuan
seberapa efektif option pada pilihan ganda mempengaruhi atau mengecoh
terhadap option jawaban yang benar. Berikut perhitungan pengecoh soal
matematika pada tabel 2.4. Selanjutnya, dihitung setiap responden yang memilih
option pilihan ganda dengan rumus excel =COUNTIF(range; option benar) seperti
tabel 2.10:

Tabel 2.10 Hasil Perhitungan Jumlah Setiap Option

Tabel 2.11 Perhitungan Pengecoh Setiap Buit Soal

Setelah dihitung menggunakan rumus pengecoh, selanjutnya dari hasil
perhitungan diinterpretasikan berdasarkan kriteria yang sesuai. Note: Tulisan yang
berwarna merah merupakan option (jawaban) yang benar dari tes bentuk pilihan
ganda.

Tabel 2.12 Interpretasi Pengecoh Setiap Butur Soal

Berdasarkan hasil perhitungan pengecoh pada tes bentuk pilihan ganda
menunjukkan bahwa masih banyak option yang belum memberikan efektifitas
sebagai pengecoh jawaban. Karena hal ini, diperlukan perbaikan atau kajian lebih
lanjut.

KARAKTERISTIK BUTIR SOAL

GLOSARIUM

DAFTAR PUSTAKA

Arifin, Zainal. 2012. Evaluasi Pembelajaran. Jakarta: Kementerian Agama. (Edisi Revisi)

Hendryadi, H. 2017. Validitas Isi: Tahap Awal Pengembangan Kuesioner. Jurnal Riset
Manajemen dan Bisnis FE-UNIAT, 2(2), 169-178.

Kaplan, R.M dan Saccuzzo, D.P. 2005. Psychological Testing Principles. Application and Issue.
Sixth Edition. USA: Wadsworth.

Komarudin & Sakardi. 2011. Evaluasi Pembelajaran. RizQita Publishing & Printing:
Yogyakarta.

Lestari, K. E. 2015. Penelitian Pendidikan Matematika. Bandung: PT Refika Aditama.

Retnawati, Heri. 2015. Analisis Kuantitatif Instrumen Penelitian. Yogyakarta: Parama
Publishing.

Retnawati, Heri. 2016. Analisis Kuantitatif Instrumen Penelitian (Panduan Peneliti,
Mahasiswa, dan Psikometrian). Yogyakarta: Parama Publishing.

Sugiyono. 2016. Metode Penelitian Pendidikan Pendekatan Kuantitatif, Kualitatif dan R&D.
Bandung: Alfabeta.

Yusup, F. 2018. Uji validitas dan reliabilitas instrumen penelitian kuantitatif. Tarbiyah:
Jurnal Ilmiah Kependidikan, 7(1) .




Click to View FlipBook Version