The words you are searching are inside this book. To get more targeted content, please make full-text search by clicking here.

Buku ini berisi tentang cara melakukan pengukuran, asesmen, dan evaluasi pada pendidikan dasar (SD dan MI).

Discover the best professional documents and content resources in AnyFlip Document Base.
Search
Published by kartianom, 2021-11-21 20:09:35

Asesmen dan Implementasinya di Pendidikan Dasar (Untuk Pendidik, Calon Pendidik, dan Praktisi Pendidikan S/MI)

Buku ini berisi tentang cara melakukan pengukuran, asesmen, dan evaluasi pada pendidikan dasar (SD dan MI).

Keywords: Pengukuran,Asesmen,SD,MI,PGMI,PGSD

No. Waktu Nama Kejadian/Perilaku Butir Pos/Neg
Sikap +
+
Menolong seorang -
+
1 11/06/2020 Rahmi lanjut usia Peduli
menyeberang jalan -

di depan sekolah

Menjadi pemimpin Percaya
2 12/06/2020 Budiman upacara HUT RI di diri

sekolah

Terlambat

3 13/06/2020 Abdullah mengikuti upacara Disiplin
bendera di

sekolah

Mengakui

4 14/06/2020 Adi pekerjaan rumahnya Jujur
dikerjakan oleh

kakaknya

Tidak

menyerahkan surat

izin tidak Tanggung
5 15/06/2020 Markus masuk sekolah dari jawab

orang tuanya

6 16/06/2020 Dewi Memungut sampah Peduli +
yang berserakan di lingkungan +
halaman sekolah

Mengkoordinir

teman teman

7 17/06/2020 Muchlis sekelasnya Peduli

mengumpulkan ban

tuan untuk korban

140

No. Waktu Nama Kejadian/Perilaku Butir Pos/Neg
Sikap +
8 18/06/2020 Ahmad bencana alam
9 19/06/2020 Dst... Toleransi
Menerima kritik

dan saran dari

temannya saat

diskusi kelompok

b. Penilaian Diri

Instrumen yang digunakan untuk penilaian diri berupa

lembar penilaian diri yang dirumuskan secara sederhana, namun

jelas dan tidak bermakna ganda, dengan bahasa lugas yang dapat

dipahami peserta didik, dan menggunakan format sederhana

yang mudah diisi peserta didik. Lembar penilaian diri dibuat

sedemikian rupa sehingga dapat menunjukkan sikap peserta didik

dalam situasi yang nyata/sebenarnya, bermakna,

dan mengarahkan peserta didik untuk mengidentifikasi kekuatan

atau kele mahannya. Hal ini untuk menghilangkan

kecenderungan peserta didik menilai dirinya secara subjektif.

Penilaian diri oleh peserta didik dilakukan melalui langkah-

langkah sebagai berikut.

Lembar Penilaian Diri

Sikap Spritual

Nama : ...................

Kelas : ...................

Semester : ...................

Petunjuk:

1. Bacalah pernyataan yang ada di dalam kolom dengan teliti.
2. Berilah tanda cek ( √ ) pada kolom TP (Tidak Pernah), KD

(Kadangkadang), SR (Sering), atau SL (Selalu) sesuai

dengan kondisi dan keadaan dirimu yang sebenarnya.

141

No. Pernyataan TP KD SR SL

1 Saya berdoa sebelum dan
sesudah melakukan kegiatan
pembelajaran.

2 Saya menjalankan ibadah sesuai
dengan ajaran agama.

3 Saya memberi salam pada saat
awal dan akhir kegiatan.

4 Saya mengucap syukur atas
nikmat dan karunia Tuhan Yang
Maha Esa.

5 Saya mengucap syukur karena
mampu mengendalikan diri.

6 Saya mengucap syukur ketika
berhasil mengerjakan sesuatu.

7 Saya berserah diri (tawakal)
kepada Tuhan setelah berikhtiar
atau melakukan usaha.

8 Saya menjaga lingkungan hidup
di sekitar sekolah.

9 Saya memelihara hubungan baik
dengan sesama umat ciptaan
Tuhan Yang Maha Esa.

10 Saya mengucap syukur kepada
Tuhan Yang Maha Esa menjadi
bagian dari bangsa Indonesia.

11 Saya menghormati orang lain
yang menjalankan ibadah sesuai
dengan agamanya.

142

Lembar Penilaian Diri

Sikap Sosial

Nama : ...................

Kelas : ...................

Semester : ...................

Petunjuk:

3. Bacalah pernyataan yang ada di dalam kolom dengan teliti.
4. Berilah tanda cek ( √ ) pada kolom TP (Tidak Pernah), KD

(Kadangkadang), SR (Sering), atau SL (Selalu) sesuai

dengan kondisi dan keadaan dirimu yang sebenarnya.

No. Pernyataan TP KD SR SL

1 Saya menyontek dalam

mengerjakan ujian

2 Saya tidak plagiat

(mengambil/menyalin karya

orang lain tanpa menyebutkan

sumber)

3 Saya mengungkapkan perasaan

apa adanya

4 Saya menyerahkan kepada yang

berwenang barang yang

ditemukan

5 Saya membuat laporan

berdasarkan data atau informasi

apa adanya

6 Saya mengakui kesalahan atau

kekurangan yang dimiliki

7 Saya datang ke sekolah tepat

waktu

143

No. Pernyataan TP KD SR SL

8 Saya mematuhi tata tertib atau

aturan bersama/ aturan sekolah

9 Saya

mengerjakan/mengumpulkan

tugas sesuai dengan waktu yang

ditentukan dan mengikuti

kaidah bahasa tulis yang baik

dan benar

10 Saya membawa buku teks tidak

sesuai mata pelajaran

11 Saya mengikuti kegiatan praktik

sesuai dengan langkah yang

ditetapkan

12 Saya melaksanakan tugas

individu dengan baik

13 Saya menerima resiko dari

tindakan yang dilakukan

14 Saya tidak

menyalahkan/menuduh orang

lain tanpa bukti yang akurat

15 Saya mengembalikan barang

yang dipinjam dalam keadaan

baik seperti semula

16 Saya mengakui dan meminta

maaf atas kesalahan yang

dilakukan

17 Saya tidak menepati janji

144

No. Pernyataan TP KD SR SL

18 Saya menyalahkan orang lain
atas kesalahan tindakan yang
saya perbuat

19 Saya melaksanakan apa yang
pernah dikatakan tanpa
disuruh/diminta

20 Saya menerima kesepakatan
meskipun berbeda dengan
pendapatnya

21 Saya tidak dapat menerima
kekurangan orang lain

22 Saya tidak dapat memaafkan
kesalahan orang lain

23 Saya mau dan mampu bekerja
sama dengan siapapun yang
memiliki keberagaman latar
belakang, pandangan/pendapat,
dan keyakinan

24 Saya tidak memaksakan
pendapat atau keyakinan diri
pada orang lain

25 Saya bersedia untuk belajar dari
(terbuka terhadap) gagasan
orang lain agar dapat
memahami orang lain dengan
lebih baik

26 Saya terbuka atau kesediaan
untuk menerima sesuatu yang
baru

145

Tabel 14. Contoh Lembar Penilaian Diri

Sikap Sosial

Nama : ...................

Kelas : ...................

Semester : ...................

Petunjuk:

1. Bacalah pernyataan yang ada di dalam kolom dengan teliti.
2. Berilah tanda cek ( √ ) pada kolom “Ya” atau “Tidak” sesuai

dengan kondisi dan keadaan dirimu yang sebenarnya.

No. Pernyataan Ya Tidak

1 Saya terlibat aktif dalam kerja
bakti membersihkan kelas atau
sekolah

2 Saya bersedia melaksanakan tugas
sesuai kesepakatan

3 Saya bersedia membantu orang
lain tanpa mengharap imbalan

4 Saya aktif dalam kerja kelompok
5 Saya memusatkan perhatian pada

tujuan kelompok
6 Saya tidak mendahulukan

kepentingan pribadi
7 Saya mencari jalan untuk

mengatasi perbedaan pendapat/
pikiran antara diri sendiri dengan
orang lain

146

No. Pernyataan Ya Tidak
147
8 Saya mendorong orang lain untuk
bekerja sama demi mencapai
tujuan bersama

9 Saya menghormati orang yang
lebih tua

10 Saya tidak berkata-kata kasar dan
takabur

11 Saya tidak meludah disembarang
tempat

12 Saya tidak menyela pembicaraan
pada waktu yang tidak tepat

13 Saya mengucapkan terima kasih
setelah menerima bantuan orang
lain

14 Saya bersikap 3S (salam, senyum,
sapa)

15 Saya meminta izin ketika akan
memasuki ruangan orang lain atau
menggunakan barang milik orang
lain

16 Saya memperlakukan orang lain
sebagaimana diri sendiri ingin
diperlakukan

17 Saya berpendapat atau melakukan
kegiatan tanpa raguragu

18 Saya mampu membuat keputusan
dengan cepat dan tepat

19 Saya tidak mudah putus asa

No. Pernyataan Ya Tidak

20 Saya tidak canggung dalam
bertindak

21 Saya berani presentasi di depan
kelas

22 Saya berani berpendapat,
bertanya, dan menjawab
pertanyaan

c. Penilaian Antarteman
Penilaian antarteman paling baik dilakukan pada saat siswa

melakukan kegiatan kelompok, misalnya setiap peserta didik
diminta mengamati dan menilai dua orang temannya, dan dirinya
juga dinilai oleh dua orang teman lainnya dalam kelompoknya.
Sama halnya dengan penilaian diri, hasil penilaian antateman
dapat digunakan sebagai data konfirmasi. Selain itu penilaian
antarteman juga dapat digunakan untuk menumbuhkan beberapa
nilai seperti kejujuran, tenggang rasa, apresiasi, dan objektivitas.
Instrumen yang digunakan berupa daftar cek (checklist).
Penilaian antarteman paling tepat dilakukan pada saat peserta
didik melakukan kegiatan berkelompok. Berikut merupakan
contoh instrumen penilaian antarteman dalam kegiatan
kelompok.

Tabel 15. Contoh Instrumen Penilaian Antarteman Model
1

Nama Teman yang Dinilai : ...................
Nama Penilai : ...................
Kelas : ...................
Semester : ...................

148

Petunjuk:

1. Bacalah pernyataan yang ada di dalam kolom dengan teliti.
2. Berilah tanda cek ( √ ) pada kolom “Ya” atau “Tidak” sesuai

dengan kondisi dan keadaan dirimu yang sebenarnya.

No. Pernyataan Ya Tidak

1 Teman saya mengajukan
pertanyaan dengan sopan

2 Teman saya mengerjakan
kegiatan sesuai pembagian tugas
dalam kelompok

3 Teman saya mengemukakan ide
untuk menyelesaikan masalah

4 Teman saya memaksa kelompok
untuk menerima usulnya

5 Teman saya menyela
pembicaraan teman kelompok

6 Teman saya menjawab
pertanyaan yang diajukan teman
lain

7 Teman saya menertawakan
pendapat teman yang dianggap
aneh

8 Teman saya melaksanakan
kesepakatan kelompok meskipun
tidak sesuai dengan pendapatnya.

Selain dilaksanakan dalam kegiatan berkelompok,
penilaian antarteman juga dapat dilaksanakan untuk menilai
butir-butir sikap yang termuat sikap spiritual dan sikap sosial

149

lainnya sebagaiman tercantum dalam KI-1 dan KI-2. Butir-butir
pernyataan dalam instrumen penilaian antarteman ini juga harus
mengacu pada indikator pencapaian kompetensi pada KI-1 dan
KI-2. Selain menggunakan model respon 2 jawaban (ya atau
tidak), instrumen lembar penilaian antarteman juga dapat
menggunakan skala 4. Berikut merupakan contoh instrumen
penilaian antarteman menggunakan model respon skala 4.

Tabel 16. Contoh Instrumen Penilaian Antarteman Model
2

Nama Teman yang Dinilai : ...................

Nama Penilai : ...................

Kelas : ...................

Semester : ...................

Petunjuk:

1. Bacalah pernyataan yang ada di dalam kolom dengan teliti.
2. Berilah tanda cek ( √ ) pada kolom TP (Tidak Pernah), KD

(Kadangkadang), SR (Sering), atau SL (Selalu) sesuai

dengan kondisi dan keadaan dirimu yang sebenarnya.

No. Pernyataan TP KD SR SL

1 Teman saya menyontek dalam
mengerjakan ujian

2 Teman saya tidak plagiat
(mengambil/menyalin karya
orang lain tanpa menyebutkan
sumber)

3 Teman saya mengungkapkan
perasaan apa adanya

150

No. Pernyataan TP KD SR SL

4 Teman saya menyerahkan

kepada yang berwenang barang

yang ditemukan

5 Teman saya membuat laporan

berdasarkan data atau informasi

apa adanya

6 Teman saya mengakui

kesalahan atau kekurangan yang

dimiliki

7 Teman saya datang ke sekolah

tepat waktu

8 Teman saya mematuhi pada tata

tertib atau aturan

bersama/aturan sekolah

9 Teman saya

mengerjakan/mengumpulkan

tugas sesuai dengan waktu yang

ditentukan dan mengikuti

kaidah bahasa tulis yang baik

dan benar

10 Teman saya membawa buku

teks tidak sesuai mata pelajaran

11 Teman saya mengikuti kegiatan

praktik sesuai dengan langkah

yang ditetapkan

12 Teman saya melaksanakan

tugas individu dengan baik

151

No. Pernyataan TP KD SR SL

13 Teman saya menerima resiko
dari tindakan yang dilakukan

14 Teman saya tidak
menyalahkan/menuduh orang
lain tanpa bukti yang akurat

15 Teman saya mengembalikan
barang yang dipinjam dalam
keadaan baik seperti semula

16 Teman saya mengakui dan
meminta maaf atas kesalahan
yang dilakukan

17 Teman saya tidak menepati janji
18 Teman saya menyalahkan orang

lain atas kesalahan tindakan
yang saya perbuat
19 Teman saya melaksanakan apa
yang pernah dikatakan tanpa
disuruh/diminta
20 Teman saya menerima
kesepakatan meskipun berbeda
dengan pendapatnya
21 Teman saya tidak dapat
menerima kekurangan orang
lain
22 Teman saya tidak dapat
memaafkan kesalahan orang
lain

152

No. Pernyataan TP KD SR SL

23 Teman saya mau dan mampu

bekerja sama dengan siapapun

yang memiliki keberagaman

latar belakang,

pandangan/pendapat, dan

keyakinan

24 Teman saya tidak memaksakan

pendapat atau keyakinan diri

pada orang lain

25 Teman saya bersedia untuk

belajar dari (terbuka terhadap)

gagasan orang lain agar dapat

memahami orang lain dengan

lebih baik

26 Teman saya terbuka terhadap

atau kesediaan untuk menerima

sesuatu yang baru

27 Teman saya terlibat aktif dalam

kerja bakti membersihkan kelas

atau sekolah

28 Teman saya bersedia

melaksanakan tugas sesuai

kesepakatan

29 Teman saya bersedia membantu

orang lain tanpa mengharap

imbalan

30 Teman saya aktif dalam kerja

kelompok

153

No. Pernyataan TP KD SR SL

31 Teman saya memusatkan
perhatian pada tujuan kelompok

32 Teman saya tidak
mendahulukan kepentingan
pribadi

33 Teman saya mencari solusi
untuk mengatasi perbedaan
pendapat/pikiran antara diri
sendiri dengan orang lain

34 Teman saya mendorong orang
lain untuk bekerja sama demi
mencapai tujuan bersama

35 Teman saya menghormati orang
yang lebih tua

36 Teman saya tidak berkata-kata
kasar dan takabur

37 Teman saya tidak meludah
disembarang tempat

38 Teman saya tidak menyela
pembicaraan pada waktu yang
tidak tepat

39 Teman saya mengucapkan
terima kasih setelah menerima
bantuan orang lain

40 Teman saya bersikap 3S (salam,
senyum, sapa)

41 Teman saya meminta izin ketika
akan memasuki ruangan orang

154

No. Pernyataan TP KD SR SL

lain atau menggunakan barang
milik orang lain
42 Teman saya memperlakukan
orang lain sebagaimana diri
sendiri ingin diperlakukan
43 Teman saya berpendapat atau
melakukan kegiatan tanpa ragu-
ragu
44 Teman saya mampu membuat
keputusan dengan cepat dan
tepat
45 Teman saya tidak mudah putus
asa
46 Teman saya tidak canggung
dalam bertindak
47 Teman saya berani presentasi di
depan kelas
48 Teman saya berani berpendapat,
bertanya, dan menjawab
pertanyaan

155

2. Instrumen Asesmen Ranah Kognitif
a. Jawaban Singkat

b. Benar-Salah

156

c. Mencocokkan
d. Pilihan Ganda

157

e. Uraian

3. Instrumen Asesmen Ranah Psikomotor
3.1. Daftar Cek

Daftar cek (Checklist) digunakan untuk mengetahui
kemampuan peserta didik dalam melakukan suatu aktivitas sesuai
dengan kriteria yang telah ditentukan. Dengan menggunakan
daftar cek, peserta didik mendapat nilai bila kriteria penguasaan
kompetensi tertentu dapat diamati oleh penilai. Artinya, sebelum
melakukan penilaian unjuk kerja/kinerja/praktik dengan
menggunakan daftar cek, harus ditetapkan terlebih dahulu
aktivitasaktivitas yang harus ditunjukkan oleh peserta didik
sebagai acuan dalam menilai. Seluruh aktivitas yang menjadi
komponen penyusun suatu kompetensi harus dirinci agar
penilaian lebih akurat. Hal ini dikarenakan penilaian dengan

158

daftar cek hanya terdiri atas dua pilihan mutlak, misalnya: ya-
tidak, benar-salah, teramati-tidak teramati, terlaksana-tidak
terlaksana, dan sebagainya. Oleh karena itu, untuk menghasilkan
penilaian yang valid, maka seluruh aktivitas yang menjadi ukuran
tercapainya suatu kompetensi harus dirinci dengan baik. Bentuk
instrumen penilaian dengan menggunakan daftar cek dapat dilihat
pada Contoh 1 dan Contoh 2.
3.2. Skala Penilaian

Skala penilaian (rating scale) memiliki perbedaan
mendasar dengan daftar cek, yang mengharuskan penilai untuk
memberikan penilaian berupa ya-tidak, benar-salah, terlaksana-
tidak terlaksana, teramati-tidak teramati. Penilaian menggunakan
skala penilaian memungkinkan penilai memberi nilai tengah
terhadap penguasaan kompetensi tertentu, karena pemberian nilai
secara kontinum dimana pilihan kategori nilai lebih dari dua.
Penilaian dengan skala penilaian bukan hanya sekedar terlaksana
atau tidak, dilakukan atau tidak, teramati atau tidak tetapi
diberikan sesuai dengan kualitas setiap tahap aktivitas yang
dilakukan. Nilai yang diberikan berupa skor yang terentang pada
skala tertentu. Instrumen penilaian skala penilaian (rating scale)
dapat dilihat pada Contoh 3, Contoh 4, Contoh 5, Contoh 7, dan
Contoh 9. Pada Contoh 3, Contoh 4, dan Contoh 7 terlihat bahwa
pemberian nilai dilakukan dengan memberikan tanda cek. Meski
demikian, instrumen penilaian tersebut masih diklasifikasikan ke
dalam bentuk skala penilaian karena tanda cek diberikan pada
satu kolom yang merupakan bagian dari suatu skala kualitas yang
terentang pada skala tertentu. Skala penilaian terentang dari tidak
sempurna sampai sangat sempurna (misalnya: 4 = sangat baik, 3
= baik, 2 = cukup, dan 1 = kurang). Karena instrumen skala
penilaian (rating scale) memerlukan penilaian dalam suatu skala
tertentu, maka diperlukan suatu standar, ukuran atau acuan.

159

Standar, ukuran, maupun acuan tersebut diperlukan untuk
menentukan pada skala berapa kualitas kemampuan yang
ditunjukkan oleh peserta didik. Selain itu, acuan tersebut
dibutuhkan untuk menjamin obyektifitas penilaian. Dengan kata
lain, jika dua atau lebih orang yang memberikan penilaian, akan
diperoleh kesimpulan penilaian yang tidak jauh berbeda atau
bahkan diharapkan sama. Acuan yang dimaksud tersebut biasa
dikenal dengan sebutan rubrik penilaian. Oleh karena itu, skala
penilaian (rating scale) untuk menilai keterampilan peserta didik
biasanya dilengkapi dengan rubrik penilaian.
3.3. Rubrik Penilaian Keterampilan

Menilai dengan menggunakan skala penilaian (rating scale)
membutuhkan sebuah acuan untuk menilai agar diperoleh
penilaian yang obyektif. Acuan yang diperlukan dalam penilaian
tersebut adalah rubrik. Rubrik adalah seperangkat kriteria yang
berisi deskripsi level kualitas kemampuan/kinerja/aktivitas
peserta didik pada kriteria yang telah ditentukan. Secara umum
rubrik memiliki 4 komponen penyusun, yaitu deskripsi tugas
(task assignment), skala penilaian (level kemamampuan, atau
dapat berupa nilai), dimensi (aspek atau indikator) tugas yang
diberikan, dan deskripsi kemampuan pada masingmasing
dimensi. Dengan demikian, untuk memberikan penilaian
terhadap suatu keterampilan harus didefinisikan terlebih dahulu
dimensi, indikator, maupun aspek-aspek dari tugas yang
diberikan.

Peserta didik menunjukkan pemahaman yang
Skor 4 jika: lengkap tentang permasalahan. Respon yang

diberikan memuat seluruh persyaratan tugas.
Peserta didik menunjukkan menunjukkan
Skor 3 jika: pemahaman yang cukup tentang permasalahan
(terdapat sedikit kesalahan yang tidak

160

Skor 2 jika: mempengaruhi hasi). Respon yang diberikan
Skor 1 jika: memuat seluruh persyaratan tugas.
Peserta didik menunjukkan pemahaman
parsial (terdapat beberapa kesalahan) tentang
permasalahan. Respon yang diberikan
memuat sebagian besar persyaratan tugas (ada
beberapa persyaratan tugas yang tidak
terpenuhi).
Menunjukkan pemahaman terbatas tentang
permasalahan (terdapat banyak kesalahan).
Respon yang diberikan memuat sebagian kecil
persyaratan tugas (kebanyakan persyaratan
tidak terpenuhi)

Sementara itu, rubrik analitik adalah rubrik dua dimensi
(tingkat pencapaian dan kriteria penilaian). Rubrik analitik
biasanya ditulis dalam bentuk tabel, dengan tingkat
pencapaian/kemampuan sebagai judul kolom dan kriteria sebagai
judul baris. Capaian pada masing-masing kriteria dapat diberikan
dengan menggunakan skor yang berbeda-beda. Sedangkan skor
total pada suatu aktivitas diperoleh dengan menjumlahkan skor
pada masing-masuing kriteria tersebut.
a. Instrumen Penilaian Unjuk Kerja/Kinerja/Praktik

Sebagaimana telah dipaparkan sebelumnya bahwa
penilaian unjuk kerja/kinerja/praktik digunakan untuk menilai
kemampuan peserta didik dalam melakukan sesuatu. Misalnya,
seorang guru mata pelajaran Biologi ingin menilai keterampilan
peserta didik dalam menggunakan mikroskop. Sebelum penilaian
dilakukan, terlebih dahulu ditetapkan aktivitas-aktivitas yang
harus dilakukan peserta didik dalam menggunakan mikroskop,
antara lain: meletakkan mikroskop dengan benar, memutar
revolver dengan benar, mengatur cermin dan diafragma,

161

menempatkan preparat pada posisinya, mengatur fokus, dan

menyesuaikan ukuran lensa obyektif. Instrumen penilaian

keterampilan menggunakan mikroskop tersebut dapat

menggunakan daftar cek.

b. Contoh Instrumen Penilaian Proyek

Kelas : IV

Mata Pelajaran : Bahasa Indonesia
Kompetensi Dasar
4.4. Menyajikan
Indikator Proyek
petunjuk

penggunaan alat

dalam bentuk teks

tulis dan visual

menggunakan

kosakata baku dan

kalimat efektif.

Siswa dapat

menggunakan

kosakata baku dan

kalimat efektif

dalam laporan hasil

pengamatan

: IPA 4.5 Menyajikan
Kompetensi Dasar

laporan hasil

pengamatan dan

penelusuran

informasi tentang

berbagai perubahan

bentuk energi.

162

Indikator Proyek Siswa dapat

merencanakan,

melaksanakan, dan

melaporkan secara

tertulis hasil

pengamatan dan

penelusuran

informasi tentang

berbagai perubahan

bentuk energi

Proyek : Membuat Laporan Hasil Pengamatan dan
Judul
Penelusuran Informasi tentang 5

perubahan bentuk energi

: Perubahan Bentuk Energi di Lingkungan

Sekitar

Mata Bahasa IPA Skor Ket
Pelajaran Indonesia
3 = Tepat;
Perencanaan 2 = Kurang
Judul Tepat;
1 = Tidak
Tujuan Tepat;
0 = Tidak
ada
3 = Tepat;
2 = Kurang
Tepat;
1 = Tidak
Tepat;

163

Mata Bahasa IPA Skor Ket
Pelajaran Indonesia

Waktu yang 0 = Tidak Alat yang
Diperlukan ada dia
1 = Sesuai; mati
Anggota 0 = Tidak mewakili 5
Kelompok Sesua bentuk
Pembagian 1 = Tertulis; perubahan
0 = Tidak energi
Tugas tertulis
1 = Ada;
Peralatan 0 = Tidak
yang Ada
5 = 5 bentuk
Diamati perubahan
energi;
4 = 4 bentuk
perubahan
energi;
3 = 3 bentuk
perubahan
energi;
2 = 2.bentuk
perubahan
energi;
1 = 1 bentuk
perubahan
energi;
0 = tidak ada

164

Mata Bahasa IPA Skor Ket
Pelajaran Indonesia

Prosedur 5=5 Terdapat 5
Pengamatan prosedur; prosedur
4=4 yang harus
Pelaksanaan prosedur; dilakukan
Pengamatan 3=3 dalam
prosedur; pengamatan
2=2
prosedur;
1=1
prosedur;
0 = tidak ada
prosedur
5=
mengamaiti
5 bentuk
perubahan
energi;
4=
mengamati 4
bentuk
perubahan
energi;
3=
mengamati 3
bentuk
perubahan
energi;
2=
mengamati 2

165

Mata Bahasa IPA Skor Ket
Pelajaran Indonesia 166
bentuk
Pencatatan perubahan
Hasil energi;
1=
Pengamatan mengarnati
1 bentuk
Pelaporan perubahan
Sistematika energi;
0 = tidak
mengamati
5 = mencatat
5 basil
pengamatan;
4 = mencatat
4 hasil
pengamatan;
3 = mencatat
3 basil
pengamatan;
2 = mencatat
2 hasil
pengamatan;
1 = mencatat
1 hasil
Pengamatan;
0 = tidak ada
5 = memuat
5
komponen;

Mata Bahasa IPA Skor Ket
Pelajaran Indonesia 167
4 = mernunt
Isu 4
(Substansi) komponen;
3 = memuat
3
komponen;
2 = memuat
2
komponen;
1 = memuat
1
komponen;
0 = tidak ada
5 = memuat
5 bentuk
perubahan
energi;
4 = memuat
4 bentuk
perubahan
energi;
3 = memuat
3 bentuk
perubahan
energi;
2 = memuat
2 bentuk
perubahan
energi;

Mata Bahasa IPA Skor Ket
Pelajaran Indonesia
1 = memuat
Kosa Kata 4= 1 bentuk
(Bahasa) Menggunakan perubahan
76-100% energi;
kosakata 0 = tidak
baku; mengmati
3=
Menggunakan
51-75%
kosakata
baku;
2=
Menggunakan
26-50%
kosakata
baku;
1=
Menggunakan
1-25%
kosakata
baku;
0 = tidak
meng

168

Mata Bahasa IPA Skor Ket
Pelajaran Indonesia 169
gunakan 3 = sangat
Kalimat kosakata baku menarik 2 =
Efektif 4=
Menggunakan
Estetika 76-100%
kalimat
efektif;
3=
Menggunakan
51-75%
kalimat
efektif;
2=
Menggunakan
26-50%
kalimat
efektif;
1=
Menggunakan
1-25%
kalimat
efektif;
0 = tidak
meng
gunakan
kalimat
efektif

Mata Bahasa IPA Skor Ket
Pelajaran Indonesia
cukup
Skor menarik 1 =
Maksimum kurang
menarik 0 =
tidak
menarik

170

c. Contoh Instrumen Penilaian Produk
171

Bab 6
Validitas dan Reliabilitas Instrumen
1. Penilaian Kelas Berkualitas Tinggi
Secara tradisional, kualitas tes skala besar dan standar telah
ditentukan oleh sejauh mana standar psikometrik tertentu, seperti
validitas, reliabilitas/presisi, dan keadilan, terpenuhi,
menggunakan prosedur yang sangat teknis dan canggih secara
statistik. Untuk sebagian besar penilaian kelas, kualitas teknis
yang kompleks ini memiliki sedikit relevansi. Ini bukan untuk
mengatakan bahwa ide validitas, reliabilitas/presisi dan keadilan
tidak penting untuk penilaian kelas. Penilaian kelas berkualitas
tinggi juga melibatkan banyak kriteria lain, menggantikan bukti
validitas dan reliabilitas/presisi yang diganti secara statistik
dengan kekhawatiran tentang bagaimana penilaian memengaruhi
pembelajaran dan memberikan pelaporan yang adil dan kredibel
tentang prestasi siswa. Bagi Anda, penentu utama kualitas adalah
bagaimana informasi memengaruhi siswa. Dengan demikian,
fokusnya adalah pada penggunaan dan konsekuensi dari hasil dan
apa yang membuat penilaian siswa untuk dilakukan.

Gambar 7. Kriteria untuk Memastikan Penilaian Kelas
Berkualitas Tinggi

Penilaian kelas berkualitas tinggi, kemudian, memberikan
hasil yang memverifikasi dan mempromosikan pembelajaran dan
motivasi siswa yang ditargetkan. Penilaian kelas berkualitas
tinggi juga menginformasikan pengambilan keputusan

172

instruksional. Seperti yang ditunjukkan dalam Bab 1, pemahaman
kita tentang pembelajaran dan motivasi, kesadaran kita bahwa
lebih banyak yang dituntut dari siswa daripada
mendemonstrasikan pengetahuan sederhana, dan pengenalan
pengetahuan, keterampilan, dan disposisi abad ke-21 telah
mengubah cara kita mendefinisikan kelas berkualitas tinggi.
penilaian. Pengalaman saya menunjukkan bahwa ada delapan
kriteria penilaian kelas berkualitas tinggi (Gambar 7). Mereka
semua penting dan dapat diatasi untuk setiap penilaian yang
direncanakan dan dilaksanakan. Namun, yang difokuskan dalam
pembahasan buku ini adalah tiga pilar utama dalam penilaian
berkualitas tinggi seperti yang ditunjukkan pada Gambar 8.

Gambar 8. Tiga Pilar Utama Penilaian Berkualitas Tinggi
Validitas, reliabilitas/presisi, dan fairness merupakan tiga

kriteria yang membentuk pilar penilaian yang baik (Gambar 8).
173

Jika Anda fokus pada ketiga hal ini, Anda akan berada di jalur
yang tepat menuju penilaian berkualitas tinggi. Dua yang pertama
sangat penting karena mereka membahas akurasi dan kesesuaian
skor yang Anda dapatkan dari setiap penilaian. Saya suka
memikirkan keduanya dalam konteks sinyal dan kebisingan,
sebuah metafora yang kadang-kadang digunakan untuk
memeriksa tingkat presisi yang dicapai dalam penelitian. Sinyal
adalah apa yang ingin Anda nilai dengan akurasi dan kejelasan
sebanyak mungkin. Ini mewakili sifat aktual atau sejati dari apa
yang diketahui dan dapat dilakukan siswa. Misalnya, ketika Anda
ingin mengetahui apakah siswa dapat menjumlahkan angka tiga
digit dengan sisa, Anda ingin skor pada tes menunjukkan
kompetensi siswa yang sebenarnya atau nyata, bukan sesuatu
yang lain. Kebisingan menghalangi akurasi, dan di sinilah
validitas dan reliabilitas/presisi berperan. Jika item tes Anda
menggunakan soal angka tiga digit tanpa sisa, hasilnya tidak akan
akurat (ini adalah masalah validitas). Jika item tes Anda dibangun
dengan buruk dan membingungkan siswa, atau jika siswa sakit
dan tidak dapat berkonsentrasi, kesalahan akan muncul (masalah
keandalan/presisi). Apa yang Anda inginkan dalam penilaian
berkualitas tinggi adalah sedekat mungkin dengan menemukan
sinyal. Ini terjadi sejauh kebisingan dihilangkan. Misalnya, jika
tes pemahaman bahasa Prancis Anda berisi kata-kata yang belum
dipelajari, itu adalah noise (validitas). Begitu juga jika pesan
audionya berisi statis dan sulit didengar, itu juga noise
(reliabilitas/presisi). Kedua sumber kebisingan akan berarti
bahwa nilai tes yang sebenarnya tidak akan sangat akurat
mewakili pencapaian target, sinyal, yang dalam hal ini adalah
pengenalan kosakata bahasa Prancis. Jadi, peringatan saya adalah
untuk selalu mengingat sinyal dan kebisingan. Ini akan sangat
membantu Anda dalam pencarian Anda untuk memiliki penilaian

174

berkualitas tinggi. Sekarang kita akan beralih ke validitas secara
lebih rinci, kemudian reliabilitas/presisi dan keadilan.

2. Validitas Instrumen

Validitas adalah karakteristik yang mengacu pada
kesesuaian kesimpulan, kegunaan, dan konsekuensi yang
dihasilkan dari penilaian. Hal ini berkaitan dengan kesehatan,
kepercayaan, atau legitimasi klaim atau kesimpulan yang dibuat
berdasarkan skor yang diperoleh. Dengan kata lain, apakah
interpretasi yang dibuat dari skor atau peringkat itu masuk akal?
Apakah informasi yang dikumpulkan merupakan bukti yang tepat
untuk keputusan yang perlu dibuat, atau tujuan penggunaan?
Bagaimana suara interpretasi informasi?

Validitas berkaitan dengan kualitas kesimpulan yang Anda
buat dari skor, bukan hanya tes itu sendiri. Artinya, itu adalah
kesimpulan atau penggunaan yang valid atau tidak valid, bukan
tes, instrumen, atau prosedur yang digunakan untuk
mengumpulkan informasi. Seringkali frasa "validitas tes"
digunakan, tetapi lebih akurat untuk mengatakan "validitas
interpretasi, inferensi, atau penggunaan hasil." Misalnya, adalah
umum untuk menggunakan nilai tes untuk menentukan
kemahiran (misalnya menilai siswa sebagai kebutuhan perbaikan,
mahir, maju). Ketika label ini digunakan, validitas adalah
penilaian tentang apakah penunjukan itu akurat. Artinya, apakah
siswa yang diberi label “mahir” benar-benar mahir? Ketika
interpretasinya akurat, dengan sedikit noise, Anda akan memiliki
validitas yang baik dan mendapatkan sinyal yang jelas.

Anda mungkin memiliki atau akan menemukan definisi
validitas yang agak berbeda, seperti “sejauh mana tes mengukur
apa yang seharusnya diukur.” Meskipun gagasan ini penting
untuk banyak keputusan dan penggunaan, hal ini menunjukkan
bahwa validitas adalah karakteristik yang selalu dimiliki oleh tes

175

atau instrumen. Pada kenyataannya, tes atau instrumen yang sama
dapat valid untuk satu tujuan dan tidak valid untuk tujuan lain.
Sebenarnya, validitas selalu masalah derajat, tergantung pada
situasinya. Misalnya, tes IPS mungkin memiliki validitas yang
tinggi untuk menyimpulkan bahwa siswa mengetahui urutan
peristiwa menjelang Revolusi Amerika, kurang valid untuk
menyimpulkan bahwa siswa dapat bernalar, bahkan kurang valid
untuk menyimpulkan bahwa siswa dapat berkomunikasi secara
efektif secara tertulis, dan hampir tidak ada validitas untuk
menunjukkan kemampuan matematika siswa. Sebuah penilaian
tidak hanya valid atau tidak valid; itu valid sampai tingkat tertentu
sehubungan dengan kesimpulan, penggunaan, atau konsekuensi
tertentu.

Untuk penilaian kelas salah satu konsekuensi penting yang
perlu dipertimbangkan untuk validitas adalah dampak penilaian
terhadap pembelajaran siswa. Artinya, Anda perlu memikirkan
apakah penilaian tersebut masuk akal dalam pengaruhnya
terhadap motivasi dan pembelajaran siswa dalam konteks di mana
Anda mengajar. Dalam pengertian ini, validitas adalah apa yang
memiliki makna dan nilai dalam situasi spesifik Anda. Karena ini
adalah masalah lokal, maka, Anda perlu mempertimbangkan
perspektif unik siswa, orang tua, dan pemangku kepentingan
lainnya.

Ada berbagai pendapat mengenai validitas untuk instrumen
yang digunakan pengukuran, baik di bidang pendidikan maupun
psikologi. Menurut American Educational Research Association,
American Psychological Association, and National Council on
Measurement in Education (AERA, APA, and NCME) dalam
Standards for Educational and Psychological Testing, validitas
merujuk pada derajat dari fakta dan teori yang mendukung
interpretasi skor tes, dan merupakan pertimbangan paling penting
dalam pengembangan tes. Ahli lain mengemukakan bahwa

176

validitas suatu alat ukur adalah sejauhmana alat ukur itu mampu
mengukur apa yang seharusnya diukur.

Sementara itu, Miller et al. (2013) menjelaskan validitas
mengacu pada kecukupan dan kelayakan interpretasi yang dibuat
dari penilaian, berkenaan dengan penggunaan khusus. Pendapat
ini diperkuat oleh Messick (1989) bahwa validitas merupakan
kebijakan evaluatif yang terintegrasi tentang sejauhmana fakta
empiris dan alasan teoretis mendukung kecukupan dan
kesesuaian inferensi dan tindakan berdasarkan skor tes atau skor
suatu instrumen. Berdasarkan beberapa pendapat tersebut, dapat
disimpulkan bahwa validitas akan menunjukkan dukungan fakta
empiris dan alasan teoretis terhadap terhadap interpretasi skor tes
atau skor suatu instrumen, dan terkait dengan kecermatan
pengukuran (Mardapi, 2012).

Validitas itu dapat dikelompokkan menjadi tiga tipe, yaitu:
(1) validitas kriteria (criterion-related), (2) validitas isi, dan (3)
validitas konstruk (Tiurma & Retnawati, 2014). Validitas ini
dapat diketahui melalui fakta keberadaaan validitas. Sumber fakta
validitas dapat dikelompokkan menjadi isi tes, proses respons,
struktur internal, hubungan dengan variabel lain, dan konsekuensi
dari pelaksanaan tes (Heri Retnawati, 2016a, 2016b). Keberadaan
validitas dari suatu perangkat tes ini dapat diketahui melalui
analisis isi tes dan analisis empiris dari skor tes data respons butir.

Validitas berdasarkan kriteria dibedakan menjadi dua, yaitu
validitas prediktif dan validitas konkuren. Fernandes (1984)
mengatakan validitas berdasarkan kriteria dimaksudkan untuk
menjawab pertanyaan sejauh mana tes memprediksi kemampuan
peserta di masa mendatang (predictive validity) atau
mengestimasi kemampuan dengan alat ukur lain dengan tenggang
waktu yang hampir bersamaan (concurrent validity) (Heri
Retnawati, 2016a). Hal senada juga disampaikan oleh Lawrence
(1994) yang mengatakan bahwa tes dikatakan memiliki validitas

177

prediktif bila tes itu mampu memprediksikan kemampuan yang
akan datang (Heri Retnawati, 2013). Dalam analisis validitas
prediktif, performansi yang hendak diprediksikan disebut dengan
kriteria. Besar kecilnya harga estimasi validitas prediktif suatu
instrumen digambarkan dengan koefisien korelasi antara
prediktor dengan kriteria tersebut.

Validitas isi suatu instrumen adalah sejauhmana butir-butir
dalam instrumen itu mewakili komponen-komponen dalam
keseluruhan kawasan isi objek yang hendak diukur dan sejauh
mana butir-butir itu mencerminkan ciri perilaku yang hendak
diukur. Sementara itu Lawrence (1994) menjelaskan bahwa
validitas isi itu keterwakilan pertanyaan terhadap kemampuan
khusus yang harus diukur (Azwar, 2012). Berdasarkan hal ini,
dapat disimpulkan bahwa validitas isi terkait dengan analisis
rasional terhadap domain yang hendak diukur untuk mengetahui
keterwakilan instrumen dengan kemampuan yang hendak diukur.

Validitas konstruk adalah validitas yang menunjukkan
sejauhmana instrumen mengungkap suatu kemampuan atau
konstruk teoretis tertentu yang hendak diukurnya. Prosedur
validasi konstruk diawali dari suatu identifikasi dan batasan
mengenai variabel yang hendak diukur dan dinyatakan dalam
bentuk konstruk logis berdasarkan teori mengenai variabel
tersebut. Dari teori ini ditarik suatu konskuensi praktis mengenai
hasil pengukuran pada kondisi tertentu, dan konskuensi inilah
yang akan diuji. Apabila hasilnya sesuai dengan harapan maka
instrumen itu dianggap memiliki validitas konstruk yang baik.

Pada tes prestasi belajar, validitas merupakan syarat yang
sangat diperlukan dalam pengembangan tes. Menurut pendapat
Sireci yang didukung Lissitz & Samuelsen (2007), validasi tes
yang dipergunakan dalam dunia pendidikan sebaiknya
melibatkan analisis isi tes dan analisis empiris dari skor tes dan
data respons terhadap butir oleh peserta tes (Azwar, 2012).

178

Analisis isi tes terkait dengan validitas isi yang selanjutnya
diperlukan juga analisis empiris untuk mengetahui validitas
konstruk. Kedua analisis ini dimaksudkan agar tes di dunia
pendidikan memenuhi syarat tes yang standar.
2.1. Membuktikan Validitas Isi Instrumen

Validitas isi ditentukan menggunakan kesepakatan ahli.
Kesepakatan ahli bidang studi atau sering disebut dengan domain
yang diukur menentukan tingkatan validitas isi (content related).
Hal ini dikarenakan instrumen pengukuran, misalnya berupa tes
atau angket dibuktikan valid jika ahli (expert) meyakini bahwa
bahwa instrumen tersebut mengukur penguasaan kemampuan
yang didefinisikan dalam domain ataupun juga konstruk
psikologi yang diukur. Untuk mengetahui kesepakatan ini, dapat
digunakan indeks validitas, diantaranya dengan indeks yang
diusulkan oleh Aiken. Indeks validitas butir yang diusulkan
Aiken ini dirumuskan sebagai berikut:


= ( − 1)
dengan V adalah indeks kesepakatan rater mengenai validitas
butir; s skor yang ditetapkan setiap rater dikurangi skor terendah
dalam kategori yang dipakai (s = r – lo, dengan r = skor kategori
pilihan rater dan lo skor terendah dalam kategori penyekoran); n
banyaknya rater; dan c banyaknya kategori yang dapat dipilih
rater.
Berdasarkan pendapat tersebut, indeks Aiken V merupakan
indeks kesepakatan rater terhadap kesesuaian butir (atau sesuai
tidaknya butir) dengan indikator yang ingin diukur menggunakan
butir tersebut. Jika diterapkan untuk instrument pengukuran,
menurut seorang rater maka n dapat diganti dengan m (banyaknya
butir dalam satu instrumen). Indeks V ini nilainya berkisar
diantara 0-1. Dari hasil perhitungan indeks V, suatu butir atau

179

perangkat dapat dikategorikan berdasarkan indeknya. Jika
indeksnya kurang atau sama dengan 0,4 dikatakan validitasnya
kurang, 0,4-0,8 dikatakan validitasnya sedang, dan jika lebih
besar dari 0,8 dikatakan sangat valid.

Cara lain membuktikan validitas isi dengan kesepakatan
ahli adalah dengan menggunakan indeks kesepakatan ahli yang
disarankan oleh Gregory (Heri Retnawati, 2016a). Indeks ini juga
berkisar diantara 0-1. Dengan membuat tabel kontingensi pada
dua ahli, dengan kategori pertama tidak relevan dan kurang
relevan menjadi kategori relevansi lemah, dan kategori kedua
untuk yang cukup relevan dan sangat relevan yang dibuat kategori
baru relevansi kuat. Indeks kesepakatan ahli untuk validitas isi
merupakan perbandingan banyaknya butir dari kedua ahli dengan
kategori relevansi kuat dengan keseluruhan butir.

Ada hal lain yang perlu diperhatikan terkait dengan
validitas isi. Keterwakilan indikator dari domain yang akan
diukur benar-benar perlu menjadi perhatian. Beberapa ahli
menggolongkan hal ini sebagai validitas logis. Kebenaran konsep
yang dinyatakan dalam instrumen merupakan hal yang dapat
dijadikan kriteria dan bahan pertimbangan untuk mengisi skor
dalam format penilaian. Jika instrumen berbentuk pilihan ganda,
maka keberadaan kunci jawaban, keberfungsian distraktor,
format penulisan, keterbacaan butir,dan juga berfungsinya
gambar atau tabel juga dapat dijadikan pertimbangan. Beberapa
ahli mengategorikan ini sebagai validitas kenampakan (face
validity).
2.2. Membuktikan Validitas Konstruk

Cara kedua pembuktian validitas interpretasi skor hasil
pengukuran adalah dengan membuktikan kebermaknaan skor
hasil pengukuran (meaningfulness). Cara ini oleh Popham (2002)
disamakan dengan pembuktian construct related validity.

180

Proses pembuktiannya dapat dilakukan dengan membuktikan
bahwa konstruk instrumen memang ada (exists) dan kemudian
dibuktikan hasil pengukurannya secara empiris. Pendapat
tersebut juga didukung Kumaidi (2013). Pendekatan yang dipilih
berupa pembuktian bahwa konstruk yang dihipotesiskan dapat
dikonfirmasi keberadaannya. Analisis yang banyak digunakan
antara lain dengan analisis faktor eksploratori (exploratory factor
analysis, EFA) maupun konfirmatori (confirmatory factor
analysis, CFA).

Dalam suatu penelitian, biasanya digunakan instrument
yang melibatkan butir-butir yang banyak. Untuk memahami data
seperti ini, biasanya digunakan analisis faktor. Analisis faktor
digunakan untuk mereduksi data, dengan menemukan hubungan
antar variabel yang saling bebas, yang kemudian terkumpul
dalam variable yang jumlahnya lebih sedikit untuk mengetahui
struktur dimensi laten, yang disebut dengan faktor. Faktor ini
merupakan variable yang baru, yang disebut juga dengan variable
latent, variable konstruk dan memiliki sifat tidak dapat diketahui
langsung (unobservable). Analisis faktor dapat dilakukan dengan
dua cara, yakni analisis faktor eksploratori (eksploratory factor
analysis) dan analisis faktor confirmatory (confirmatory faktor
analysis).

Analisis faktor eksploratori merupakan suatu teknik untuk
mendeteksi dan mengases sumber laten dari variasi atau kovariasi
dalam suatu pengukuran. Analisis faktor eksploratori bersifat
mengeksplor data empiris untuk menemukan dan mendeteksi
karakteristik dan hubungan antar variable tanpa menentukan
model pada data. Pada analisis ini, peneliti tidak memiliki teori a
priori untuk menyusun hipotesis. Mengingat sifatnya yang
ekplorasi inilah, hasil analisis faktor eksploratori ini lemah. Hasil
analisis, yang menjelaskan hubungan antar variable semata, juga
tidak didasarkan pada teori yang ada. Hasil analisis juga hanya

181

tergantung data empiris, dan jika variable terobservasinya
banyak, hasil analisis akan sulit dimaknai. Biasanya analisis
faktor terkait erat dengan pertanyaan tentang validitas. Ketika
faktor-faktor teridentifikasi dihubungkan, analisis faktor
eksploratori menjawab pertanyaan tenang validitas konstruk,
apakah suatu skor mengukur apa yang seharusnya diukur.

Ada beberapa kritik ang terkait dengan analisis faktor
ekploratori. Menurut Mulaik, untuk memperoleh pengetahuan,
yang perlu dilakukan terlebih dahulu adalah membuat asumsi
prior. Pada analisis faktor ekploratori, hubungan kausal
diasumsikan linear. Kenyataannya, tidak semua variabel bersifat
linear. Proses penemuan struktur faktor, semata-mata dilakukan
secara mekanik dengan metode tertentu dan dengan rotasi.

Berbeda dengan analisis faktor eksploratori, analisis faktor
konfirmatori digunakan untuk menguji model yang telah
diasumsikan untuk dideskripsikan, dijelaskan untuk model data
empiris dengan menggunakan parameter yang lebih sedikit
dibandingkan dengan variable terobservasi. Model yang
dibangun didasarkan pada informasi a priori tentang struktur data
dalam bentuk teori khusus atau hipotesis. Teori khusus atau
hipotesis yang dibangun didasarkan pada teori yang telah ada atau
hasil penelitian sebelumnya.

EFA digunakan ketika model pengukuran dari konstruk
instrumen masih dicari ataupun dilakukan eksplorasi. Namun
pada CFA, ketika model pengukuran telah ada teorinya, konstruk
instumen tersebut tinggal dibuktikan atau dikonfirmasi. Pada
CFA, membuktikan validitas konstruk ini khususnya
menggunakan model pengukuran (measurement model). Menurut
Khumaidi, (2014) analisis dapat dilakukan dengan first order
CFA, dan jika belum konklusif perlu dilakukan second order
analysis.

182

2.3. Membuktikan Validitas Kriteria

Membuktikan validitas kriteria merupakan cara ketiga
dalam membuktikan validitas. Validitas ini dibuktikan dengan
melihat kebermanfaatan dari interpretasi skor hasil pengukuran
(usefulness). Pendekatan yang dipakai dapat dalam bentuk
criterion-related validation (Popham, 2002). Pada pembuktian
validitas dengan cara ini, diperlukan skor hasil pengukuran
menggunakan instrumen lain yang lebih terstandar. Misalnya
ketika membuktikan validitas tes bahasa Inggris, digunakan tes
bahasa Inggris yang lebih terstandar sebagai kriterianya, misalnya
TOEFL atau IELTS yang telah diakui di seluruh dunia.
Pendekatan analisisnya sering menggunakan yakni analisis
dengan korelasi, misalnya korelasi product-moment. Jika kriteria
yang telah ada saat skor penilaian diperoleh atau rentang waktu
perolehan kedua data tidak terlalu lama, maka validasinya bersifat
konkuren sehingga sering disebut dengan concurrent validity.
Jika kriteria keberhasilan ditunggu beberapa lama, misalnya
kurun waktu tertentu, maka validasinya bersifat prediktif,
sehingga sering disebut dengan predictive validity. Pendekatan
korelasi ini perlu dikoreksi terlebih dahulu, yang dalam
psikometri disebut rumus “correction for attenuation” (Allen &
Yen, 2001). Koreksi atenuasi merupakan koreksi terhadap
ketidakreliabelan pengukuran konstruk dan kriterianya.

Validitas kriteria diketahui dengan mengestimasi korelasi
skor tes peserta dengan skor kriteria. Korelasi ini disebut dengan
koefisien validitas, yang menyatakan derajat hubungan antara
prediktor dengan kriteria. Salah satu manfaat dengan adanya
validitas kriteria yakni dapat memprediksikan suatu skor
kemampuan ke skor kriteria dalam rangka memprediksikan
kemampuan atau performen peserta tes. Prediksi ini dilakukan
melalui persamaan regresi.

183

3. Praktek Pembuktian Validitas Instrumen yang Keliru

Di masyarakat ilmiah, seperti pada laporan penelitian,
skripsi, maupun tesis, ada beberapa praktek pembuktian validitas
yang belum memenuhi definisi validitas yang telah dipaparkan
sebelumnya. Kumaidi (2014) menyatakan bahwa banyak praktik
pembuktian validitas yang dilakukan oleh mahasiswa atau
peneliti yang sebenarnya belum memenuhi definisi validitas (Heri
Retnawati, 2016a). Pendekatan ini tentu perlu dipertanyakan dan
sebaiknya ditinggalkan dan dihindari. Pendekatan yang harus
dihindari yang dimaksudkan adalah pembuktian validitas yang
didasarkan pada analisis butir (item analysis), terutama
pemakaian koefisien korelasi skor butir dan skor total tes (rix).

Berdasarkan pernyataan tersebut, membuktikan validita
butir dengan menghitung korelasi butir dengan total perlu
dihindari. Lebih lanjut Kumaidi (2004) menguraikan
ketidaktepatan pemakaian korelasi product-moment (rix) ini
sebagai indeks validitas butir sebagai sebuah kekeliruan dan perlu
dihindari (Heri Retnawati, 2016a). Alasan yang dikemukakan rix
hanya merupakan (1) indeks daya beda butir; (2) bagian dari
indeks reliabilitas butir; dan (3) homogenitas item (dalam satu set
tes atau instrumen). Alasan rix dipakai sebagai indeks validitas
dengan menggunakan internal criterion dikarenakan kesulitan
menemukan external criterion tidak dapat diterima, karena
dengan menggunakan internal criterion rix lebih dekat ke analisis
reliabilitas dibanding kepada analisis validitas.

Terkait dengan pernyataan-pernyataan tersebut, kesalahan
pembuktian validitas yang sering terjadi di dunia akademis
maupun penelitian pada umumnya adalah membuktikan validitas
dengan menghitung korelasi butir dengan total. Demikian pula
halnya dengan istilah, yang sering digunakan yakni menguji
validitas. Seharusnya, berdasarkan pendapat ahli, terminologi

184

yang betul adalah membuktikan validitas, bukan menguji
validitas. Adapun caranya, pembuktian validitas yang sesuai
dengan definisi validitas, perlu digarisbawahi terbuktinya
validitas isi, konstruk, dan kriteria. Dalam suatu penelitian,
validitas isi dapat dibuktikan melalui ahli yang menilai relevansi
tiap butir instrumen kemudian hasil penilaian ini digunakan untuk
menghitung indeks kesepakatan ahli dengan indeks Aiken atau
indeks Gregory. Validitas konstruk dapat dibuktikan dengan
analisis faktor, baik eksploratori maupun konfirmatori. Validitas
kriteria dapat dibuktikan dengan mengetahui besarnya korelasi
antara skor responden yang diperoleh dengan instrumen tersebut
terhadap skor yang dianggap sebagai kriteria.

4. Reliabilitas Instrumen

Seperti validitas, istilah reliabilitas telah digunakan selama
bertahun-tahun untuk menggambarkan karakteristik penting dari
penilaian suara. Untuk penilaian kelas, yang sekarang disebut
reliabilitas/presisi berkaitan dengan sejauh mana skor bebas dari
kesalahan (noise). Misalkan Bu Calder sedang menilai
keterampilan penjumlahan dan pengurangan murid-muridnya.
Dia memutuskan untuk memberikan siswa kuis 20 poin untuk
menentukan keterampilan mereka. Ibu Calder memeriksa hasil
tetapi ingin memastikan tentang tingkat kinerja sebelum
merancang instruksi yang sesuai, jadi dia memberikan kuis lain 2
hari kemudian pada keterampilan penambahan dan pengurangan
yang sama. Hasil untuk beberapa muridnya adalah sebagai
berikut:

Siswa Penjumlahan Pengurangan
Kuis 1 Kuis 2 Kuis 1 Kuis 2

Robi 18 16 13 20

185

Siswa Penjumlahan Pengurangan
Kuis 1 Kuis 2 Kuis 1 Kuis 2
Dani
Susi 10 12 18 10
Kevin 98 8 14
16 15 17 12

Skor kuis penjumlahan cukup konsisten (konsistensi sering
digunakan sebagai deskriptor reliabilitas/presisi). Keempat siswa
mendapat skor dalam satu atau dua poin pada kuis; siswa yang
mendapat nilai tinggi pada kuis pertama juga mendapat nilai
tinggi pada kuis kedua, dan siswa yang mendapat nilai rendah
melakukannya pada kedua kuis. Akibatnya, hasil untuk
penambahan dapat diandalkan. Untuk pengurangan, di sisi lain,
ada perubahan yang cukup besar dalam kinerja dari kuis pertama
ke kuis kedua. Siswa yang mendapat skor tinggi pada kuis
pertama mendapat skor rendah pada kuis kedua, dan siswa yang
mendapat skor rendah pada kuis pertama mendapat skor tinggi
pada kuis kedua. Untuk pengurangan, hasilnya tidak dapat
diandalkan karena tidak konsisten. Skor tersebut saling
bertentangan.

Jadi, apa pendapat Bu Calder tentang nilai matematika?
Tujuannya adalah menggunakan kuis untuk secara akurat
menentukan keterampilan yang ditentukan. Dia tidak dapat
mengetahui tingkat keterampilan yang tepat, tetapi, seperti dalam
kasus penambahan, dia bisa mendapatkan gambaran yang cukup
akurat dengan penilaian yang dapat diandalkan. Untuk
pengurangan, di sisi lain, dia tidak dapat menggunakan hasil ini
sendiri untuk memperkirakan keterampilan nyata atau aktual

186

siswa. Lebih banyak penilaian diperlukan sebelum dia dapat
yakin bahwa skornya dapat diandalkan dan dengan demikian
memberikan hasil yang dapat diandalkan. Tetapi bahkan skor
sebagai tambahan bukannya tanpa beberapa tingkat kesalahan.
Faktanya, semua penilaian memiliki kesalahan; mereka tidak
pernah menjadi ukuran yang sempurna dari sifat atau
keterampilan. Mari kita lihat contoh lain untuk mengilustrasikan
hal ini.

Pikirkan tentang perbedaan antara ukuran sikap terhadap
sains dan waktu yang dibutuhkan untuk berlari satu mil. Ukuran
sikap akan memiliki tingkat kesalahan yang relatif tinggi, tetapi
ukuran waktu akan tepat dengan sedikit kesalahan (sangat andal).
Hal ini karena ada lebih banyak pengaruh pada bagaimana siswa
menjawab pertanyaan tentang sikap mereka (seperti suasana hati
siswa hari itu, panas di dalam ruangan, item dengan kata-kata
yang buruk, dan kelelahan) daripada pada kemampuan pencatat
waktu untuk menekan stopwatch dan membaca waktu yang telah
berlalu. Ini bukan untuk mengatakan bahwa ukuran waktu tanpa
kesalahan. Hanya saja mengukur waktu akan memiliki kesalahan
yang jauh lebih sedikit daripada mengukur sikap.

Pada suatu instrumen yang digunakan untuk
mengumpulkan data, reliabilitas skor hasil tes merupakan
informasi yang diperlukan dalam pengembangan tes. Reliabilitas
merupakan derajat keajegan (consistency) di antara dua skor hasil
pengukuran pada objek yang sama, meskipun menggunakan alat
pengukur yang berbeda dan skala yang berbeda (Azwar, 2012).
Dalam kaitannya dengan penilaian pendidikan, prestasi atau
kemampuan seorang siswa dikatakan reliabel jika dilakukan
pengukuran, hasil pengukuran akan sama informasinya,
walaupun penguji berbeda, korektornya berbeda atau butir soal
yang berbeda tetapi memiliki karakteristik yang sama.

187

Allen & Yen (2001) menyatakan bahwa tes dikatakan
reliabel jika skor amatan mempunyai korelasi yang tinggi dengan
skor yang sebenarnya. Selanjutnya dinyatakan bahwa reliabilitas
merupakan koefisien korelasi antara dua skor amatan yang
diperoleh dari hasil pengukuran menggunakan tes yang paralel.
Dengan demikian, pengertian yang dapat diperoleh dari
pernyatan tersebut adalah suatu tes itu reliabel jika hasil
pengukuran mendekati keadaan peserta tes yang sebenarnya.

Dalam pendidikan, pengukuran tidak dapat langsung
dilakukan pada ciri atau karakter yang akan diukur. Ciri atau
karakter ini bersifat abstrak, yang dapat diukur melalui suatu
indikator. Hal ini menyebabkan sulitnya memperoleh alat ukur
yang stabil untuk mengukur karakteristik seseorang. Kestabilan
ini yang dikatakan sebagai reliabilitas. Untuk melihat reliabilitas
suatu alat ukur, yang berupa suatu nilai, dapat dilakukan
perhitungan statistik. Nilai ini biasa dinamakan dengan koefisien
reliabilitas (reliability coefficient).

Koefisien reliabilitas dapat diartikan sebagai koefisien
keajegan atau kestabilan hasil pengukuran. Alat ukur yang
reliabel akan memberikan hasil pengukuran yang stabil dan
konsisten. Artinya suatu alat ukur dikatakan memiliki koefisien
reliabilitas tinggi manakala digunakan untuk mengukur hal yang
sama pada waktu berbeda hasilnya sama atau mendekati sama.
Dalam hal ini, reliabilitas merupakan sifat dari sekumpulan skor.
Dalam kaitannya dengan dunia pendidikan, dengan alat ukur yang
reliabel, hasil pengukuran akan sama informasinya walaupun
penguji berbeda, korektornya berbeda atau butir soal yang
berbeda tetapi mengukur hal yang sama dan memiliki
karakteristik butir yang sama.

Allen & Yen (2001) menyatakan bahwa tes dikatakan
reliabel jika skor amatan mempunyai korelasi yang tinggi dengan
skor yang sebenarnya. Selanjutnya dinyatakan bahwa koefisien

188

reliabilitas merupakan koefisien korelasi antara dua skor amatan
yang diperoleh dari hasil pengukuran menggunakan tes yang
paralel. Dengan demikian, pengertian yang dapat diperoleh dari
pernyatan tersebut adalah suatu tes itu reliabel jika hasil
pengukuran mendekati keadaan peserta tes yang sebenarnya.

Reliabilitas ( ) suatu tes pada umumnya diekspresikan
secara numerik dalam bentuk koefisien yang besarnya -1,00 ≤
≤ +1,00. Koefisien tinggi menunjukkan reliabilitas tinggi.
Sebaliknya, jika koefisien suatu skor tes rendah maka reliabilitas
tes rendah. Jika suatu reliabilitas sempurna, berarti koefisien
reliabilitas tersebut +1,00. Harapannya, koefisien reliabilitas
bersifat positif.

Reliabilitas terkait pula dengan kesalahan pengukuran.
Reliabilitas tinggi menunjukkan kesalahan yang kecil dalam
memeroleh hasil pengukuran. Semakin besar reabilitas suatu
instrumen, akan semakin kecil kesalahan pengukuran, demikian
pula sebaliknya, semakin kecil reliabilitas skor, akan semakin
besar hasil pengukurannya. Kesalahan pengukuran dapat
disebabkan oleh beberapa faktor, diantaranya karakteristik
instrumen yang digunakan sendiri, misalnya penyusunan dan
pelaksanaan pengukuran yang tidak mengikuti aturan baku,
kualitas butir dalam instrumen tidak baik, adanya kerjasama
selama melaksanakan tes atau mengisi instrumen, butir-butir
instrumen yang meragukan, keadaan peserta selama merespons
instrumen, seperti peserta yang sedang lelah baik fisik maupun
psikis, mempunyai problem pribadi, peserta yang mempunyai
motivasi kurang, lingkungan tempat penyelenggaraan
pengukuran yang kurang mendukung atau kombinasi dari segala
permasalahan tersebut.

Allen & Yen (2001) menyatakan bahwa meskipun tidak ada
perjanjian secara umum, tetapi secara luas dapat diterima bahwa
untuk tes yang digunakan untuk membuat keputusan pada siswa

189


Click to View FlipBook Version