No. Waktu Nama Kejadian/Perilaku Butir Pos/Neg
Sikap +
+
Menolong seorang -
+
1 11/06/2020 Rahmi lanjut usia Peduli
menyeberang jalan -
di depan sekolah
Menjadi pemimpin Percaya
2 12/06/2020 Budiman upacara HUT RI di diri
sekolah
Terlambat
3 13/06/2020 Abdullah mengikuti upacara Disiplin
bendera di
sekolah
Mengakui
4 14/06/2020 Adi pekerjaan rumahnya Jujur
dikerjakan oleh
kakaknya
Tidak
menyerahkan surat
izin tidak Tanggung
5 15/06/2020 Markus masuk sekolah dari jawab
orang tuanya
6 16/06/2020 Dewi Memungut sampah Peduli +
yang berserakan di lingkungan +
halaman sekolah
Mengkoordinir
teman teman
7 17/06/2020 Muchlis sekelasnya Peduli
mengumpulkan ban
tuan untuk korban
140
No. Waktu Nama Kejadian/Perilaku Butir Pos/Neg
Sikap +
8 18/06/2020 Ahmad bencana alam
9 19/06/2020 Dst... Toleransi
Menerima kritik
dan saran dari
temannya saat
diskusi kelompok
b. Penilaian Diri
Instrumen yang digunakan untuk penilaian diri berupa
lembar penilaian diri yang dirumuskan secara sederhana, namun
jelas dan tidak bermakna ganda, dengan bahasa lugas yang dapat
dipahami peserta didik, dan menggunakan format sederhana
yang mudah diisi peserta didik. Lembar penilaian diri dibuat
sedemikian rupa sehingga dapat menunjukkan sikap peserta didik
dalam situasi yang nyata/sebenarnya, bermakna,
dan mengarahkan peserta didik untuk mengidentifikasi kekuatan
atau kele mahannya. Hal ini untuk menghilangkan
kecenderungan peserta didik menilai dirinya secara subjektif.
Penilaian diri oleh peserta didik dilakukan melalui langkah-
langkah sebagai berikut.
Lembar Penilaian Diri
Sikap Spritual
Nama : ...................
Kelas : ...................
Semester : ...................
Petunjuk:
1. Bacalah pernyataan yang ada di dalam kolom dengan teliti.
2. Berilah tanda cek ( √ ) pada kolom TP (Tidak Pernah), KD
(Kadangkadang), SR (Sering), atau SL (Selalu) sesuai
dengan kondisi dan keadaan dirimu yang sebenarnya.
141
No. Pernyataan TP KD SR SL
1 Saya berdoa sebelum dan
sesudah melakukan kegiatan
pembelajaran.
2 Saya menjalankan ibadah sesuai
dengan ajaran agama.
3 Saya memberi salam pada saat
awal dan akhir kegiatan.
4 Saya mengucap syukur atas
nikmat dan karunia Tuhan Yang
Maha Esa.
5 Saya mengucap syukur karena
mampu mengendalikan diri.
6 Saya mengucap syukur ketika
berhasil mengerjakan sesuatu.
7 Saya berserah diri (tawakal)
kepada Tuhan setelah berikhtiar
atau melakukan usaha.
8 Saya menjaga lingkungan hidup
di sekitar sekolah.
9 Saya memelihara hubungan baik
dengan sesama umat ciptaan
Tuhan Yang Maha Esa.
10 Saya mengucap syukur kepada
Tuhan Yang Maha Esa menjadi
bagian dari bangsa Indonesia.
11 Saya menghormati orang lain
yang menjalankan ibadah sesuai
dengan agamanya.
142
Lembar Penilaian Diri
Sikap Sosial
Nama : ...................
Kelas : ...................
Semester : ...................
Petunjuk:
3. Bacalah pernyataan yang ada di dalam kolom dengan teliti.
4. Berilah tanda cek ( √ ) pada kolom TP (Tidak Pernah), KD
(Kadangkadang), SR (Sering), atau SL (Selalu) sesuai
dengan kondisi dan keadaan dirimu yang sebenarnya.
No. Pernyataan TP KD SR SL
1 Saya menyontek dalam
mengerjakan ujian
2 Saya tidak plagiat
(mengambil/menyalin karya
orang lain tanpa menyebutkan
sumber)
3 Saya mengungkapkan perasaan
apa adanya
4 Saya menyerahkan kepada yang
berwenang barang yang
ditemukan
5 Saya membuat laporan
berdasarkan data atau informasi
apa adanya
6 Saya mengakui kesalahan atau
kekurangan yang dimiliki
7 Saya datang ke sekolah tepat
waktu
143
No. Pernyataan TP KD SR SL
8 Saya mematuhi tata tertib atau
aturan bersama/ aturan sekolah
9 Saya
mengerjakan/mengumpulkan
tugas sesuai dengan waktu yang
ditentukan dan mengikuti
kaidah bahasa tulis yang baik
dan benar
10 Saya membawa buku teks tidak
sesuai mata pelajaran
11 Saya mengikuti kegiatan praktik
sesuai dengan langkah yang
ditetapkan
12 Saya melaksanakan tugas
individu dengan baik
13 Saya menerima resiko dari
tindakan yang dilakukan
14 Saya tidak
menyalahkan/menuduh orang
lain tanpa bukti yang akurat
15 Saya mengembalikan barang
yang dipinjam dalam keadaan
baik seperti semula
16 Saya mengakui dan meminta
maaf atas kesalahan yang
dilakukan
17 Saya tidak menepati janji
144
No. Pernyataan TP KD SR SL
18 Saya menyalahkan orang lain
atas kesalahan tindakan yang
saya perbuat
19 Saya melaksanakan apa yang
pernah dikatakan tanpa
disuruh/diminta
20 Saya menerima kesepakatan
meskipun berbeda dengan
pendapatnya
21 Saya tidak dapat menerima
kekurangan orang lain
22 Saya tidak dapat memaafkan
kesalahan orang lain
23 Saya mau dan mampu bekerja
sama dengan siapapun yang
memiliki keberagaman latar
belakang, pandangan/pendapat,
dan keyakinan
24 Saya tidak memaksakan
pendapat atau keyakinan diri
pada orang lain
25 Saya bersedia untuk belajar dari
(terbuka terhadap) gagasan
orang lain agar dapat
memahami orang lain dengan
lebih baik
26 Saya terbuka atau kesediaan
untuk menerima sesuatu yang
baru
145
Tabel 14. Contoh Lembar Penilaian Diri
Sikap Sosial
Nama : ...................
Kelas : ...................
Semester : ...................
Petunjuk:
1. Bacalah pernyataan yang ada di dalam kolom dengan teliti.
2. Berilah tanda cek ( √ ) pada kolom “Ya” atau “Tidak” sesuai
dengan kondisi dan keadaan dirimu yang sebenarnya.
No. Pernyataan Ya Tidak
1 Saya terlibat aktif dalam kerja
bakti membersihkan kelas atau
sekolah
2 Saya bersedia melaksanakan tugas
sesuai kesepakatan
3 Saya bersedia membantu orang
lain tanpa mengharap imbalan
4 Saya aktif dalam kerja kelompok
5 Saya memusatkan perhatian pada
tujuan kelompok
6 Saya tidak mendahulukan
kepentingan pribadi
7 Saya mencari jalan untuk
mengatasi perbedaan pendapat/
pikiran antara diri sendiri dengan
orang lain
146
No. Pernyataan Ya Tidak
147
8 Saya mendorong orang lain untuk
bekerja sama demi mencapai
tujuan bersama
9 Saya menghormati orang yang
lebih tua
10 Saya tidak berkata-kata kasar dan
takabur
11 Saya tidak meludah disembarang
tempat
12 Saya tidak menyela pembicaraan
pada waktu yang tidak tepat
13 Saya mengucapkan terima kasih
setelah menerima bantuan orang
lain
14 Saya bersikap 3S (salam, senyum,
sapa)
15 Saya meminta izin ketika akan
memasuki ruangan orang lain atau
menggunakan barang milik orang
lain
16 Saya memperlakukan orang lain
sebagaimana diri sendiri ingin
diperlakukan
17 Saya berpendapat atau melakukan
kegiatan tanpa raguragu
18 Saya mampu membuat keputusan
dengan cepat dan tepat
19 Saya tidak mudah putus asa
No. Pernyataan Ya Tidak
20 Saya tidak canggung dalam
bertindak
21 Saya berani presentasi di depan
kelas
22 Saya berani berpendapat,
bertanya, dan menjawab
pertanyaan
c. Penilaian Antarteman
Penilaian antarteman paling baik dilakukan pada saat siswa
melakukan kegiatan kelompok, misalnya setiap peserta didik
diminta mengamati dan menilai dua orang temannya, dan dirinya
juga dinilai oleh dua orang teman lainnya dalam kelompoknya.
Sama halnya dengan penilaian diri, hasil penilaian antateman
dapat digunakan sebagai data konfirmasi. Selain itu penilaian
antarteman juga dapat digunakan untuk menumbuhkan beberapa
nilai seperti kejujuran, tenggang rasa, apresiasi, dan objektivitas.
Instrumen yang digunakan berupa daftar cek (checklist).
Penilaian antarteman paling tepat dilakukan pada saat peserta
didik melakukan kegiatan berkelompok. Berikut merupakan
contoh instrumen penilaian antarteman dalam kegiatan
kelompok.
Tabel 15. Contoh Instrumen Penilaian Antarteman Model
1
Nama Teman yang Dinilai : ...................
Nama Penilai : ...................
Kelas : ...................
Semester : ...................
148
Petunjuk:
1. Bacalah pernyataan yang ada di dalam kolom dengan teliti.
2. Berilah tanda cek ( √ ) pada kolom “Ya” atau “Tidak” sesuai
dengan kondisi dan keadaan dirimu yang sebenarnya.
No. Pernyataan Ya Tidak
1 Teman saya mengajukan
pertanyaan dengan sopan
2 Teman saya mengerjakan
kegiatan sesuai pembagian tugas
dalam kelompok
3 Teman saya mengemukakan ide
untuk menyelesaikan masalah
4 Teman saya memaksa kelompok
untuk menerima usulnya
5 Teman saya menyela
pembicaraan teman kelompok
6 Teman saya menjawab
pertanyaan yang diajukan teman
lain
7 Teman saya menertawakan
pendapat teman yang dianggap
aneh
8 Teman saya melaksanakan
kesepakatan kelompok meskipun
tidak sesuai dengan pendapatnya.
Selain dilaksanakan dalam kegiatan berkelompok,
penilaian antarteman juga dapat dilaksanakan untuk menilai
butir-butir sikap yang termuat sikap spiritual dan sikap sosial
149
lainnya sebagaiman tercantum dalam KI-1 dan KI-2. Butir-butir
pernyataan dalam instrumen penilaian antarteman ini juga harus
mengacu pada indikator pencapaian kompetensi pada KI-1 dan
KI-2. Selain menggunakan model respon 2 jawaban (ya atau
tidak), instrumen lembar penilaian antarteman juga dapat
menggunakan skala 4. Berikut merupakan contoh instrumen
penilaian antarteman menggunakan model respon skala 4.
Tabel 16. Contoh Instrumen Penilaian Antarteman Model
2
Nama Teman yang Dinilai : ...................
Nama Penilai : ...................
Kelas : ...................
Semester : ...................
Petunjuk:
1. Bacalah pernyataan yang ada di dalam kolom dengan teliti.
2. Berilah tanda cek ( √ ) pada kolom TP (Tidak Pernah), KD
(Kadangkadang), SR (Sering), atau SL (Selalu) sesuai
dengan kondisi dan keadaan dirimu yang sebenarnya.
No. Pernyataan TP KD SR SL
1 Teman saya menyontek dalam
mengerjakan ujian
2 Teman saya tidak plagiat
(mengambil/menyalin karya
orang lain tanpa menyebutkan
sumber)
3 Teman saya mengungkapkan
perasaan apa adanya
150
No. Pernyataan TP KD SR SL
4 Teman saya menyerahkan
kepada yang berwenang barang
yang ditemukan
5 Teman saya membuat laporan
berdasarkan data atau informasi
apa adanya
6 Teman saya mengakui
kesalahan atau kekurangan yang
dimiliki
7 Teman saya datang ke sekolah
tepat waktu
8 Teman saya mematuhi pada tata
tertib atau aturan
bersama/aturan sekolah
9 Teman saya
mengerjakan/mengumpulkan
tugas sesuai dengan waktu yang
ditentukan dan mengikuti
kaidah bahasa tulis yang baik
dan benar
10 Teman saya membawa buku
teks tidak sesuai mata pelajaran
11 Teman saya mengikuti kegiatan
praktik sesuai dengan langkah
yang ditetapkan
12 Teman saya melaksanakan
tugas individu dengan baik
151
No. Pernyataan TP KD SR SL
13 Teman saya menerima resiko
dari tindakan yang dilakukan
14 Teman saya tidak
menyalahkan/menuduh orang
lain tanpa bukti yang akurat
15 Teman saya mengembalikan
barang yang dipinjam dalam
keadaan baik seperti semula
16 Teman saya mengakui dan
meminta maaf atas kesalahan
yang dilakukan
17 Teman saya tidak menepati janji
18 Teman saya menyalahkan orang
lain atas kesalahan tindakan
yang saya perbuat
19 Teman saya melaksanakan apa
yang pernah dikatakan tanpa
disuruh/diminta
20 Teman saya menerima
kesepakatan meskipun berbeda
dengan pendapatnya
21 Teman saya tidak dapat
menerima kekurangan orang
lain
22 Teman saya tidak dapat
memaafkan kesalahan orang
lain
152
No. Pernyataan TP KD SR SL
23 Teman saya mau dan mampu
bekerja sama dengan siapapun
yang memiliki keberagaman
latar belakang,
pandangan/pendapat, dan
keyakinan
24 Teman saya tidak memaksakan
pendapat atau keyakinan diri
pada orang lain
25 Teman saya bersedia untuk
belajar dari (terbuka terhadap)
gagasan orang lain agar dapat
memahami orang lain dengan
lebih baik
26 Teman saya terbuka terhadap
atau kesediaan untuk menerima
sesuatu yang baru
27 Teman saya terlibat aktif dalam
kerja bakti membersihkan kelas
atau sekolah
28 Teman saya bersedia
melaksanakan tugas sesuai
kesepakatan
29 Teman saya bersedia membantu
orang lain tanpa mengharap
imbalan
30 Teman saya aktif dalam kerja
kelompok
153
No. Pernyataan TP KD SR SL
31 Teman saya memusatkan
perhatian pada tujuan kelompok
32 Teman saya tidak
mendahulukan kepentingan
pribadi
33 Teman saya mencari solusi
untuk mengatasi perbedaan
pendapat/pikiran antara diri
sendiri dengan orang lain
34 Teman saya mendorong orang
lain untuk bekerja sama demi
mencapai tujuan bersama
35 Teman saya menghormati orang
yang lebih tua
36 Teman saya tidak berkata-kata
kasar dan takabur
37 Teman saya tidak meludah
disembarang tempat
38 Teman saya tidak menyela
pembicaraan pada waktu yang
tidak tepat
39 Teman saya mengucapkan
terima kasih setelah menerima
bantuan orang lain
40 Teman saya bersikap 3S (salam,
senyum, sapa)
41 Teman saya meminta izin ketika
akan memasuki ruangan orang
154
No. Pernyataan TP KD SR SL
lain atau menggunakan barang
milik orang lain
42 Teman saya memperlakukan
orang lain sebagaimana diri
sendiri ingin diperlakukan
43 Teman saya berpendapat atau
melakukan kegiatan tanpa ragu-
ragu
44 Teman saya mampu membuat
keputusan dengan cepat dan
tepat
45 Teman saya tidak mudah putus
asa
46 Teman saya tidak canggung
dalam bertindak
47 Teman saya berani presentasi di
depan kelas
48 Teman saya berani berpendapat,
bertanya, dan menjawab
pertanyaan
155
2. Instrumen Asesmen Ranah Kognitif
a. Jawaban Singkat
b. Benar-Salah
156
c. Mencocokkan
d. Pilihan Ganda
157
e. Uraian
3. Instrumen Asesmen Ranah Psikomotor
3.1. Daftar Cek
Daftar cek (Checklist) digunakan untuk mengetahui
kemampuan peserta didik dalam melakukan suatu aktivitas sesuai
dengan kriteria yang telah ditentukan. Dengan menggunakan
daftar cek, peserta didik mendapat nilai bila kriteria penguasaan
kompetensi tertentu dapat diamati oleh penilai. Artinya, sebelum
melakukan penilaian unjuk kerja/kinerja/praktik dengan
menggunakan daftar cek, harus ditetapkan terlebih dahulu
aktivitasaktivitas yang harus ditunjukkan oleh peserta didik
sebagai acuan dalam menilai. Seluruh aktivitas yang menjadi
komponen penyusun suatu kompetensi harus dirinci agar
penilaian lebih akurat. Hal ini dikarenakan penilaian dengan
158
daftar cek hanya terdiri atas dua pilihan mutlak, misalnya: ya-
tidak, benar-salah, teramati-tidak teramati, terlaksana-tidak
terlaksana, dan sebagainya. Oleh karena itu, untuk menghasilkan
penilaian yang valid, maka seluruh aktivitas yang menjadi ukuran
tercapainya suatu kompetensi harus dirinci dengan baik. Bentuk
instrumen penilaian dengan menggunakan daftar cek dapat dilihat
pada Contoh 1 dan Contoh 2.
3.2. Skala Penilaian
Skala penilaian (rating scale) memiliki perbedaan
mendasar dengan daftar cek, yang mengharuskan penilai untuk
memberikan penilaian berupa ya-tidak, benar-salah, terlaksana-
tidak terlaksana, teramati-tidak teramati. Penilaian menggunakan
skala penilaian memungkinkan penilai memberi nilai tengah
terhadap penguasaan kompetensi tertentu, karena pemberian nilai
secara kontinum dimana pilihan kategori nilai lebih dari dua.
Penilaian dengan skala penilaian bukan hanya sekedar terlaksana
atau tidak, dilakukan atau tidak, teramati atau tidak tetapi
diberikan sesuai dengan kualitas setiap tahap aktivitas yang
dilakukan. Nilai yang diberikan berupa skor yang terentang pada
skala tertentu. Instrumen penilaian skala penilaian (rating scale)
dapat dilihat pada Contoh 3, Contoh 4, Contoh 5, Contoh 7, dan
Contoh 9. Pada Contoh 3, Contoh 4, dan Contoh 7 terlihat bahwa
pemberian nilai dilakukan dengan memberikan tanda cek. Meski
demikian, instrumen penilaian tersebut masih diklasifikasikan ke
dalam bentuk skala penilaian karena tanda cek diberikan pada
satu kolom yang merupakan bagian dari suatu skala kualitas yang
terentang pada skala tertentu. Skala penilaian terentang dari tidak
sempurna sampai sangat sempurna (misalnya: 4 = sangat baik, 3
= baik, 2 = cukup, dan 1 = kurang). Karena instrumen skala
penilaian (rating scale) memerlukan penilaian dalam suatu skala
tertentu, maka diperlukan suatu standar, ukuran atau acuan.
159
Standar, ukuran, maupun acuan tersebut diperlukan untuk
menentukan pada skala berapa kualitas kemampuan yang
ditunjukkan oleh peserta didik. Selain itu, acuan tersebut
dibutuhkan untuk menjamin obyektifitas penilaian. Dengan kata
lain, jika dua atau lebih orang yang memberikan penilaian, akan
diperoleh kesimpulan penilaian yang tidak jauh berbeda atau
bahkan diharapkan sama. Acuan yang dimaksud tersebut biasa
dikenal dengan sebutan rubrik penilaian. Oleh karena itu, skala
penilaian (rating scale) untuk menilai keterampilan peserta didik
biasanya dilengkapi dengan rubrik penilaian.
3.3. Rubrik Penilaian Keterampilan
Menilai dengan menggunakan skala penilaian (rating scale)
membutuhkan sebuah acuan untuk menilai agar diperoleh
penilaian yang obyektif. Acuan yang diperlukan dalam penilaian
tersebut adalah rubrik. Rubrik adalah seperangkat kriteria yang
berisi deskripsi level kualitas kemampuan/kinerja/aktivitas
peserta didik pada kriteria yang telah ditentukan. Secara umum
rubrik memiliki 4 komponen penyusun, yaitu deskripsi tugas
(task assignment), skala penilaian (level kemamampuan, atau
dapat berupa nilai), dimensi (aspek atau indikator) tugas yang
diberikan, dan deskripsi kemampuan pada masingmasing
dimensi. Dengan demikian, untuk memberikan penilaian
terhadap suatu keterampilan harus didefinisikan terlebih dahulu
dimensi, indikator, maupun aspek-aspek dari tugas yang
diberikan.
Peserta didik menunjukkan pemahaman yang
Skor 4 jika: lengkap tentang permasalahan. Respon yang
diberikan memuat seluruh persyaratan tugas.
Peserta didik menunjukkan menunjukkan
Skor 3 jika: pemahaman yang cukup tentang permasalahan
(terdapat sedikit kesalahan yang tidak
160
Skor 2 jika: mempengaruhi hasi). Respon yang diberikan
Skor 1 jika: memuat seluruh persyaratan tugas.
Peserta didik menunjukkan pemahaman
parsial (terdapat beberapa kesalahan) tentang
permasalahan. Respon yang diberikan
memuat sebagian besar persyaratan tugas (ada
beberapa persyaratan tugas yang tidak
terpenuhi).
Menunjukkan pemahaman terbatas tentang
permasalahan (terdapat banyak kesalahan).
Respon yang diberikan memuat sebagian kecil
persyaratan tugas (kebanyakan persyaratan
tidak terpenuhi)
Sementara itu, rubrik analitik adalah rubrik dua dimensi
(tingkat pencapaian dan kriteria penilaian). Rubrik analitik
biasanya ditulis dalam bentuk tabel, dengan tingkat
pencapaian/kemampuan sebagai judul kolom dan kriteria sebagai
judul baris. Capaian pada masing-masing kriteria dapat diberikan
dengan menggunakan skor yang berbeda-beda. Sedangkan skor
total pada suatu aktivitas diperoleh dengan menjumlahkan skor
pada masing-masuing kriteria tersebut.
a. Instrumen Penilaian Unjuk Kerja/Kinerja/Praktik
Sebagaimana telah dipaparkan sebelumnya bahwa
penilaian unjuk kerja/kinerja/praktik digunakan untuk menilai
kemampuan peserta didik dalam melakukan sesuatu. Misalnya,
seorang guru mata pelajaran Biologi ingin menilai keterampilan
peserta didik dalam menggunakan mikroskop. Sebelum penilaian
dilakukan, terlebih dahulu ditetapkan aktivitas-aktivitas yang
harus dilakukan peserta didik dalam menggunakan mikroskop,
antara lain: meletakkan mikroskop dengan benar, memutar
revolver dengan benar, mengatur cermin dan diafragma,
161
menempatkan preparat pada posisinya, mengatur fokus, dan
menyesuaikan ukuran lensa obyektif. Instrumen penilaian
keterampilan menggunakan mikroskop tersebut dapat
menggunakan daftar cek.
b. Contoh Instrumen Penilaian Proyek
Kelas : IV
Mata Pelajaran : Bahasa Indonesia
Kompetensi Dasar
4.4. Menyajikan
Indikator Proyek
petunjuk
penggunaan alat
dalam bentuk teks
tulis dan visual
menggunakan
kosakata baku dan
kalimat efektif.
Siswa dapat
menggunakan
kosakata baku dan
kalimat efektif
dalam laporan hasil
pengamatan
: IPA 4.5 Menyajikan
Kompetensi Dasar
laporan hasil
pengamatan dan
penelusuran
informasi tentang
berbagai perubahan
bentuk energi.
162
Indikator Proyek Siswa dapat
merencanakan,
melaksanakan, dan
melaporkan secara
tertulis hasil
pengamatan dan
penelusuran
informasi tentang
berbagai perubahan
bentuk energi
Proyek : Membuat Laporan Hasil Pengamatan dan
Judul
Penelusuran Informasi tentang 5
perubahan bentuk energi
: Perubahan Bentuk Energi di Lingkungan
Sekitar
Mata Bahasa IPA Skor Ket
Pelajaran Indonesia
3 = Tepat;
Perencanaan 2 = Kurang
Judul Tepat;
1 = Tidak
Tujuan Tepat;
0 = Tidak
ada
3 = Tepat;
2 = Kurang
Tepat;
1 = Tidak
Tepat;
163
Mata Bahasa IPA Skor Ket
Pelajaran Indonesia
Waktu yang 0 = Tidak Alat yang
Diperlukan ada dia
1 = Sesuai; mati
Anggota 0 = Tidak mewakili 5
Kelompok Sesua bentuk
Pembagian 1 = Tertulis; perubahan
0 = Tidak energi
Tugas tertulis
1 = Ada;
Peralatan 0 = Tidak
yang Ada
5 = 5 bentuk
Diamati perubahan
energi;
4 = 4 bentuk
perubahan
energi;
3 = 3 bentuk
perubahan
energi;
2 = 2.bentuk
perubahan
energi;
1 = 1 bentuk
perubahan
energi;
0 = tidak ada
164
Mata Bahasa IPA Skor Ket
Pelajaran Indonesia
Prosedur 5=5 Terdapat 5
Pengamatan prosedur; prosedur
4=4 yang harus
Pelaksanaan prosedur; dilakukan
Pengamatan 3=3 dalam
prosedur; pengamatan
2=2
prosedur;
1=1
prosedur;
0 = tidak ada
prosedur
5=
mengamaiti
5 bentuk
perubahan
energi;
4=
mengamati 4
bentuk
perubahan
energi;
3=
mengamati 3
bentuk
perubahan
energi;
2=
mengamati 2
165
Mata Bahasa IPA Skor Ket
Pelajaran Indonesia 166
bentuk
Pencatatan perubahan
Hasil energi;
1=
Pengamatan mengarnati
1 bentuk
Pelaporan perubahan
Sistematika energi;
0 = tidak
mengamati
5 = mencatat
5 basil
pengamatan;
4 = mencatat
4 hasil
pengamatan;
3 = mencatat
3 basil
pengamatan;
2 = mencatat
2 hasil
pengamatan;
1 = mencatat
1 hasil
Pengamatan;
0 = tidak ada
5 = memuat
5
komponen;
Mata Bahasa IPA Skor Ket
Pelajaran Indonesia 167
4 = mernunt
Isu 4
(Substansi) komponen;
3 = memuat
3
komponen;
2 = memuat
2
komponen;
1 = memuat
1
komponen;
0 = tidak ada
5 = memuat
5 bentuk
perubahan
energi;
4 = memuat
4 bentuk
perubahan
energi;
3 = memuat
3 bentuk
perubahan
energi;
2 = memuat
2 bentuk
perubahan
energi;
Mata Bahasa IPA Skor Ket
Pelajaran Indonesia
1 = memuat
Kosa Kata 4= 1 bentuk
(Bahasa) Menggunakan perubahan
76-100% energi;
kosakata 0 = tidak
baku; mengmati
3=
Menggunakan
51-75%
kosakata
baku;
2=
Menggunakan
26-50%
kosakata
baku;
1=
Menggunakan
1-25%
kosakata
baku;
0 = tidak
meng
168
Mata Bahasa IPA Skor Ket
Pelajaran Indonesia 169
gunakan 3 = sangat
Kalimat kosakata baku menarik 2 =
Efektif 4=
Menggunakan
Estetika 76-100%
kalimat
efektif;
3=
Menggunakan
51-75%
kalimat
efektif;
2=
Menggunakan
26-50%
kalimat
efektif;
1=
Menggunakan
1-25%
kalimat
efektif;
0 = tidak
meng
gunakan
kalimat
efektif
Mata Bahasa IPA Skor Ket
Pelajaran Indonesia
cukup
Skor menarik 1 =
Maksimum kurang
menarik 0 =
tidak
menarik
170
c. Contoh Instrumen Penilaian Produk
171
Bab 6
Validitas dan Reliabilitas Instrumen
1. Penilaian Kelas Berkualitas Tinggi
Secara tradisional, kualitas tes skala besar dan standar telah
ditentukan oleh sejauh mana standar psikometrik tertentu, seperti
validitas, reliabilitas/presisi, dan keadilan, terpenuhi,
menggunakan prosedur yang sangat teknis dan canggih secara
statistik. Untuk sebagian besar penilaian kelas, kualitas teknis
yang kompleks ini memiliki sedikit relevansi. Ini bukan untuk
mengatakan bahwa ide validitas, reliabilitas/presisi dan keadilan
tidak penting untuk penilaian kelas. Penilaian kelas berkualitas
tinggi juga melibatkan banyak kriteria lain, menggantikan bukti
validitas dan reliabilitas/presisi yang diganti secara statistik
dengan kekhawatiran tentang bagaimana penilaian memengaruhi
pembelajaran dan memberikan pelaporan yang adil dan kredibel
tentang prestasi siswa. Bagi Anda, penentu utama kualitas adalah
bagaimana informasi memengaruhi siswa. Dengan demikian,
fokusnya adalah pada penggunaan dan konsekuensi dari hasil dan
apa yang membuat penilaian siswa untuk dilakukan.
Gambar 7. Kriteria untuk Memastikan Penilaian Kelas
Berkualitas Tinggi
Penilaian kelas berkualitas tinggi, kemudian, memberikan
hasil yang memverifikasi dan mempromosikan pembelajaran dan
motivasi siswa yang ditargetkan. Penilaian kelas berkualitas
tinggi juga menginformasikan pengambilan keputusan
172
instruksional. Seperti yang ditunjukkan dalam Bab 1, pemahaman
kita tentang pembelajaran dan motivasi, kesadaran kita bahwa
lebih banyak yang dituntut dari siswa daripada
mendemonstrasikan pengetahuan sederhana, dan pengenalan
pengetahuan, keterampilan, dan disposisi abad ke-21 telah
mengubah cara kita mendefinisikan kelas berkualitas tinggi.
penilaian. Pengalaman saya menunjukkan bahwa ada delapan
kriteria penilaian kelas berkualitas tinggi (Gambar 7). Mereka
semua penting dan dapat diatasi untuk setiap penilaian yang
direncanakan dan dilaksanakan. Namun, yang difokuskan dalam
pembahasan buku ini adalah tiga pilar utama dalam penilaian
berkualitas tinggi seperti yang ditunjukkan pada Gambar 8.
Gambar 8. Tiga Pilar Utama Penilaian Berkualitas Tinggi
Validitas, reliabilitas/presisi, dan fairness merupakan tiga
kriteria yang membentuk pilar penilaian yang baik (Gambar 8).
173
Jika Anda fokus pada ketiga hal ini, Anda akan berada di jalur
yang tepat menuju penilaian berkualitas tinggi. Dua yang pertama
sangat penting karena mereka membahas akurasi dan kesesuaian
skor yang Anda dapatkan dari setiap penilaian. Saya suka
memikirkan keduanya dalam konteks sinyal dan kebisingan,
sebuah metafora yang kadang-kadang digunakan untuk
memeriksa tingkat presisi yang dicapai dalam penelitian. Sinyal
adalah apa yang ingin Anda nilai dengan akurasi dan kejelasan
sebanyak mungkin. Ini mewakili sifat aktual atau sejati dari apa
yang diketahui dan dapat dilakukan siswa. Misalnya, ketika Anda
ingin mengetahui apakah siswa dapat menjumlahkan angka tiga
digit dengan sisa, Anda ingin skor pada tes menunjukkan
kompetensi siswa yang sebenarnya atau nyata, bukan sesuatu
yang lain. Kebisingan menghalangi akurasi, dan di sinilah
validitas dan reliabilitas/presisi berperan. Jika item tes Anda
menggunakan soal angka tiga digit tanpa sisa, hasilnya tidak akan
akurat (ini adalah masalah validitas). Jika item tes Anda dibangun
dengan buruk dan membingungkan siswa, atau jika siswa sakit
dan tidak dapat berkonsentrasi, kesalahan akan muncul (masalah
keandalan/presisi). Apa yang Anda inginkan dalam penilaian
berkualitas tinggi adalah sedekat mungkin dengan menemukan
sinyal. Ini terjadi sejauh kebisingan dihilangkan. Misalnya, jika
tes pemahaman bahasa Prancis Anda berisi kata-kata yang belum
dipelajari, itu adalah noise (validitas). Begitu juga jika pesan
audionya berisi statis dan sulit didengar, itu juga noise
(reliabilitas/presisi). Kedua sumber kebisingan akan berarti
bahwa nilai tes yang sebenarnya tidak akan sangat akurat
mewakili pencapaian target, sinyal, yang dalam hal ini adalah
pengenalan kosakata bahasa Prancis. Jadi, peringatan saya adalah
untuk selalu mengingat sinyal dan kebisingan. Ini akan sangat
membantu Anda dalam pencarian Anda untuk memiliki penilaian
174
berkualitas tinggi. Sekarang kita akan beralih ke validitas secara
lebih rinci, kemudian reliabilitas/presisi dan keadilan.
2. Validitas Instrumen
Validitas adalah karakteristik yang mengacu pada
kesesuaian kesimpulan, kegunaan, dan konsekuensi yang
dihasilkan dari penilaian. Hal ini berkaitan dengan kesehatan,
kepercayaan, atau legitimasi klaim atau kesimpulan yang dibuat
berdasarkan skor yang diperoleh. Dengan kata lain, apakah
interpretasi yang dibuat dari skor atau peringkat itu masuk akal?
Apakah informasi yang dikumpulkan merupakan bukti yang tepat
untuk keputusan yang perlu dibuat, atau tujuan penggunaan?
Bagaimana suara interpretasi informasi?
Validitas berkaitan dengan kualitas kesimpulan yang Anda
buat dari skor, bukan hanya tes itu sendiri. Artinya, itu adalah
kesimpulan atau penggunaan yang valid atau tidak valid, bukan
tes, instrumen, atau prosedur yang digunakan untuk
mengumpulkan informasi. Seringkali frasa "validitas tes"
digunakan, tetapi lebih akurat untuk mengatakan "validitas
interpretasi, inferensi, atau penggunaan hasil." Misalnya, adalah
umum untuk menggunakan nilai tes untuk menentukan
kemahiran (misalnya menilai siswa sebagai kebutuhan perbaikan,
mahir, maju). Ketika label ini digunakan, validitas adalah
penilaian tentang apakah penunjukan itu akurat. Artinya, apakah
siswa yang diberi label “mahir” benar-benar mahir? Ketika
interpretasinya akurat, dengan sedikit noise, Anda akan memiliki
validitas yang baik dan mendapatkan sinyal yang jelas.
Anda mungkin memiliki atau akan menemukan definisi
validitas yang agak berbeda, seperti “sejauh mana tes mengukur
apa yang seharusnya diukur.” Meskipun gagasan ini penting
untuk banyak keputusan dan penggunaan, hal ini menunjukkan
bahwa validitas adalah karakteristik yang selalu dimiliki oleh tes
175
atau instrumen. Pada kenyataannya, tes atau instrumen yang sama
dapat valid untuk satu tujuan dan tidak valid untuk tujuan lain.
Sebenarnya, validitas selalu masalah derajat, tergantung pada
situasinya. Misalnya, tes IPS mungkin memiliki validitas yang
tinggi untuk menyimpulkan bahwa siswa mengetahui urutan
peristiwa menjelang Revolusi Amerika, kurang valid untuk
menyimpulkan bahwa siswa dapat bernalar, bahkan kurang valid
untuk menyimpulkan bahwa siswa dapat berkomunikasi secara
efektif secara tertulis, dan hampir tidak ada validitas untuk
menunjukkan kemampuan matematika siswa. Sebuah penilaian
tidak hanya valid atau tidak valid; itu valid sampai tingkat tertentu
sehubungan dengan kesimpulan, penggunaan, atau konsekuensi
tertentu.
Untuk penilaian kelas salah satu konsekuensi penting yang
perlu dipertimbangkan untuk validitas adalah dampak penilaian
terhadap pembelajaran siswa. Artinya, Anda perlu memikirkan
apakah penilaian tersebut masuk akal dalam pengaruhnya
terhadap motivasi dan pembelajaran siswa dalam konteks di mana
Anda mengajar. Dalam pengertian ini, validitas adalah apa yang
memiliki makna dan nilai dalam situasi spesifik Anda. Karena ini
adalah masalah lokal, maka, Anda perlu mempertimbangkan
perspektif unik siswa, orang tua, dan pemangku kepentingan
lainnya.
Ada berbagai pendapat mengenai validitas untuk instrumen
yang digunakan pengukuran, baik di bidang pendidikan maupun
psikologi. Menurut American Educational Research Association,
American Psychological Association, and National Council on
Measurement in Education (AERA, APA, and NCME) dalam
Standards for Educational and Psychological Testing, validitas
merujuk pada derajat dari fakta dan teori yang mendukung
interpretasi skor tes, dan merupakan pertimbangan paling penting
dalam pengembangan tes. Ahli lain mengemukakan bahwa
176
validitas suatu alat ukur adalah sejauhmana alat ukur itu mampu
mengukur apa yang seharusnya diukur.
Sementara itu, Miller et al. (2013) menjelaskan validitas
mengacu pada kecukupan dan kelayakan interpretasi yang dibuat
dari penilaian, berkenaan dengan penggunaan khusus. Pendapat
ini diperkuat oleh Messick (1989) bahwa validitas merupakan
kebijakan evaluatif yang terintegrasi tentang sejauhmana fakta
empiris dan alasan teoretis mendukung kecukupan dan
kesesuaian inferensi dan tindakan berdasarkan skor tes atau skor
suatu instrumen. Berdasarkan beberapa pendapat tersebut, dapat
disimpulkan bahwa validitas akan menunjukkan dukungan fakta
empiris dan alasan teoretis terhadap terhadap interpretasi skor tes
atau skor suatu instrumen, dan terkait dengan kecermatan
pengukuran (Mardapi, 2012).
Validitas itu dapat dikelompokkan menjadi tiga tipe, yaitu:
(1) validitas kriteria (criterion-related), (2) validitas isi, dan (3)
validitas konstruk (Tiurma & Retnawati, 2014). Validitas ini
dapat diketahui melalui fakta keberadaaan validitas. Sumber fakta
validitas dapat dikelompokkan menjadi isi tes, proses respons,
struktur internal, hubungan dengan variabel lain, dan konsekuensi
dari pelaksanaan tes (Heri Retnawati, 2016a, 2016b). Keberadaan
validitas dari suatu perangkat tes ini dapat diketahui melalui
analisis isi tes dan analisis empiris dari skor tes data respons butir.
Validitas berdasarkan kriteria dibedakan menjadi dua, yaitu
validitas prediktif dan validitas konkuren. Fernandes (1984)
mengatakan validitas berdasarkan kriteria dimaksudkan untuk
menjawab pertanyaan sejauh mana tes memprediksi kemampuan
peserta di masa mendatang (predictive validity) atau
mengestimasi kemampuan dengan alat ukur lain dengan tenggang
waktu yang hampir bersamaan (concurrent validity) (Heri
Retnawati, 2016a). Hal senada juga disampaikan oleh Lawrence
(1994) yang mengatakan bahwa tes dikatakan memiliki validitas
177
prediktif bila tes itu mampu memprediksikan kemampuan yang
akan datang (Heri Retnawati, 2013). Dalam analisis validitas
prediktif, performansi yang hendak diprediksikan disebut dengan
kriteria. Besar kecilnya harga estimasi validitas prediktif suatu
instrumen digambarkan dengan koefisien korelasi antara
prediktor dengan kriteria tersebut.
Validitas isi suatu instrumen adalah sejauhmana butir-butir
dalam instrumen itu mewakili komponen-komponen dalam
keseluruhan kawasan isi objek yang hendak diukur dan sejauh
mana butir-butir itu mencerminkan ciri perilaku yang hendak
diukur. Sementara itu Lawrence (1994) menjelaskan bahwa
validitas isi itu keterwakilan pertanyaan terhadap kemampuan
khusus yang harus diukur (Azwar, 2012). Berdasarkan hal ini,
dapat disimpulkan bahwa validitas isi terkait dengan analisis
rasional terhadap domain yang hendak diukur untuk mengetahui
keterwakilan instrumen dengan kemampuan yang hendak diukur.
Validitas konstruk adalah validitas yang menunjukkan
sejauhmana instrumen mengungkap suatu kemampuan atau
konstruk teoretis tertentu yang hendak diukurnya. Prosedur
validasi konstruk diawali dari suatu identifikasi dan batasan
mengenai variabel yang hendak diukur dan dinyatakan dalam
bentuk konstruk logis berdasarkan teori mengenai variabel
tersebut. Dari teori ini ditarik suatu konskuensi praktis mengenai
hasil pengukuran pada kondisi tertentu, dan konskuensi inilah
yang akan diuji. Apabila hasilnya sesuai dengan harapan maka
instrumen itu dianggap memiliki validitas konstruk yang baik.
Pada tes prestasi belajar, validitas merupakan syarat yang
sangat diperlukan dalam pengembangan tes. Menurut pendapat
Sireci yang didukung Lissitz & Samuelsen (2007), validasi tes
yang dipergunakan dalam dunia pendidikan sebaiknya
melibatkan analisis isi tes dan analisis empiris dari skor tes dan
data respons terhadap butir oleh peserta tes (Azwar, 2012).
178
Analisis isi tes terkait dengan validitas isi yang selanjutnya
diperlukan juga analisis empiris untuk mengetahui validitas
konstruk. Kedua analisis ini dimaksudkan agar tes di dunia
pendidikan memenuhi syarat tes yang standar.
2.1. Membuktikan Validitas Isi Instrumen
Validitas isi ditentukan menggunakan kesepakatan ahli.
Kesepakatan ahli bidang studi atau sering disebut dengan domain
yang diukur menentukan tingkatan validitas isi (content related).
Hal ini dikarenakan instrumen pengukuran, misalnya berupa tes
atau angket dibuktikan valid jika ahli (expert) meyakini bahwa
bahwa instrumen tersebut mengukur penguasaan kemampuan
yang didefinisikan dalam domain ataupun juga konstruk
psikologi yang diukur. Untuk mengetahui kesepakatan ini, dapat
digunakan indeks validitas, diantaranya dengan indeks yang
diusulkan oleh Aiken. Indeks validitas butir yang diusulkan
Aiken ini dirumuskan sebagai berikut:
∑
= ( − 1)
dengan V adalah indeks kesepakatan rater mengenai validitas
butir; s skor yang ditetapkan setiap rater dikurangi skor terendah
dalam kategori yang dipakai (s = r – lo, dengan r = skor kategori
pilihan rater dan lo skor terendah dalam kategori penyekoran); n
banyaknya rater; dan c banyaknya kategori yang dapat dipilih
rater.
Berdasarkan pendapat tersebut, indeks Aiken V merupakan
indeks kesepakatan rater terhadap kesesuaian butir (atau sesuai
tidaknya butir) dengan indikator yang ingin diukur menggunakan
butir tersebut. Jika diterapkan untuk instrument pengukuran,
menurut seorang rater maka n dapat diganti dengan m (banyaknya
butir dalam satu instrumen). Indeks V ini nilainya berkisar
diantara 0-1. Dari hasil perhitungan indeks V, suatu butir atau
179
perangkat dapat dikategorikan berdasarkan indeknya. Jika
indeksnya kurang atau sama dengan 0,4 dikatakan validitasnya
kurang, 0,4-0,8 dikatakan validitasnya sedang, dan jika lebih
besar dari 0,8 dikatakan sangat valid.
Cara lain membuktikan validitas isi dengan kesepakatan
ahli adalah dengan menggunakan indeks kesepakatan ahli yang
disarankan oleh Gregory (Heri Retnawati, 2016a). Indeks ini juga
berkisar diantara 0-1. Dengan membuat tabel kontingensi pada
dua ahli, dengan kategori pertama tidak relevan dan kurang
relevan menjadi kategori relevansi lemah, dan kategori kedua
untuk yang cukup relevan dan sangat relevan yang dibuat kategori
baru relevansi kuat. Indeks kesepakatan ahli untuk validitas isi
merupakan perbandingan banyaknya butir dari kedua ahli dengan
kategori relevansi kuat dengan keseluruhan butir.
Ada hal lain yang perlu diperhatikan terkait dengan
validitas isi. Keterwakilan indikator dari domain yang akan
diukur benar-benar perlu menjadi perhatian. Beberapa ahli
menggolongkan hal ini sebagai validitas logis. Kebenaran konsep
yang dinyatakan dalam instrumen merupakan hal yang dapat
dijadikan kriteria dan bahan pertimbangan untuk mengisi skor
dalam format penilaian. Jika instrumen berbentuk pilihan ganda,
maka keberadaan kunci jawaban, keberfungsian distraktor,
format penulisan, keterbacaan butir,dan juga berfungsinya
gambar atau tabel juga dapat dijadikan pertimbangan. Beberapa
ahli mengategorikan ini sebagai validitas kenampakan (face
validity).
2.2. Membuktikan Validitas Konstruk
Cara kedua pembuktian validitas interpretasi skor hasil
pengukuran adalah dengan membuktikan kebermaknaan skor
hasil pengukuran (meaningfulness). Cara ini oleh Popham (2002)
disamakan dengan pembuktian construct related validity.
180
Proses pembuktiannya dapat dilakukan dengan membuktikan
bahwa konstruk instrumen memang ada (exists) dan kemudian
dibuktikan hasil pengukurannya secara empiris. Pendapat
tersebut juga didukung Kumaidi (2013). Pendekatan yang dipilih
berupa pembuktian bahwa konstruk yang dihipotesiskan dapat
dikonfirmasi keberadaannya. Analisis yang banyak digunakan
antara lain dengan analisis faktor eksploratori (exploratory factor
analysis, EFA) maupun konfirmatori (confirmatory factor
analysis, CFA).
Dalam suatu penelitian, biasanya digunakan instrument
yang melibatkan butir-butir yang banyak. Untuk memahami data
seperti ini, biasanya digunakan analisis faktor. Analisis faktor
digunakan untuk mereduksi data, dengan menemukan hubungan
antar variabel yang saling bebas, yang kemudian terkumpul
dalam variable yang jumlahnya lebih sedikit untuk mengetahui
struktur dimensi laten, yang disebut dengan faktor. Faktor ini
merupakan variable yang baru, yang disebut juga dengan variable
latent, variable konstruk dan memiliki sifat tidak dapat diketahui
langsung (unobservable). Analisis faktor dapat dilakukan dengan
dua cara, yakni analisis faktor eksploratori (eksploratory factor
analysis) dan analisis faktor confirmatory (confirmatory faktor
analysis).
Analisis faktor eksploratori merupakan suatu teknik untuk
mendeteksi dan mengases sumber laten dari variasi atau kovariasi
dalam suatu pengukuran. Analisis faktor eksploratori bersifat
mengeksplor data empiris untuk menemukan dan mendeteksi
karakteristik dan hubungan antar variable tanpa menentukan
model pada data. Pada analisis ini, peneliti tidak memiliki teori a
priori untuk menyusun hipotesis. Mengingat sifatnya yang
ekplorasi inilah, hasil analisis faktor eksploratori ini lemah. Hasil
analisis, yang menjelaskan hubungan antar variable semata, juga
tidak didasarkan pada teori yang ada. Hasil analisis juga hanya
181
tergantung data empiris, dan jika variable terobservasinya
banyak, hasil analisis akan sulit dimaknai. Biasanya analisis
faktor terkait erat dengan pertanyaan tentang validitas. Ketika
faktor-faktor teridentifikasi dihubungkan, analisis faktor
eksploratori menjawab pertanyaan tenang validitas konstruk,
apakah suatu skor mengukur apa yang seharusnya diukur.
Ada beberapa kritik ang terkait dengan analisis faktor
ekploratori. Menurut Mulaik, untuk memperoleh pengetahuan,
yang perlu dilakukan terlebih dahulu adalah membuat asumsi
prior. Pada analisis faktor ekploratori, hubungan kausal
diasumsikan linear. Kenyataannya, tidak semua variabel bersifat
linear. Proses penemuan struktur faktor, semata-mata dilakukan
secara mekanik dengan metode tertentu dan dengan rotasi.
Berbeda dengan analisis faktor eksploratori, analisis faktor
konfirmatori digunakan untuk menguji model yang telah
diasumsikan untuk dideskripsikan, dijelaskan untuk model data
empiris dengan menggunakan parameter yang lebih sedikit
dibandingkan dengan variable terobservasi. Model yang
dibangun didasarkan pada informasi a priori tentang struktur data
dalam bentuk teori khusus atau hipotesis. Teori khusus atau
hipotesis yang dibangun didasarkan pada teori yang telah ada atau
hasil penelitian sebelumnya.
EFA digunakan ketika model pengukuran dari konstruk
instrumen masih dicari ataupun dilakukan eksplorasi. Namun
pada CFA, ketika model pengukuran telah ada teorinya, konstruk
instumen tersebut tinggal dibuktikan atau dikonfirmasi. Pada
CFA, membuktikan validitas konstruk ini khususnya
menggunakan model pengukuran (measurement model). Menurut
Khumaidi, (2014) analisis dapat dilakukan dengan first order
CFA, dan jika belum konklusif perlu dilakukan second order
analysis.
182
2.3. Membuktikan Validitas Kriteria
Membuktikan validitas kriteria merupakan cara ketiga
dalam membuktikan validitas. Validitas ini dibuktikan dengan
melihat kebermanfaatan dari interpretasi skor hasil pengukuran
(usefulness). Pendekatan yang dipakai dapat dalam bentuk
criterion-related validation (Popham, 2002). Pada pembuktian
validitas dengan cara ini, diperlukan skor hasil pengukuran
menggunakan instrumen lain yang lebih terstandar. Misalnya
ketika membuktikan validitas tes bahasa Inggris, digunakan tes
bahasa Inggris yang lebih terstandar sebagai kriterianya, misalnya
TOEFL atau IELTS yang telah diakui di seluruh dunia.
Pendekatan analisisnya sering menggunakan yakni analisis
dengan korelasi, misalnya korelasi product-moment. Jika kriteria
yang telah ada saat skor penilaian diperoleh atau rentang waktu
perolehan kedua data tidak terlalu lama, maka validasinya bersifat
konkuren sehingga sering disebut dengan concurrent validity.
Jika kriteria keberhasilan ditunggu beberapa lama, misalnya
kurun waktu tertentu, maka validasinya bersifat prediktif,
sehingga sering disebut dengan predictive validity. Pendekatan
korelasi ini perlu dikoreksi terlebih dahulu, yang dalam
psikometri disebut rumus “correction for attenuation” (Allen &
Yen, 2001). Koreksi atenuasi merupakan koreksi terhadap
ketidakreliabelan pengukuran konstruk dan kriterianya.
Validitas kriteria diketahui dengan mengestimasi korelasi
skor tes peserta dengan skor kriteria. Korelasi ini disebut dengan
koefisien validitas, yang menyatakan derajat hubungan antara
prediktor dengan kriteria. Salah satu manfaat dengan adanya
validitas kriteria yakni dapat memprediksikan suatu skor
kemampuan ke skor kriteria dalam rangka memprediksikan
kemampuan atau performen peserta tes. Prediksi ini dilakukan
melalui persamaan regresi.
183
3. Praktek Pembuktian Validitas Instrumen yang Keliru
Di masyarakat ilmiah, seperti pada laporan penelitian,
skripsi, maupun tesis, ada beberapa praktek pembuktian validitas
yang belum memenuhi definisi validitas yang telah dipaparkan
sebelumnya. Kumaidi (2014) menyatakan bahwa banyak praktik
pembuktian validitas yang dilakukan oleh mahasiswa atau
peneliti yang sebenarnya belum memenuhi definisi validitas (Heri
Retnawati, 2016a). Pendekatan ini tentu perlu dipertanyakan dan
sebaiknya ditinggalkan dan dihindari. Pendekatan yang harus
dihindari yang dimaksudkan adalah pembuktian validitas yang
didasarkan pada analisis butir (item analysis), terutama
pemakaian koefisien korelasi skor butir dan skor total tes (rix).
Berdasarkan pernyataan tersebut, membuktikan validita
butir dengan menghitung korelasi butir dengan total perlu
dihindari. Lebih lanjut Kumaidi (2004) menguraikan
ketidaktepatan pemakaian korelasi product-moment (rix) ini
sebagai indeks validitas butir sebagai sebuah kekeliruan dan perlu
dihindari (Heri Retnawati, 2016a). Alasan yang dikemukakan rix
hanya merupakan (1) indeks daya beda butir; (2) bagian dari
indeks reliabilitas butir; dan (3) homogenitas item (dalam satu set
tes atau instrumen). Alasan rix dipakai sebagai indeks validitas
dengan menggunakan internal criterion dikarenakan kesulitan
menemukan external criterion tidak dapat diterima, karena
dengan menggunakan internal criterion rix lebih dekat ke analisis
reliabilitas dibanding kepada analisis validitas.
Terkait dengan pernyataan-pernyataan tersebut, kesalahan
pembuktian validitas yang sering terjadi di dunia akademis
maupun penelitian pada umumnya adalah membuktikan validitas
dengan menghitung korelasi butir dengan total. Demikian pula
halnya dengan istilah, yang sering digunakan yakni menguji
validitas. Seharusnya, berdasarkan pendapat ahli, terminologi
184
yang betul adalah membuktikan validitas, bukan menguji
validitas. Adapun caranya, pembuktian validitas yang sesuai
dengan definisi validitas, perlu digarisbawahi terbuktinya
validitas isi, konstruk, dan kriteria. Dalam suatu penelitian,
validitas isi dapat dibuktikan melalui ahli yang menilai relevansi
tiap butir instrumen kemudian hasil penilaian ini digunakan untuk
menghitung indeks kesepakatan ahli dengan indeks Aiken atau
indeks Gregory. Validitas konstruk dapat dibuktikan dengan
analisis faktor, baik eksploratori maupun konfirmatori. Validitas
kriteria dapat dibuktikan dengan mengetahui besarnya korelasi
antara skor responden yang diperoleh dengan instrumen tersebut
terhadap skor yang dianggap sebagai kriteria.
4. Reliabilitas Instrumen
Seperti validitas, istilah reliabilitas telah digunakan selama
bertahun-tahun untuk menggambarkan karakteristik penting dari
penilaian suara. Untuk penilaian kelas, yang sekarang disebut
reliabilitas/presisi berkaitan dengan sejauh mana skor bebas dari
kesalahan (noise). Misalkan Bu Calder sedang menilai
keterampilan penjumlahan dan pengurangan murid-muridnya.
Dia memutuskan untuk memberikan siswa kuis 20 poin untuk
menentukan keterampilan mereka. Ibu Calder memeriksa hasil
tetapi ingin memastikan tentang tingkat kinerja sebelum
merancang instruksi yang sesuai, jadi dia memberikan kuis lain 2
hari kemudian pada keterampilan penambahan dan pengurangan
yang sama. Hasil untuk beberapa muridnya adalah sebagai
berikut:
Siswa Penjumlahan Pengurangan
Kuis 1 Kuis 2 Kuis 1 Kuis 2
Robi 18 16 13 20
185
Siswa Penjumlahan Pengurangan
Kuis 1 Kuis 2 Kuis 1 Kuis 2
Dani
Susi 10 12 18 10
Kevin 98 8 14
16 15 17 12
Skor kuis penjumlahan cukup konsisten (konsistensi sering
digunakan sebagai deskriptor reliabilitas/presisi). Keempat siswa
mendapat skor dalam satu atau dua poin pada kuis; siswa yang
mendapat nilai tinggi pada kuis pertama juga mendapat nilai
tinggi pada kuis kedua, dan siswa yang mendapat nilai rendah
melakukannya pada kedua kuis. Akibatnya, hasil untuk
penambahan dapat diandalkan. Untuk pengurangan, di sisi lain,
ada perubahan yang cukup besar dalam kinerja dari kuis pertama
ke kuis kedua. Siswa yang mendapat skor tinggi pada kuis
pertama mendapat skor rendah pada kuis kedua, dan siswa yang
mendapat skor rendah pada kuis pertama mendapat skor tinggi
pada kuis kedua. Untuk pengurangan, hasilnya tidak dapat
diandalkan karena tidak konsisten. Skor tersebut saling
bertentangan.
Jadi, apa pendapat Bu Calder tentang nilai matematika?
Tujuannya adalah menggunakan kuis untuk secara akurat
menentukan keterampilan yang ditentukan. Dia tidak dapat
mengetahui tingkat keterampilan yang tepat, tetapi, seperti dalam
kasus penambahan, dia bisa mendapatkan gambaran yang cukup
akurat dengan penilaian yang dapat diandalkan. Untuk
pengurangan, di sisi lain, dia tidak dapat menggunakan hasil ini
sendiri untuk memperkirakan keterampilan nyata atau aktual
186
siswa. Lebih banyak penilaian diperlukan sebelum dia dapat
yakin bahwa skornya dapat diandalkan dan dengan demikian
memberikan hasil yang dapat diandalkan. Tetapi bahkan skor
sebagai tambahan bukannya tanpa beberapa tingkat kesalahan.
Faktanya, semua penilaian memiliki kesalahan; mereka tidak
pernah menjadi ukuran yang sempurna dari sifat atau
keterampilan. Mari kita lihat contoh lain untuk mengilustrasikan
hal ini.
Pikirkan tentang perbedaan antara ukuran sikap terhadap
sains dan waktu yang dibutuhkan untuk berlari satu mil. Ukuran
sikap akan memiliki tingkat kesalahan yang relatif tinggi, tetapi
ukuran waktu akan tepat dengan sedikit kesalahan (sangat andal).
Hal ini karena ada lebih banyak pengaruh pada bagaimana siswa
menjawab pertanyaan tentang sikap mereka (seperti suasana hati
siswa hari itu, panas di dalam ruangan, item dengan kata-kata
yang buruk, dan kelelahan) daripada pada kemampuan pencatat
waktu untuk menekan stopwatch dan membaca waktu yang telah
berlalu. Ini bukan untuk mengatakan bahwa ukuran waktu tanpa
kesalahan. Hanya saja mengukur waktu akan memiliki kesalahan
yang jauh lebih sedikit daripada mengukur sikap.
Pada suatu instrumen yang digunakan untuk
mengumpulkan data, reliabilitas skor hasil tes merupakan
informasi yang diperlukan dalam pengembangan tes. Reliabilitas
merupakan derajat keajegan (consistency) di antara dua skor hasil
pengukuran pada objek yang sama, meskipun menggunakan alat
pengukur yang berbeda dan skala yang berbeda (Azwar, 2012).
Dalam kaitannya dengan penilaian pendidikan, prestasi atau
kemampuan seorang siswa dikatakan reliabel jika dilakukan
pengukuran, hasil pengukuran akan sama informasinya,
walaupun penguji berbeda, korektornya berbeda atau butir soal
yang berbeda tetapi memiliki karakteristik yang sama.
187
Allen & Yen (2001) menyatakan bahwa tes dikatakan
reliabel jika skor amatan mempunyai korelasi yang tinggi dengan
skor yang sebenarnya. Selanjutnya dinyatakan bahwa reliabilitas
merupakan koefisien korelasi antara dua skor amatan yang
diperoleh dari hasil pengukuran menggunakan tes yang paralel.
Dengan demikian, pengertian yang dapat diperoleh dari
pernyatan tersebut adalah suatu tes itu reliabel jika hasil
pengukuran mendekati keadaan peserta tes yang sebenarnya.
Dalam pendidikan, pengukuran tidak dapat langsung
dilakukan pada ciri atau karakter yang akan diukur. Ciri atau
karakter ini bersifat abstrak, yang dapat diukur melalui suatu
indikator. Hal ini menyebabkan sulitnya memperoleh alat ukur
yang stabil untuk mengukur karakteristik seseorang. Kestabilan
ini yang dikatakan sebagai reliabilitas. Untuk melihat reliabilitas
suatu alat ukur, yang berupa suatu nilai, dapat dilakukan
perhitungan statistik. Nilai ini biasa dinamakan dengan koefisien
reliabilitas (reliability coefficient).
Koefisien reliabilitas dapat diartikan sebagai koefisien
keajegan atau kestabilan hasil pengukuran. Alat ukur yang
reliabel akan memberikan hasil pengukuran yang stabil dan
konsisten. Artinya suatu alat ukur dikatakan memiliki koefisien
reliabilitas tinggi manakala digunakan untuk mengukur hal yang
sama pada waktu berbeda hasilnya sama atau mendekati sama.
Dalam hal ini, reliabilitas merupakan sifat dari sekumpulan skor.
Dalam kaitannya dengan dunia pendidikan, dengan alat ukur yang
reliabel, hasil pengukuran akan sama informasinya walaupun
penguji berbeda, korektornya berbeda atau butir soal yang
berbeda tetapi mengukur hal yang sama dan memiliki
karakteristik butir yang sama.
Allen & Yen (2001) menyatakan bahwa tes dikatakan
reliabel jika skor amatan mempunyai korelasi yang tinggi dengan
skor yang sebenarnya. Selanjutnya dinyatakan bahwa koefisien
188
reliabilitas merupakan koefisien korelasi antara dua skor amatan
yang diperoleh dari hasil pengukuran menggunakan tes yang
paralel. Dengan demikian, pengertian yang dapat diperoleh dari
pernyatan tersebut adalah suatu tes itu reliabel jika hasil
pengukuran mendekati keadaan peserta tes yang sebenarnya.
Reliabilitas ( ) suatu tes pada umumnya diekspresikan
secara numerik dalam bentuk koefisien yang besarnya -1,00 ≤
≤ +1,00. Koefisien tinggi menunjukkan reliabilitas tinggi.
Sebaliknya, jika koefisien suatu skor tes rendah maka reliabilitas
tes rendah. Jika suatu reliabilitas sempurna, berarti koefisien
reliabilitas tersebut +1,00. Harapannya, koefisien reliabilitas
bersifat positif.
Reliabilitas terkait pula dengan kesalahan pengukuran.
Reliabilitas tinggi menunjukkan kesalahan yang kecil dalam
memeroleh hasil pengukuran. Semakin besar reabilitas suatu
instrumen, akan semakin kecil kesalahan pengukuran, demikian
pula sebaliknya, semakin kecil reliabilitas skor, akan semakin
besar hasil pengukurannya. Kesalahan pengukuran dapat
disebabkan oleh beberapa faktor, diantaranya karakteristik
instrumen yang digunakan sendiri, misalnya penyusunan dan
pelaksanaan pengukuran yang tidak mengikuti aturan baku,
kualitas butir dalam instrumen tidak baik, adanya kerjasama
selama melaksanakan tes atau mengisi instrumen, butir-butir
instrumen yang meragukan, keadaan peserta selama merespons
instrumen, seperti peserta yang sedang lelah baik fisik maupun
psikis, mempunyai problem pribadi, peserta yang mempunyai
motivasi kurang, lingkungan tempat penyelenggaraan
pengukuran yang kurang mendukung atau kombinasi dari segala
permasalahan tersebut.
Allen & Yen (2001) menyatakan bahwa meskipun tidak ada
perjanjian secara umum, tetapi secara luas dapat diterima bahwa
untuk tes yang digunakan untuk membuat keputusan pada siswa
189