1 MAKALAH TEST – TINGKAT ANALISIS (Test-Level Analyses) Diajukan Untuk Memenuhi Tugas Mata Kuliah: Evaluasi Pembelajaran IPS Dosen Pengampu: Prof. Dr. Suratno, M.Pd. Oleh: RAHMI HIDAYAT NIM. 2220112320021 PROGRAM STUDI MAGISTER PENDIDIKAN ILMU PENGETAHUAN SOSIAL PROGRAM PASCASARJANA UNIVERSITAS LAMBUNG MANGKURAT BANJARMASIN 2023
i KATA PENGANTAR Puji syukur kehadirat Allah SWT Tuhan Yang Maha Esa atas segala limpahan rahmat-Nya sehingga makalah dengan judul “Test – Tingkat Analisis” ini dapat tersusun hingga selesai. Tidak lupa juga penulis mengucapkan banyak terima kasih atas bantuan dari pihak yang telah berkontribusi dengan memberikan sumbangan baik materi maupun pikirannya, terutama kepada Prof. Dr. Suratno, M.Pd. selaku Dosen Pengampu Mata Kuliah Evaluasi Pembelajaran IPS. Penyusunan makalah ini bertujuan untuk memenuhi nilai tugas dalam mata kuliah tersebut, pembuatan makalah ini juga bertujuan agar menambah pengetahuan dan wawasan bagi para pembaca. Karena keterbatasan pengetahuan maupun pengalaman maka penulis yakin makalah ini masih perlu pembenahan dan masukan. Oleh karena itu, penulis sangat mengharapkan kritik dan saran yang membangun dari pembaca demi kesempuraan makalah ini. Akhir kata, semoga makalah ini dapat berguna bagi para pembaca. Banjarmasin, 13 November 2023 Penulis, Rahmi Hidayat, S.Pd.
ii DAFTAR ISI KATA PENGANTAR ........................................................................................................ i DAFTAR ISI....................................................................................................................... ii BAB I PENDAHULUAN................................................................................................... 1 A. Latar Belakang Masalah ......................................................................................... 1 B. Rumusan Masalah................................................................................................... 2 C. Tujuan ..................................................................................................................... 2 D. Manfaat ................................................................................................................... 2 BAB II PEMBAHASAN .................................................................................................... 4 A. Indeks Keandalan.................................................................................................... 4 B. Evaluasi Estimasi Keandalan (Evaluation Of Reliability Estimates) ..................... 12 C. Kesalahan Pengukuran Standar (Standard Error Of Measure) ............................... 12 D. Contoh Estimasi Keandalan (An Example Of Estimating Reliability)................... 13 E. Keabsahan (Validity).............................................................................................. 15 BAB III SIMPULAN......................................................................................................... 21 A. Simpulan ................................................................................................................. 21 DAFTAR PUSTAKA ......................................................................................................... 22
1 BAB I PENDAHULUAN A. Latar Belakang Masalah Berdasarkan fungsinya, evaluasi dapat diklasifikasikan menjadi dua bagian, yakni evaluasi proses dan evaluasi hasil pembelajaran. Evaluasi Proses merupakan kegiatan pengukuran yang dilaksanakan secara sistematis untuk memperoleh informasi tentang efektifitas aktifitas belajar mengajar (Kholis, 2017). Evaluasi terhadap butir-butir soal evaluasi hasil belajar dapat dilakukan dari dua aspek, yaitu dari aspek tingkat kesukaran dan aspek daya pembeda (Bagiyono, 2017). Setelah merancang penilaian, menyusun item dan tugas, mengelola ujian sebagai tes lapangan, mengembangkan alat penilaian, melatih penilai, dan memantau penilaian tugas kinerja. Statistik tingkat item telah memberi tahu Anda tentang fungsi item dan tugas. Kini analisis tingkat tes akan memberikan informasi statistik tentang fungsi tes secara keseluruhan. Kualitas utama tugas kinerja yang perlu ditinjau pada tingkat tes meliputi reliabilitas dan validitas (Johnson, 2009). Melalui evaluasi, segala hal mengenai pembelajaran yang telah dilakukan dapat dilihat perkembangannya. Hal ini sejalan dengan pendapat (Arikunto dan Jabar, 2010) yang mengatakan bahwa, “Hasil evaluasi pembelajaran dapat digunakan untuk menentukan alternatif yang tepat dalam pengambilan keputusan untuk memperbaiki kinerja pada satuan pendidikan”. Salah satu syarat dalam melakukan evaluasi hasil belajar ialah isi tes harus mencakup aspek–aspek pencapaian yang akan dievaluasi. Keberhasilan sebuah kegiatan evaluasi tidak terlepas dari alat evaluasi yang digunakan. Alat adalah sesuatu yang dapat digunakan untuk mempermudah seseorang untuk melaksanakan tugas atau mencapai tujuan secara lebih efektif dan efisien. Salah satu usaha untuk mengembangkan soal tes dengan kulitas yang baik adalah dengan melakukan analisis butir soal. Analisis soal tes merupakan bentuk analisis hasil tes, yaitu analisis sehubungan dengan kualitas tes yang telah diselenggarakan guna mengali informasi mengenai kualitas tes yang telah diselenggarakan (Lumbanraja, 2017).
2 B. Rumusan Masalah 1. Apa yang dimaksud Indeks Keandalan ? 2. Bagaimana Evaluasi Estimasi Keandalan (Evaluation Of Reliability Estimates) ? 3. Apa yang dimaksud dengan Kesalahan Pengukuran Standar (Standard Error Of Measure) ? 4. Apasaja Contoh Estimasi Keandalan (An Example Of Estimating Reliability) ? 5. Bagaimana cara mengetahui Keabsahan (Validity) pada analisis tingkat test ? C. Tujuan Tujuan yang hendak dicapai dalam penulisan ini adalah sebagai berikut: 1. Mengetahui apa yang dimaksud dengan Indeks Keandalan; 2. Menganalisis Evaluasi Estimasi Keandalan (Evaluation Of Reliability Estimates); 3. Menelaah apa yang dimaksud dengan Kesalahan Pengukuran Standar (Standard Error Of Measure); 4. Mengetahui apa saja Contoh Estimasi Keandalan (An Example Of Estimating Reliability); 5. Mengidentifikasi terkait Keabsahan (Validity) pada analisis tingkat test. D. Manfaat Diharapkan penulisan ini dapat memberikan manfaat, baik secara Teoritis maupun Praktis: 1. Teoritis a. Sebagai karya ilmiah yang diharapkan hasil penulisan ini dapat memberikan kontribusi dalam pengembangan ilmu serta sebagai bahan masukan untuk memperluas ilmu pengetahuan Evaluasi Pembelajaran IPS b. Dapat menambah pengetahuan sosial, terkhusus dibidang pendidikan dan wawasan tentang Analisis Tingkat Tes. 2. Praktis Hasil penulisan ini secara Praktik, bermanfaat bagi:
3 a. Program Studi Magister Pendidikan IPS, sebagai bahan bacaan dan keilmuan, serta pertimbangan dan masukan terutama pada bidang Evaluasi Pembelajaran IPS. b. Sebagai referensi dan bahan bacaan bagi penulis lain, dalam mengembangkan penulisan yang berkaitan dengan Analisis Tingkat Test c. Bagi Penulis, sebagai bahan informasi dan menambah wawasan penulis tentang penelitian terkait Analisis Tingkat Test.
4 BAB II PEMBAHASAN A. Indeks Keandalan Indeks keandalan dapat diukur dengan berbagai metode, dan angka atau persentase keandalan sering digunakan untuk menggambarkan seberapa sering suatu sistem dapat beroperasi tanpa kegagalan. Dalam banyak kasus, indeks keandalan dihitung menggunakan data historis tentang kinerja sistem atau perangkat (Maulida, 2018). Tinjauan reliabilitas memungkinkan pengembang tes untuk memeriksa stabilitas skor yang terkait dengan penilaian. Berbagai kondisi menyebabkan varians kesalahan pada skor. Varians kesalahan yang umum mencakup item, penilai, dan kejadian. Pada bagian ini, menjelaskan indeks statistik yang digunakan untuk memperkirakan keandalan penilaian kinerja dan ujian yang menggunakan tugas kinerja dan item pilihan ganda. Keandalan (reliability) berasal dari kata rely yang artinya percaya dan reliabel yang artinya dapat dipercaya. Keterpercayaan berhubungan dengan ketetapan dan konsistensi. Reliabilitas berhubungan dengan akurasi instrumen dalam mengukur apa yang diukur, kecermatan hasil ukur dan seberapa akurat seandainya dilakukan pengukuran ulang. reliabilitas berhubungan dengan kemampuan alat ukur untuk melakukan pengukuran secara cermat. Reliabilitas merupakan akurasi dan presisi yang dihasilkan oleh alat ukur dalam melakukan pengukuran. Alat ukur yang reliabel akan menghasilkan ukuran yang sebenarnya. Hopkins, C.D., & Antes, (1990) menyatakan reliabilitas sebagai konsitensi pengamatan yang diperoleh dari pencatatan berulang baik pada satu subjek maupun sejumlah subjek (Muluki, 2020). 1. Alfa Cronbach Alfa Cronbach adalah sebuah metode statistik yang digunakan untuk mengukur keandalan atau reliabilitas dari sebuah alat ukur atau kuesioner yang digunakan dalam penelitian. Metode ini dinamakan berdasarkan nama ahli psikometri dari Amerika bernama Lee J. Cronbach, yang mengembangkannya pada tahun 1951. Alfa Cronbach adalah sebuah ukuran statistik yang digunakan untuk mengukur keandalan atau konsistensi internal dari sebuah alat ukur atau kuesioner. Alfa Cronbach mengukur sejauh mana item-item atau pertanyaan-pertanyaan dalam sebuah alat ukur konsisten dalam mengukur konstruk atau variabel yang sedang diukur. Dengan kata lain, alfa Cronbach membantu mengukur apakah semua
5 item dalam alat ukur secara bersamaan mengukur sesuatu yang sama atau sejenis. Hasil dari pengukuran alfa Cronbach berada dalam rentang antara 0 hingga 1, di mana nilai yang lebih tinggi menunjukkan tingkat reliabilitas yang lebih baik. Alfa Cronbach digunakan dalam berbagai disiplin ilmu, terutama dalam psikologi, pendidikan, dan ilmu sosial, untuk mengukur sejauh mana alat ukur atau kuesioner yang digunakan dalam penelitian dapat diandalkan dalam mengukur variabel yang sedang diteliti. Nilai alfa Cronbach yang tinggi menunjukkan bahwa alat ukur tersebut cenderung konsisten dan dapat diandalkan, sementara nilai yang rendah menunjukkan bahwa terdapat masalah dalam reliabilitas alat ukur tersebut, dan perlu dilakukan perbaikan atau revisi. Salah satu bentuk klasik estimasi reliabilitas adalah koefisien Alfa Cronbach (1951) memperkenalkan koefisien alfa sebagai indeks kesetaraan, atau konsistensi internal. Dari bentuk reliabilitas, teori Alfa dan Generalisasi Cronbach adalah dua indeks yang paling relevan dalam penilaian kinerja. Yakni dirumuskan sebagai berikut: Dimana k adalah jumlah soal tes, ÿi adalah varians item i, dan merupakan varians tes. Biasanya digunakan untuk memperkirakan kesalahan yang disebabkan oleh item, Cronbach's alpha dianggap sebagai ukuran konsistensi internal. Namun, koefisien alpha juga telah digunakan untuk memperkirakan reliabilitas antar penilai dengan memperlakukan penilai sebagai item (misalnya, Abedi, 1996). Item-item tersebut tidak harus diberi skor benar/salah (misalnya, 0, 1) untuk digunakan dengan ukuran ini. Dengan demikian alpha dapat digunakan untuk menguji reliabilitas ketika skor menyertakan peringkat politom (misalnya, 1-4 atau 1-6) dari rubrik. Untuk menghitung alpha Cronbach menggunakan data Pemeriksaan Klinis Lisan (OCE), kami membuat lembar kerja di Excel dan mengimpor data tersebut ke SPSS. Format data tampak pada Tabel Berikut: Kode yang dihasilkan oleh paket statistik SPSS untuk dihitung Alfa Cronbach adalah sebagai berikut:
6 Keandalan: VARIABEL = Kasus 1 kasus 2 kasus 3 kasus 4 FORMAT = Nolabel SKALA (ALPHA) = Semua/Model = Alpha RINGKASAN= Jumlah Tabel Data Perhitungan Cronbach’s Alpha: Menyajikan keluaran dari SPSS untuk analisis ini. Perhitungan menggunakan varians yang terkait dengan item dan varians tes ditunjukkan di bawah ini:
7 2. Test- Retest Kita dapat memperkirakan keandalan tes-tes ulang dengan menghitung korelasi Pearson antara nilai tes setelah kita melakukan tes yang sama pada sampel yang sama pada dua kesempatan berbeda. Metodologi ini mengasumsikan bahwa tidak ada perubahan substansial dalam konstruk yang diukur antara dua kesempatan tersebut, asumsi yang paling penting adalah bahwa administrasi pertama tidak menyebabkan perubahan dalam persiapan peserta ujian. Test-retest adalah salah satu metode yang digunakan untuk mengukur reliabilitas atau keandalan suatu alat ukur atau tes. Metode ini melibatkan pemberian tes pada dua waktu yang berbeda kepada subjek yang sama. Interval waktu antara dua pemberian tes ini dirancang agar cukup lama untuk mengurangi efek pembelajaran atau ingatan jangka pendek, tetapi cukup singkat sehingga karakteristik yang diukur tidak berubah secara signifikan. Kelebihan metode test-retest adalah kesederhanaannya, tetapi ada beberapa faktor yang perlu diperhatikan. Faktor-faktor seperti perubahan dalam keadaan subjek, faktor pembelajaran, atau perubahan alamiah dari karakteristik yang diukur dapat memengaruhi reliabilitas. Oleh karena itu, perlu mempertimbangkan kondisi-kondisi yang dapat mempengaruhi validitas dari penggunaan metode ini. Reliabilitas tinggi menunjukkan bahwa hasil tes konsisten dari waktu ke waktu, yang merupakan indikasi bahwa instrumen pengukuran dapat diandalkan dalam mengukur karakteristik tertentu pada subjek yang sama. Waktu yang diberikan di antara tindakan-tindakan tersebut juga penting. Jika kita mengukur konstruk yang sama dua kali, korelasi antara dua pengamatan akan bergantung, sebagian, pada berapa lama waktu yang berlalu antara kedua pengukuran tersebut. Semakin pendek waktu antar pengukuran, kemungkinan korelasinya akan semakin tinggi karena kecilnya peluang bagi faktor-faktor luar (misalnya, pembelajaran yang tidak terduga) untuk mempengaruhi skor. Metode tes-tes ulang dalam memperkirakan reliabilitas juga mengasumsikan peserta ujian memiliki sedikit ingatan tentang isi tes yang sebenarnya. Asumsi seperti itu mungkin dapat dipertahankan untuk tes pilihan ganda yang terdiri dari 60 item. Namun, pemeriksaan Mereka lebih cenderung mengingat item-item dalam tes dengan jumlah item respons yang dibangun atau diperluas yang terbatas, sehingga menimbulkan pertanyaan tentang penggunaan perkiraan reliabilitas tes-tes ulang untuk tugas-tugas kinerja.
8 3. Formulir Paralel (Parallel Forms) Perkiraan keandalan berdasarkan formulir paralel, juga disebut sebagai formulir alternatif dan formulir setara, menawarkan metode untuk menghindari penarikan kembali item saat menggunakan tugas kinerja. Dalam reliabilitas bentuk paralel, pertama-tama kita membuat dua bentuk tes yang setara yang mengukur konstruksi yang sama dengan cara yang sama. Salah satu cara untuk melakukannya adalah dengan membuat sekumpulan besar item yang membahas konstruksi yang sama dan kemudian secara acak memilih pertanyaan untuk dua bentuk. Selanjutnya kita memberikan kedua formulir tersebut kepada kelompok orang yang sama, dan korelasi Pearson antara dua rangkaian skor tersebut merupakan perkiraan reliabilitas formulir paralel. Jika pemberian formulir alternatif memungkinkan selang waktu yang singkat, maka estimasi reliabilitas juga memasukkan kesalahan pengukuran yang akan diperkirakan oleh studi reliabilitas tes-tes ulang. Salah satu masalah praktis dengan pendekatan bentuk paralel adalah pengembangan banyak item yang mengukur konstruk yang sama. Penggunaan bentuk paralel mirip dengan reliabilitas split-half dimana soalsoal dalam tes berasal dari kelompok yang sama. Perbedaan utamanya adalah bahwa bentuk paralel dibuat sedemikian rupa sehingga kedua bentuk tersebut dapat digunakan secara independen namun tetap dianggap sebagai ukuran yang setara. Sebaliknya, bagian yang terbelah tidak dimaksudkan untuk digunakan secara terpisah. Bentuk paralel berguna ketika seseorang khawatir tentang ancaman terhadap validitas internal eksperimen yang ditimbulkan oleh pengujian berulang kali menggunakan bentuk yang sama. Jika kita menggunakan Formulir A sebagai pretest dan Formulir B sebagai posttest, maka permasalahan tersebut akan berkurang. Selain itu, jika kita secara acak menugaskan individu untuk menerima Formulir A atau B pada pretest, dan kemudian kita mengganti tugas formulir pada posttest, desain silang memungkinkan kita untuk menilai secara empiris pengaruh penggunaan ujian dalam urutan tertentu.
9 4. Teori Generalisasi (Generalizability Theory) Dalam kerangka teori generalisasi, penyelidikan reliabilitas melibatkan dua studi: generalisasi (G) dan keputusan (D). Penggunaan bentuk paralel mirip dengan reliabilitas split-half dimana soal-soal dalam tes berasal dari kelompok yang sama. Perbedaan utamanya adalah bahwa bentuk paralel dibuat sedemikian rupa sehingga kedua bentuk tersebut dapat digunakan secara independen namun tetap dianggap sebagai ukuran yang setara. Sebaliknya, bagian yang terbelah tidak dimaksudkan untuk digunakan secara terpisah. Dalam studi G, peneliti mengidentifikasi kemungkinan sumber varians kesalahan, yang disebut sebagai aspek (misalnya, penilai, tugas, kejadian), dan merancang studi untuk memperkirakan varians yang terkait dengan orang (objek pengukuran) dan varians kesalahan. terkait dengan masing-masing aspek tersebut. Lebih khusus lagi, teori generalisasi menggunakan ANOVA untuk mempartisi variabilitas skor menjadi efek utama bagi orang, efek utama untuk setiap aspek, dan kombinasi komponen-komponen sebelumnya. Skor yang diamati diwakili dengan model linier yang menggabungkan aspek-aspek yang menyebabkan kesalahan dalam pengukuran. Penggunaan teori generalisasi untuk menguji reliabilitas antar penilai memberikan contoh studi generalisasi satu sisi. Generalizability Theory (Teori Generalisabilitas) adalah suatu kerangka kerja statistik yang digunakan untuk mengevaluasi dan memahami reliabilitas atau keandalan hasil pengukuran. Teori ini dikembangkan oleh Lee Cronbach dan Gleser pada tahun 1950-an sebagai alternatif terhadap teori reliabilitas klasik. Pendekatan Generalizability Theory dirancang untuk mengeksplorasi sejauh mana hasil pengukuran dapat diterapkan atau "digeneralisasikan" ke berbagai kondisi atau situasi. Ini lebih fleksibel daripada metode reliabilitas klasik yang hanya menghasilkan satu angka reliabilitas umum. Generalizability Theory memungkinkan peneliti untuk memahami kontribusi variasi dari berbagai faktor yang mungkin mempengaruhi reliabilitas hasil pengukuran. Dalam Generalizability Theory, faktor-faktor yang dapat mempengaruhi reliabilitas disebut sebagai "faktor-faktor generalisabilitas" atau "komponen varians." Beberapa contoh faktor-faktor ini meliputi efek penilai, efek waktu, efek lokasi, dan sebagainya. Dengan menggunakan analisis varians atau metode lainnya, peneliti dapat mengidentifikasi dan memahami kontribusi relatif dari setiap faktor terhadap reliabilitas total.
10 Keuntungan utama dari Generalizability Theory adalah dapat memberikan wawasan yang lebih mendalam tentang faktor-faktor apa yang dapat mempengaruhi reliabilitas suatu pengukuran. Hal ini membantu peneliti atau praktisi untuk membuat keputusan yang lebih informasional tentang seberapa andal hasil pengukuran dalam berbagai konteks atau kondisi pengukuran. 5. Teori Generalisasi dan Keandalan Antar Penilai (Generalizability Theory and Interrater Reliability) Dalam evaluasi yang menggunakan portofolio sebagai metode pengumpulan data, penilai yang menilai portofolio cenderung menjadi salah satu aspek yang menarik karena penilaian mereka mengenai tingkat kemahiran yang tercermin dalam isi portofolio akan menyumbang salah satu sumber kesalahan pengukuran. Generalizability Theory: Generalizability Theory adalah suatu kerangka kerja statistik yang digunakan untuk mengukur dan memahami keandalan (reliabilitas) suatu pengukuran dalam berbagai situasi atau kondisi. Teori ini membantu mengidentifikasi dan mengukur kontribusi variasi dari berbagai faktor yang dapat mempengaruhi hasil pengukuran. Faktor-faktor ini dapat mencakup perbedaan antar penilai, variasi waktu, variasi antar item, dan sebagainya. Dengan menggunakan analisis varians komponen, Generalizability Theory memberikan wawasan tentang sejauh mana keandalan suatu pengukuran dapat digeneralisasikan ke kondisi atau situasi lainnya. Interrater Reliability: Interrater Reliability, atau keandalan antar penilai, adalah ukuran sejauh mana dua atau lebih penilai yang berbeda memberikan penilaian atau skor yang serupa terhadap suatu fenomena atau objek yang sama. Ini penting terutama dalam konteks di mana evaluasi subjektif atau penilaian manusia dilibatkan, seperti dalam penelitian sosial, psikologi, atau penilaian klinis. Jika hasil antar penilai konsisten, keandalan antar penilai tinggi, menunjukkan tingkat kesepakatan yang baik antara penilai-penilai tersebut. Dalam beberapa kasus, Generalizability Theory dapat digunakan untuk memahami dan meningkatkan keandalan antar penilai dengan mengidentifikasi dan mengukur faktor-faktor yang berkontribusi pada variasi antar penilai. Jadi, sementara Generalizability Theory dan Interrater Reliability memiliki fokus yang berbeda (salah satu pada keandalan generalisasi, yang lain pada kesepakatan antar penilai),
11 keduanya berkaitan dengan upaya untuk memahami dan meningkatkan keandalan suatu pengukuran. 6. Teori generalisasi dan reliabilitas skor (Generalizability Theory and Score Reliability) Reliabilitas adalah ketetapan atau keajegan pengukuran dalam penilaian. Hasil ukur dapat dipercaya apabila dalam beberapa kali pengukuran terhadap subjek yang sama akan diperoleh hasil yang relatif sama (Maulida, 2018). Generalizability Theory: Generalizability Theory adalah kerangka kerja statistik yang digunakan untuk mengukur dan memahami keandalan (reliabilitas) suatu pengukuran dalam berbagai situasi atau kondisi. Teori ini membantu mengidentifikasi dan mengukur kontribusi variasi dari berbagai faktor yang dapat mempengaruhi hasil pengukuran, termasuk perbedaan antar penilai, variasi waktu, variasi antar item, dan lainnya. Dengan menggunakan analisis varians komponen, Generalizability Theory memberikan wawasan tentang sejauh mana keandalan suatu pengukuran dapat digeneralisasikan ke kondisi atau situasi lainnya. Score Reliability: Score Reliability atau keandalan skor adalah ukuran sejauh mana skor yang diberikan oleh suatu tes atau instrumen konsisten dan dapat diandalkan. Metode-metode klasik yang umum digunakan untuk mengukur score reliability melibatkan pengukuran konsistensi internal, seperti Alfa Cronbach, atau uji-retest yang melibatkan pengukuran ulang pada waktu yang berbeda. Kedua konsep ini, Generalizability Theory dan Score Reliability, berfokus pada keandalan pengukuran, tetapi dengan pendekatan yang berbeda. Generalizability Theory lebih luas karena mencakup berbagai faktor yang dapat mempengaruhi keandalan pengukuran, sedangkan Score Reliability sering kali terkait dengan evaluasi konsistensi internal skor pada suatu tes tertentu. Penting untuk dicatat bahwa ketika membahas keandalan pengukuran, baik Generalizability Theory maupun Score Reliability merupakan alat yang dapat memberikan wawasan tentang seberapa dapat diandalkannya suatu pengukuran, namun keduanya mungkin digunakan bergantung pada konteks dan tujuan spesifik pengukuran tersebut.
12 B. Evaluasi Estimasi Keandalan (Evaluation Of Reliability Estimates) Evaluation of reliability estimates mengacu pada proses penilaian atau evaluasi terhadap perkiraan keandalan (reliabilitas) dari suatu tes atau instrumen pengukuran. Dalam konteks ini, "reliabilitas" mengukur sejauh mana hasil pengukuran yang diberikan oleh suatu instrumen adalah konsisten dan dapat diandalkan. Evaluasi dari hasil reliabilitas sangat penting karena memberikan pemahaman tentang sejauh mana suatu instrumen dapat diandalkan dalam mengukur apa yang dimaksudkan. Ini merupakan langkah kritis dalam memastikan bahwa pengukuran yang dilakukan memberikan hasil yang konsisten dan dapat diandalkan. C. Kesalahan Pengukuran Standar (Standard Error Of Measure) Standard Error of Measurement (SEM) adalah ukuran seberapa akurat suatu tes atau instrumen pengukuran dalam menilai kemampuan atau karakteristik individu. SEM mengukur sejauh mana suatu skor individu dapat bervariasi atau "berfluktuasi" dari skor sebenarnya yang dimiliki individu tersebut. Dengan kata lain, SEM memberikan perkiraan seberapa besar kesalahan pengukuran yang mungkin terjadi. Estimasi reliabilitas dapat digunakan untuk menghitung kesalahan standar pengukuran (SEM) untuk suatu penilaian. SEM merupakan perkiraan seberapa dekat skor yang diamati mendekati skor sebenarnya. Seperti disebutkan sebelumnya, rumus untuk memperkirakan SEM adalah: Dimana S adalah deviasi standar dari nilai tes dan r adalah reliabilitas (misalnya, konsistensi internal, pembagian dua bagian) dari tes tersebut. Rumus umum untuk menghitung SEM adalah: Dimana SD adalah deviasi standar skor tes, dan Reliabilitas adalah koefisien reliabilitas instrumen.
13 Semakin kecil nilai SEM, semakin tinggi keakuratan pengukuran. Sebaliknya, semakin besar nilai SEM, semakin besar fluktuasi yang mungkin terjadi pada skor individu. D. Contoh Estimasi Keandalan (An Example Of Estimating Reliability) Yang menarik dalam penggunaan tugas kinerja adalah memperkirakan keandalan ujian dengan campuran format soal. Huynh dan rekannya (2000) melaporkan bahwa Cronbach's alpha sesuai untuk memperkirakan kemampuan reliabilitas ketika item pilihan ganda dan respons yang dibangun diberi skor dengan skala dikotomis atau skala 0–2, 0–3, atau 0–4. Dalam memperkirakan keandalan tes prestasi tingkat negara bagian, Huynh dan rekannya mencatat bahwa skor maksimum dari item-item tanggapan yang diperluas adalah 15 untuk kelas 3 sampai 6 dan 30 untuk kelas 6 sampai 8. Dengan kisaran skor yang mungkin, item-item tanggapan yang diperluas menghasilkan skor dengan varian yang besar. Huynh dan rekannya menunjukkan bahwa penggunaan alfa saja tidak tepat karena varian besar yang terkait dengan skor total akan mengakibatkan perkiraan keandalan yang terlalu rendah. Standar menunjukkan bahwa validitas adalah konsep kesatuan “sejauh mana semua bukti yang dikumpulkan mendukung interpretasi nilai tes yang dimaksudkan untuk tujuan yang diusulkan” (AERA, APA, & NCME, 1999, hal. 11) . Dengan demikian penyelidikan keabsahan penafsiran tentang kinerja peserta ujian dilanjutkan dengan pengumpulan bentuk-bentuk bukti keabsahan. Bentuk bukti tersebut meliputi konstruk, terkait isi, konvergen dan diskriminan, terkait kriteria (bersamaan dan prediktif), dan konsekuensial. Karena item dalam penilaian dapat bervariasi dalam rentang skornya, Huynh dan rekannya (2000) menggabungkan alfa Cronbach dan rumus Spearman–Brown seperti yang dijelaskan oleh Lord dan Novick (1968). Mereka pertama-tama menghitung alpha Cronbach untuk bagian tes pilihan ganda dan respons yang dibangun. Selanjutnya, rumus Spear man – Brown digunakan untuk menyesuaikan koefisien alpha dengan perkiraan reliabilitas akhir untuk keseluruhan tes. Penyesuaian ini didasarkan pada faktor pemanjangan tes k = m/ n, di mana m adalah skor maksimum yang mungkin (MPS) untuk keseluruhan tes (yaitu, pilihan ganda, respons yang dibangun, dan respons yang diperluas) dan n adalah MPS untuk gabungan bagian pilihan ganda dan respons terkonstruksi. Mari kita lihat contoh sederhana bagaimana kita bisa mengestimasi keandalan suatu tes menggunakan metode uji-retest. Uji-retest adalah metode yang melibatkan
14 pengukuran ulang pada waktu yang berbeda untuk mengukur sejauh mana suatu tes konsisten dalam memberikan skor yang sama pada individu yang sama. Misalkan kita memiliki tes kinerja matematika yang diadministarsi kepada sekelompok siswa. Kita ingin mengukur keandalan tes ini dengan menggunakan metode uji-retest. Inilah langkah-langkahnya: 1. Administarsi Tes Pertama: o Berikan tes kinerja matematika kepada sekelompok siswa pada hari pertama. Catat skor yang diperoleh oleh setiap siswa. 2. Waktu Interval: o Tunggu beberapa minggu atau bulan (interval waktu yang cukup lama untuk mengurangi efek pembelajaran atau ingatan jangka pendek). 3. Administarsi Tes Kedua: o Berikan tes yang sama kepada siswa yang sama pada hari kedua. Pastikan kondisi pengukuran serupa dengan kondisi pengukuran pertama. 4. Hitung Korelasi Antara Skor Pertama dan Kedua: o Hitung korelasi antara skor yang diperoleh pada tes pertama dan kedua. Korelasi ini akan memberikan gambaran sejauh mana skor siswa konsisten antar dua sesi pengukuran. 5. Hitung Koefisien Reliabilitas: o Transformasikan korelasi menjadi koefisien reliabilitas menggunakan rumus uji-retest 6. Interpretasi Koefisien Reliabilitas: o Koefisien reliabilitas ini memberikan perkiraan seberapa konsisten tes dalam memberikan skor yang sama pada individu yang sama. Nilai koefisien reliabilitas berkisar dari 0 hingga 1. Semakin mendekati 1, semakin tinggi keandalan tes. Dengan demikian, uji-retest memberikan satu cara sederhana untuk mengestimasi keandalan tes dengan mengukur seberapa konsisten skor yang diberikan oleh tes pada waktu yang berbeda. Metode ini, bagaimanapun, bergantung pada asumsi bahwa kemampuan atau karakteristik yang diukur tetap stabil antar dua sesi pengukuran.
15 E. Keabsahan (Validity) Validity (validitas) dalam konteks pengukuran atau pengujian merujuk pada sejauh mana instrumen tersebut mengukur apa yang seharusnya diukur. Dengan kata lain, validitas mengukur sejauh mana suatu instrumen dapat memberikan hasil pengukuran yang benar dan bermakna terkait dengan konstruk atau konsep yang dimaksudkan. Standar menunjukkan bahwa validitas adalah konsep kesatuan “sejauh mana semua bukti yang dikumpulkan mendukung interpretasi nilai tes yang dimaksudkan untuk tujuan yang diusulkan” (AERA, APA, & NCME, 1999, hal. 11) . Dengan demikian penyelidikan keabsahan penafsiran tentang kinerja peserta ujian dilanjutkan dengan pengumpulan bentukbentuk bukti keabsahan. Bentuk bukti tersebut meliputi konstruk, terkait isi, konvergen dan diskriminan, terkait kriteria (bersamaan dan prediktif), dan konsekuensial. Validitas adalah suatu ukuran yang menunjukan tingkat kevalidan atau kesahihan suatu instrumen. Prinsip validitas adalah pengukuran atau pengamatan yang berarti prinsip keandalan instrumen dalam mengumpulkan data. Instrumen harus dapat mengukur apa yang seharusnya diukur. Jadi validitas lebih menekankan pada alat pengukuran atau pengamatan. Validitas merupakan derajat ketepatan antara data yang terjadi pada obyek penelitian dengan daya yang dapat dilaporkan oleh peneliti dengan demikian data yang valid adalah data yang tidak berbeda antar data yang dilaporkan oleh peneliti dengan data yang sesungguhnya terjadi pada obyek penelitian (Muluki, 2020). 1. Bukti validitas terkait konten (Content-Related Validity Evidence) Bukti validitas terkait isi menggambarkan sejauh mana isi soal ujian mewakili isi mata pelajaran yang hendak dinilai. Misalnya, item ujian untuk mengesahkan pengetahuan seseorang sebagai pengawas rumah ditinjau oleh komite pengawas rumah ahli untuk memastikan bahwa item yang dipilih untuk diperiksa sesuai dengan tujuan penggunaannya. Dalam penilaian menulis, anggota komite ahli menentukan kesesuaian antara petunjuk penulisan dan tujuan (yaitu, standar konten). Untuk penilaian penulisan National Assessment of Educational Progress (NAEP), komponen ditinjau oleh guru, pendidik guru, pejabat negara, dan spesialis pengukuran untuk “relevansi kurikuler, kesesuaian perkembangan, keadilan, dan kepatuhan terhadap kerangka kerja dan spesifikasi tes” (Persky dkk., 2003, hal. 5).
16 Content-related validity evidence (bukti validitas berhubungan dengan konten) adalah satu dari beberapa jenis bukti validitas yang mengevaluasi sejauh mana suatu instrumen pengukuran mencakup konten yang relevan dan sesuai dengan konstruk atau domain yang dimaksudkan. Validitas konten adalah aspek penting dalam menentukan apakah suatu instrumen dapat dianggap mengukur apa yang seharusnya diukur. Beberapa hal yang terkait dengan content-related validity evidence: a. Pembangunan Instrumen: o Saat mengembangkan suatu instrumen, validitas konten melibatkan perencanaan dan desain item-item atau pertanyaan-pertanyaan yang mencerminkan secara tepat dan lengkap konsep atau domain yang ingin diukur. b. Pengembangan Item dengan Ahli: o Dalam mengumpulkan bukti validitas konten, seringkali melibatkan kolaborasi dengan ahli dalam bidang tersebut. Ahli biasanya memberikan penilaian dan masukan tentang apakah item-item atau pertanyaanpertanyaan instrumen mencerminkan dengan benar konsep yang dimaksud. c. Uji Coba Awal (Pilot Testing): o Melibatkan uji coba awal instrumen pada sekelompok sampel terbatas untuk memastikan bahwa instrumen tersebut dapat diakses dan dimengerti oleh peserta dan mencakup konten yang relevan. d. Analisis Konten: o Penilaian atau analisis konten sering dilakukan untuk memastikan bahwa setiap item atau pertanyaan pada instrumen sesuai dengan tujuan pengukuran. Ini melibatkan pemeriksaan apakah instrumen mencakup semua aspek yang diinginkan. e. Perubahan atau Modifikasi Instrumen: o Jika hasil analisis konten menunjukkan bahwa ada kekurangan dalam mencakup konten yang relevan, instrumen dapat dimodifikasi atau diperbaiki sesuai dengan saran ahli atau temuan dari uji coba awal.
17 2. Bukti Validitas Konvergen (Convergent Validity Evidence) Untuk mempelajari validitas konvergen, kami menguji apakah dua ukuran yang kami harapkan berhubungan ternyata berhubungan secara empiris dan dapat dibuktikan secara empiris (lihat Tabel 10.5). Misalnya, pengembang portofolio Even Start menggunakan dua ukuran untuk berkorelasi dengan skor portofolio dalam studi validasi (Johnson, Fisher, et al., 2003). Sebagai contoh, anggota staf Even Start mempertimbangkan tingkat melek huruf yang ditunjukkan oleh peserta yang bekerja dengan mereka dan kemudian mengurutkan peserta berdasarkan tingkat melek huruf keluarga. Kegiatan ini diselesaikan sebelum portofolio dinilai. Convergent validity evidence (bukti validitas konvergen) adalah salah satu jenis bukti validitas yang mengevaluasi sejauh mana suatu instrumen pengukuran berkorelasi dengan instrumen lain yang seharusnya mengukur konsep yang serupa atau konvergen. Dengan kata lain, validitas konvergen menunjukkan sejauh mana hasil pengukuran dari dua instrumen atau lebih yang seharusnya terkait, memang berkorelasi positif. 3. Bukti Validitas Diskriminan (Discriminant Validity Evidence) Untuk mempelajari validitas diskriminan, kami mengumpulkan bukti mengenai apakah dua ukuran yang tidak kami harapkan berhubungan ternyata tidak berhubungan secara empiris. Misalnya, ukuran Penulisan Analitik GRE berkorelasi 0,02 dengan ukuran Kuantitatif GRE dan 0,55 dengan ukuran Verbalnya (Educational Testing Service [ETS], 2004), sehingga memberikan bukti awal bahwa ukuran Penulisan Analitik memberikan informasi tentang a konstruksi yang berbeda dari kuantitatif. Discriminant validity evidence (bukti validitas diskriminan) adalah salah satu jenis bukti validitas yang mengevaluasi sejauh mana suatu instrumen pengukuran tidak berkorelasi atau memiliki korelasi rendah dengan instrumen atau variabel lain yang seharusnya tidak terkait atau berbeda. Dengan kata lain, validitas diskriminan menunjukkan bahwa suatu instrumen membedakan antara konsep atau variabel yang diukur dengan konsep atau variabel lain yang seharusnya berbeda.
18 4. Bukti Validitas Terkait Kriteria (Criterion-Related Validity Evidence) Criterion-related validity evidence (bukti validitas kriteria) adalah jenis bukti validitas yang menilai sejauh mana hasil pengukuran dari suatu instrumen berkorelasi dengan suatu kriteria yang dianggap sebagai standar atau referensi untuk mengukur konsep yang sama. Bukti validitas kriteria dibagi menjadi dua jenis utama: validitas kriteria konvergen dan validitas kriteria divergen. Bukti validitas terkait kriteria mengungkapkan hubungan antara skor ujian dan hasil yang ditentukan. Misalnya, nilai yang cukup pada ujian mengemudi dikaitkan dengan pengemudi yang cukup berkualifikasi (dan aman). Skor yang cukup pada ujian penempatan dikaitkan dengan keberhasilan di kelas tertentu. Dalam dua contoh ini, validitas terkait kriteria memprediksi perilaku atau kesuksesan di kemudian hari. Namun, validitas terkait kriteria juga dapat didefinisikan dalam arti validitas bersamaan. Tabel: bagian dari daftar Periksa Literasi Keluarga 5. Bukti validitas bersamaan (Concurrent Validity Evidence) Concurrent validity evidence (bukti validitas kriteria konvergen) adalah salah satu jenis bukti validitas yang mengevaluasi sejauh mana hasil pengukuran dari suatu instrumen saat ini berkorelasi dengan suatu kriteria eksternal yang seharusnya terkait atau memiliki hubungan serentak. Ini sering kali digunakan ketika kita ingin menilai validitas suatu instrumen tanpa menunggu waktu yang lama untuk mengumpulkan data hasil kriteria. Bukti validitas bersamaan memberikan informasi tentang hubungan antara penilaian dan pemeriksaan alternatif dari konstruk yang sama (AERA, APA, & NCME, 1999). Contoh bukti yang digunakan dalam studi validitas bersamaan adalah korelasi antara skor portofolio Even Start dan skor dari Home Screening Questionnaire. (HSQ) (Coons, Gay, Fandal, Ker, & Frankenburg, 1981). Menurut Coons dan rekannya, HSQ menilai faktor-faktor di rumah yang berkontribusi
19 terhadap perkembangan sosial, emosional, dan kognitif seorang anak. Yang mengejutkan, korelasi antara skor portofolio Even Start dan HSQ tidak berbeda signifikan yaitu 0,0. 6. Bukti validitas prediktif (Predictive Validity Evidence) Predictive validity evidence (bukti validitas prediktif) adalah jenis bukti validitas yang mengevaluasi sejauh mana hasil pengukuran dari suatu instrumen dapat memprediksi atau meramalkan hasil atau kriteria di masa depan. Ini digunakan untuk menilai apakah suatu instrumen dapat memberikan indikasi yang akurat tentang perilaku, kinerja, atau karakteristik yang akan terjadi pada waktu yang akan datang. Bukti validitas prediktif memberikan informasi tentang apakah skor suatu ujian memprediksi kinerja di masa depan. Misalnya, Norris dan rekan (2006) menilai validitas prediktif skor penulisan SAT. Mereka mengkorelasikan skor dari penilaian menulis dengan nilai rata-rata (IPK) perguruan tinggi tahun pertama dan IPK dalam kursus komposisi bahasa Inggris. Korelasi antara nilai esai SAT dan IPK perguruan tinggi tahun pertama adalah 0,20 ketika dikoreksi karena pembatasan rentang. Korelasi antara nilai esai dan IPK komposisi bahasa Inggris adalah 0,18 ketika dikoreksi dengan batasan rentang. Selain itu, skor penulisan SAT (yaitu, soal pilihan ganda dan skor esai) menghasilkan peningkatan sebesar 0,01 pada validitas prediktif yang dicapai dengan menggunakan skor verbal dan matematika SAT serta IPK sekolah menengah atas untuk memprediksi IPK perguruan tinggi tahun pertama. 7. Bukti validitas Konsekuensial (Consequential Validity Evidence) Consequential validity evidence (bukti validitas konsekuensial) mengacu pada dampak atau konsekuensi penggunaan suatu instrumen pengukuran pada individu atau kelompok yang diukur. Validitas konsekuensial mempertimbangkan efek dan implikasi sosial, psikologis, atau praktis dari penggunaan instrumen tersebut, dan tidak hanya berfokus pada seberapa baik instrumen tersebut mengukur apa yang dimaksudkan. Validitas konsekuensial merupakan sumber kontroversi dalam komunitas pengujian. Beberapa orang dalam pengujian berpendapat bahwa validitas konsekuensial mengacu pada konsekuensi sosial yang timbul dari penggunaan pemeriksaan tertentu untuk tujuan tertentu. Misalnya, penggunaan ujian terstandar
20 dalam seleksi siswa untuk masuk sekolah kedokteran mempunyai konsekuensi sosial yang dapat dibuktikan jika ujian tersebut terbukti menguntungkan satu kelompok dibandingkan kelompok lainnya. Yang lain berpendapat bahwa konsekuensi sosial yang timbul dari penggunaan tes bukanlah pertimbangan yang masuk akal dalam proses penetapan validitas suatu ujian. Misalnya, Messick (1993b) menulis, “konsekuensi sosial yang merugikan dari penggunaan tes tidak menyebabkan penggunaan tes menjadi tidak valid, namun konsekuensi sosial yang merugikan tidak boleh disebabkan oleh sumber ketidakvalidan tes seperti varians yang tidak relevan dengan konstruk”. Pengembangan penilaian kinerja seperti yang dijelaskan dalam Menilai Kinerja harus mengurangi faktor-faktor asing yang mungkin mempengaruhi skor peserta ujian. Untuk mengurangi kesalahan dalam menilai kinerja, praktisi penilaian mengembangkan spesifikasi tes untuk membingkai proses pengembangan tes; mengembangkan tugas dan menyerahkannya ke proses peninjauan oleh para ahli; uji lapangan tugas-tugas ini dan periksa kualitasnya; menyelesaikan tugas dan mengelolanya dalam kondisi standar; menyiapkan penilai untuk menerapkan rubrik dan tolok ukur untuk menilai tugas; dan menguji reliabilitas dan validitas tes akhir. Dalam setiap langkah proses, praktisi penilaian bekerja sama dengan komite ahli atau staf program untuk memandu pengembangan tugas. Penerapan dan dokumentasi strategi-strategi ini berkontribusi dalam menghasilkan penilaian yang dapat mendukung keputusan yang akurat dalam bidang pendidikan, perizinan, sertifikasi, penelitian, dan evaluasi program.
21 BAB III SIMPULAN A. Simpulan Prosedur kerja yang dilakukan yaitu berupa persiapan sampel dan karakteristik (Kalista, 2018). Dapat disimpulkan bahwa kualitas item tes yang dikembangkan telah valid dan memenuhi kriteria tes yang baik, hal ini didasarkan pada reliabilitas item tes dan item tes yang dapat digunakan (Maulida, 2018). pada butir tes yang memiliki kualitas yang baik dimana dilihat dari kualitas tes yang tidak valid harus di perbaiki atau dibuatkan baru sesuai dengan indicator. Serta memperhatikan syarat pembuatan yang berkualitas (Muluki, 2020).
22 DAFTAR PUSTAKA Johnson, Robert L dkk. 2009. Assessing Performance: Designing, Scoring dan Validating Performance Tasks. New York London: The Guilford Press. (Johnson, 2009) Maulida dan Silvi Puspa Widya Lubis. 2018. Analisis Tingkat Reliabilitas pada Item Tes Tipe Pilihan Ganda. Jurnal Dedikasi Pendidikan, Vol. 2, No. 2, Juli 2018 : 128-133. P- ISSN: 2338-9966 | E-ISSN: 2548-8848. Aceh Besar: Pendidikan Biologi Universitas Abulyatama. Diunduh di http://jurnal.abulyatama.ac.id/index.php/dedikasi/article/view/107/107 (Online). Diakses pada: Sabtu, 07 Oktober 2023. Pada pukul: 09.31 WITA (Maulida, 2018). Muluki, Ardilah. Dkk. 2020. Analisis Kualitas Butir Tes Semester Ganjil Mata Pelajaran IPA Kelas IV Mi Radhiatul Adawiyah. Jurnal Ilmiah Sekolah Dasar Volume 4, Number 1, 2020 pp. 86-96 P-ISSN: 2579-3276. Diunduh di https://ejournal.undiksha.ac.id. (Online). Diakses pada: Sabtu, 07 Oktober 2023. Pada pukul: 09.39 WITA (Muluki, 2020). Lumbanraja, Lenny Hartaty dan Syahnan Daulay. 2017. Analisis Tingkat Kesukaran dan Daya Pembeda pada Butir Tes Soal Ujian Tengah Semester Bahasa Indonesia Kelas XII SMA Negeri 7 Medan Tahun Pembelajaran 2016/2017. Vol 6, No. 1 (2017). Diunduh di https://jurnal.unimed.ac.id/2012/index.php/kjb/article/view/10814/10017. (Online). Diakses pada: Sabtu, 07 Oktober 2023. Pada pukul: 09.43 WITA (Lumbanraja, 2017). Kalista, Ayu. Dkk. 2018. Analisis Organoleptik (Scoring Test) Tingkat Kesegaran Ikan Nila Selama Penyimpanan. Vol. 7, No.1: 98-103, Mei 2018. ISSN: 2302-6936 (Print). Palembang: Universitas Sriwijaya. Diunduh di: http://ejournal.unsri.ac.id/index.php/fishtech (Online). Diakses pada: Sabtu, 07 Oktober 2023. Pada pukul: 09.48 WITA (Kalista, 2018). Kholis, R. Ahmad Nur. 2017. Analisis Tingkat Kesulitan (Difficulty Level) Soal pada Buku Sejarah Kebudayaan Islam Kurikulumm 2013. DOI : 10.14421/jpai.2017.142-08. Diunduh di: https://core.ac.uk (Online). Diakses pada: Sabtu, 07 Oktober 2023. Pada pukul: 09.55 WITA (Kholis, 2017). Bagiyono. 2017. Analisis Tingkat Kesukaran dan Daya Pembeda Butir Soal Ujian Pelatihan Radiografi Tingkat 1. ISSN 1410-5357. Pusdiklat – BATAN. Diunduh di: https://jurnal.batan.go.id (Online). Diakses pada: Sabtu, 07 Oktober 2023. Pada pukul: 09.59 WITA (Bagiyono, 2017).