The words you are searching are inside this book. To get more targeted content, please make full-text search by clicking here.
Discover the best professional documents and content resources in AnyFlip Document Base.
Search
Published by NURFATIN NABILA BINTI CHE MAD FAUZI STUDENT, 2024-05-27 09:28:03

HPGD2303 EDUCATIONAL ASSESSMENT (BM)

HPGD2303 EDUCATIONAL ASSESSMENT (BM)

Copyright © Open University Malaysia (OUM) 174 ÿ TOPIK 8 KEBOLEHPERCAYAAN DAN KESAHAN UJIAN Kesahan kandungan adalah berbeza daripada kesahan muka yang merujuk kepada perkara yang kelihatan untuk diukur oleh ujian secara cetek. Kesahan muka menilai sama ada ujian „kelihatan sah‰ kepada pemeriksa, kakitangan pentadbiran yang memutuskan penggunaannya dan pemerhati lain yang tidak terlatih secara teknikal. Kesahan muka adalah ukuran kesahihan yang lemah tetapi itu tidak bermakna ia tidak betul, cuma perlu berhati-hati. Kepentingannya tidak boleh dipandang remeh. Terdapat dua jenis kesahan berkaitan kriteria: (i) Kesahan ramalan berkaitan sama ada ujian meramalkan dengan tepat beberapa prestasi atau keupayaan masa hadapan. Adakah peperiksaan STPM merupakan peramal yang baik terhadap prestasi di universiti? Satu kesukaran dalam mengira kesahan ramalan STPM adalah kerana hanya mereka yang lulus peperiksaan sahaja yang melanjutkan pelajaran ke universiti (secara amnya) dan kita tidak tahu sejauh mana pelajar yang tidak lulus peperiksaan mungkin telah melakukan (Wood, 1991). Lebih-lebih lagi, hanya sebahagian kecil penduduk yang menduduki peperiksaan STPM. Oleh itu, korelasi antara gred STPM dan prestasi di peringkat ijazah adalah agak tinggi. 36 peratus akan memberi tumpuan kepada aplikasi konsep untuk lima topik. Jadual Spesifikasi menyediakan bukti kepada guru bahawa sesuatu ujian mempunyai kesahan kandungan yang tinggi dan ia meliputi perkara yang perlu diliputi. (c) Kesahan Berkaitan Kriteria Kesahan berkaitan kriteria sesuatu ujian diwujudkan dengan mengaitkan markah yang diperolehi dengan markah beberapa kriteria lain atau ujian lain. Konsep 32 (64%) 11 (22%) 3 11 (22%) Haba Cahaya 3 7 Elektrik 4 50 Jadual 8.2: Jadual Spesifikasi Unit mengenai „Tenaga dan Daya‰ Jumlah Permohonan 4 6 (11%) 11 (22%) Pemahaman tentang 8 Bunyi 7 JUMLAH 18 (36%) Kemagnetan Topik 3 7 Konsep 4 11 (22%) Machine Translated by Google


8.6 TOPIK 8 UJIAN KEBOLEHPERCAYAAN DAN KESAHAN ÿ 175 (a) Tempoh Ujian Topik-topik yang dipilih dan soalan-soalan ujian yang disediakan hendaklah menggambarkan cara topik-topik tersebut ditangani semasa pengajaran dan pembelajaran. Adalah perlu untuk menjadi jelas tentang hasil pembelajaran dan mereka bentuk item yang mengukur hasil pembelajaran ini. Sebagai contoh, dalam pengajaran anda, pelajar tidak diberi peluang untuk berfikir secara kritis dan menyelesaikan masalah. Walau bagaimanapun, ujian anda terdiri daripada item yang memerlukan pelajar berfikir secara kritis dan menyelesaikan masalah. Dalam keadaan sedemikian, kebolehpercayaan dan kesahan ujian akan terjejas. (b) Pemilihan Topik Teknik pengujian yang dipilih juga akan mempengaruhi kebolehpercayaan dan kesahan. Sebagai contoh, jika anda memilih untuk menggunakan soalan esei, kesahan mungkin tinggi tetapi kebolehpercayaan mungkin rendah. Soalan esei cenderung kurang dipercayai daripada soalan jawapan pendek. Esei berstruktur biasanya lebih dipercayai daripada esei terbuka. Secara amnya, semakin lama ujian, semakin dipercayai dan sah ujian tersebut. Ujian pendek tidak akan mencukupi untuk kerja setahun. Sukatan pelajaran perlu dijadikan sampel. Ujian hendaklah mengandungi soalan yang mencukupi yang mewakili pengetahuan, kemahiran dan kecekapan dalam sukatan pelajaran. Walau bagaimanapun, terdapat juga masalah dengan ujian yang terlalu panjang. Ujian yang panjang mungkin sah tetapi ia akan mengambil terlalu banyak masa dan keletihan mungkin berlaku, yang boleh menjejaskan prestasi dan kebolehpercayaan ujian. Deale (1975) mencadangkan bahawa untuk menyediakan ujian yang boleh diterima dan boleh dipercayai, faktor-faktor ini harus diambil kira: (ii) Kesahan serentak mengambil berat tentang sama ada ujian itu berkorelasi dengan, atau memberikan keputusan yang sama dengan ujian lain dengan kemahiran yang sama. Sebagai contoh, adakah ujian bahasa akhir tahun anda berkaitan dengan peperiksaan MUET? Dengan kata lain, jika ujian bahasa anda berkorelasi tinggi dengan MUET, maka ujian bahasa anda mempunyai kesahan serentak yang tinggi. (c) Pilihan Teknik Pengujian SAH FAKTOR-FAKTOR YANG MEMPENGARUHI KEBOLEHPERCAYAAN DAN Copyright © Open University Malaysia (OUM) Machine Translated by Google


8.7 176 ÿ TOPIK 8 KEBOLEHPERCAYAAN DAN KESAHAN UJIAN Ini termasuk penyusunan item dalam ujian, pemantauan pengambilan ujian dan penyediaan fail data daripada buku kecil ujian. Prosedur pentadbiran ujian yang lemah boleh membawa kepada masalah dalam data yang dikumpul dan mengancam kesahihan keputusan ujian. (d) Kaedah Pentadbiran Ujian (e) Kaedah Pemarkahan Penandaan hendaklah seobjektif mungkin. Pemarkahan yang bergantung kepada pelaksanaan pertimbangan manusia seperti dalam esei, pemerhatian aktiviti bilik darjah dan amalan hands-on adalah tertakluk kepada variasi kesilapan manusia. (Rujuk kepada kebolehpercayaan antara penilai yang dibincangkan dalam subtopik terdahulu.) Agak mudah untuk menandakan item objektif dengan cepat, tetapi ia juga sangat mudah untuk membuat kesilapan cuai. Ini benar terutamanya apabila sejumlah besar skrip ditanda. Sistem semakan amat dinasihatkan. Satu kaedah adalah melalui komen pelajar sendiri apabila kertas bertanda mereka dikembalikan kepada mereka. Masa yang mencukupi mesti dibenarkan untuk majoriti pelajar menyelesaikan ujian. Ini akan mengurangkan tekaan liar dan sebaliknya menggalakkan pelajar berfikir dengan teliti tentang jawapan. Arahan perlu jelas untuk mengurangkan kesan kekeliruan terhadap kebolehpercayaan dan kesahan. Keadaan fizikal di mana ujian diambil mestilah sesuai untuk pelajar. Mesti ada ruang yang mencukupi, pencahayaan dan suhu yang sesuai. Pelajar mesti boleh bekerja secara berdikari dan kemungkinan gangguan dalam bentuk pergerakan dan bunyi bising mesti dijaga. Pentadbiran ujian juga merupakan langkah penting dalam proses pengukuran. Sesetengah orang mungkin menganggap kebolehpercayaan dan kesahan sebagai dua konsep yang berasingan. Pada hakikatnya, kebolehpercayaan dan kesahan adalah berkaitan. Trochim (2005) memberikan analogi berikut (rujuk Rajah 8.6). HUBUNGAN ANTARA KEBOLEHPERCAYAAN DAN KESAHAN Copyright © Open University Malaysia (OUM) Machine Translated by Google


TOPIK 8 KEBOLEHPERCAYAAN DAN KESAHAN UJIAN ÿ 177 Rajah 8.6: Perwakilan grafik hubungan antara kebolehpercayaan dan kesahan Sebaliknya, ujian penaakulan induktif anda boleh dipercayai tetapi tidak sah. Dalam konteks ujian psikologi, jika instrumen tidak mempunyai kebolehpercayaan yang memuaskan, seseorang biasanya tidak boleh menuntut kesahihan. Kesahan memerlukan instrumen yang cukup dipercayai. Rajah dalam Rajah 8.6(c) tidak mempunyai kesahan kerana kebolehpercayaan adalah rendah. Dalam erti kata lain, anda tidak mendapat anggaran yang sah tentang keupayaan penaakulan induktif pelajar anda kerana mereka tidak konsisten. Senario kes terburuk ialah apabila ujian tidak boleh dipercayai dan tidak sah (lihat Rajah 8.6(a)). Dalam senario ini, markah yang diperoleh oleh pelajar cenderung untuk menumpukan pada separuh bahagian atas sasaran dan mereka secara konsisten kehilangan pusat. Ukuran anda dalam kes ini tidak boleh dipercayai dan tidak sah dan ujian itu harus ditolak atau diperbaiki. Bagaimana mungkin? Ujian anda mungkin tidak mengukur penaakulan induktif tetapi skor yang anda perolehi setiap kali anda mentadbir ujian adalah lebih kurang sama (lihat Rajah 8.6(b)). Dalam erti kata lain, ujian secara konsisten dan sistematik mengukur konstruk yang salah (itu bukan penaakulan induktif). Bayangkan akibat membuat pertimbangan tentang penaakulan induktif pelajar menggunakan ujian sedemikian! Pusat atau bullseye adalah konsep yang kita cuba ukur. Katakan sebagai contoh, dalam cuba mengukur konsep „penaakulan induktif‰, anda berkemungkinan besar akan mencapai titik tengah (atau mata besar) jika ujian penaakulan induktif anda boleh dipercayai dan sah, yang merupakan matlamat untuk dicapai oleh semua pembangun ujian (lihat Rajah 8.6(d)). Copyright © Open University Malaysia (OUM) Machine Translated by Google


kebolehpercayaan ialah ketekalan penggredan oleh penilai tunggal. realiti, kebolehpercayaan dan kesahan adalah berkaitan. anda akan mengukur markah sebenar pelajar anda. kapasiti seseorang individu. pelajar. 178 ÿ TOPIK 8 KEBOLEHPERCAYAAN DAN KESAHAN UJIAN • Kebolehpercayaan merujuk kepada ketekalan sesuatu ukuran. Sesuatu ujian dianggap boleh dipercayai jika kita mendapat keputusan yang sama berulang kali. • Skor sebenar adalah konsep hipotesis tentang keupayaan, kecekapan dan kebolehan sebenar • Ketekalan dalaman ditentukan menggunakan hanya satu ujian yang diberikan sekali untuk • Kesahan memerlukan instrumen yang cukup dipercayai. • Kesahan ialah sejauh mana sesuatu ujian mengukur apa yang didakwa untuk diukur. Adalah penting untuk ujian itu sah agar keputusan dapat digunakan dan ditafsirkan dengan tepat. • Sesetengah orang mungkin menganggap kebolehpercayaan dan kesahan sebagai dua konsep yang berasingan. Dalam • Kesahan muka ialah ukuran kesahan yang lemah. • Semakin tinggi kebolehpercayaan dan kesahan ujian anda, semakin besar kemungkinannya • Apabila dua orang atau lebih menanda soalan esei, sejauh mana terdapat persetujuan dalam markah yang diperuntukkan dipanggil kebolehpercayaan antara penilai. • Menggunakan teknik ujian-uji semula, ujian yang sama ditadbir sekali lagi kepada kumpulan pelajar yang sama. • Kesahan konstruk berkaitan sama ada ujian adalah ukuran yang mencukupi bagi konstruk asas. • Manakala kebolehpercayaan antara penilai melibatkan dua atau lebih individu, intra-penilai • Kesahan kandungan lebih mudah dan berkemungkinan berkaitan dengan kesahan konstruk. Ia berkaitan dengan liputan kandungan yang sesuai dan perlu. • Untuk teknik bentuk selari atau setara, dua ujian (atau bentuk) setara diberikan kepada kumpulan pelajar yang sama. Copyright © Open University Malaysia (OUM) Machine Translated by Google


Copyright © Open University Malaysia (OUM) Kesahan muka Kesahan binaan Kebolehpercayaan Konsistensi dalaman Kesahan serentak Uji-uji semula Kebolehpercayaan antara penilai Kesahan kandungan Skor sebenar Kebolehpercayaan intra-penilai Kesahan berkaitan kriteria Kesahan Kesahan ramalan TOPIK 8 UJIAN KEBOLEHPERCAYAAN DAN KESAHAN ÿ 179 Machine Translated by Google


indeks diskriminasi sesuatu item; dan Apabila anda membangunkan ujian, adalah penting untuk mengenal pasti kekuatan dan kelemahan setiap item. Dalam erti kata lain, untuk menentukan prestasi item dalam ujian, beberapa prosedur statistik perlu digunakan. 1. Tentukan analisis item; 2. Kira indeks kesukaran; 3. Kira indeks diskriminasi; 4. Menganalisis keberkesanan distraktor dalam soalan; 5. Bincangkan perkaitan antara indeks kesukaran dengan 6. Jelaskan peranan bank barang. Dalam topik ini, kita akan membincangkan analisis item yang melibatkan penggunaan tiga prosedur iaitu kesukaran item, diskriminasi item dan analisis distraktor untuk membantu pembangun ujian membuat keputusan sama ada item dalam sesuatu ujian boleh diterima, diubah suai atau ditolak. Prosedur ini agak mudah dan mudah digunakan tetapi pendidik perlu memahami logik yang mendasari analisis pelajar untuk menggunakannya dengan betul dan berkesan. Pada akhir topik ini, anda seharusnya dapat: Topik ÿ Menilai HASIL PEMBELAJARAN ÿ PENGENALAN Copyright © Open University Malaysia (OUM) Ujian dan Item Bilik Darjah 9 Analisis Machine Translated by Google


APA ITU ANALISIS ITEM? LANGKAH DALAM ANALISIS ITEM TOPIK 9 MENILAI UJIAN BILIK DARJAH DAN ANALISIS ITEM ÿ 181 9.2 9.1 Kualiti sesuatu ujian ditentukan oleh kualiti setiap item atau soalan dalam ujian tersebut. Guru yang membina ujian hanya boleh menganggarkan secara kasar kualiti sesuatu ujian. Anggaran ini adalah berdasarkan fakta bahawa guru telah mengikuti semua peraturan dan syarat pembinaan ujian. Walau bagaimanapun, ada kemungkinan bahawa anggaran ini mungkin tidak tepat dan aspek penting tertentu telah diabaikan. Oleh itu, adalah dicadangkan untuk mendapatkan pemahaman yang lebih menyeluruh tentang ujian, analisis item perlu dijalankan ke atas respons pelajar. Analisis item dijalankan untuk mendapatkan maklumat tentang item atau soalan individu dalam sesuatu ujian dan bagaimana ujian itu boleh diperbaiki. Ia juga memudahkan pembangunan item atau bank soalan yang boleh digunakan dalam pembinaan ujian. Apakah analisis item? Analisis item ialah satu proses yang mengkaji respons kepada item atau soalan ujian individu untuk menilai kualiti item tersebut dan ujian secara keseluruhan. Analisis item amat berharga dalam menambah baik item atau soalan yang akan digunakan semula dalam ujian nanti. Selain itu, ia juga boleh digunakan untuk menghapuskan item yang samar-samar atau mengelirukan dalam satu pentadbiran ujian. Untuk banyak analisis item CTT cukup untuk memberikan maklumat yang kami perlukan. Oleh itu, CTT akan digunakan dalam modul ini. Kedua-dua Teori Ujian Klasik (CTT) dan teori ujian moden seperti Teori Tindak Balas Item (IRT) menyediakan statistik berguna untuk membantu kami menganalisis data ujian. Setelah menjalankan ujian dan menandakannya, kebanyakan guru akan membincangkan jawapan dengan pelajar. Perbincangan biasanya akan tertumpu kepada jawapan yang betul dan kesilapan biasa yang dibuat oleh pelajar. Sesetengah guru mungkin menumpukan pada soalan yang kebanyakan pelajar berprestasi dengan baik dan soalan yang pelajar melakukannya dengan sangat baik. Walau bagaimanapun, terdapat lebih banyak maklumat yang tersedia tentang ujian yang sering diabaikan oleh guru. Maklumat ini hanya akan tersedia jika analisis item dijalankan. Khususnya dalam Teori Ujian Klasik (CTT) statistik yang dihasilkan daripada menganalisis keputusan ujian berdasarkan markah ujian termasuk ukuran indeks kesukaran dan indeks diskriminasi. Menganalisis keberkesanan distraktor juga menjadi sebahagian daripada proses. Kami akan membincangkan setiap komponen analisis item ini secara terperinci kemudian. Copyright © Open University Malaysia (OUM) Machine Translated by Google


182 ÿ TOPIK 9 MENILAI UJIAN BILIK DARJAH DAN ANALISIS ITEM Mari kita ambil contoh seorang guru yang telah mentadbir ujian objektif aneka pilihan 30 item dalam geografi kepada 45 pelajar dalam bilik darjah sekolah menengah. (c) Langkah 3 Darab 45 (bilangan kertas jawapan) dengan 0.27 (atau 27 peratus) iaitu 12.15 dan bundarkan kepada 12. Penggunaan nilai 0.27 atau 27 peratus adalah tidak fleksibel. Adalah mungkin untuk menggunakan sebarang peratusan antara 27 hingga 35 peratus sebagai nilai. Bagaimanapun peraturan 27 peratus boleh diabaikan jika saiz kelas terlalu kecil. Daripada mengambil sampel 27 peratus, bahagikan bilangan kertas jawapan dengan 2. (e) Langkah 5 (a) Langkah 1 Rujuk Item #1 atau Soalan #1: (d) Langkah 4 (i) Hitung bilangan pelajar daripada kumpulan „markah tinggi‰ yang memilih setiap pilihan (A, B, C atau D); dan Jelas sekali, apabila menerima helaian jawapan, langkah pertama ialah menanda setiap helaian jawapan. Susun longgokan 45 helaian jawapan mengikut markah yang diperolehi (skor tertinggi hingga markah terendah). Keluarkan 12 helaian jawapan dari bahagian atas longgokan dan 12 helaian jawapan dari bahagian bawah longgokan. Panggil dua longgokan ini sebagai pelajar „markah tinggi‰ dan pelajar „markah rendah‰. Ketepikan kumpulan tengah kertas (21 kertas). Walaupun ini boleh dimasukkan dalam analisis, hanya menggunakan kumpulan tinggi dan rendah memudahkan prosedur. (b) Langkah 2 Susun 45 helaian jawapan daripada markah tertinggi yang diperoleh kepada markah terendah yang diperoleh. Kertas yang mendapat markah tertinggi berada di atas dan kertas yang mendapat markah terendah berada di bahagian bawah. (ii) Kira bilangan pelajar daripada kumpulan „markah rendah‰ yang memilih pilihan A, B, C atau D (rujuk Rajah 9.1). Copyright © Open University Malaysia (OUM) Machine Translated by Google


Rajah 9.1: Analisis item untuk satu item atau soalan ÿ ÿ INDEKS KESUKARAN hlm 0.54 Indeks kesukaran R 13 ÿ T 24 Jumlah bilangan pelajar yang mencuba soalan T ÿÿ ÿ Bilangan pelajar dengan jawapan yang betul (R) ÿ ÿ 9.3 TOPIK 9 MENILAI UJIAN BILIK DARJAH DAN ANALISIS ITEM ÿ 183 Copyright © Open University Malaysia (OUM) Daripada analisis, 11 pelajar daripada kumpulan „markah tinggi‰ dan dua pelajar daripada kumpulan „markah rendah‰ telah memilih „B‰ yang merupakan jawapan yang betul. Ini bermakna 13 daripada 24 pelajar memilih jawapan yang betul. Juga, ambil perhatian bahawa semua pengganggu (A, C dan D) telah dipilih oleh sekurang-kurangnya seorang pelajar. Walau bagaimanapun, maklumat yang diberikan dalam Rajah 9.1 tidak mencukupi dan analisis lanjut perlu dijalankan. Menggunakan maklumat yang diberikan dalam Rajah 9.1, anda boleh mengira indeks kesukaran yang merupakan penunjuk kuantitatif berkenaan dengan tahap kesukaran item atau soalan individu. Ia boleh dikira menggunakan formula berikut: Machine Translated by Google


Copyright © Open University Malaysia (OUM) 184 ÿ TOPIK 9 MENILAI UJIAN BILIK DARJAH DAN ANALISIS ITEM Di bawah CTT, ukuran kesukaran item hanyalah perkadaran jawapan yang betul daripada pelajar untuk sesuatu item. Untuk item dengan skor maksimum 2, terdapat sedikit pengubahsuaian pada pengiraan perkadaran peratusan yang betul. hlm Item ini mempunyai kemungkinan pemarkahan kredit separa 0, 1 dan 2. Jika jumlah bilangan pelajar yang mencuba item ini ialah 100 dan 23 pelajar mendapat markah 0, 60 pelajar mendapat markah 1 dan 17 pelajar mendapat markah 2, maka pengiraan mudah akan menunjukkan bahawa 23 peratus pelajar mendapat markah 0, 60 peratus pelajar mendapat markah 1 dan 17 peratus pelajar mendapat markah 2 untuk item tertentu ini. Purata markah untuk item ini hendaklah (0 ÿ 0.23) + (1 ÿ 0.6) + (2 ÿ 0.17) = 0.94. Jika seorang guru percaya bahawa pencapaian 0.54 pada item tersebut adalah terlalu rendah, dia boleh mengubah cara mengajarnya agar lebih memenuhi objektif yang diwakili oleh item tersebut. Tafsiran lain mungkin adalah item itu terlalu sukar, mengelirukan atau tidak sah, yang mana guru boleh menggantikan atau mengubah suai item tersebut, mungkin menggunakan maklumat daripada indeks diskriminasi item atau analisis distraktor. Apakah yang dimaksudkan dengan indeks kesukaran () 0.54? Indeks kesukaran ialah pekali yang menunjukkan peratusan pelajar yang mendapat jawapan yang betul berbanding dengan jumlah pelajar dalam dua kumpulan yang menjawab. Dalam erti kata lain, 54 peratus pelajar memilih jawapan yang betul. Walaupun pengiraan kami berdasarkan kumpulan markah tinggi dan rendah sahaja, ia memberikan anggaran hampir kepada anggaran yang akan diperoleh dengan jumlah kumpulan. Oleh itu, adalah wajar untuk mengatakan bahawa indeks kesukaran untuk item ini ialah 54 peratus (untuk kumpulan tertentu ini). Ambil perhatian bahawa, memandangkan kesukaran merujuk kepada peratusan mendapatkan item dengan betul, semakin kecil angka peratusan semakin sukar item tersebut. Lien (1980) menyediakan garis panduan mengenai tafsiran indeks kesukaran seperti berikut (rujuk Rajah 9.2): Rajah 9.2: Tafsiran indeks kesukaran () hlm Machine Translated by Google


0 2 Kumpulan markah tinggi (n = 12) Pilihan A D 3 B 2 4 2 1 2 0 Kumpulan markah rendah (n = 12) 8 C TOPIK 9 MENILAI UJIAN BILIK DARJAH DAN ANALISIS ITEM ÿ 185 forum. Indeks diskriminasi ialah ukuran asas yang menunjukkan sejauh mana sesuatu soalan mendiskriminasi atau membezakan antara pelajar dalam kumpulan „markah tinggi‰ dan „markah rendah‰. Indeks ini boleh ditafsirkan sebagai petunjuk sejauh mana pengetahuan keseluruhan bidang kandungan atau penguasaan kemahiran berkaitan dengan respons pada sesuatu item. Paling penting untuk item ujian bahawa pelajar mendapat jawapan yang betul kerana tahap pengetahuan atau keupayaan mereka dan bukan disebabkan oleh perkara lain seperti peluang atau berat sebelah ujian. (a) Kira indeks kesukaran () untuk Soalan #25. Maka purata markah yang diperhatikan bagi item ini ialah 0.94 daripada maksimum 2. Jadi purata perkadaran yang betul ialah 0.94/2 = 0.47 atau 47 peratus. (b) Adakah Soalan #25 soalan mudah atau sukar? Mewajarkan. hlm (c) Adakah anda fikir anda perlu menambah baik Soalan #25? kenapa? Seorang guru memberikan ujian sains 20 item kepada sekumpulan 35 pelajar. Yang betul kosong Kongsi jawapan anda dengan rakan kursus anda dalam myINSPIRE dalam talian jawapan untuk Soalan #25 ialah „C‰ dan keputusannya adalah seperti berikut: 9.4 INDEKS DISKRIMINASI Copyright © Open University Malaysia (OUM) AKTIVITI 9.1 Machine Translated by Google


Di mana Rh = Bilangan pelajar dalam kumpulan „markah tinggi‰ (RH) dengan betul T = Jumlah bilangan pelajar Perhatikan dalam contoh kami sebelum ini, 11 pelajar dalam kumpulan „markah tinggi‰ dan dua pelajar dalam kumpulan „markah rendah‰ memilih jawapan yang betul. Ini menunjukkan diskriminasi positif kerana item tersebut membezakan antara pelajar dengan cara yang sama seperti jumlah markah ujian. Iaitu, pelajar yang mendapat markah tinggi dalam ujian (kumpulan markah tinggi) mendapat item yang betul dengan lebih kerap daripada pelajar yang mendapat markah rendah dalam ujian (kumpulan markah rendah). Walaupun analisis melalui pemeriksaan mungkin semua yang diperlukan untuk kebanyakan tujuan, indeks diskriminasi boleh dikira dengan mudah menggunakan formula berikut: Contoh: Satu ujian telah diberikan kepada sekumpulan 43 pelajar dan 10 daripada 13 kumpulan „markah tinggi‰ mendapat jawapan yang betul berbanding 5 daripada 13 kumpulan „markah rendah‰ yang mendapat jawapan yang betul. Indeks diskriminasi dikira seperti berikut: jawab Apakah maksud indeks diskriminasi 0.38? Indeks diskriminasi ialah pekali yang menunjukkan sejauh mana soalan mendiskriminasi atau membezakan antara pelajar „markah tinggi‰ dan „markah rendah‰ pelajar. Blood and Budd (1972) menyediakan garis panduan berikut mengenai maksud indeks diskriminasi seperti berikut (rujuk Rajah 9.3): RL = Bilangan pelajar dalam kumpulan „markah rendah‰ (RL) dengan betul jawab ÿ ÿ ÿ ÿ ÿ ÿÿ L 1 h 1 2 2 Rajah 9.3: Tafsiran indeks diskriminasi RR 10 5 10 5 0.38 26 13 D T Copyright © Open University Malaysia (OUM) L 1 2 186 ÿ TOPIK 9 MENILAI UJIAN BILIK DARJAH DAN ANALISIS ITEM ÿ ÿ T ÿ Indeks diskriminasi RR h ÿ Machine Translated by Google


Copyright © Open University Malaysia (OUM) TOPIK 9 MENILAI UJIAN BILIK DARJAH DAN ANALISIS ITEM ÿ 187 (a) Kira indeks diskriminasi untuk Soalan #16. (b) Jika indeks diskriminasi adalah negatif, ini bermakna atas sebab tertentu pelajar yang mendapat markah rendah dalam ujian lebih berkemungkinan mendapat jawapan yang betul. Ini adalah situasi pelik yang menunjukkan kesahihan yang lemah untuk item. item. Soalan yang mempunyai indeks diskriminasi yang tinggi mampu membezakan antara pelajar yang tahu dan yang tidak tahu jawapannya. Apabila kita mengatakan sesuatu soalan mempunyai indeks diskriminasi yang rendah, ia tidak dapat membezakan antara pelajar yang tahu dan pelajar yang tidak tahu. Indeks diskriminasi yang rendah bermakna lebih ramai pelajar „markah rendah‰ mendapat jawapan yang betul kerana soalan itu terlalu mudah. Ia juga boleh bermakna bahawa pelajar daripada kumpulan „markah tinggi‰ dan kumpulan „markah rendah‰ mendapat jawapan yang salah kerana soalan itu terlalu sukar. forum. Formula untuk indeks diskriminasi adalah sedemikian rupa sehingga jika lebih ramai pelajar dalam kumpulan „markah tinggi‰ memilih jawapan yang betul daripada pelajar dalam kumpulan markah rendah, bilangannya akan menjadi positif. Sekurang-kurangnya, seseorang akan mengharapkan nilai positif kerana itu akan menunjukkan bahawa pengetahuan tentang soalan yang mengakibatkan Seorang guru memberikan ujian ekonomi 35 item kepada 42 pelajar. Untuk Soalan #16, 8 daripada 11 kumpulan „markah tinggi‰ mendapat jawapan yang betul berbanding 4 (b) Adakah Soalan #16 mempunyai indeks diskriminasi yang tinggi atau rendah? Mewajarkan. jawapan yang betul. Kongsi jawapan anda dengan rakan kursus anda dalam myINSPIRE dalam talian daripada 11 daripada kumpulan „markah rendah‰ yang mendapat jawapan yang betul. (a) Semakin besar nilai positif (semakin hampir kepada 1.0), semakin kukuh hubungan antara prestasi ujian keseluruhan dan prestasi pada itu AKTIVITI 9.2 Machine Translated by Google


9.5 Copyright © Open University Malaysia (OUM) 4 0.64 2.55 ÿ ÿ hlm Skor Item 2 3 18 Jadual 9.1: Skor Diperolehi oleh Pelajar untuk Soalan Esei Jawapan Pendek 0 6 1 Jumlah Markah Diperolehi 10 Jumlah 5 Bilangan Pelajar Mendapat Setiap Skor 51/20 = 2.55 51 3 4 5 1 Purata markah 0 3 20 hlm Julat skor yang mungkin ÿ Purata markah Mari kita andaikan bahawa sekumpulan 20 pelajar telah menjawab soalan esei jawapan pendek dengan markah antara minimum 0 hingga maksimum 4. Jadual 9.1 menyediakan markah yang diperolehi oleh pelajar. Indeks kesukaran () item boleh dikira menggunakan formula berikut seperti yang dicadangkan oleh Nitko (2004): Subtopik sebelumnya menerangkan penggunaan analisis item pada soalan aneka pilihan. Analisis item juga boleh digunakan untuk soalan berbentuk esei. Subtopik ini akan menggambarkan bagaimana ini boleh dilakukan. Untuk memudahkan pemahaman, ilustrasi akan menggunakan soalan esei jawapan pendek sebagai contoh. hlm Menggunakan maklumat daripada Jadual 9.1, indeks kesukaran soalan esei jawapan pendek boleh dikira dengan mudah. Purata skor yang diperolehi oleh kumpulan pelajar ialah 2.55, manakala julat skor yang mungkin bagi item tersebut ialah (4 ÿ 0) = 4. Justeru, 188 ÿ TOPIK 9 MENILAI UJIAN BILIK DARJAH DAN ANALISIS ITEM APLIKASI ANALISIS ITEM PADA SOALAN JENIS ESEI Machine Translated by Google


Perbezaan antara skor purata kumpulan atas dan bawah D Julat skor yang mungkin ÿ ÿ skor „n‰ merujuk kepada bilangan pelajar skor Kumpulan markah rendah (n = 10) 5 2 Purata Kumpulan markah tinggi (n = 10) 1 TOPIK 9 MENILAI UJIAN BILIK DARJAH DAN ANALISIS ITEM ÿ 189 0 0 1 0 34 0 3 1 17 3.4 2 3 1.7 Jumlah Jadual 9.2: Taburan Markah Yang Diperolehi Oleh Pelajar 4 4 4 Untuk mengira indeks diskriminasi (formula dicadangkan oleh Nitko (2004): Indeks kesukaran () 0.64 bermakna secara purata pelajar menerima 64 peratus daripada markah maksimum yang mungkin untuk item tersebut. Indeks kesukaran boleh ditafsirkan dengan cara yang sama seperti soalan aneka pilihan yang dibincangkan dalam subtopik 9.3. Item adalah tahap kesukaran yang sederhana (rujuk Rajah 9.2). Purata markah yang diperolehi oleh kumpulan atasan pelajar ialah 3.4 manakala kumpulan bawahan ialah 1.7. Menggunakan formula seperti yang dicadangkan oleh Nitko (2004), kita boleh mengira indeks diskriminasi bagi soalan esei jawapan pendek seperti berikut: Ambil perhatian bahawa dalam mengira indeks kesukaran dalam contoh di atas, markah daripada keseluruhan kumpulan digunakan untuk mendapatkan skor purata. Walau bagaimanapun, bagi sekumpulan besar pelajar, adalah mungkin untuk menganggar indeks kesukaran untuk item berdasarkan hanya sampel pelajar yang terdiri daripada kumpulan „markah tinggi‰ dan „markah rendah‰ seperti dalam kes pengiraan indeks kesukaran sesuatu soalan aneka pilihan. hlm Menggunakan maklumat daripada Jadual 9.1 dan mempersembahkannya dalam format seperti yang ditunjukkan dalam Jadual 9.2, kita boleh mengira indeks diskriminasi soalan esei jawapan pendek. D ) daripada soalan jenis esei, yang berikut 0.43 D 4 ÿ ÿ ÿ 3.4 1.7 Copyright © Open University Malaysia (OUM) Machine Translated by Google


190 ÿ TOPIK 9 MENILAI UJIAN BILIK DARJAH DAN ANALISIS ITEM AKTIVITI 9.3 3 Maklumat berikut ialah prestasi markah tinggi dan 2 2 2 1 2 0 1 Kumpulan markah tinggi (n = 10) 3 skor 2 4 Bincangkan penemuan dengan rakan kursus anda dalam myINSPIRE dalam talian 0 forum. 3 (a) Kira indeks kesukaran. Kumpulan markah rendah (n = 10) Indeks diskriminasi (D) 0.43 menunjukkan bahawa soalan jawapan pendek melakukan diskriminasi antara kumpulan pelajar atas dan bawah dan pada tahap tinggi (rujuk Rajah 9.3.). Seperti dalam pengiraan indeks diskriminasi soalan aneka pilihan untuk sekumpulan besar pelajar, sampel pelajar yang terdiri daripada 27 peratus teratas dan 27 peratus terbawah boleh digunakan untuk memberikan anggaran yang baik. 2 3 kumpulan markah rendah dalam soalan esei jawapan pendek. (c) Bincangkan dapatan. (b) Kira indeks diskriminasi. Copyright © Open University Malaysia (OUM) Machine Translated by Google


INDEKS DAN INDEKS DISKRIMINASI HUBUNGAN ANTARA KESUKARAN TOPIK 9 MENILAI UJIAN BILIK DARJAH DAN ANALISIS ITEM ÿ 191 9.6 Secara teorinya, lebih sukar soalan (atau item) atau lebih mudah soalan (atau item), semakin rendah indeks diskriminasi. Stanley dan Hopkins (1972) menyediakan model teori untuk menerangkan hubungan antara indeks kesukaran dan indeks diskriminasi soalan atau item tertentu (rujuk Rajah 9.4). Rajah 9.4: Hubungan teori antara indeks kesukaran dan indeks diskriminasi Sumber: Stanley & Hopkins (1972) Copyright © Open University Malaysia (OUM) Machine Translated by Google


AKTIVITI 9.4 192 ÿ TOPIK 9 MENILAI UJIAN BILIK DARJAH DAN ANALISIS ITEM indeks kesukaran sesuatu item dan indeks diskriminasinya? (a) Contohnya, indeks kesukaran 0.9 menghasilkan indeks diskriminasi kira-kira 0.2 yang digambarkan sebagai item diskriminasi rendah hingga sederhana. Kongsi jawapan anda dengan rakan kursus anda dalam myINSPIRE dalam talian 1. Apakah yang anda boleh simpulkan tentang hubungan antara forum. Mengikut model, indeks kesukaran 0.2 boleh menghasilkan indeks diskriminasi kira-kira 0.3 untuk item tertentu (yang boleh digambarkan sebagai item diskriminasi sederhana). Ambil perhatian bahawa apabila indeks kesukaran meningkat daripada 0.1 kepada 0.5, indeks diskriminasi meningkat lebih banyak lagi. Apabila indeks kesukaran mencapai 0.5 (diterangkan sebagai item kesukaran sederhana), indeks diskriminasi adalah positif 1.00 (diskriminasi sangat tinggi). Menariknya, untuk indeks kesukaran lebih daripada 0.5, indeks diskriminasi berkurangan. Kenapa jadi begini? ujian aneka pilihan kepada pelajar di sekolah anda? Terangkan. (b) Begitu juga, apabila indeks kesukaran adalah kira-kira 0.1, indeks diskriminasi menurun kepada kira-kira 0.2. Apakah maksud ini? Lebih sukar soalan itu, lebih sukar untuk soalan atau item itu mendiskriminasi antara pelajar yang tahu dan tidak tahu jawapan kepada soalan itu. 2. Adakah anda mengambil kira faktor-faktor ini semasa memberi a Apakah maksud ini? Lebih mudah soalan, lebih sukar untuk soalan atau item itu mendiskriminasi antara pelajar yang tahu dan tidak tahu jawapan kepada soalan itu. Copyright © Open University Malaysia (OUM) Machine Translated by Google


ANALISIS DISTRAKTOR TOPIK 9 MENILAI UJIAN BILIK DARJAH DAN ANALISIS ITEM ÿ 193 9.7 Contoh: Kuasa Eropah manakah yang menyerang Melaka pada tahun 1511? Secara amnya, distraktor yang baik mampu menarik lebih ramai pelajar „markah rendah‰ untuk memilih respons tertentu atau mengalih perhatian „markah rendah‰ pelajar ke arah memilih respons tertentu tersebut. Apakah yang menentukan keberkesanan distraktor? Dalam Rajah 9.5, seramai 24 orang pelajar telah memilih pilihan A, B, C dan D untuk soalan tertentu. Pilihan B adalah pengacau yang kurang berkesan kerana ramai pelajar „markah tinggi‰ (n = 5) memilih pilihan B. Pilihan D agak mengganggu kerana dua Selain meneliti prestasi keseluruhan item ujian, guru juga berminat untuk meneliti prestasi distraktor individu (pilihan jawapan yang salah) pada item aneka pilihan. Dengan mengira perkadaran pelajar yang memilih setiap pilihan jawapan, guru boleh mengenal pasti distraktor yang "berfungsi" dan kelihatan menarik kepada pelajar yang tidak tahu jawapan yang betul dan distraktor yang hanya mengambil ruang dan tidak dipilih oleh ramai pelajar. Untuk menghapuskan tekaan buta yang menghasilkan jawapan yang betul secara kebetulan semata-mata (yang menjejaskan kesahihan item ujian), guru mahukan seberapa banyak gangguan yang munasabah yang boleh dilaksanakan. Analisis pilihan respons membolehkan guru memperhalusi dan menambah baik item yang mereka mungkin ingin gunakan semula dengan kelas akan datang. Mari kita periksa prestasi pada item atau soalan (rujuk Rajah 9.5). Rajah 9.5: Keberkesanan distraktor Copyright © Open University Malaysia (OUM) Machine Translated by Google


Tiada jawapan Markah 0 tinggi (n = 15) C Hugh Low Birch Brooke Gurney 6 0 7 0 D 2 B 4 Pilihan 3 4 Markah rendah (n = 15) 4 A AKTIVITI 9.5 194 ÿ TOPIK 9 MENILAI UJIAN BILIK DARJAH DAN ANALISIS ITEM Indeks diskriminasi boleh diperbaiki dengan mengubah suai dan menambah baik pilihan B dan C. Jawapannya ialah B. Menganalisis keberkesanan distraktor. Sesetengah guru mungkin mendapati teknik yang dibincangkan sebelum ini sebagai memakan masa, yang tidak boleh dinafikan (terutamanya apabila anda mempunyai ujian yang terdiri daripada 40 item). Kongsi jawapan anda dengan rakan kursus anda dalam forum dalam talian myINSPIRE. Residen British manakah yang dibunuh oleh Maharajalela di Pasir Salak? pelajar daripada kumpulan „markah tinggi‰ dan lima pelajar daripada kumpulan „markah rendah‰ memilih pilihan ini. Analisis pilihan respons menunjukkan bahawa mereka yang terlepas item berkemungkinan sama untuk memilih pilihan B dan pilihan D. Tiada pelajar memilih pilihan C. Oleh itu, pilihan C tidak bertindak sebagai gangguan. Ini kerana pelajar tidak memilih antara empat pilihan jawapan pada item ini, mereka benar-benar memilih antara tiga pilihan sahaja kerana mereka tidak mempertimbangkan pilihan C. Walau bagaimanapun, terdapat pendekatan yang lebih praktikal yang mungkin mengambil sedikit masa. Bayangkan anda telah mentadbir ujian 40 item kepada kelas 30 pelajar. Pastinya ia akan mengambil banyak masa untuk menganalisis keberkesanan setiap item dan mungkin tidak menggalakkan anda menganalisis setiap item dalam ujian. Diederich (1971) mencadangkan kaedah analisis item yang boleh dijalankan oleh guru dan pelajar di dalam kelasnya. Berikut adalah langkahlangkahnya: Ini menjadikan meneka dengan betul lebih berkemungkinan, yang menjejaskan kesahihan item. 9.8 PENDEKATAN PRAKTIS KEPADA ITEM ANALISIS Copyright © Open University Malaysia (OUM) Machine Translated by Google


ÿ 30 RR ÿ 30 Indeks kesukaran 0.73 14 8 ÿ ÿÿ TOPIK 9 MENILAI UJIAN BILIK DARJAH DAN ANALISIS ITEM ÿ 195 (a) Langkah 1 Susun 30 helaian jawapan daripada markah tertinggi yang diperoleh kepada markah terendah yang diperoleh. Guru: Jawapan untuk Soalan #1 ialah „C‰ dan mereka yang mendapatnya betul, angkat tangan. Soalan 1 n 12 18 (d) Langkah 4 (c) Langkah 3 22 Tinggi Rendah Jumlah Jawapan Betul Soalan #n (f) Langkah 6 (b) Langkah 2 (e) Langkah 5 Kaunter daripada kumpulan „H‰: 14 untuk kumpulan H. Soalan #2 n 23 Guru kemudian bertanya kepada kelas. 16 Bahagikan kelas kepada dua kumpulan (tinggi dan rendah) dan edarkan kertas jawapan „tinggi‰ kepada kumpulan tinggi dan kertas jawapan „rendah‰ kepada kumpulan rendah. Tugaskan seorang pelajar dalam setiap kumpulan untuk menjadi kaunter. 14 6 7 Kira indeks kesukaran untuk Soalan #1 seperti berikut: Pilih kertas jawapan yang mendapat skor tengah. Kumpulkan semua kertas jawapan di atas markah ini sebagai „markah tinggi‰ (tandakan „H‰ pada helaian jawapan ini). Kumpulkan semua kertas jawapan di bawah markah ini sebagai kumpulan „markah rendah‰ (tandakan „L‰ pada helaian jawapan ini). 8 Guru merekodkan jawapan di papan putih seperti berikut: Kaunter daripada kumpulan „L‰: 8 daripada kumpulan L. Soalan #3 | | n HL Copyright © Open University Malaysia (OUM) Machine Translated by Google


Indeks kesukaran RR 14 8 6 0.40 ÿ 30 ÿ 15 ÿ ÿÿ ÿ 15 196 ÿ TOPIK 9 MENILAI UJIAN BILIK DARJAH DAN ANALISIS ITEM AKTIVITI 9.6 Perhatikan bahawa sebelum ini, kami mengambil 27 peratus kertas jawapan dalam kumpulan „markah tinggi‰ dan 27 peratus kertas jawapan dalam kumpulan „markah rendah‰ daripada jumlah kertas jawapan. Walau bagaimanapun, dalam pendekatan ini kami membahagikan jumlah kertas jawapan kepada dua kumpulan. Tiada kumpulan pertengahan. Perkara penting ialah menggunakan sebahagian besar kumpulan yang cukup besar untuk memberikan maklumat yang berguna. Terangkan jawapan anda dengan rakan kursus anda dalam myINSPIRE dalam talian (ii) Adakah item tersebut mempunyai kesukaran yang sesuai? (i) Adakah item tersebut berfungsi seperti yang dimaksudkan? mentadbir ujian. Memilih bahagian atas dan bawah 27 peratus kumpulan disyorkan untuk analisis yang lebih halus. Kaedah yang ditunjukkan dalam contoh mungkin kurang tepat tetapi ia adalah kaedah „cepat dan kotor‰. forum. menggunakan kaedah kasar ini dengan model teori oleh Stanley dan Kira indeks diskriminasi untuk Soalan #1 seperti berikut: Selepas setiap ujian atau penilaian, adalah dinasihatkan untuk menjalankan analisis item bagi item ujian kerana maklumat daripada analisis akan berguna kepada guru. 1. Bandingkan indeks kesukaran dan indeks diskriminasi yang diperolehi (g) Langkah 7 (a) Daripada perbincangan dalam subtopik terdahulu, adalah jelas bahawa hasil analisis item boleh memberikan jawapan kepada soalan berikut: 2. Guru hendaklah melakukan analisis item setiap kali selepas Antara faedah daripada analisis adalah seperti berikut: Hopkins dalam Rajah 9.4. Adakah indeks sangat jauh? HL 1 2 9.9 KEGUNAAN ANALISIS ITEM UNTUK GURU Copyright © Open University Malaysia (OUM) Machine Translated by Google


TOPIK 9 MENILAI UJIAN BILIK DARJAH DAN ANALISIS ITEM ÿ 197 (b) Data analisis item boleh menyediakan asas untuk perbincangan kelas yang cekap tentang keputusan ujian. Mengetahui sejauh mana keberkesanan setiap item ujian berfungsi dalam mengukur pencapaian hasil pembelajaran yang dihasratkan dan prestasi pelajar dalam setiap item, guru boleh mengadakan perbincangan yang lebih berkesan dengan pelajar kerana maklum balas berdasarkan analisis item adalah lebih objektif dan bermaklumat. Sebagai contoh, guru boleh menyerlahkan maklumat salah atau salah faham yang dicerminkan dalam pilihan pengganggu tertentu pada soalan aneka pilihan atau kesilapan yang kerap berulang pada soalan jenis esei, dengan itu meningkatkan nilai pengajaran penilaian. Jika, semasa perbincangan, analisis item mendedahkan bahawa terdapat kecacatan teknikal dalam item atau skema pemarkahan, markah pelajar juga boleh diperbetulkan untuk memastikan ujian yang lebih adil. (iv) Adakah setiap pengganggu berkesan (dalam soalan aneka pilihan)? Pelajaran pemulihan boleh dirancang untuk mengatasi masalah tersebut. (d) Data analisis item boleh mendedahkan kelemahan dalam pengajaran dan memberikan maklumat berguna untuk menambah baik pengajaran. Sebagai contoh, walaupun fakta bahawa item dibina dengan betul, ia mempunyai indeks kesukaran yang rendah, menunjukkan bahawa kebanyakan pelajar gagal menjawab item tersebut dengan memuaskan. Ini mungkin menunjukkan bahawa pelajar belum menguasai kandungan sukatan pelajaran tertentu yang sedang dinilai. Ini mungkin disebabkan oleh kelemahan dalam pengajaran dan oleh itu memerlukan pelaksanaan strategi pengajaran yang lebih berkesan oleh guru. Tambahan pula, jika item itu berulang kali sukar untuk pelajar, mungkin terdapat keperluan untuk menyemak semula kurikulum. Jawapan kepada soalan sebelumnya boleh digunakan untuk memilih atau menyemak item ujian untuk kegunaan masa hadapan. Ini akan membantu meningkatkan kualiti item ujian dan kertas ujian untuk kegunaan masa hadapan. Ia juga menjimatkan masa guru semasa menyediakan item ujian untuk kegunaan masa hadapan kerana item yang baik boleh disimpan di bank item. (iii) Adakah barang-barang tersebut bebas daripada petunjuk yang tidak berkaitan dan kecacatan lain? (c) Data analisis item boleh digunakan untuk kerja pemulihan. Analisis akan mendedahkan bidang khusus yang pelajar lemah. Guru boleh menggunakan maklumat untuk memfokuskan kerja pemulihan secara langsung pada bidang kelemahan tertentu. Sebagai contoh, berdasarkan analisis distraktor, didapati bahawa distraktor tertentu mempunyai diskriminasi yang rendah dengan bilangan pelajar yang tinggi daripada kumpulan markah tinggi dan rendah memilih pilihan. Ini boleh mencadangkan bahawa terdapat beberapa salah faham pada konsep tertentu. Copyright © Open University Malaysia (OUM) Machine Translated by Google


9.10 198 ÿ TOPIK 9 MENILAI UJIAN BILIK DARJAH DAN ANALISIS ITEM (a) Kuasa mendiskriminasi item tidak menunjukkan kesahihan item. Indeks diskriminasi yang tinggi hanya menunjukkan bahawa pelajar dari kumpulan markah tinggi menunjukkan prestasi yang lebih baik berbanding pelajar dari kumpulan markah rendah. Pembahagian kumpulan markah tinggi dan markah rendah adalah berdasarkan jumlah markah ujian yang diperolehi oleh setiap pelajar, yang merupakan kriteria dalaman. Dengan menggunakan kriteria dalaman jumlah markah ujian, analisis item menawarkan bukti mengenai ketekalan dalaman ujian dan bukannya kesahihannya. Kesahan sesuatu ujian perlu dinilai menggunakan kriteria luaran, iaitu sejauh mana ujian itu menilai hasil pembelajaran yang dimaksudkan. (b) Indeks diskriminasi tidak selalunya merupakan penunjuk kualiti item. Sebagai contoh, indeks kuasa diskriminasi yang rendah tidak semestinya menunjukkan item yang rosak. Jika sesuatu item tidak mendiskriminasi tetapi ia didapati bebas daripada kesamaran dan kecacatan teknikal lain, item tersebut hendaklah disimpan terutamanya dalam ujian rujukan kriteria. Dalam ujian sedemikian, item tanpa diskriminasi mungkin mencadangkan bahawa semua pelajar telah mencapai kriteria yang ditetapkan oleh guru. Oleh yang demikian, item tersebut tidak membezakan antara pelajar yang baik dan lemah. Satu lagi sebab yang mungkin mengapa diskriminasi rendah berlaku untuk item ialah item itu mungkin sama ada sangat mudah atau sangat sukar. Kadangkala, item ini perlu atau wajar disimpan untuk mengukur a Walaupun analisis item berguna, hasil daripada analisis sedemikian adalah terhad dalam banyak cara dan mesti ditafsirkan dengan berhati-hati. Berikut adalah beberapa kebimbangan utama yang perlu diperhatikan: (e) Prosedur analisis item menyediakan asas kepada guru untuk meningkatkan kemahiran mereka dalam pembinaan ujian. Semasa guru menganalisis tindak balas pelajar terhadap item, mereka menyedari tentang kecacatan item dan apa yang menyebabkannya. Apabila menyemak item, mereka mendapat pengalaman dalam menyusun semula penyataan supaya lebih jelas, menulis semula gangguan supaya lebih munasabah dan mengubah suai item supaya berada pada tahap kesukaran yang lebih sesuai. Hasilnya, guru meningkatkan kemahiran membina ujian mereka. AWAS DALAM MENAFSIHKAN ITEM HASIL ANALISIS Copyright © Open University Malaysia (OUM) Machine Translated by Google


9.11 TOPIK 9 MENILAI UJIAN BILIK DARJAH DAN ANALISIS ITEM ÿ 199 Bank item terdiri daripada soalan yang telah dianalisis dan disimpan kerana ia adalah item yang baik. Setiap item yang disimpan akan mempunyai maklumat tentang indeks kesukaran dan indeks diskriminasinya. Setiap item disimpan mengikut apa yang diukur terutamanya berkaitan dengan topik kurikulum. Item ini akan disimpan dalam bentuk Jadual Spesifikasi yang menunjukkan kandungan yang diukur serta tahap kognitif yang diukur. Contohnya, dari bank item, anda akan dapat melukis item yang mengukur aplikasi konsep untuk topik „Elektrik‰. (c) Jenis data analisis item tradisional ini adalah tentatif. Ia tidak tetap tetapi dipengaruhi oleh jenis dan bilangan pelajar yang diuji dan prosedur pengajaran yang digunakan. Data itu akan berubah dengan setiap pentadbiran item ujian yang sama. Oleh itu, jika penggunaan item berulang mungkin, analisis item perlu dijalankan untuk setiap pentadbiran setiap item. Oleh itu sifat tentatif analisis item harus diambil serius dan hasilnya ditafsirkan dengan berhati-hati. Anda juga akan dapat menarik item dari bank dengan tahap kesukaran yang berbeza. Bank item ialah koleksi besar soalan atau item yang mudah diakses yang telah ditadbir dalam satu tempoh masa. Bagi ujian pencapaian yang menilai prestasi dalam badan pengetahuan seperti geografi, sejarah, kimia atau matematik, soalan yang boleh ditanya adalah agak terhad. Oleh itu, tidak hairanlah bahawa soalan terdahulu dikitar semula dengan beberapa perubahan kecil dan diberikan kepada kumpulan pelajar yang berbeza. Membuat item ujian yang baik bukanlah satu tugas yang mudah dan boleh memakan masa untuk guru. Item atau bank soalan akan sangat membantu guru. sampel yang mewakili hasil pembelajaran dan kandungan kursus. Selain itu, ujian pencapaian biasanya direka untuk mengukur beberapa jenis hasil pembelajaran (pengetahuan, pemahaman, aplikasi dan sebagainya). Dalam kes sedemikian, akan terdapat hasil pembelajaran yang dinilai oleh item ujian yang lebih sedikit dan item ini akan mempunyai diskriminasi yang rendah kerana ia mempunyai kurang perwakilan dalam jumlah markah ujian. Mengeluarkan item ini daripada ujian adalah tidak digalakkan kerana ia akan menjejaskan kesahan ujian. Mungkin, anda ingin menyusun soalan yang lebih mudah pada permulaan ujian untuk membina keyakinan dalam diri pelajar dan secara beransur-ansur memperkenalkan soalan yang semakin sukar. BANK ITEM Copyright © Open University Malaysia (OUM) Machine Translated by Google


9.12 200 ÿ TOPIK 9 MENILAI UJIAN BILIK DARJAH DAN ANALISIS ITEM Orang yang bertanggungjawab juga mesti berusaha sedaya upaya untuk menambah hanya item berkualiti pada kumpulan item. Untuk membangun dan mengekalkan bank item yang baik memerlukan banyak persediaan, perancangan, kepakaran dan organisasi. Walaupun pendekatan Item Response Theory (IRT) bukanlah ubat untuk semua masalah perbankan item, banyak isu ini boleh diselesaikan. Malangnya, tidak banyak institusi pendidikan yang dilengkapi dengan bank item sedemikian. Amalan yang lebih biasa ialah guru memilih item atau soalan daripada buku kerja yang disediakan secara komersial, kertas peperiksaan lepas dan item sampel daripada buku teks. Sumber-sumber ini tidak mempunyai maklumat tentang indeks kesukaran dan indeks diskriminasi item atau maklumat tentang tahap kognitif soalan atau perkara yang mereka ingin ukur. Guru perlu memikirkan sendiri ciri-ciri item berdasarkan pengalaman mereka dalam mengajar kandungan. Program perisian yang direka untuk analisis statistik umum seperti SPSS selalunya boleh digunakan untuk jenis analisis psikometrik tertentu. Pelbagai program perisian tersedia khusus untuk menganalisis data daripada ujian. Walau bagaimanapun, terdapat beberapa isu berkaitan dengan penggunaan bank item. Salah satu kebimbangan utama bank item ialah cara meletakkan item ujian berbeza yang dikumpul dari semasa ke semasa pada skala yang sama. Skala hendaklah menunjukkan kesukaran item, satu skala bagi setiap perkara. Pengambilan semula barang dari bank menjadi mudah apabila semua item diletakkan pada skala yang sama. Dengan pangkalan data berkomputer, bank item mudah diakses. Guru akan mempunyai beratusratus item yang mereka boleh gunakan semasa membangunkan ujian bilik darjah. Ini sudah tentu akan membantu guru dengan tugas yang membosankan dan memakan masa untuk membina item atau soalan dari awal. Teori Ujian Klasik (CTT) ialah pendekatan kepada analisis psikometrik yang mempunyai andaian yang lebih lemah daripada Teori Tindak Balas Item (IRT) dan lebih sesuai untuk saiz sampel yang lebih kecil. Di bawah CTT, markah ujian mentah pelajar adalah jumlah markah yang diterima pada item dalam ujian. Sebagai contoh, Iteman ialah program komersial manakala TAP ialah program percuma untuk analisis klasik. PERISIAN PSIKOMETRIK Copyright © Open University Malaysia (OUM) Machine Translated by Google


TOPIK 9 MENILAI UJIAN BILIK DARJAH DAN ANALISIS ITEM ÿ 201 • Analisis item ialah satu proses yang mengkaji tindak balas kepada item ujian individu atau soalan untuk menilai kualiti item tersebut dan ujian secara keseluruhan. • Dengan mengira nisbah pelajar yang memilih setiap pilihan jawapan, guru boleh mengenal pasti distraktor yang "berfungsi" dan kelihatan menarik kepada pelajar yang tidak tahu jawapan yang betul dan distraktor yang hanya mengambil ruang dan tidak dipilih oleh ramai pelajar. • Analisis item dijalankan untuk mendapatkan maklumat tentang item individu atau • Secara umumnya, distraktor yang baik mampu menarik lebih ramai pelajar „markah rendah‰ untuk memilih respons tertentu atau mengalih perhatian „markah rendah‰ pelajar ke arah memilih respons tertentu tersebut. soalan dalam ujian dan bagaimana ujian itu boleh diperbaiki. • Bank item terdiri daripada soalan yang telah dianalisis dan disimpan kerana ia adalah item yang baik. • Indeks diskriminasi ialah ukuran asas yang menunjukkan sejauh mana sesuatu soalan mendiskriminasi atau membezakan antara pelajar dalam kumpulan „markah tinggi‰ dan kumpulan „markah rendah‰. • Indeks kesukaran adalah penunjuk kuantitatif berkaitan dengan tahap kesukaran item atau soalan individu. IRT ialah pendekatan psikometrik yang menganggap bahawa kebarangkalian tindak balas tertentu adalah fungsi langsung sifat atau sifat asas. Di bawah IRT, kebimbangan adalah sama ada pelajar memperoleh setiap item dengan betul atau tidak, dan bukannya skor ujian mentah. Konsep asas IRT adalah mengenai item ujian individu dan bukannya tentang markah ujian. Sifat atau kebolehan dan ciri-ciri item pelajar dirujuk kepada skala yang sama. Sebagai contoh, ConQuest ialah program komputer untuk respons item dan model regresi terpendam dan TAM ialah pakej R untuk model respons item. • Secara teorinya, lebih sukar soalan (atau item) atau lebih mudah soalan (atau item), semakin rendah indeks diskriminasi. Copyright © Open University Malaysia (OUM) Machine Translated by Google


202 ÿ TOPIK 9 MENILAI UJIAN BILIK DARJAH DAN ANALISIS ITEM Soalan susah Kumpulan markah tinggi Indeks kesukaran Teori Tindak Balas Item (IRT) Analisis item Kumpulan markah rendah Indeks diskriminasi Psikometrik Bank barang Soalan mudah Analisis distraktor Teori Ujian Klasik (CTT) Pengganggu yang baik Copyright © Open University Malaysia (OUM) Machine Translated by Google


1. Kira pelbagai ukuran kecenderungan memusat; 2. Menerangkan penggunaan skor standard; 3. Kira skor z dan skor T; 4. Huraikan ciri-ciri lengkung normal; dan Semua data yang telah anda kumpulkan mengenai prestasi pelajar perlu dianalisis. Dalam topik ini kami akan memberi tumpuan kepada analisis dan tafsiran data yang telah anda kumpulkan tentang pengetahuan, kemahiran dan sikap pelajar anda. 5. Jelaskan peranan norma dalam ujian piawai. Pada akhir topik ini, anda seharusnya dapat: Anda menganalisis dan mentafsir maklumat yang telah anda kumpulkan tentang pelajar anda secara kuantitatif dan kualitatif. Untuk analisis kuantitatif data, pelbagai alat statistik digunakan, yang akan kami fokuskan dalam topik ini. Sebagai contoh, statistik digunakan untuk menunjukkan taburan markah pada ujian Geografi dan purata markah yang diperoleh oleh pelajar. Topik ÿ Analisis dan HASIL PEMBELAJARAN ÿ PENGENALAN Copyright © Open University Malaysia (OUM) Tafsiran 10 daripada Markah Ujian Machine Translated by Google


KENAPA KITA MENGGUNAKAN STATISTIK? 204 ÿ TOPIK 10 ANALISIS DAN TAFSIRAN MARKAH UJIAN 10.1 Ini menggambarkan bahawa markah yang diperoleh oleh pelajar dalam sesuatu ujian perlu diteliti dengan teliti. Tidak memadai dengan hanya melaporkan markah yang diperolehi. Maklumat lanjut perlu diberikan tentang markah yang diperoleh dan untuk melakukan ini anda perlu bergantung pada statistik. Sesetengah guru mungkin takut dengan statistik manakala yang lain mungkin menganggapnya sebagai terlalu memakan masa. Malah, ramai di antara kita sering menggunakan statistik tanpa disedari. Sebagai contoh, apabila kita bercakap tentang purata hujan, pendapatan per kapita, kadar faedah dan peratusan peningkatan dalam kehidupan seharian kita, kita bercakap bahasa statistik. Apakah statistik? Malah penggunaan peratusan mungkin tidak bermakna. Sebagai contoh, mendapat 64 peratus dalam ujian mungkin dianggap „baik‰ jika ujian itu merupakan ujian yang sukar. Sebaliknya, jika ujian itu mudah, maka 64 peratus boleh dianggap sebagai hanya „purata‰. Dengan kata lain, untuk mendapatkan gambaran yang lebih tepat tentang markah yang diperoleh oleh pelajar dalam ujian, guru hendaklah: kelas. Apabila anda mentadbir ujian Geografi kepada kelas anda yang terdiri daripada 40 pelajar pada akhir semester, anda akan memperoleh markah untuk setiap pelajar yang merupakan ukuran sampel keupayaan pelajar. Tingkah laku yang diuji boleh menjadi keupayaan untuk menyelesaikan masalah seperti membaca peta, glob dan tafsiran graf. Sebagai contoh, pelajar A mendapat markah 64 manakala pelajar B mendapat 32. Adakah ini bermakna keupayaan pelajar A lebih baik daripada pelajar B? Adakah ia bermakna keupayaan pelajar A adalah dua kali ganda keupayaan pelajar B? Adakah markah 64 dan 32 dalam peratusan? Markah atau markah ini sukar untuk ditafsir kerana ia adalah skor mentah. Skor mentah boleh mengelirukan jika tiada rujukan dibuat kepada „unit‰. Ia hanya logik bahawa anda menukar markah kepada unit seperti peratusan. Dalam contoh ini, anda mendapat 64 peratus dan 32 peratus. (c) Ketahui bilangan soalan yang dijawab dengan betul oleh semua pelajar dalam (b) Ketahui pelajar manakah yang mendapat markah terendah dalam kelas dan bilangan soalan yang dijawab dengan betul; dan (a) Ketahui pelajar manakah yang memperoleh markah tertinggi dalam kelas dan bilangan soalan yang dijawab dengan betul; Copyright © Open University Malaysia (OUM) Machine Translated by Google


TOPIK 10 ANALISIS DAN TAFSIRAN SKOR UJIAN ÿ 205 (a) Statistik Deskriptif (b) Statistik Inferensi Statistik ialah sains matematik yang berkaitan dengan analisis, tafsiran dan pembentangan data. Ia boleh digunakan untuk pelbagai disiplin akademik daripada sains fizikal dan sosial kepada kemanusiaan. Statistik telah digunakan secara meluas oleh penyelidik dalam pendidikan dan guru bilik darjah. Dalam mengaplikasikan statistik dalam pendidikan, seseorang itu bermula dengan populasi yang hendak dikaji. Contoh ini boleh jadi semua pelajar Tingkatan Dua di Malaysia iaitu kira-kira 450,000 pelajar atau semua guru sekolah menengah di negara ini. Atas sebab praktikal, daripada menyusun data tentang keseluruhan populasi, kami biasanya memilih atau melukis subset populasi yang dipanggil sampel. Dengan kata lain, 40 orang pelajar Tingkatan Dua yang anda ajar adalah sampel populasi pelajar Tingkatan Dua di negara ini. Data yang anda kumpulkan tentang pelajar dalam kelas anda boleh tertakluk kepada analisis statistik yang mempunyai dua tujuan yang berkaitan, iaitu deskriptif dan inferens. Anda menggunakan teknik statistik deskriptif untuk menerangkan prestasi pelajar anda. Sebagai contoh, anda menggunakan teknik statistik deskriptif untuk meringkaskan data dengan cara yang berguna sama ada secara numerik atau grafik. Tujuannya adalah untuk membentangkan data yang dikumpul supaya dapat difahami oleh guru, pentadbir sekolah, ibu bapa, masyarakat dan Kementerian Pendidikan. Teknik deskriptif yang biasa digunakan ialah min atau purata dan sisihan piawai. Data juga boleh dipersembahkan secara grafik menggunakan pelbagai jenis carta dan graf. Anda menggunakan teknik statistik inferensi apabila anda ingin membuat kesimpulan tentang populasi berdasarkan sampel anda. Anda menggunakan statistik inferensi apabila anda ingin mengetahui perbezaan antara kumpulan pelajar, hubungan antara pembolehubah atau apabila anda ingin membuat ramalan tentang prestasi pelajar. Sebagai contoh, anda ingin mengetahui sama ada lelaki melakukan lebih baik daripada perempuan atau sama ada terdapat hubungan antara prestasi dalam kerja kursus dan peperiksaan akhir. Statistik inferensi yang sering digunakan ialah ujian-t, ANOVA dan regresi linear. Copyright © Open University Malaysia (OUM) Machine Translated by Google


MENERANGKAN MARKAH UJIAN 206 ÿ TOPIK 10 ANALISIS DAN TAFSIRAN MARKAH UJIAN 10.2 Andaikan anda baru sahaja memberikan ujian Bahasa Malaysia kepada kelas 35 pelajar Tingkatan Satu. Selepas menandakan skrip, anda mempunyai satu set markah untuk setiap pelajar dalam kelas dan anda ingin mengetahui lebih lanjut tentang prestasi pelajar anda. Rajah 10.1 menunjukkan taburan markah yang diperoleh oleh pelajar dalam ujian tersebut. Lajur „frekuensi‰ menunjukkan bilangan pelajar yang mendapat markah bagi setiap markah yang ditunjukkan dan peratusan ditunjukkan dalam lajur „peratusan‰. Anda boleh menerangkan skor ini menggunakan dua jenis ukuran, iaitu kecenderungan memusat dan serakan. Rajah 10.1: Taburan markah Bahasa Malaysia Copyright © Open University Malaysia (OUM) Machine Translated by Google


ÿ TOPIK 10 ANALISIS DAN TAFSIRAN SKOR UJIAN ÿ 207 (saya maksudkan (a) Kecenderungan Pusat Apabila kita bercakap tentang „purata‰, kami biasanya merujuk kepada min. Min hanyalah jumlah semua nilai (markah) dibahagikan dengan jumlah bilangan item (pelajar) dalam set. Hasilnya dirujuk sebagai min aritmetik. Menggunakan data dari Rajah 10.1 dan menggunakan formula berikut, anda boleh mengira min. Min ialah ukuran kecenderungan memusat yang paling biasa digunakan. Istilah „kecenderungan pusat‰ merujuk kepada nilai „tengah‰ dan diukur menggunakan min, median dan mod. Ia adalah petunjuk lokasi markah. Setiap daripada tiga ukuran dikira secara berbeza. Yang mana satu untuk digunakan bergantung pada situasi dan perkara yang ingin anda tunjukkan. x 35 41 42 ÿÿÿ 40 Mod ialah skor yang paling kerap berlaku dalam set data. Objek manakah yang paling kerap muncul dalam set data anda? Dalam Rajah 10.1, mod ialah 57 kerana 7 orang pelajar memperoleh markah tersebut. Walau bagaimanapun, anda juga boleh mempunyai lebih daripada satu mod. Jika anda mempunyai dua mod ia adalah bimodal. N ÿ 75 2148 ÿ 53.22 Median ditentukan dengan menyusun skor yang diperolehi daripada nilai terendah kepada nilai tertinggi dan mengambil skor yang berada di tengah-tengah urutan. (ii) Median 35 (iii) Mod ÿÿ Min Untuk contoh dalam Rajah 10.1, median ialah 52. Terdapat 17 pelajar dengan markah kurang daripada 52 dan 17 pelajar yang markahnya lebih daripada 52. Jika terdapat bilangan pelajar genap, tidak akan ada satu mata pun di tengah. . Dalam kes ini, anda mengira median dengan mengambil min dua titik tengah, iaitu membahagikan jumlah dua markah dengan 2. Taburan markah boleh digraf untuk menunjukkan secara visual hubungan antara markah dalam kumpulan. Dalam graf sedemikian, paksi mendatar atau paksi x ialah kontinum di mana individu diukur; paksi menegak atau paksi y ialah kekerapan (atau bilangan) individu yang memperoleh sebarang markah yang ditunjukkan pada paksi x. Rajah 10.2 ialah histogram yang mewakili markah bagi Bahasa Malaysia yang diperolehi oleh sekumpulan 35 orang pelajar seperti yang ditunjukkan sebelum ini dalam Rajah 10.1. ÿ ÿ Copyright © Open University Malaysia (OUM) Machine Translated by Google


Copyright © Open University Malaysia (OUM) SEMAK KENDIRI 10.1 208 ÿ TOPIK 10 ANALISIS DAN TAFSIRAN MARKAH UJIAN (b) Sebaran Walaupun min memberitahu kita tentang prestasi purata kumpulan, ia tidak memberitahu kita berapa hampir dengan purata atau min markah pelajar. Sebagai contoh, adakah setiap pelajar mendapat markah 80 peratus dalam ujian atau adakah markah tersebar dari 0 hingga 100 peratus? Serakan ialah pengagihan markah. Antara ukuran yang digunakan untuk menggambarkan sebaran ialah julat dan sisihan piawai. Rajah 10.2 menunjukkan graf dengan taburan markah Bahasa Malaysia. (i) Julat Julat markah dalam sesuatu ujian merujuk kepada markah terendah dan tertinggi yang diperolehi dalam ujian. Julat ialah jarak antara keterlaluan taburan. Apakah perbezaan antara min, median dan mod? Rajah 10.2: Graf menunjukkan taburan markah Bahasa Malaysia Machine Translated by Google


(a) Langkah pertama dalam mengira sisihan piawai ialah mencari min yang (c) Sisihan piawai ialah 4.12, iaitu punca kuasa dua positif bagi 153 ialah 390 dibahagikan dengan 10 = 39. Berdasarkan skor mentah, anda boleh mengira sisihan piawai menggunakan formula yang diberikan dalam berikut. dibahagikan dengan 9. (c) Ini diikuti dengan pengiraan dalam lajur di sebelah kanan berlabel ( ). (ii) Sisihan Piawai (b) Seterusnya ialah menolak min daripada setiap markah dalam lajur yang berlabel Ambil perhatian bahawa semua nombor dalam lajur ini adalah positif. Perbezaan kuasa dua kemudiannya dijumlahkan dan punca kuasa dua dikira. Sisihan piawai merujuk kepada berapa banyak skor yang diperoleh pelajar menyimpang atau menangguhkan daripada min. Rajah 10.3 ialah satu set markah yang diperolehi oleh 10 orang pelajar dalam satu ujian Sains. ÿ x x x ÿ x . x 17 1 x ÿ ÿ ÿÿ 153 N ÿ ÿ 4.12 9 Sisihan piawai ÿ Copyright © Open University Malaysia (OUM) ÿ2 Rajah 10.3: Markah dalam ujian Sains yang diperolehi oleh 10 orang pelajar TOPIK 10 ANALISIS DAN TAFSIRAN SKOR UJIAN ÿ 209 2 ÿ Machine Translated by Google


Copyright © Open University Malaysia (OUM) 210 ÿ TOPIK 10 ANALISIS DAN TAFSIRAN MARKAH UJIAN (b) Bagi Kelas B, dengan sisihan piawai 2, kira-kira 68% (1 sisihan piawai) pelajar mendapat markah antara 37 dan 41. (a) Untuk Kelas A, dengan sisihan piawai 4.12, kira-kira 68% mendapat markah antara 38 dan 40. (1 sisihan piawai) pelajar mendapat markah antara 34.88 dan 43.12. Untuk lebih memahami maksud sisihan piawai, rujuk Rajah 10.4 yang menunjukkan sebaran skor dengan min yang sama tetapi sisihan piawai yang berbeza. (c) Untuk Kelas C, dengan sisihan piawai 1, kira-kira 68% pelajar Rajah 10.4: Taburan markah dengan sisihan piawai yang berbeza-beza Machine Translated by Google


3 TOPIK 10 ANALISIS DAN TAFSIRAN SKOR UJIAN ÿ 211 Apakah perbezaan antara julat dan sisihan piawai? Ambil perhatian bahawa lebih kecil sisihan piawai, lebih besar skor cenderung untuk „kumpulan‰ di sekitar min dan sebaliknya. Oleh itu, tidak cukup untuk hanya meneliti min sahaja kerana sisihan piawai banyak memberitahu kita tentang sebaran skor di sekitar min. Kelas mana yang anda fikir berprestasi lebih baik? Min tidak memberitahu kami kelas mana yang berprestasi lebih baik. Kelas C menunjukkan prestasi terbaik kerana lebih kurang dua pertiga 2 Skew Skew merujuk kepada simetri taburan. Sesuatu pengedaran condong jika salah satu ekornya lebih panjang daripada yang lain. Rujuk Rajah 10.5 yang menunjukkan taburan markah yang diperolehi oleh 38 orang pelajar dalam ujian Sejarah. Terdapat kecondongan negatif ( ) daripada pelajar mendapat markah antara 38 dan 40. kerana ia mempunyai ekor yang lebih panjang ke arah negatif. Apakah maksudnya? Ini bermakna lebih ramai pelajar mendapat markah tinggi dalam ujian sejarah yang mungkin menunjukkan bahawa ujian itu terlalu mudah atau kaedah dan bahan pengajaran berjaya menghasilkan hasil pembelajaran yang diinginkan. Apakah perbezaan antara sisihan piawai 2 dan sisihan piawai 5? Kongsi jawapan anda dengan rakan kursus anda dalam myINSPIRE dalam talian forum. Copyright © Open University Malaysia (OUM) SEMAK KENDIRI 10.2 AKTIVITI 10.1 Machine Translated by Google


Copyright © Open University Malaysia (OUM) 212 ÿ TOPIK 10 ANALISIS DAN TAFSIRAN MARKAH UJIAN Rajah 10.6 menggambarkan taburan markah yang diperolehi oleh 38 orang pelajar dalam ujian Biologi. Terdapat pencongan positif kerana ia mempunyai ekor yang lebih panjang ke arah positif. Apakah maksudnya? Ini bermakna lebih ramai pelajar mendapat markah rendah dalam ujian Biologi yang menunjukkan ujian itu terlalu sukar. Sebagai alternatif, ia juga boleh bermakna soalan tidak jelas atau kaedah dan bahan pengajaran tidak membawa hasil pembelajaran yang diinginkan. Rajah 10.5: Pencongan negatif Machine Translated by Google


Copyright © Open University Malaysia (OUM) Rajah 10.6: Pencongan positif TOPIK 10 ANALISIS DAN TAFSIRAN SKOR UJIAN ÿ 213 (c) Julat; dan (a) Min; (d) Sisihan piawai. Seorang guru menjalankan ujian Bahasa Inggeris kepada 10 pelajar di dalam kelasnya. Pelajar memperoleh markah berikut: 14, 28, 48, 52, 77, 63, 84, 87, 90 dan 98. Untuk pembahagian markah, cari yang berikut: (b) Median; AKTIVITI 10.2 Machine Translated by Google


MARKAH STANDARD 214 ÿ TOPIK 10 ANALISIS DAN TAFSIRAN MARKAH UJIAN 10.3 Dengan hanya markah mentah, apakah yang boleh anda katakan tentang prestasi Zulinda dalam ujian ini atau kedudukannya dalam kelas? Nah, sebenarnya tidak sangat. Tanpa mengetahui bagaimana skor mentah ini dibandingkan dengan jumlah taburan markah mentah untuk setiap mata pelajaran, adalah sukar untuk membuat sebarang kesimpulan yang bermakna mengenai prestasi relatifnya dalam setiap ujian ini. Setelah diberi ujian, kebanyakan guru melaporkan markah mentah yang diperoleh pelajar. Contohnya, Zulinda, pelajar Tingkatan Empat memperoleh markah berikut pada peperiksaan akhir semester: (a) Zulinda mendapat markah terbaik dalam ujian Sejarah dan markah mentahnya 72 jatuh pada titik satu sisihan piawai di atas min; Berdasarkan maklumat tambahan, apakah kenyataan yang boleh anda buat mengenai prestasi relatif Zulinda dalam setiap tiga ujian? Berikut adalah beberapa kesimpulan yang boleh anda buat: (c) 40 untuk bahasa Inggeris. (b) 72 untuk Sejarah; dan (iii) Bahasa Inggeris: Min = 40 dan Sisihan piawai = 15 (a) Andaikan bahawa markah ketiga-tiga ujian adalah lebih kurang normal (c) Akhirnya, walaupun markah mentahnya untuk Sains ialah 80, ia jatuh satu standard (b) Markah terbaiknya yang seterusnya ialah bahasa Inggeris dan skor mentahnya 40 jatuh tepat pada min taburan markah; dan Bagaimanakah anda menjadikan skor mentah ini lebih bermakna? (b) Min dan sisihan piawai bagi tiga ujian adalah seperti berikut: diedarkan. sisihan di bawah min. (a) 80 untuk Sains; (ii) Sejarah: Min = 60 dan Sisihan piawai = 12 (i) Sains: Min = 90 dan sisihan piawai = 10 Copyright © Open University Malaysia (OUM) Machine Translated by Google


denganTOPIK 10 ANALISIS DAN TAFSIRAN SKOR UJIAN ÿ 215 (iii) Z-skor ÿ1 untuk Sains. (ii) Z-skor 0 untuk bahasa Inggeris Markah mentah, seperti skor ZulindaÊs, boleh ditukar kepada dua jenis skor standard iaitu skor Z dan skor T. Apakah skor z? Bagaimanakah anda mengira skor z? Skor z ialah sejenis skor standard. Istilah skor piawai ialah nama umum untuk menukar skor mentah kepada skala lain menggunakan min yang telah ditentukan dan sisihan piawai yang telah ditetapkan. Skor-Z memberitahu berapa banyak sisihan piawai dari min skor itu terletak. Skor Z boleh positif atau negatif. Skor z positif menunjukkan bahawa nilai berada di atas min manakala skor z negatif menunjukkan bahawa nilai berada di bawah min. Skor ialah skor mentah yang telah diubah atau ditukar kepada skala dengan min yang piawai telah ditetapkan yang telah 0 ditetapkan dan sisihan sebanyak 1. Skor z ÿ6 bermakna skor adalah 6 sisihan piawai di bawah min. Mari kita gunakan formula ini untuk menukar markah KumarÊs sebanyak 52 yang diperolehi dalam ujian Geografi. Min bagi ujian itu ialah 70 dan sisihan piawai ialah 7.5. (a) Skor-Z Skor z yang dikira untuk skor mentah 52 ialah ÿ2.4 yang bermaksud bahawa skor Kumar untuk ujian Geografi terletak 2.4 sisihan piawai di bawah min. Menukarkan skor mentah Zulinda kepada „z-skor‰, kita boleh mengatakan bahawa dia mencapai: Formula yang digunakan untuk menukar skor mentah kepada skor-z melibatkan penolakan min daripada skor mentah dan membahagikannya dengan sisihan piawai. (i) Z-skor +1 untuk Sejarah ÿ Dengan SD ÿ 2.4 x ÿ ÿÿ 52 70 18 ÿ ÿ ÿ x 7.5 x x SD 7.5 ÿ Dengan ÿ Copyright © Open University Malaysia (OUM) Machine Translated by Google


7 ÿ 50 47 1.71 ÿ 0.375 8 ÿ 30 42 ÿ 216 ÿ TOPIK 10 ANALISIS DAN TAFSIRAN MARKAH UJIAN Ujian 2 30 Guru boleh menggunakan min untuk menentukan siapa yang lebih baik. Tetapi kedua-dua pelajar mempunyai min yang sama. Bagaimana guru membuat keputusan? Dengan menggunakan skor-z, guru boleh mengetahui sejauh mana skor kedua-dua pelajar itu daripada min dan dengan itu siapa yang berprestasi lebih baik. Menggunakan formula di atas, guru mengira skor z yang ditunjukkan dalam perkara berikut: Sisihan piawai 7 ÿ1.34 ÿ1.07 Min 42 35 Jumlah Setelah meneliti maklumat dalam jadual, guru mendapati kedua-dua Seng Huat dan Mei Ling mempunyai skor z negatif untuk jumlah kedua-dua ujian. Ujian 1 50 Mei Ling Ujian 1 8 Skor Z agak mudah digunakan tetapi ramai pendidik enggan menggunakannya terutamanya apabila markah ujian dilaporkan sebagai nombor negatif. Bagaimanakah anda mahu skor Matematik anda dilaporkan sebagai ÿ4? Atas sebab ini, kaedah skor standard alternatif digunakan seperti skor T. 47 Contoh: Menggunakan Skor Z untuk Membuat Keputusan Seorang guru mentadbir dua ujian Bahasa Malaysia kepada pelajar di Tingkatan Empat A, Tingkatan Empat B dan Tingkatan Empat C. Dua pelajar terbaik di Tingkatan Empat C ialah Seng Huat dan Mei Ling. Guru itu bercadang untuk memberi hadiah kepada pelajar terbaik dalam Bahasa Malaysia di Tingkatan Empat C tetapi tidak pasti siapa pelajar terbaik. Walau bagaimanapun, Mei Ling mempunyai jumlah z-skor yang lebih tinggi (ÿ1.07) berbanding dengan jumlah z-skor Seng HuatÊs (ÿ1.34). Dalam erti kata lain, jumlah skor Mei LingÊ lebih hampir kepada min dan oleh itu guru membuat kesimpulan bahawa Mei Ling melakukan lebih baik daripada Seng Huat. Ujian 2 Mei Ling 45 Seng Huat Seng Huat ÿ 1.50 7 35 72 8 ÿ 0.43 ÿ 45 42 ÿ Copyright © Open University Malaysia (OUM) Machine Translated by Google


T 10(z) 50 10( 1.0) 50 ( 10) 50 ÿ 40 ÿ ÿ ÿ ÿ ÿÿ ÿ ÿ TOPIK 10 ANALISIS DAN TAFSIRAN SKOR UJIAN ÿ 217 Apabila menukar z-skor kepada T-skor, anda harus berhati-hati untuk tidak menjatuhkan negatif. Menggugurkan negatif akan menghasilkan skor yang sama sekali berbeza. Katakan sebagai contoh, pelajar mempunyai skor z ÿ1.0 dan untuk menukarnya kepada skor T: T-skor Terangkan jawapan anda kepada rakan kursus anda dalam forum dalam talian myINSPIRE. Tukarkan skor-z berikut kepada skor-T: T = 10(z) + 50 Mengapakah anda menggunakan skor-T dan bukannya skor-z apabila melaporkan prestasi pelajar di dalam bilik darjah? Skor-T telah dibangunkan oleh W. McCall pada tahun 1920-an dan merupakan salah satu daripada banyak markah standard yang sedang digunakan. Skor-T digunakan secara meluas dalam psikologi dan pendidikan terutamanya apabila melaporkan prestasi dalam ujian piawai. Skor T ialah skor piawai dengan min 50 dan sisihan piawai 10. Formula untuk mengira skor T ialah: +1.0 ÿ2.4 +1.8 (b) Skor-T z-skor Copyright © Open University Malaysia (OUM) AKTIVITI 10.3 Machine Translated by Google


KELUK BIASA 218 ÿ TOPIK 10 ANALISIS DAN TAFSIRAN MARKAH UJIAN 10.4 Begitu juga, markah ujian yang mengukur ciri tertentu seperti kecekapan bahasa, keupayaan kuantitatif atau literasi saintifik populasi tertentu boleh dijangka menghasilkan lengkung normal. Lengkung normal dibahagikan mengikut sisihan piawai (seperti ÿ4s, ÿ3s ÿÿ +3s dan 4s) yang ditunjukkan pada paksi mendatar. Luas lengkung antara sisihan piawai ditunjukkan Lengkung normal (juga dipanggil „lengkung loceng‰) ialah lengkung hipotetikal yang sepatutnya mewakili semua fenomena semula jadi. Dalam taburan normal, min, median dan mod mempunyai nilai yang sama. Diandaikan bahawa jika kita mencuba ciri tertentu seperti ketinggian lelaki Malaysia, anda akan mendapati ketinggian purata ialah 5 kaki 4 inci atau 163 cm. Walau bagaimanapun, akan ada beberapa lelaki yang akan lebih pendek daripada ketinggian purata dan bilangan yang sama yang akan menjadi lebih tinggi. Dengan memplot ketinggian semua lelaki Malaysia mengikut kekerapan kejadian, anda boleh mengharapkan untuk memperoleh sesuatu yang serupa dengan keluk taburan normal. Rajah 10.7 menunjukkan keluk taburan normal bagi IQ berdasarkan Skala Kepintaran Wechsler untuk kanak-kanak. Dalam taburan normal, kira-kira dua pertiga (ÿ) individu akan mempunyai IQ antara 85 dan 115 dengan min 100. Menurut American Association of Mental Retardation (2006), individu yang mempunyai IQ kurang daripada 70 boleh diklasifikasikan sebagai terencat akal atau cacat mental dan mereka yang mempunyai IQ lebih daripada 130 boleh dianggap sebagai berbakat. Rajah 10.7: Keluk taburan normal IQ berdasarkan Skala Kepintaran Wechsler untuk kanak-kanak Copyright © Open University Malaysia (OUM) Machine Translated by Google


TOPIK 10 ANALISIS DAN TAFSIRAN SKOR UJIAN ÿ 219 Dalam menggunakan lengkung normal, adalah penting untuk membuat perbezaan antara nilai sisihan piawai dan skor sisihan piawai. Nilai sisihan piawai ialah pemalar dan ditunjukkan pada paksi mengufuk dalam Rajah 10.7. Sebaliknya, skor sisihan piawai ialah skor yang diperoleh apabila kita menggunakan formula sisihan piawai (yang kita bincangkan sebelum ini). Sebagai contoh, jika kita memperoleh sisihan piawai bersamaan dengan 5, maka skor untuk 1 sisihan piawai ialah 5 dan skor untuk 2 sisihan piawai ialah 10, skor untuk 3 sisihan piawai ialah 15 dan seterusnya. • Median ditentukan dengan menyusun skor yang diperoleh daripada nilai terendah kepada nilai tertinggi dan mengambil skor yang berada di tengah-tengah urutan. ÿ Min hanyalah jumlah semua nilai (markah) dibahagikan dengan jumlah item (pelajar) dalam set. ÿ Sisihan piawai merujuk kepada berapa banyak skor yang diperoleh pelajar menyimpang atau menangguhkan daripada min. sebagai peratusan pada rajah. Sebagai contoh, kawasan antara min dan sisihan piawai +1 ialah 34.13%. Begitu juga, luas antara min dan sisihan piawai ÿ1 juga 34.13%. Oleh itu, kawasan antara sisihan piawai ÿ1 dan sisihan piawai +1 ialah 68.26%. Ini bermakna dalam taburan normal, 68.26% individu akan mendapat markah antara sisihan piawai ÿ1 dan +1. ÿ Istilah „kecenderungan pusat‰ merujuk kepada nilai „tengah‰ dan diukur menggunakan min, median dan mod. Ia adalah petunjuk lokasi markah. ÿ Julat markah dalam sesuatu ujian ialah jarak antara markah terendah dengan markah tertinggi yang diperolehi dalam ujian. Ambil perhatian bahawa dalam Rajah 10.7, skor-z ditunjukkan daripada + 1 hingga + 4 dan ÿ1 hingga ÿ4 dengan min sebagai 0. Setiap selang adalah sama dengan satu sisihan piawai. Begitu juga, skor-T dilaporkan dari 10 hingga 90 (selang 10) dengan min ditetapkan pada 50. Setiap selang 10 adalah sama dengan satu sisihan piawai. • Mod adalah skor yang paling kerap berlaku dalam set data. ÿ Skew merujuk kepada simetri taburan. Sesuatu pengedaran condong jika salah satu ekornya lebih panjang daripada yang lain. Nilai sisihan piawai ÿ1, ÿ2, dan ÿ3 akan mempunyai skor negatif sepadan ÿ5, ÿ10 dan ÿ15. Copyright © Open University Malaysia (OUM) Machine Translated by Google


220 ÿ TOPIK 10 ANALISIS DAN TAFSIRAN MARKAH UJIAN ÿ Skor-T ialah skor piawai dengan min 50 dan sisihan piawai ÿ Skor standard merujuk kepada skor mentah yang telah ditukar daripada satu skala Julat Kecondongan positif terletak. Keluk biasa ÿ Skor-Z menunjukkan berapa banyak sisihan piawai dari min skor Mod ÿ Lengkung normal (juga dipanggil „lengkung loceng‰) ialah lengkung hipotetikal yang sepatutnya mewakili semua fenomena semula jadi. Skor standard Sisihan piawai daripada 10. Pencongan negatif ÿ Pencong positif mempunyai ekor yang lebih panjang ke arah positif. Penyerakan Kecenderungan pusat ÿ Pencong negatif mempunyai ekor yang lebih panjang ke arah negatif. T-skor z-skor ke skala lain menggunakan min dan sisihan piawai. Median Min Copyright © Open University Malaysia (OUM) Machine Translated by Google


. Diperoleh daripada ERIC Digest. (ED315426ERIC Clearinghouse mengenai Pengukuran dan Penilaian Ujian Washington DC., Institut Penyelidikan Amerika Washington DC. Diperoleh daripada http://www.ericdigests.org/pre-9213/classroom.htm Menilai pembelajaran berasaskan projek . Diperoleh daripada http://www.northernc.on.ca/leid/docs/ ja_developchecklists.pdf Chard, SC (1992). Perkhidmatan Pengeluaran Semula Dokumen ERIC No. ED407586 kosong. Cashin, KAMI (2014). Membina ujian pencapaian. Cara mencipta dan menggunakan rubrik untuk penilaian formatif. kepada Diperoleh daripada https://engage.intel.com/ thread/11468 skala penilaian Blank, W., & Harwell, S. (1997). Panduan praktikal untuk guru Washington, DC: Universiti George Washington, Siswazah. Pusat Pengajian Pendidikan dan Pembangunan Insan. . Amerika Syarikat: Universiti Negeri Kansas. Chong, HY http:// seamonkey.ed.asu.edu/~alex/teaching/assessment/reliability.html . Diperoleh daripada . Diperoleh daripada http://pblmm.k12.ca.us/PBLGuide/AssessPBL.html Brookhart, SM (1999). Seni dan sains penilaian bilik darjah: Bahagian pedagogi yang hilang. Edmonton, Alberta: Perkhidmatan Percetakan Universiti Alberta. Kebolehpercayaan dan kesahan Diperoleh daripada http://www.idea.ksu.edu/papers/Idea_Paper_17.pdf Kanak-kanak, RA (1989). Diambil semula Institut Teknologi British Columbia. (2010). Menghubungkan sekolah menengah dengan dunia sebenar. ASCD. (2017). daripada http://www.ascd.org/publications/books/112001/chapters/What Are-Rubrics-and-WhyAre-They-Important%C2%A2.aspx Laporan Pengajian Tinggi ASHE-ERIC . Pendekatan projek: Kebaikan dan keburukan rubrik. Membangunkan senarai semak dan https://www.teachervision.com/teaching-methods-and-management/ educational-testing/ 4911.html Penilaian autentik dalam bilik darjah (Jilid 27, No. 1). Menambah baik ujian esei ÿ JAWAPAN Rujukan Copyright © Open University Malaysia (OUM) 221 Machine Translated by Google


222 ÿ RUJUKAN Connie Malamed. (2016). Diperoleh daripada . NY: Holt, Rinehart & Frey, BB (2003). http://www.specialconnections.ku.edu/cgi bin/ cgiwrap/specconn/main.php?cat=assessment&section=main&subsect Soalan aneka pilihan Gibson, I. (2005). Nasihat menggunakan penilaian autentik dalam pengajaran. a Winstoo. Diperoleh daripada http://www.personal.psu.edu/faculty/s/r/sra113/602/essayexams.htm . Diperoleh daripada http://www.specialconnections.ku.edu/cgi bin/ cgiwrap/specconn/main.php?cat=assessment&section=main&subsect domain? Diperoleh daripada http://education.cu-portland.edu/blog/curriculum-instruction/tips-on how-touse-authentic-assessment-as-a-teaching-strategy/ rubrik? Menulis soalan aneka pilihan untuk susunan yang lebih tinggi . Diperoleh daripada . Diperoleh daripada yang Adakah pendidik bersedia Diperoleh daripada http://theelearningcoach.com/elearning_design/multiple-choice questions/ ion=ujian kualiti/jadual ion=ujian kualiti/berbilang . Diperoleh daripada . Diperoleh daripada http://www.aishe.org/readings/2005-2/chapter3.pdf Griffith, K., & Nguyen, A. (2005). Mereka bentuk projek untuk pembelajaran Peraturan membina soalan esei ion=ujian kualiti/padanan Frey, BB (2003). Soalan yang sepadan berfikir. Diperoleh daripada Grams, B.F. (1981). www.nationalforum.com/Jumlah Jurnal Elektronik/Griffith, Kimberly G Peperiksaan karangan membina mempengaruhi afektif kepada Universiti Concordia. Universiti Apa itu Flinders. (2017). https://www.flinders.edu.au/teaching/teaching strategies/ assessment/grading/rubric.cfm Frey, BB (2003). http://www.specialconnections.ku.edu/cgi bin/ cgiwrap/specconn/main.php?cat=assessment&section=main&subsect Jadual spesifikasi Grams, B.F. (1981). http://www.studygs.net/tsttak4a.htm Copyright © Open University Malaysia (OUM) Machine Translated by Google


RUJUKAN ÿ 223 Huitt, W. (2004). daripada 15. 201ÿ293. Diperoleh daripada Diperoleh daripada http://psychclassics.yorku.ca/Terman/terman1.htm http://www.eric.ed.gov/ERICDocs/data/ericdocs2/content_storage_01/0 Kohn, A. (2006). Masalah dengan rubrik. tidak. 4. Penilaian dan Pelaporan: Meraikan Pencapaian Pelajar New Jersey: Prentice Hall. . Diambil semula L. Brady. (2012). (edisi ke-4). Pearson Australia. larapsch/affective.htm Diperoleh daripada The Lewis, T. (1916). Kegunaan Ujian Kecerdasan. Pertama kali diterbitkan dalam Valdosta, GA: Universiti Negeri Valdosta. Diperoleh daripada http://chiron.valdosta.edu/whuitt/col/cogsys/bloom.html Aplikasi dan latihan Bilik Darjah Kemp, J., & Teperof, D. (nd). (Taksonomi KrathwohlÊs). Kubiszyn, T., & Borich, G. (2003). Sekolah Rendah Larapinta. (2008). Psikologi. . Sambungan Khas. Diperoleh daripada http://www.specialconnections.ku.edu/cgi bin/cgiwrap/ specconn/main.php?cat=assessment&section=main&subsect mekar dan Lin, RL, & Gronlund, NE (2000). Pengukuran dan penilaian dalam pengajaran. 000000b/80/2a/26/4c.pdf Jurnal Bahasa Inggeris Membina Item Betul-Salah. Jurnal Amerika Landsberger, JF (1996). http:// www.studygs.net/tsttak2a.htm Lewis, T. (1904). Kecerdasan am: Ditentukan dan diukur secara objektif. (bab 1). Boston, MA: Houghton Mifflin. . daripada http://www.anglit.net/main/portfolio/default.html Garis panduan untuk penilaian portfolio Analisis item untuk item aneka pilihanERIC Digest. . Amerika Syarikat: John Wiley & Sons. Diperoleh daripada http://www.schools.nt.edu.au/ pengukuran kecerdasan daripada Kotak alat berfikir: Domain afektif http://psychclassics.yorku.ca/Spearman al.Ês taksonomi domain kognitif. Psikologi pendidikan interaktif. Ujian dan pengukuran pendidikan: ion=ujian kualiti/item Analisis item Mac 2006. Jld. 95, Diperoleh daripada Copyright © Open University Malaysia (OUM) Machine Translated by Google


Click to View FlipBook Version