PEDOMAN MEMBUAT
ALAT UKUR
[14/11/2021]
TABLE OF CONTENTS
Section 1 01
Section 2 02
Section 3 03
Section 4 04
Section 5 05
Section 6 06
Pengukuran, Penilaian, Evaluasi
Pengukuran, penilaian dan evaluasi sejatinya adalah tiga istilah yang
berbeda. Namun dalam aplikasinya, tak sedikit peneliti terjebak
menyamakan ketiganya. Untuk memahami apa perbedaan serta
hubungan diantara ketiganya, dapat dilihat melalui kedua contoh di
bawah ini:
1). Suatu saat kita diminta 2). Ketika menentukan
menseleksi dua kandidat untuk
sebuah posisi pekerjaan yang Dari kedua contoh di atas,
mensyaratkan tinggi badan sebelum akhirnya kita
tertentu sebagai syarat awal. mengambil keputusan yang
Pastinya kita akan memilih ada maka kita mengadakan
kandidat yang tinggi penilaian terhadap atribut
badannya lebih tinggi yang sedang dipilih. Untuk
dibandingkan kandidat yang dapat mengadakan penilaian,
lainnya. maka diadakan pengukuran
terlebih dahulu.
Pengukuran
Pengukuran (measurement) merupakan cara untuk mendapatkan
gambaran dan mengetahui suatu objek dalam bentuk angka sehingga
mudah menyampaikan hasilnya kepada orang lain. Andaikan dalam
seleksi pekerjaan Anda diminta untuk menyebutkan berat badan, maka
dengan mudah Anda akan mengambil timbangan kemudian berdiri di
atasnya. Angka yang tertera pada timbangan tersebut menunjukan
berat Anda. Kegiatan yang sudah Anda lakukan disebut dengan
pengukuran (measurement). Azwar (2007) menyatakan salah satu tujuan
pengukuran ialah membangun dasar-dasar pengembangan tes yang
lebih baik berdasarkan prosedur sistematis sehingga menghasilkan tes
yang berfungsi dengan optimal, valid dan reliabel. Pengukuran bisa
dilakukan pada sesuatu yang sifatnya fisik dan non-fisik.
Crocker dan Algina (1986) mendefinisikan pengukuran sebagai berikut:
Pengukuran
Kemudian, Azwar (2010) mengartikan pengukuran sebagai prosedur
pemberian angka (kuantifikasi) terhadap atribut atau variabel sepanjang
garis kontinum. Selanjutnya, Reynolds, et al. (2010) mendefinisikan
pengukuran sebagai sekumpulan aturan untuk menetapkan suatu
bilangan yang mewakili objek, sifat atau karakteristtik, atribut atau
tingkah laku. Sehingga pengukuran (measurement) diartikan sebagai
proses pemberian angka pada sebuah objek tertentu sepanjang garis
kontinum untuk mengetahui atributnya berdasarkan aturan.
Terdapat tiga karakteristik pengukuran:
1.Pembandingan antara atribut dengan alat ukurnya
Terlebih dahulu ketahui atribut yang hendak diukur maka selanjutnya
kita akan mendapatkan alat ukur yang tepat untuk menggunakannya.
Misal, seorang perawat ingin mengetahui suhu badan pasien (atribut)
maka bisa memakai thermometer. Lain halnya, untuk mengetahui
atribut kecerdasan calon pegawai maka tester dapat menggunakan
alat ukur Intelligence Structure Test (IST).
2.Hasil pengukuran dinyatakan secara kuantitatif
Kuantitatif disini artinya hasil pengukuran berupa angka. Suatu proses
pengukuran akan dinyatakan selesai apabila hasilnya telah
diwujudkan dalam bentuk angka. Misal, hasil pengukuran kecerdasan
calon pegawai tersebut sebesar 125.
3.Hasilnya bersifat deskriptif
Pengukuran yang hasilnya berupa angka hanya bersifat deskriptif,
artinya tidak bisa diinterpretasikan lebih jauh. Misal, hasil kecerdasan
pegawai sebesar 125. Angka tersebut tidak dapat diikuti keterangan
apakah termasuk kecerdasan di bawah rata-rata, rata-rata, ataupun
di atas rata-rata.
Manfaat Pengukuran
Coba bayangkan jika kegiatan atau aktifitas yang kita lakukan tidak
menggunakan ukuran. Mulai dari mengetahui waktu bangun tidur,
membeli emas, kapan waktu pagi dan sore hari, mengetahui tingkat
kecerdasan seseorang, integritas pegawai, kemudian membedakan tipe
kepribadian dll.
Dari beberapa analogi tersebut, pengukuran bermanfaat:
To make your life easy
Rasanya sulit membayangkan jika kehidupan kita sehari-hari tidak
memakai ukuran. Untuk mengingatkan waktu bangun tidur, kita
meminta bantuan alarm yang ada di HP; mengetahui anggota
keluarga sedang demam atau tidak menggunakan thermometer;
berkendara di jalan tol sesuai dengan aturan maka melihat
speedometer. Oleh sebab itu, manfaat yang dirasakan dengan
adanya ukuran maka akan membuat hidup menjadi lebih mudah.
To distinguish object
Setiap individu dilahirkan unik dan berbeda, dengan memiliki
kelebihan dan kekurangannya masing-masing. Untuk mengetahui
kecerdasan yang dimiliki, bagaimana sikapnya dalam bekerja,
kepemimpinan yang ada dalam dirinya, integritas terhadap
pekerjaannya, serta mengenal tipe kepribadian antar individu satu
dan yang lainnya maka dibutuhkan pengukuran. Dengan adanya
pengukuran, maka mengetahui, mengenal dan membedakan
kemampuan antar individu dapat lebih tepat, objektif dan adil.
For science development
Hadirnya pengukuran dapat memberikan manfaat bagi ilmu
pengetahuan. Salah satunya dampak nya ialah tipe kepribadian yang
mengalami perkembangan. Dahulu kita mengenal ada dua tipe
kepribadian extrovert dan introvert. Kemudian Costa dan McCrea di
tahun 1970 mengeluarkan big five personality traits yakni OCEAN.
Selanjutnya, Ashton dan Lee (2007) mengklaim bahwa model HEXACO
six-factor dianggap lebih komprehensif dalam menjelaskan
kepribadian. Dari sini dapat dilihat bahwa teori kepribadian dapat
berkembang karena dampak dari pengukuran.
Penilaian
Penilaian (assessment) biasanya dimulai dengan kegiatan pengukuran.
Griffin dan Nix (1991) menyatakan “assessment is the process of gathering
information to make informed decisions”. Terlihat bahwa di dalam
kegiatan penilaian membutuhkan proses pengumpulan informasi untuk
membuat keputusan yang tepat. Penilaian didasarkan pada sejumlah
fakta untuk menjelaskan karakteristik individu.
Sebagai contoh, hasil pengukuran terhadap kecerdasan pegawai
sebesar 125. Dari infomasi hasil pengukuran dapatkah kita mengambil
kesimpulan bahwa pegawai tersebut dinilai layak atau tidak untuk
menduduki sebuah jabatan? Tentu, jawabannya belum. Untuk dapat
menyatakan bahwa pegawai tersebut layak atau tidaknya maka kita
masih memerlukan informasi tambahan. Informasi tersebut berupa “Untuk
jabatan apa pegawai tersebut ditempatkan?” Dalam konteks tersebut,
secara tidak langsung kita sudah melakukan penilaian.
Dengan demikian, penilaian merupakan prosedur sistematis yang di
dalamnya mencakup kegiatan mengumpulkan, menganalisis serta
menginterpretasikan informasi yang diperoleh guna membuat
kesimpulan mengenai karakteristik seseorang atau objek.
Evaluasi
Evaluasi biasanya dimulai dengan kegiatan penilaian dan berhubungan
erat dengan pengambilan keputusan. Masih dengan contoh yang sama
yakni hasil kecerdasan pegawai sebesar 125, belum dianggap layak
atau tidak untuk menduduki sebuah jabatan karena masih tergantung
kepada jabatan apa yang dituju. Dikatakan layak ketika pegawai
tersebut menduduki jabatan yang membutuhkan kemampuan berfikir
strategis yang rumit. Namun hasil kecerdasan tidak layak bila
diperuntukkan untuk menduduki jabatan yang membutuhkan
kemampuan berfikir stategis yang rendah.
Dari ilustrasi tersebut, tampak interpretasi terhadap hasil penilaian hanya
dapat bersifat evaluatif apabila disandarkan pada suatu norma atau
kriteria tertentu. Norma dapat diartikan nilai rata-rata pada kelompok
tertentu. Sedangkan kelompok dapat berupa kelompok usia, kelompok
jabatan, kelompok tingkat pendidikan dan lainnya. Sehingga akan ada
norma berdasarkan usia, norma jabatan, norma tingkat pendidikan dan
lainnya. Dengan adanya norma dan kriteria, maka hasil yang sama dari
suatu penilaian dapat memunculkan interpretasi yang berbeda.
Keterkaitan Pengukuran, Penilaian dan
Evaluasi
Dari penjelasan di atas kita dapat mengetahui definisi pengukuran,
penilaian dan evaluasi. Namun ketiganya terkait satu dengan yang
lainnya seperti di bawah ini:
Dari gambar di samping dapat
dikatakan bahwa dalam
proses evaluasi melibatkan
penilaian dan pengukuran.
Evaluasi dapat terlaksana jika
sudah ada penilaian
sebelumnya. Sedangkan tinggi
rendahnya kualitas penilaian
ditentukan oleh pengukuran
yang menggunakan alat ukur
sesuai dengan atribut apa
yang ingin dilihat atau dipotret.
Begitu eratnya keterkaitan
antara ketiga konsep maka
wajar jika masih ada yang
menganggap sama terhadap
konsep tersebut
Pengukuran Atribut Psikologi
Sudah kita ketahui bahwa pengukuran (measurement) merupakan
proses kuantifikasi pada objek untuk mengetahui atribut tertentu. Objek
pengukuran dapat dilakukan pada atribut fisik dan atribut psikologis.
Sehingga, hasil pengukuran baik terhadap atribut fisik atau atribut
psikologis diharapkan akan memberikan informasi yang benar atau valid
karenanya setiap proses dilakukan dengan sistematis.
Pengukuran
Pengukuran Atribut Fisik/Non-Psikologis
Pengukuran Atribut Psikologis
Pengukuran
Dibandingkan pengukuran atribut fisik/non-psikologis, pengukuran
atribut-atribut psikologi lebih sukar untuk dilakukan. Bahkan terkadang
sulit untuk mendapatkan hasil validitas, reliabilitas dan objektivitas yang
tinggi. Berikut yang menyebabkan hal tersebut terjadi (Azwar, 2014):
1.Hampir semua atribut psikologi merupakan latent variabel atau tidak
dapat diamati secara langsung. Namun, kehadiran atribut psikologi
berupa konstrak atau konseptual. Oleh sebab itu, pengukuran
terhadap atribut psikologi yang sifatnya laten hanya dapat dilakukan
jika kita memiliki indikator perilaku yang dapat diamati secara
langsung (manifest variable).
2.Item-item dalam skala psikologi ditulis berdasarkan indikator perilaku
yang jumlahnya terbatas. Keterbatasan inilah yang mengakibatkan
hasil pengukuran menjadi tidak cukup komprehensif, Oleh karenanya,
pengukuran dalam psikologi hanya dapat memotret sebagian perilaku
(sample of behavior).
3.Respon atau jawaban yang diberikan oleh peserta sedikit banyak
dipengaruhi oleh variabel yang tidak relevan. Misalnya, suasana hati,
kondisi psikis, persiapan saat mengikuti ujian, situasi dan kondisi sekitar,
dan lainnya.
4.Rendahnya stabilitas atribut psikologi yang ada dalam diri manusia.
Sehingga mudah berubah sejalan dengan waktu, situasi dan kondisi.
5.Interpretasi terhadap hasil ukur psikologi hanya dapat dilakukan
secara normatif. Dalam pengukuran atribut psikologi terdapat lebih
banyak sumber error.
Potensi Dalam Konstruk Psikologi
Pengukuran (measurement) pada atribut fisik atau atribut psikologi
tertarik pada hal yang berbeda antara objek satu dengan yang lainnya.
Jika ini dikaitkan dengan pengukuran atribut psikologis, maka dapat
dilakukan selama individu satu dengan yang lainnya memiliki
perbedaan. Salah satu atribut psikologi yang memiliki variasi antar
individu ialah potensi.
Dalam, Permenhan No. 20 Tahun 2018, menjelaskan potensi sebagai
gambaran individu yang terdiri dari kepribadian, intelegensi, sikap kerja
dan kepemimpinan. Kesemua gambaran individu yang dinyatakan
sebagai bagian potensi bukanlah sesuatu yang secara nyata dapat
dilihat melainkan konsep psikologis yang dirumuskan secara hipotetik.
Oleh sebab itu, pengukurannya tidak mungkin dilakukan secara
langsung karena konsep merupakan abstraksi dari ide atau gagasan
mengenai sesuatu.
Konsep Teoritik
Memahami konsep teoritik suatu atribut merupakan
pondasi awal untuk membuat alat ukur yang
berkualitas. Berikut point-point yang harus diketahui:
Konsep teoritik atribut yang ingin diukur dapat
ditemukan dalam buku atau jurnal yang
membicarakan mengenai makna, ciri atau hakikat.
Sering kali untuk memahami konsepnya perlu
melakukan diskusi dengan orang yang ahli terkait
atribut tersebut.
Pilih satu teori yang paling sesuai dengan tujuan
pembuatan alat ukur dengan mempertimbangkan
kompleksitasnya.
Diizinkan untuk menggabungkan dua atau tiga teori.
Namun yang diperhatikan teori tersebut berasal dari
mazhab, aliran atau paradigma yang sama.
Menjadi acuan dalam merumuskan aspek/dimensi
keperilakuan atribut yang diukur.
Potensi Dalam Konstruk Psikologi
Aspek/Dimensi
Aspek/dimensi dari suatu atribut tidak boleh keluar dari
lingkup teorinya. Hal apa saja yang mesti dipahami dalam
membuat aspek/dimensi berikut point-pointnya:
Hasil penguraian konstrak menjadi konsep perilaku yang
lebih konkrit, dimana aspek/dimensi menggambarkan ciri
individu memiliki atribut yang diukur.
Jika atribut yang ingin diukur mengenai kepemimpinan
transformasional, maka setidaknya dapat menjawab
pertanyaan “seperti apa gambaran atau ciri-ciri perilaku
individu atau pegawai yang memiliki kepemimpinan
transformasional?”
Aspek/dimensi selalu ditulis dalam arah favorable
(keperilakuan mendukung atribut yang sedang dibuat alat
ukurnya).
Ditulis dalam bentuk kalimat atau kata kerja, sehingga
dapat lebih menggambarkan makna perilaku yang
dikehendaki dan mudah melahirkan indikator-indikator
perilaku yang operasional.
Potensi Dalam Konstruk Psikologi
Indikator Perilaku
Saat aspek/dimensi atribut yang ingin diukur sudah sangat jelas dan mudah
dipahami maka penyusun alat ukur dapat langsung menulis item/soal.
Namun kebanyakan atribut psikologi bukanlah variabel yang sederhana,
ada baiknya penyusun melakukan satu langkah lagi yakni membuat
indikator keperilakuan. Hal apa saja yang harus diperhatikan, berikut point-
pointnya:
Rumusan dalam indikator keperilakuan sangat operasional dan jelas dapat
diukur.
Indikator perilaku bergantung pada kreativitas penyusun alat ukur,
sepanjang indikator tersebut relevan dan logis dengan aspek/dimensi
tertentu.
Setiap indikator akan melahirkan item/soal, namun jumlahnya tidak harus
sama banyak.
Keterkaitan antara konsep teoritik, aspek/dimensi, dan indikator perilaku
dapat dilihat pada gambar di bawah ini:
Potensi Dalam Konstruk Psikologi
Sebagai penyusun alat ukur, harus memahami betul atribut yang hendak
diukur lengkap dengan aspek/dimensi di dalamnya. Kemudian baru
menurunkannya menjadi indikator perilaku yang operasional. Semakin jelas
indikator perilaku seperti apa yang menggambarkan aspek/dimensi
atributnya, maka akan mudah menulis item/soal. Jangan mencoba untuk
mengumpulkan indikator perilaku kemudian menempatkan ke dalam
aspek/dimensi tertentu atau menulis item selanjutnya mencocokan ke
dalam indikator perilaku yang ada. Hal tersebut akan menurunkan kualitias
alat ukur sehingga tujuan pengukuran tidak tercapai.
Berikut contoh penguraian atribut kepemimpinan transformasional
berdasarkan konsep teoritik yang disampaikan Bass (2004):
Pada gambar di atas memperlihatkan empat aspek/dimensi dari atribut
kepemimpinan transformasional yakni pengaruh ideal, motivasi
inspirasional, stimulus intelektual dan pertimbangan individual. Jika individu
cenderung memiliki kesesuaian dengan keempat aspek/dimensi di atas
maka dalam dirinya terdapat kepemimpinan transformasional dan
sebaliknya. Setiap dimensi memiliki dua indikator dan setiap indikator akan
dibuat dua item/soal. Namun yang perlu diingat, jumlah indikator untuk
setiap dimensi tidak harus sama banyaknya begitu juga dengan jumlah
item/soal untuk masing-masing indikator.
Skala Pengukuran
Item pada skala psikologi merupakan manifestasi dari indikator perilaku.
Walaupun peserta memahami isi item dalam alat ukur, namun ia tidak
menyadari arah jawaban serta kesimpulan apa yang diungkap oleh
setelah mengisi seluruh item. Sebelum membahas mengenai jenis skala
yang dapat digunakan. Terlebih dahulu kita mengetahui format item dan
tipe item.
Likert Rating Scale
Penggunaan Likert sesuai dengan nama pencipta alat ukur ini yakni
Rencis Likert. Skala ini disebut juga dengan summated rating scale
ataupun ordered categorical ratings (Dunn-Rankin, Knezek, Wallac &
Zhang, 2004). Prinsip utama dari skala likert ialah peserta diminta untuk
memberikan tanggapan ketidaksetujuan atau kesetujuannya
terhadap pernyataan yang diberikan mengenai variabel psikologis
untuk mengungkapkan tingkat intensitas sikap ataupun perilaku serta
perasaannya. Oleh sebab itu, penyajian skala likert berupa kalimat
pernyataan yang diikuti oleh pilihan respon yang mengindikasikan
tingkat persetujuan dari pernyataan yang ada (De Vellis, 2003).
Dibandingkan dengan jenis skala yang lainnya, likert rating scale
merupakan skala yang paling sering dan paling luas digunakan dalam
pengukuran.
Skala Pengukuran
5 karakteristik Likert Rating Scale:
1). Skala ini terdiri dari dua bagian yakni pernyataan atau disebut
dengan item dan alternatif jawaban yang akan dipilih oleh peserta.
2). Pernyataan yang disajikan sifatnya tertutup. Peserta hanya dapat
memilih salah satu jawaban yang sudah disediakan. Sehingga, tidak
ada jawaban lain selain pilihan yang sudah ada.
3). Pilihan jawaban berbentuk rentang kontinum yang
berjenjang. Alternatif jawaban yang umum ditemui
ialah ‘sangat tidak setuju’, ‘tidak setuju’, ‘netral’,
‘setuju’, ‘sangat setuju’. Namun, alternatif atau pilihan
tidak harus demikian (bergerak dari sangat tidak setuju
sampai dengan sangat setuju), melainkan dapat
disesuaikan dengan obyek yang akan diukur. Misal,
pernyataan terkait frekuensi maka biasa
menggunakan pilihan ‘tidak pernah’, ‘jarang’,
‘kadang-kadang’, ‘sering’, dan ‘selalu’.
4). Pemberian skor (koding) dalam skala likert menunjukan tingkatan.
Hal yang diperhatikan dalam koding ini, skor harus sesuai dengan tipe
item pernyataannya (item favorable atau item unfavorable). .
5). Skala likert terdiri dari banyak pernyataan atau item, pastinya akan
menghasilkan skor sebanyak item yang ada. Namun untuk
interpretasinya hanya ada satu informasi mengenai atribut yang
sedang diukur. Hal ini dapat diartikan, informasi dari skor tiap item tidak
dapat diinterpretasi secara terpisah atau sendiri-sendiri. Oleh sebab itu,
peserta diminta untuk menjawab seluruh pernyataan pada alat ukur
tersebut tanpa ada yang terlewati. Apabila didapati peserta yang
tidak lengkap menjawab item, maka data tersebut tidak dapat
diikutsertakan dalam pengolahan lebih lanjut.
Skala Pengukuran
Contoh skala likert mengenai atribut kepemimpinan transformasional,
dengan menggunakan empat pilihan jawaban:
Instruksi pengerjaan skala likert:
Anda diminta untuk menjawab seluruh pernyataan yang ada sesuai
dengan yang Anda alami dengan memberikan tanda check list ( ) pada
salah satu kolom pilihan jawaban di bagian kanan.
Thurstone Scale
Skala Thurstone meminta peserta untuk memilih pernyataan yang
disetujuinya atau dianggap paling sesuai dengan dirinya dari
beberapa item/soal yang disediakan. Sehingga dari seluruh item yang
diberikan pada skala Thurstone tidak semuanya dipilih peserta. Nilai
diberikan hanya terhadap pernyataan yang dijawab peserta. Setiap
item pernyataan mempunyai nilainya masing-masing. Tetapi, peserta
tidak mengetahui nilai dari setiap item pernyataan.
Skala Pengukuran
Pembuatan skala Thurstone, menggunakan tahapan seperti di bawah ini:
▪ Penyusun membuat item pernyataan relevan dengan atribut yang ingin
diukur sesuai kaidah penulisan.
• Meminta kelompok penilai (judging group) untuk memberikan penilaian
derajat favorable atau tidaknya dari item yang sudah dibuat.
• Judging group akan memasukan item-item
tersebut ke dalam kotak sepanjang garis
kontinum yang bergerak dari angka 1 hingga
11.
• Item yang sudah ditempatkan oleh judging
group kemudian dihitung untuk menentukan
nilai dari tiap itemnya.
Contoh skala Thurstone mengenai atribut keterampilan sosial (Wahyu, 2020):
Instruksi pengerjaan skala Thurstone:
Pilihlah tiga buah pernyataan yang paling sesuai dengan sikap Anda
dengan memberikan tanda check list (✓) di kolom belakang.
Dalam pembuatan skala Thurstone, penyusun harus memiliki item yang
berbeda tiap levelnya. Mulai dari yang paling rendah intensitasnya
(memperhatikan) hingga yang tinggi (membahagiakan orang lain).
Skala Pengukuran
Semantic Differential Scale
Skala ini dikembangkan oleh Osgood, Suci dan Tannenbaum yang
mengukur reaksi terhadap stimulus berupa kata-kata sifat. Tampilan
semantic differential scale menggunakan dua kutub (pollar) dimana
diantara kedua kutub tersebut terdapat ruang yang memiliki gradasi skala
(interval). Issac dan Michael (1984) menyatakan bahwa skala ini dapat
digunakan sebagai skala sikap yang fokus utamanya pada aspek afektif
atau dimensi evaluatif. Kemudian, skala semantic differential digunakan
untuk mengukur sifat-sifat semantik dari kata dengan lebih objektif.
Menurut Wahyu (2021), kompenen skala semantic differential:
• Stimulus berupa kata atau kalimat yang mengukur perilaku, sikap,
keyakinan dan opini terhadap benda, orang, profesi, produktivitas kerja
dsb.
• Respon berupa pasangan kata sifat (adjective) yang membentuk
kontinum dengan dua kutub
Output dari penggunaan skala semantic differential berbentuk profil.
Osgood dkk (Issac dan Michael, 1984) menyatakan ketika menggunakan
semantic differential scale akan melibatkan tiga dimensi dari ranah sematik,
yakni:
1). Evaluasi merupakan kecenderungan atau tendensi seseorang untuk
mendekati atau menjauhi; menyenangi atau membenci stimulus yang
dihadirkan.
2). Potensi merupakan besarnya usaha untuk melakukan penyesuaian
terhadap stimulus yang dihadirkan.
3). Aktivitas merupakan perlu atau tidaknya seseorang membuat gerakan
untuk menyesuaikan diri terhadap stimulus yang dihadirkan.
Skala Pengukuran
Tahapan dalam membuat skala semantic differential:
• Menentukan atribut psikologi yang ingin diukur.
• Melakukan elisitasi untuk menentukan indikator sesuai atributnya.
Terdapat 2 cara yang bisa dilakukan yakni meminta bantuan ahli
untuk mengidentifikasi karakteristik objek pengukuran dan
mengajukan pertanyaan kepada calon responden yang dianggap
representative.
• Memilah dan memilih jawaban dari calon responden berupa kata
sifat yang memiliki kaitannya dengan dimensi evaluasi, potensi dan
aktifitas.
• Membuat lawan kata dari kata-kata yang sudah dipilih dan sesuai
dengan kata sifat.
• Menyusun item sepanjang garis kontinum. Dimana sifat negatif
ujung sebelah kiri sedangkan sifat positif ujung sebelah kanan.
Contoh skala semantic differential mengenai atribut performa
karyawan:
Instruksi pengerjaan skala semantic differential:
Anda diminta untuk memberikan tanda check silang (x) pada bagian
kosong (-) yang menurut Anda paling menggambarkan performa
karyawan
Skala Pengukuran
Situational Judgment Test
Situational Judgment Test (SJT) merupakan penilaian yang dibuat untuk
mengukur asesi dalam setting peran yang relevan atau pekerjaan. Alat
ukur ini menampilkan skenario dan sejumlah daftar respon yang mungkin
terjadi. SJT mendorong asesi untuk menggunakan perilaku efektif apabila
dihadapkan pada situasi tertentu. SJT sudah digunakan dalam
proses seleksi selama beberapa
kurun waktu terakhir diberbagai
kelompok kerja. Hal ini terungkap
tahun 1873, calon pegawai negeri
sipil di Amerika Serikat diberikan test mengenai situasi terkait pekerjaan
dan harus menuliskan respon menghadapi situasi tersebut. Pada proses
perekrutan pegawai tersebut, SJT digunakan dengan tujuan untuk
mengukur potensi pelamar kerja dalam melakukan peran pengawasan.
Dalam skala besar, SJT lebih efisien dibandingkan melalui proses
wawancara apabila digunakan untuk mengetahui pengalaman
pelamar.
Situational judgement test adalah tes
yang dibuat untuk menilai bagaimana
kandidat akan merespon dalam
situasi-situasi tertentu dalam dunia
kerja. Dalam tes ini, kandidat akan
diberikan sebuah skenario yang
dirancang mirip dengan situasi yang
akan dihadapi dalam pekerjaannya
Mereka kemudian dapat menilai tindakan seperti apa yang paling tepat
untuk dilakukan sebagai respon terhadap situasi tersebut.
Menurut McKimm (Oktaria, 2017), SJT memiliki beberapa kelebihan dan
kekurangan yakni:
Skala Pengukuran
Contoh situational judgment test (https://quizizz.com/situational-
judgement-test, 2021):
Instruksi pengerjaan skala situational judgment test:
Pilihlah satu jawaban yang paling sesuai dengan sikap Anda dengan
memberikan tanda check list (x).
Anda beserta tiga rekan lainnya tergabung dalam satu tim untuk
mengerjakan sebuah projek. Sebelum projek dijalankan, tim harus
mempresentasikan rencanya yang akan dilakukan dihadapan pimpinan.
Pada hari presentasi, rekan satu tim yang sudah ditunjuk untuk melakukan
presentasi datang terlamba karena terjebak macet. Semua undangan
sudah hadir di ruangan. Apa yang Anda lakukan?
A. Berkomunikasi terus dengan rekan tersebut untuk mencarikan
jalan alternatif yang tidak macet.
B. Memikirkan solusi terakhir dengan cara bersiap menggantikan
posisis sebagai presenter.
C. Menyerahkan keputusan kepada anggota tim lain, apabila
saya yang ditunjuk maka siap untuk presentasi.
D. Meminta perpanjangan waktu kepada undangan yang sudah
hadir dengan menginformasikan bahwa presenter datang
terlambat.
Skala Pengukuran
Contoh lain SJT yang digunakan dalam penilaian kompetensi etik yang
dibuat oleh University College London Careers Service dalam jurnal
Muktamiroh, dkk (2021)
Instruksi pengerjaan skala situational judgment test:
Di bawah ini terdapat sebuah situasi dengan beberapa pilihan yang
disediakan. Anda diminta untuk menentukan 3 pilihan yang paling tepat
menurut Anda dari 8 pilihan yang disediakan.
Salah satu pasien Anda ialah seorang konsultan bedah umum. Beberapa
minggu yang lalu pasien tersebut melakukan tes HIV dan dinyatakan
positif. Walaupun demikian, Anda melihat rekan sejawat tersebut masih
melakukan operasi di RS swasta. Anda membicarakan masalah ini
dengan sejawat yang ternyata menolak mengatakan hal ini pada RS
swasta tempat praktiknya. Tentukan tiga aksi yang paling sesuai untuk
diambil pada situasi ini:
A. Pasien Anda memiliki hak kerahasiaan, karenanya saya tidak
dapat menginformasikan ke RS tersebut.
B. Saya menyampaikan kepadanya untuk menginformasikan
kepada RS karena ini adalah kepentingan umum
C. Saya akan melanggar kode etik jika memberitahu kepada
siapapun mengenai status HIV nya.
D. Saya mencatat keputusan dan aksi yang dilakukan.
E. Saya memberikan saran kepada sejawat untuk menyampaikan
kondisinya ke RS karena akan beresiko terhadap pasiennya.
F. Menginformasikan pada RS tersebut.
G. Tidak melakukan apa-apa karena ini bukan urusan saya.
H. Membuat catatan bahwa pada saat hari kerja saya akan
menelpon sejawat untuk memeriksa apakah dia sudah
menyampaikan hasil HIV ke RS.
Langkah Penyusunan Alat Ukur Psikologi
Instrumen psikologi yang sering digunakan terkait pengukuran adalah
test, namun dapat juga berupa non-test (wawancara atau observasi).
Test dalam ranah psikologi digunakan untuk hasil pengukuran yang lebih
akurat. Menghasilkan test yang baik bukanlah kebetulan. Hal ini
merupakan produk dari penerapan prinsip-prinsip konstruksi alat ukur
yang direncanakan dan dilakukan dengan matang.
Perlu dikehatui bahwa test berisi sampel dari perilaku mengenai atribut
tertentu. Oleh karena itu, peneliti tidak mengetahui dengan jelas dan
pasti semua isi akal atau hati responden mengenai atribut atau konstruk
yang diukur. Lalu, bagaimana membuat test yang sesuai dengan
prosedur sehingga menghasilkan test terstandarkan (standardized
measurement construction)?
Alur proses penyusunan alat ukur tidak selalu dapat dilaksanakan secara
ketat. Keseluruhan proses menuntut keluwesan dari penyusun. Hal ini
dikarenakan banyaknya model skala pengukuran yang dapat dibuat
tergantung tujuan pembuatan alat ukur. Menurut Crocker dan Algina
(2008), proses pembuatan atau pengembangan alat ukur dilakukan
seperti di bawah ini:
Langkah Penyusunan Alat Ukur Psikologi
Identify purpose of test
Setiap test yang akan dibangun mungkin dapat diawali dengan
pemikiran penyusun atau pengembang alat ukur mengenai belum
tersedianya test yang dapat memotret atau mengukur mengenai atribut
tertentu. Misal, saat ini kita dihadapkan belum tersedianya alat ukur
perekat bangsa. Oleh sebab itu, kita dapat menggunakan beberapa
pertanyaan yang dapat menstimulus terbentuknya alat ukur yang baru.
Pertanyaan Awal Saat Membuat Alat Ukur
Cohen (2009) menyatakan ada beberapa pertanyaan di awal yang
dapat menstimulus pengembang test dalam menyusun alat ukur,
diantaranya:
• Test apa yang dirancang?
Ini merupakan pertanyaan yang sederhana dan jawabannya terkait erat
bagaimana pengembang test mendefinisikan kontruk yang diukur.
Apakah definisi konstruk yang akan dipakai sama atau berbeda dengan
test yang sudah ada sebelumnya?
• Apa tujuan dari test?
Pertanyaan ini menggali mengenai untuk apa tujuan tes digunakan. Jika
sudah ada test sebelumnya, apakah tujuan ini sama atau berbeda?
• Apakah ada kebutuhan untuk mengembangkan tes ini?
Penjelasan pertanyaan ini terkait dengan sudah tersedia atau belum test
lain mengukur atribut yang sama. Kemudian, apa yang menjadi
pembeda test baru dengan test yang sudah ada. Dapat juga distimulus
dengan pertanyaan “Apakah dengan adanya pengembangan test baru
akan menjadi lebih komprehensif?”
• Siapa yang akan menggunakan tes ini?
Dari pertanyaannya jelas menggambarkan siapakah yang dapat
menggunakan test yang sedang dibuat. Misal, assessor dengan latar
belakang psikologi? atau assessor dengan latar belakang apapun?
• Siapa yang akan mengikuti tes ini?
Hal ini terjawab jika penyusun test dapat memberikan gambaran
mengenai test yang sedang dibuat diperuntukan bagi siapa. Mungkin
ada kriteria tambahan peserta test, misal rentang usia peserta tes atau
untuk posisi atau jabatan apa yang bisa menjawabnya.
Langkah Penyusunan Alat Ukur Psikologi
• Dimensi atau aspek apa saja yang akan tercakup oleh tes ini?
Telah kita ketahui bahwa atribut psikologi termasuk latent variable, maka
sebagai penyusun test membutuhkan aspek/dimensi. Oleh sebab itu, kita
dapat mempertimbangkan semua atau sebagian aspek/dimensi apa
saja yang akan dipakai. Apabila sudah ada test yang sama sebelumnya,
aspek apa yang membedakannya.
• Bagaimana tes akan diberikan?
Penyusun test juga memikirkan bagaimana pemberian test ini. Dilakukan
secara individu atau kelompok? Jika dilakukan secara individu atau
kelompok, apakah hasilnya berbeda. Terakhir, media yang akan
digunakan dapat menggunakan paper pencil atau computer.
• Apa format tes yang ideal?
Sebagai penyusun, sudah memikirikan format terbaik untuk digunakan
dalam test ini. Dapat berupa benar-salah, esai, pilihan ganda, atau
dalam format lain yang menurut penyusun lebih tepat.
• Ketika test ini akan dikembangkan, dapatkah test dibuat dalam
beberapa paket test?
Hal ini didasarkan biaya dalam pengembangan test cukup besar serta
manfaat yang diperoleh akan banyak. Harapannya, jika nanti test akan
dikembangkan maka memungkinkan ada beberapa paket yang lainnya.
• Apakah diperlukan pelatihan khusus dari pengguna tes saat
menginterpretasikan hasilnya?
Hal ini perlu dipikirkan oleh penyusun, dengan latar belakang dan
kualifikasi apa yang dapat menginterpretasikan hasil test.
• Bagaimana interpretasi skor pada tes ini?
Pada pertanyaan ini, penyusun memikirkan bagaimana skor peserta
diperlakukan. Apakah hasilnya nanti dibandingkan dengan peserta lain
yang mengikuti ujian yang sama atau membandingkannya dengan
kriteria kelompok yang sesuai.
Langkah Penyusunan Alat Ukur Psikologi
Identify behaviors to represent the construct
Kegiatan mengidentifikasi perilaku ini dapat dilakukan dengan cara
mengumpulkan teori mengenai variabel atau atribut yang akan diukur. Di
bawah ini terdapat beberapa cara yang dapat dilakukan dalam
mengidentifikasi perilaku:
• Content analysis, cara ini diperoleh apabila Anda sebagai seorang
guru atau pengajar ingin membuat test mengenai materi yang akan
diujikan. Content analysis diperoleh dengan mengetahui bahan ajar
atau kurikulum yang diajarkan kepada peserta didik.
• Literatur review, kegiatan ini dilakukan dengan membaca buku, jurnal
atau hasil penelitian terbaru yang terkait dengan variabel atau atribut
yang diukur.
• Expert judgment, berbeda dengan cara content analysis dan
literature review peneliti memperoleh informasi dengan cara
membaca. Expert judgment dilakukan dengan cara berdiskusi
dengan pakar atau orang yang dianggap ahli terkait variabel atau
atribut yang diukur. Dari kegiatan ini diharapkan dapat membantu
peneliti untuk menemukan clue mengenai atribut tersebut.
Test specification
Tahapan ini, penyusun membuat kisi-kisi test yang isinya mengenai detail
perilaku yang ingin diukur dan disajikan dalam matrik. Kisi-kisi ini dikenal
dengan istilah blue print. Tujuan sebenarnya ialah membantu penyusun
dalam pembuatan item/soal. Isi blue print terdiri dari aspek atau dimensi
yang sudah ditentukan, indikator, keterangan item/soal (favorable dan
unfavorable) serta jumlah item untuk masing-masing dimensi.
Contoh blue print atribut kepemimpinan transformasional:
Langkah Penyusunan Alat Ukur Psikologi
Item construction
Tahap ini penyusun akan menulis item sesuai format yang diinginkan
kemudian juga menentukan teknik penyekorannya. Item dapat dibuat
setelah penyusun menentukan indikator keperilakuan yang dapat dilihat
di dalam blue print. Berikut point-point yang diperhatikan dalam item
construction (Cohen, 2009) ialah:
• Scaling methods, ini terkait dengan metode skala apa yang ingin
dibuat apakah likert rating scale, thurstone scale, semantic differential
scale, situational judgment test, atau yang lainnya.
• Writing item, jumlah item pada draft pertama disarankan sebanyak
dua sampai tiga kali lipat lebih banyak yang nantinya akan disusun
dalam final version. Tahap ini juga memikirkan format item apa yang
ditulis berupa pertanyaan atau pernyataan.
Dalam menulis item,
diharapkan penyusun
memperhatikan kaidah-
kaidah dalam penulisannya.
Setelah item dibuat,
penyusun dapat menjadi
reviewer pertama yakni memastikan apakah item yang ditulis sesuai
dengan indikator perilaku dan penulisannya mengacu pada pedoman
penulisan item.
Langkah Penyusunan Alat Ukur Psikologi
Untuk menghasilkan item/soal berkualitas, maka penulis perlu
memperhatikan beberapa kaidah, diantaranya (Azwar, 2014):
• Gunakan kata dan kalimat sederhana, jelas dan mudah dipahami.
• Tulis item yang tidak menimbulkan penafsiran ganda.
• Membuat item mengacu pada indikator perilaku, jangan langsung
berkaitan dengan atribut yang diukur.
• Pernyataan memungkin peserta untuk memberikan respon yang
sesuai dengan format skala/responnya.
• Hindari pernyataan double negatif (bukan tidak mungkin) dan
pernyataan universal (selalu, pasti, setiap, tidak pernah)
• Makna item tidak boleh mengandung social desirability (isi
pernyataan item dianggap baik oleh norma sosial)
• Sebagian item dibuat favorable dan sebagian lainnya unfavorable.
Hal ini digunakan untuk menghindari stereotipe jawaban.
Item review and revision
Setelah item construction, tahap selanjutnya ialah mengecek
atau menelaah item yang sudah siap. Kegiatan ini dapat
meminta bantuan expert (orang yang berkompeten sesuai
dengan atribut yang sedang dibuat alat ukurnya) atau
berdiskusi dengan team yang berpengalaman untuk me-review.
Apakah item-item tersebut sudah siap untuk diuji cobakan ke
peserta atau masih terdapat item yang harus direvisi. Agar
setiap langkah dalam penyusunan alat ukur ada
dokumentasinya, maka saat menemui expert membawa form
yang akan diisi seperti di halaman berikutnya:
EXPERT REVIEW
Penjelasan Singkat Bass mengenai Kepemimpinan Transformasional
Pengukuran kepemimpinan transformasional yang digunakan dalam Bass (2004)
memiliki 4 dimensi yaitu pengaruh ideal, motivasi inspirasional, stimulasi intelektual dan
pertimbangan individual.
Pengertian operasional dimensi pengaruh ideal adalah sebagai berikut:
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
Dimensi Pengaruh Ideal
Form Penilaian
Pada setiap kolom bertuliskan kategori penilaian, terdapat 5 kolom berisi angka 1-5.
Mohon Bapak/ Ibu dapat menyilang pada salah satu angka (X) dalam masing-
masing kategori penilaiain, menurut kesesuaian dengan kategori tersebut. Angka 1
menunjukkan tidak sesuai, angka 5 menunjukkan sangat sesuai.
Penilaian Ahli (Expert Review)
Berikan penilaian objektif Anda terhadap setiap item yang tercantum dengan cara
mengisi Form Penilaianyang tersedia, dengankategori penilaian sebagai berikut:
1. Tingkat Relevansi; artinya sejauh mana item tersebut relevan dengan indikator
dan dimensinya
2. Tingkat Kepentingan; artinya sejauh mana item tersebut penting untuk mengukur
indikator dan dimensinya
3. Tingkat Kejelasan; artinya sejauh mana kejelasan redaksi item tersebut akan
dipahami oleh peserta.
4. Masukan Untuk Revisi. Pada kolom “masukan untuk revisi”, mohon Bapak/Ibu
dapat memberikan masukan untuk merevisi item tersebut (terutama yang
mendapatkan nilai 1 dan 2 di kolom kategori penilaian)
5. Masukan Secara Umum.Pada bagian terakhir, kami cantumkan bagian “masukan
secara umum”; mohon Bapak/ Ibu berkenan mengisi dengan masukan terhadap
instruksi tes, penggunaan skala/format respon, serta tes secara keseluruhan.
Masukan Secara Umum (Keseluruhan): Masukan Secara Umum
No. Dimensi
1. Pengaruh ideal
Direview oleh (nama lengkap) :
Bidang Kepakaran :
Tanggal :
Tanda Tangan :
Langkah Penyusunan Alat Ukur Psikologi
Test assembly
Setelah item direvisi, maka kegiatan selanjutnya ialah merakit item-item
tersebut menjadi sebuah test yang akan siap untuk diujicobakan ke
peserta. Sebagai pelengkapnya, maka disertakan:
• Cover test
• Identitas diri peserta
• Instruction atau direction pengisian test
• Item yang akan diujicobakan
• Lembar jawaban (terpisah atau disatukan)
Contoh test assembly yang diberikan ke peserta ditampilkan
menggunakan google form.
Langkah Penyusunan Alat Ukur Psikologi
Item dan test piloting
Dari tahapan pertama hingga keenam, test sudah siap untuk digunakan
dengan tujuan tertentu. Namun, agar test yang dibuat memenuhi
standardized measurement maka dilakukan uji coba atau try out.
Kumpulan item/soal yang telah berhasil melewati proses review oleh
expert judgment kemudian diujicobakan kepada sekelompok peserta
yang memiliki karakteristik sama dengan target peserta sebenarnya.
Tujuannya ialah untuk mengetahui apakah item/soal dapat dipahami
dengan baik. Reaksi peserta try out terhadap kata, pernyataan atau
pertanyaan dalam item/soal merupakan pertanda kurang
komunikatifnya kalimat yang ditulis sehingga memerlukan perbaikan.
Jumlah peserta uji coba memiliki aturan tertentu. Batasan ini diharapkan
agar hasil analisis item nantinya diperoleh index atau nilai yang stabil.
Ada dua pendapat dalam menentukan banyaknya peserta saat uji
coba:
• Menurut Nanually, 5 – 10 kali jumlah item yang ada
• Menurut Lord, 1000 responden
Langkah Penyusunan Alat Ukur Psikologi
Item dan test analysis
Hasil uji coba akan diperoleh jawaban peserta yang kemudian diberikan
skor atau koding. Selanjutnya, penyusun melakukan analisis item dan test
secara kuantitatif. Sehingga hasil analisis menghasilkan informasi mana
item/soal yang baik dan yang buruk/jelek. Istilah item baik dan buruk,
tidak lain item valid (item/soal mengukur apa yang hendak diukur) dan
tidak valid. Sulit mendapatkan sebuah test yang semua itemnya termasuk
item baik/valid, tanpa ada item yang tidak valid. Jika terdapat item yang
tidak valid maka penyusun dapat merevisinya atau menggugurkannya.
Sehingga, setelah analisis masih ada item yang mewakili masing-masing
indikator di dalam blue print. Untuk menjadi alat ukur baku, maka
informasi hasil analisis yang terkait dilaporkan. Informasi yang dibutuhkan
berupa:
Hasil dan interpretasi validitas
Fokus pertanyaan validitas ialah mengukur yang benar. Dalam hal ini
apakah item-item yang dibuat benar dan tepat mengukur atribut yang
sudah ditentukan sebelumnya?. Berdasarkan teori terkini, validitas dapat
dilakukan dengan dua cara yakni pertama item response theory
menggunakan bantuan software Winstep dan kedua confirmatory factor
analysis menggunakan bantuan software Mplus.
Langkah Penyusunan Alat Ukur Psikologi
Pada buku ini, dijelaskan bagaimana cara mengintepretasikan hasil
validitas menggunakan software Winstep dan Mplus.
Kriteria Item Valid (Sumintono & Widhiarso, 2014):
• Nilai Outfit Mean Square (MNSQ) : 0.5 < MNSQ < 1.5
• Nilai Outfit Z-Standard (ZSTD) : -2.0 < MNSQ < +2.0
• Nilai Point Measure Correlation (Corr) : 0.4 < MNSQ < 0.85
Item pertanyaan dinyatakan valid setidaknya memenuhi dua kriteria di
atas. Jika tidak, maka item tidak dapat menggambarkan atribut yang
sudah ditentukan sebelumnya.
Langkah Penyusunan Alat Ukur Psikologi
Selanjutnya, bagaimana cara menginterpretasi hasil validitas
menggunakan software Mplus. Contoh dilakukan terhadap
aspek/dimensi motivasi inspirasional di dalam atribut kepemimpinan
transformasional. Item pada aspek/dimensi ini terdiri dari empat item
yakni item 6, item 7, item 8 dan item 9.
tahap di atas sudah dilihat dan kriteria terpenuhi, maka tahap
selanjutnya ialah melihat mana item valid dan tidak valid.
Item dinyatakan valid menggunakan software Mplus jika:
• Arah estimate pada item positif
• Nilai pada ‘Est./S.E.’ lebih besar dari 1,96
Langkah Penyusunan Alat Ukur Psikologi
Hasil dan interpretasi reliabilitas
Reliabilitas diartikan sebagai keterpercayaan atau konsistensi alat ukur.
Hal ini mengandung makna seberapa tinggi dan cermat hasil
pengukurannya. Salah satu instrument yang memiliki kualitas yang baik
ialah terpenuhinya reliabilitas. Berikut hasil reliabitas alat ukur
menggunakan software Winstep. Diharapkan hasil reliabilitas dapat di
atas 0.60.
Test finalization
Tahap terakhir dalam penyusunan alat ukur ialah merakit item yang
sudah memenuhi syarat psikometri (validitas dan reliabilitas) sehingga
layak menjadi sebuah test yang baku. Format akhir alat ukur didesain
dengan tampilan menarik namun tetap memudahkan peserta dalam
membaca dan menjawab. Termasuk penulisan huruf perlu
mempertimbangkan usia peserta.