Dalam proses penyusunan alat tes, proses seleksi item menjadi bagian yang sangat krusial. Proses ini bertujuan untuk memilih item mana saja yang layak kita masukkan dalam alat tes kita. Dalam analisis dengan teori tes klasik, daya diskriminasi item menjadi salah satu paramater yang paling utama dalam seleksi item. Daya diskriminasi item menunjukkan seberapa baik item dalam membedakan individu mana yang memiliki kemampuan dan mana yang tidak. Dalam konteks tes kognitif, dimana jawaban soal hanya diskor benar dan salah (1/0), ada tiga jenis parameter diskriminasi item yang biasa digunakan, yakni indeks diskriminasi item, korelasi point-biserial, dan korelasi biserial. Diantara ketiganya, terkadang kita bingung mau menggunakan yang mana karena tidak terlalu memahami perbedaannya. Tulisan ini akan menjelaskan perbedaan ketiganya dan bagaimana penggunaannya.
Showing posts with label Teori Skor Klasik. Show all posts
Showing posts with label Teori Skor Klasik. Show all posts
Memaknai Corrected Item-Total Correlation pada Alat Ukur Penelitian
Penyusunan Alat Ukur Psikometrika Reliabilitas SPSS Teori Skor Klasik
Ketika kita menggunakan pendekatan kuantitatif dalam melakukan
sebuah penelitian, tentunya kita akan menggunakan alat ukur untuk mendapatkan
data yang dibutuhkan. Alat ukur berguna untuk menguantifikasikan variabel yang
ingin diukur. Seperti halnya jika kita ingin mengetahui tekanan darah, kita
bisa menggunakan tensimeter. Tentunya, tensimeter yang sudah dikalibrasi
sehingga menghasilkan nilai tekanan darah yang valid dan reliabel. Pengukuran
tekanan darah merupakan contoh pengukuran atribut fisik. Bagaimana jika kita
ingin mengukur atribut psikologis?
Analisis Item dengan Iteman
iteman Penyusunan Alat Ukur Psikometrika Reliabilitas Teori Skor Klasik tutorial software
Hanif Akhtar
Pada artikel sebelumnya telah dibahas parameter yang perlu diperhatikan
dalam prosedur analisis item dengan menggunakan Pendekatan Tes Klasik, yakni (1)
tingkat kesulitan item, (2) daya diskriminasi item, dan (3) efektivitas
distraktor. Secara konseptual ketiga parameter tersebut telah dibahas. Tulisan ini
akan menjelaskan prosedur analisis item berdasarkan tiga parameter menggunakan
Software Iteman. Iteman merupakan salah satu software analisis butir soal
berbasiskan pendekatan teori tes klasik. Program ini termasuk satu paket program dalam
MicroCAT°n yang dikembangkan oleh Assessment Systems Corporation mulai tahun
1982 dan mengalami revisi hingga saat ini. Versi yang paling umum dipakai guru-guru atau dosen kita adalah versi yang masing menggunakan DOS, namun karena versi tersebut sudah tidak kompatibel lagi dengan laptop saya, maka dalam contoh ini versi yang akan digunakan dalam
analisis ini adalah Iteman 3.6. Namun pada prinsipnya, file yang digunakan dan script membuat data filenya sama saja.
Menyiapkan data untuk analisis
Program iteman dapat menganalisis file dalam format .txt atau .dat. Untuk
menyiapkan data, kita perlu menginput terlebih dahulu jawaban dari subjek kita.
Untuk lebih mudah kita bisa menginput di Microsoft Ecxel baru kemudian kita
copy ke notepad. Berikut ini contoh
data yang akan digunakan dalam analisis kita. Tes yang disajikan adalah tes TPA
dengan jumlah soal 45 item.
Gambar di atas adalah file yang akan kita gunakan untuk input ke dalam program iteman untuk dianalisis. Keterangan dari script file input adalah sebagai berikut.
Baris pertama
Kolom 1-3 : jumlah butir soal, maksimal 250 butir
(dalam contoh 045)
Kolom 4 : kosong/spasi
Kolom 5 : kode untuk jawaban kosong (dalam
contoh “O”)
Kolom 6 : kosong/spasi
Kolom 7 : kode untuk butir yang belum dijawab (dalam contoh “N”)
Kolom 7 : kode untuk butir yang belum dijawab (dalam contoh “N”)
Kolom 8 : kosong/spasi
Kolom 9-10 : jumlah karakter identitas data siswa (dalam
contoh 05)
Baris kedua : kunci jawaban
Baris ketiga : jumlah pilihan jawaban (dalam contoh ada soal yang
memiliki 4 opsi, ada yang 5 opsi)
Baris keempat : kode Y jika soal ikut dianalisis, kode N jika
soal tidak diikutkan dianalisis
Baris kelima dan seterusnya
merupakan identitas dan jawaban subjek.
Jika file sudah siap, silakan disimpan dalam format .txt atau .dat. Misalkan dalam analisis ini file disimpan dengan nama TES-TPA.txt. Lokasi penyimpanan file harus satu folder dengan program iteman berada.
Menjalankan Iteman
Untuk mulai menjalankan iteman silakan buka program iteman. Untuk memasukan
file script kita, tekan configure, kemudian
pada input data file name masukan
file TES-TPA.txt kita tadi. Kemudian pada analysis
output file nama, silakan buat nama file output kita nanti, bebas, misalkan
dalam hal ini nama filenya OUTPUT-TPA.OUT .
Pada tab options, ada beberapa pilihan analisis yang akan dilakukan. Type of corelation merupakan pilihan apakah kita mau mengeluarkan output berupa korelasi point-biserial atau biserial. Pada ability grouping, jika kita menghendaki dikeluarkan output indeks diskriminasi dari kelompok tinggi dan kelompok rendah centang “yes”. Correct for spuriousness merupakan koreksi terhadap efek spurious seperti yang sudah dijelaskan di artikel sebelumnya. Express endorsement merupakan tingkat kesulitan item yang bisa dipilih apakan disajikan dalam bentuk proporsi atau persentase. Jika sudah kita pilih sesuai kebutuhan, lalu tekan ok dan kemudia tekan run analysis atau icon gambar komputer.
Untuk melihat output analisis kita, silakan tekan view output. File
output juga bisa kita lihat di
folder yang sudah kita tentukan tadi dengan nama file OUTPUT-TPA.OUT.
Membaca Output Iteman
Rambu-rambu untuk menilai hasil analisis telah dijelaskan di tulisan sebelumnya. Item nomer 1 mempunyai tingkat kesulitan (prop.correct) 0,13, artinya item ini termasuk item yang sulit
karena hanya 13% dari seluruh subjek yang mampu menjawab dengan benar. Item
nomor 1 juga memiliki korelasi
point-biserial (rpbis) sebesar 0,09 dan indeks diskriminasi sebesar -0,15. Item
ini termasuk item yang kurang baik karena tidak mampu membedakan subjek dengan
kemampuan tinggi dan rendah. Iteman juga
memberikan rekomendasi seperti yang tertulis di output “CHCEK THE KEY, C was
specified, A works better”. Artinya ada kemungkinan kita salah kunci karena
ternyata dengan kunci A, korelasi point-biserialnya lebih baik. Pada item nomer
1 semua distraktor berfungsi dengan
baik karena semuanya dipilih oleh subjek.
Item nomer 2 mempunyai
tingkat kesulitan (prop.correct) 0,74, artinya item ini
termasuk item yang mudah karena ada 74% dari seluruh subjek yang mampu menjawab
dengan benar. Item nomor 1 juga memiliki korelasi
point-biserial (rpbis) sebesar 0,22. Butir yang memiliki daya beda di atas
0,2 menurut Fernandes (1984) sudah dianggap baik, sehingga item tersebut dapat
diterima, sedangkan jika menurut Ebel (dalam Azwar, 2015), dengan nilai rpbis=0,22
item ini belum memuaskan dan masih perlu perbaikan. Pada item nomer 2, distraktor C tidak bekerja dengan
efektif karena tidak ada subjek yang memilihnya, sehingga pilihan ini perlu
direvisi.
Selain memberikan
informasi masing-masing item, iteman juga mengeluarkan output berupa rangkuman
statistik alat tes kita. Dari output tersebut dapat kita ketahui reliabilitas alpha tes ini 0,778 dengan
Standard Error Measurement (SEM)
sebesar 2,625. Instrumen yang memiliki reliabilitas Alpha di atas 0,7 menurut
Feldt dan Brennan (1989) sudah dianggap reliabel. Sehingga tes ini sudah
memenuhi kriteria tersebut. Keterangan statistik lainnya dapat dilihat dari
hasil output di atas.
Untuk mempelajari iteman secara lebih detil, buku user manual iteman versi 3.6 dapat didownload di sini
File input TES-TPA.txt dalam tulisan ini dapat digunakan untuk latihan teman-teman, silakan download di sini
Untuk mempelajari iteman secara lebih detil, buku user manual iteman versi 3.6 dapat didownload di sini
File input TES-TPA.txt dalam tulisan ini dapat digunakan untuk latihan teman-teman, silakan download di sini
Referensi
Fernandes, H.J.X. (1984). Testing and Measurement. Jakarta: Nasional
Education Planing Evaluation and Curriculum Development.
Feldt, L. S. & Brennan, R. L. (1989). “Reliability” dalam Linn R. L.
(Eds.), Educational Measurement Third Edition. (pp. 105-146). New York:
McMillan.
Pedoman Analisis Item Menggunakan Pendekatan Teori Tes Klasik
Penyusunan Alat Ukur Psikometrika Teori Skor Klasik
Hanif Akhtar
Dalam proses penyusunan tes, item-item yang telah direview secara
kualitatif oleh ahli di bidangnya dapat dinyatakan valid secara isi. Meskipun demikian,
dalam tes prestasi perlu dilakukan analisis tambahan yang bertujuan untuk
memperoleh item-item yang memiliki daya ukur dan daya beda yang tinggi sehingga
tujuan pengkuran yakni untuk membedakan kemampuan satu individu dengan individu
lain dapat tercapai. Prosedur ini sering disebut sebagai analisis dan seleksi
item karena tujuan dari prosedur ini tidak lain adalah mengetahui item-item
mana saja yang layak untuk dipertahankan atau direvisi bahkan dibuang.
Prosedur analisis
dan seleksi item soal berdasarkan teori tes klasik memperhatikan tiga
parameter, yaitu (1)
tingkat kesulitan item, (2) daya diskriminasi item, dan (3) efektivitas
distraktor (Azwar, 2015).
Analisis tersebut dilakukan beradsarkan jawaban subjek terhadap item-item
dalam tes. Meskipun tingkat
kesulitan item dan daya diskriminasi item dihitung secara terpisah, namun dalam evaluasi terhadap item soal
keduanya dilihat sebagai kesatuan komponen yang akan menentukan apakah suatu item
dianggap baik atau tidak (Azwar, 2013). Parameter ketiga yakni efektivitas
distraktor hanya berlaku pada soal berbentuk pilihan ganda.
Tingkat Kesulitan Item
Tingkat kesulitan item merupakan perbandingan antara jumlah penjawab item benar dengan banyaknya penjawab item.
Tingkat kesulitan biasa ditentukan oleh indeks kesukaran dan dilambangkan
dengan p. Indeks
kesukaran item dapat dihitung melalui persamaan berikut.
P = ni / N
N merupakan total subjek yang menjawab item tersebut, sementara ni
merupakan jumlah subjek yang menjawab dengan benar. Indeks kesukaran item berkisar
antara 0 sampai 1, dimana indeks yang mendekati angka 1 berarti item tersebut
semakin mudah. Begitu pula sebaliknya, semakin mendekati angka 0 berarti item
tersebut semakin sulit. Item
soal yang ideal adalah item yang memiliki tingkat kesukaran berada di sekitar
p=0,5, hal ini dikarenakan nilai p=0,5 memungkinkan untuk mendapat varians
terbesar. Rumus varians pada item dikotomi adalah s2=p(1-p), hal ini
berarti varians akan maksimal pada p=0,5. Secara teoritis varians yang maksimal
akan menghasilkan daya diskriminasi yang tinggi pula (Azwar, 2013). Meskipun demikian,
tidak ada acuan pokok dalam menentukan berapa nilai tingkat kesulitan yang
baik. Hal ini dikarenakan tingkat kesulitan sangat bergantung pada tujuan tes
tersebut. Jika tes dilakukan untuk suatu penempatan (placement test), maka tingkat kesulitan disesuaikan secara beragam
mulai dari yang paling mudah sampai yang paling sulit. Namun jika tes dilakukan
untuk suatu seleksi, maka dapat dipilih item-item yang sulit karena yang
dipilih adalah sebagian kecil pelamar saja yang memiliki kemampuan tinggi.
Seperti yang sudah dijelaskan dalam artikel mengenai teori tes klasik,
salah satu keterbatasan dari teori tes klasik adalah adanya sample dependent,
artinya indeks kesukaran yang diperoleh juga bergantung dari dimana tes itu
diujikan. Misalkan soal matematika yang sama, bisa jadi terasa sulit jika
diujikan di sekolah yang berada di pelosok, namun bisa jadi terasa mudah jika
diujikan di sekolah favorit. Tingkat kesulitan item merupakan ukuran bagi
seluruh kelompok subjek, bukan bagi masing-masing individu. Tingkat kesukaran item bagi masing-masing
individu adalah berbeda dan kita tidak dapat mengetahuinya.
Daya Dikskriminasi Item
Daya diskriminasi item
adalah kemampuan item dalam membedakan antara satu subjek dengan subjek
yang lain. Dalam
hal tes kognitif, daya diskriminasi item berarti bertujuan untuk membedakan
individu yang memiliki kemampuan tinggi (pintar) dan kemampuan rendah (bodoh). Suatu item soal dapat dikatakan
memiliki daya diskriminasi yang baik apabila item tersebut dapat dijawab dengan
benar oleh seluruh atau sebagian besar subjek dari kelompok kemampuan tinggi dan
tidak dapat dijawab dengan benar oleh sebagian atau seluruh subjek dari
kelompok kemampuan rendah. Jika proporsi penjawab benar soal dari
kelompok tinggi lebih besar daripada proporsi penjawab benar pada kelompok
rendah, maka daya dikriminasinya tinggi. Namun sebaliknya, jika proporsi penjawab benar soal dari
kelompok rendah lebih besar daripada proporsi penjawab benar pada kelompok tinggi,
maka daya dikriminasinya rendah. Item yang demikian bisa jadi menyesatkan, bisa
jadi soal
tersebut salah kunci atau
sulit dipahami kalimatnya (Azwar,
2013).
Secara sederhana,
daya diskriminasi merupakan perbedaan proporsi penjawab benar kelompok kemampuan
tinggi (PT) dan penjawab benar kelompok kemampuan rendah (PR).
Rumus untuk menghitung daya diskriminasi
butir dapat dituliskan sebagai berikut (Azwar, 2013).
d = PT - PR
Seperti rumus dalam indeks kesukaran, PT merupakan rasio antara banyaknya
butir yang dijawab benar di kelompok tinggi (niT) dengan banyaknya penjawab
dari kelompok tinggi (NT). Begitu pula proporsi (PR) adalah rasio
antara banyaknya butir yang dijawab benar di kelompok rendah (niR) dengan
banyaknya penjawab dari kelompok rendah (NR). Sehingga rumus
di atas dapat dijabarkan sebagai berikut.
Bila sampel yang digunakan sedikit, kelompok tinggi dapat dijelaskan
sebagai 50% subjek yang memiliki skor tertinggi sedangkan kelompok rendah
merupakan 50% subjek yang memiliki skor terendah. Namun jika subjek yang
digunakan cukup banyak, maka dapat ditentukan kelompok tinggi sebagai 27% dari
seluruh subjek dengan skor tertinggi dan kelompok rendah adalah 27% dari
seluruh subjek dengan skor terendah. Sedangkan sisanya 46% subjek termasuk
dalam kelompok sedang dan tidak disertakan dalam analisis.
Selain diestimasi melalui indeks daya diskriminasi item, daya beda juga
bisa diestimasi melalui korelasi item-total. Dasar yang digunakan dalam
analisis item ini adalah memilih item-item yang fungsi ukurnya sesuai dengan fungsi
ukur tes secara keseluruhan. Koefisien korelasi item-total dapat dihitung
dengan korelasi product moment Pearson yang
berkisar antara -1 sampai dengan 1. Item
yang memiliki koefisien korelasi item-total mendekati 1 berarti baik dalam
membedakan individu, sedangkan item yang memiliki koefisien korelasi item-total
mendekati -1 berarti menyesatkan. Azwar (2015) menjelaskan bahwa dalam kaitannya
dengan hasil komputasi koefisien korelasi antara korelasi item dengan skor
test, item yang ada dalam tes dikhawatirkan dapat mengakibatkan over estimate dikarenakan besarnya
kontribusi item dalam menentukan skor test. Keadaan inilah yang disebut spurious overlap. Untuk menghilangkan
efek spurious overlap tersebut maka
koefisien korelasi item total yang dihitung dengan korelasi product moment Pearson dikoreksi dengan
nilai Deviasi Standar. Formula ini kemudian menghasilkan koefisien yang dikenal
dengan corrected item-total correlation
coefficient. Namun jika jumlah item cukup banyak (di atas 30), efek
tersebut bisa diabaikan.
Pada tes yang dikotomi (skor item terdiri dari 1 dan 0), koefisien korelasi
item-total dapat dihitung dengan formula korelasi point-biserial (rpbis).
Rumus untuk menghitung korelasi point-biserial (rpbis) adalah
sebagai berikut
Indeks daya diskriminasi berkisar antara -1 sampai dengan 1. Dalam seleksi
item, ada beberapa ahli yang mengungkapkan nilai minimal daya diskriminasi item
yang diperlukan. Meskipun tidak ada pendapat yang mutlak yang mengatakan berapa
nilai indeks diskriminasi minimal yang ditetapkan dalam seleksi item, namun
prinsip umum yang digunakan adalah memilih item dengan indeks daya diskriminasi
item yang tinggi. Sebagai gambaran Ebel (dalam Azwar, 2015) menyarankan
penggunaan kriteria evaluasi terhadap indeks diskriminasi item ebagai berikut.
Indeks
Diskriminasi
|
Evaluasi
|
>0,40
|
Bagus sekali
|
0,30 – 0,39
|
Lumayan bagus, tapi masih perlu
peningkatan
|
0,20 – 0,29
|
Belum memuaskan, perlu perbaikan
|
<0,20
|
Jelek dan item harus dibuang
|
Efektivitas Disktraktor
Efektivitas distraktor hanya digunakan dalam soal yang berbentuk pilihan
ganda. Efektivitas distraktor digunakan untuk melihat apakah pilihan jawaban
distraktor (yang bukan kunci jawaban) berfungsi sebagaimana mestinya, yaitu
dipilih oleh sebagian besar subjek dari kelompok rendah dan hanya sedikit
dipilih oleh kelompok dengan abilitas tinggi. Distraktor dapat dikatakan
efektif apabila (a) dipilih oleh mayoritas atau seluruh subjek dari kelompok
abilitas rendah, dan (b) jawaban yang dipilih oleh kelompok tersebut menyebar
secara merata pada masing-masing distraktor (Azwar, 2013).
Referensi
Azwar, S. (2013). Penyusunan Skala Psikologi Edisi 2. Yogyakarta: Pustaka Pelajar.
Azwar, S. (2015). Konstruksi Tes Kemampuan Kognitif. Yogyakarta: Pustaka Pelajar
Reliabilitas (Konsep Teori Tes Klasik)
Metodologi Penelitian Psikometrika Reliabilitas Teori Skor Klasik
Hanif Akhtar
Mengapa judulnya dalam kurung konsep teori tes klasik? Karena tulisan ini akan mengulas jenis-jenis reliabilitas berdasarkan pendekatan teori tes klasik. Tentu saja ada pendekatan lain seperti konsep reliabilitas dalam Rasch model yang sedikit berbeda dengan pendekatan ini. Berikut ini adalah formula reliabilitas yang diturunkan dari konsep reliabilitas dari teori tes klasik.
Reliabilitas mengacu pada konsistensi skor yang diperoleh dari orang yang sama ketika ia dites kembali dengan tes yang sama pada situasi yang berbeda atau dites dengan tes yang berbeda namun item-item tes tersebut bersifat ekuivalen atau setara (Anastasi & Urbina, 1997). Berkaitan dengan asumsi di atas, dirumuskan pula mengenai konsep tes paralel. Menurut teori ini, dua bentuk tes diseut paralel apabila skor murni dari setiap subjek adalah sama pada kedua tes (T1=T2), dan bagi setiap populasi yang dikenai tes tersebut varians erornya adalah sama besar σe2 = σe2. Batasan tersebut mengandung arti bahwa mean dan varians skor tampak yang setara serta keduanya memiliki korelasi skor tampak dengan yang setara pula. Batasan lain yang dirumuskan adalah mengenai konsep essentially tau-equivalent. Kedua tes memiliki sifat tau-equivalent apabila besarnya perbedaan skor murni setiap individu pada kedua tes selalu sama. Itu artinya T1 = T2 + C, dimana C suatu bilangan konstan. Tes yang paralel sudah pasti tau-equivalent.
Reliabilitas mengacu pada konsistensi skor yang diperoleh dari orang yang sama ketika ia dites kembali dengan tes yang sama pada situasi yang berbeda atau dites dengan tes yang berbeda namun item-item tes tersebut bersifat ekuivalen atau setara (Anastasi & Urbina, 1997). Berkaitan dengan asumsi di atas, dirumuskan pula mengenai konsep tes paralel. Menurut teori ini, dua bentuk tes diseut paralel apabila skor murni dari setiap subjek adalah sama pada kedua tes (T1=T2), dan bagi setiap populasi yang dikenai tes tersebut varians erornya adalah sama besar σe2 = σe2. Batasan tersebut mengandung arti bahwa mean dan varians skor tampak yang setara serta keduanya memiliki korelasi skor tampak dengan yang setara pula. Batasan lain yang dirumuskan adalah mengenai konsep essentially tau-equivalent. Kedua tes memiliki sifat tau-equivalent apabila besarnya perbedaan skor murni setiap individu pada kedua tes selalu sama. Itu artinya T1 = T2 + C, dimana C suatu bilangan konstan. Tes yang paralel sudah pasti tau-equivalent.
Koefisien
Reliabilitas
Interpretasi 1: ρxx'
Korelasi skor tampak antara
dua tes yang paralel
Koefisien reliablitas adalah
sejauhmana distribusi skor tampak pada dua tes yang paralel berkorelasi
Interpretasi 2: ρxx'2
Besarnya proporsi varians X
yang dijelaskan oleh hubungan liniernya dengan X'
Kuadrat koefisien
reliabilitas adalah sama dengan besarnya proporsi varians X yag dijelaskan oleh
hubungan liniernya dengan X’
Interpretasi 3: ρxx'
= σt2/σx2
Koefisien reliabilitas
adalah perbandingan varians skor murni dan varian skor tampak pada hasil ukur
suatu tes
Interpretasi 4: ρxx' = ρ2xt
Koefisien reliabilitas
adalah kuadrat koefisien korelasi antara skor tampak dan skor murni.
Interpretasi 5: ρxx'
= 1 - ρ2xe
Koefisien reliabilitas
adalah sama dengan satu dikurangi oleh kuadrat koefisien korelasi skor tampat
dan eror pengukuran
Interpretasi 6: ρxx'
= 1 – σe2/σx2
Koefisien reliabilitas
adalah satu dikurangi besarnya proporsi varians eror yang terkandung dalam
varians skor tampak.
Interval Kepercaaan
Sekalipun skor murni
individu dalam tes tidak dapat diketahui secara pasti, namun masih dapat
dilakukan semacam estimasi untuk menentukan taraf estimasi dari skor murni.
Ƭ = X + SE(Zα/2)
Estimasi skor murni juga
dapat dilakukan dengan melihat koefisien reliabilitas dan mean nya.
Ƭ = ρxx' (x - μx)
+ μx
Pendekatan Reliabilitas
Secara
umum, perhitungan terhadap reliabilitas dapat dilakukan dengan tiga pendekatan,
yakni tes-ulang (test-retest),
pendekatan estimasi reliabiltas bentuk paralel (parallel-form), dan pendekatan penyajian tunggai (single trial administration), atau yang
lebih dikenal dengan istilah konsistensi internal. Berikut penjelasan ketiga
pendekatan tersebut.
Test-retest
Metode
pengujian reliabilitas test-retest
digunakan pada saat ingin diketahui
seberapa konsisten respon dari seorang peserta tes di waktu yang berbeda. Koefisien
reliabilitas yang diperoleh dengan metode pengujian test-retest ini disebut
sebagai koefisien stabilitas (Crocker & Algina, 1986). Metode pengujian ini
dilakukan dengan menggunakan satu form tes dengan 2 kali sesi pengujian. Hasil
pengujian dari kedua tes tersebut nantinya akan menghasilkan 2 distribusi skor
tes yaitu skor tes dari sesi pengujian yang pertama dan skor tes dari tes yang
sama namun dari sesi pengujian yang kedua. Koefisien reliabilitas diperoleh
dengan cara melakukan perhitungan korelasi antar kedua distribusi skor
tersebut, sehingga nantinya akan diperoleh suatu nilai korelasi yang dalam
metode pengujian test-retest ini disebut sebagai koefisien stabilitas. Penyebutan
koefisien stabilitas sebagai koefisien reliabilitas pada metode ini dimaksudkan
pada kestabilan hasil pengukuran tes pada peserta tes yang sama antara hasil
pengukuran tes yang pertama dengan tes yang kedua (Stability over time).
Parallel-form
Dalam
metode test-retest, efek pengetahuan sebelumnya terhadap tes yang sama terutama
ketika peserta tes masih dapat mengingat item-item tes yang dikerjakannya atau
masih mengingat bagaimana cara mengerjakannya, menjadi permasalahan yang
mungkin terjadi. Untuk mengatasi hal tersebut, digunakanlah metode pengujian
reliabilitas lain yang serupa dengan metode test-retest,
di mana peserta tes diuji dengan dua kali sesi pengerjaan tes namun dengan dua
form test yang itemnya berbeda tapi memiliki sifat ekuivalen antar keduanya. Metode
pengujian reliabilitas ini juga memiliki koefisien reliabilitas yang merupakan
hasil korelasi antara skor tes pertama dan skor tes kedua. Koefisien reliabilitas
dalam metode parallel-form mengukur
dua hal yaitu kestabilitasan hasil pengukuran antar waktu dan konsistensi
respon peserta tes terhadap item-item tes yang berbeda atau dua form tes yang
berbeda (Anastasi & Urbina, 1997).
Konsistensi internal
Dalam
pelaksanaannya, metode test-retest dan
parallel-form memiliki beberapa
kekurangan. Utuk test-retest kendala yang dihadapi adalah bagaimana menentukan
interval waktu yang pas antara tes pertama dan kedua, sehingga tidak terjadi carry over effect (efek bawaan) yang
mempengaruhi besaran koefisien yang dihasilkan. Sedangkan kendala utama
bentuk parallel-form adalah sulitnya menciptakan dua tes yang benar-benar
paralel. Selain itu kedua metode tersebut juga kurang praktis karena harus
disajikan dua kali. Dengan alasan yan dikemukakan di atas, metode penyajian
tunggal yang menghasilkan koefisien konsistensi internal banyak digunakan
karena memiliki nilai praktis yang lebih tinggi.
Komputasi
koefisien konsistensi internal diawali dengan pembelahan tes menjadi beberapa
bagian. Dalam pembelahan, apabila memungkinkan sebisa mungkin bentuk belahannya
paralel, sehingga estimasi reliabilitas yang dihasilkan lebih akurat. Berikut
adalah beberapa metode dalam pembelahan tes. Secara umum, untuk dilakukan
pembelahan dua bagian ada beberapa asumsi yang harus dipenuhi yaitu mean belah
pertama dan kedua setara, varians belah pertama dan kedua setara, serta
koefiesn korelasi belah pertama dan kedua tinggi. Ada beberapa metode yang
adapat digunakan untuk estimasi reliabilitas belah dua.
Spearman-Brwon
ρxx'
= 2ρyy' / 1+ ρyy'
Dengan
y adalah hasil belahan pertama dan y’ adalah hasil belahan kedua. Syarat untuk
metode spearman-brown adalah kedua belahan harus parlalel. Apabila syarat ini
tidak terpenuhi maka hasil estimasi reliabilitasnya tidak benar.
Rulon
ρxx' = 1 – σd2/σx2
Dengan
d sama dengan eror yaitu nilai belahan pertama dikurangi belahan kedua. Syarat
yang harus dipenuhi oleh metode Rulon ini adalah kedua belahan jumlah itemnya
harus sama.
Alpha-Cronbach
Formula
ini sama dengan formula Gutman,
untuk kasus belah dua. Syarat yang harus dipenuhi oleh metode ini adalah kedua
belahan harus tau ekuivalen dan berarti varians kedua belahan juga setara.
Pelanggaran syarat ini berakibat hasil estimasi yang underestimate. Alpha
cronbach tidak hanya bisa digunakan untuk belah dua saja, tapi juga bisa
digunakan untuk belah berapapun. Berikut adalah formula umum Alpha Cronbach
dengan tes dibelah sejumlah k belahan.
Formula umum alpha cronbach:
Kuder-Richardson
Kuder
Richradson 20 (KR-20) adalah metode estimasi reliabilitas yang sama dengan
Alpha, namun hanya digunakan untuk item-item yang dikotomi (skor 1 dan 0).
KR-21 merupakan pengembangan dari KR-20 yang lebih tahan terhadap perbedaan
varians antar item.
Apabila
pembelahan dilakukan menjadi tiga bagian yang tidak sama panjang dapat
diesmitasi dengan metode Krustoff, yakni
rxx' = st2/sx2
Referensi
Azwar, S. (2015). Dasar-dasar
Psikometri. Yogyakarta: Pustaka Pelajar
Anastasi,
A. & Urbina, S. (1997). Psychological
Testing. 7th edition. New Jersey: Prentice-Hall.
Crocker,
L. & Algina, J. (1986). Introduction
to classical and modern test theory. Fort Worth : Harcourt Brace Jovanovich
College Publishers.
Validitas dalam Penyusunan Alat Ukur
Metodologi Penelitian Penyusunan Alat Ukur Psikometrika Statistika Teori Skor Klasik Validitas
Hanif Akhtar
Validitas menyangkut apa yang diukur tes dan seberapa baik tes tersebut bisa mengukur (Anastasi & Urbina, 1997). Suatu tes yang dinyatakan reliabel, namun belum tentu tes tersebut valid. Sedangkan jika tes tersebut dinyatakan valid, maka tes tersebut akan reliabel. Pengujian reliabilitas tidak memberikan kesimpulan tentang apa yang diukur tes, melainkan hanya memberi informasi bahwa hasil pengukuran tes tersebut konsisten (Crocker & Algina, 1986). Sebuah tes tidak akan dinyatakan valid, jika tes tersebut tidak reliabel. Cohen dan Swerdlik (2005) bahkan juga berpendapat serupa bahwa reliablitas itu memang penting, namun reliabilitas tidaklah cukup untuk suatu tes yang baik, karena tes haruslah valid. Lebih lanjut kemudian, validitas dipahami sebagai bagian dari karakteristik skor tes, bukan karakteristik tes.
Menurut
pandangan teori klasik, validitas mengunjukkan seberapa dekat besaran skor
tampak dengan skor murni. Semakin dekat skor tampak dengan skor murni, berarti
eror pengukurannya semakin kecil, yang itu artinya semakin valid pengukuran
tersebut. Secara umum, ada tiga prosedur validasi dalam sudut pandang teori
klasik yaitu prosedur validitas isi (content
validity), validitas kriteria (criterion-related
validity) dan validitas konstruk (construct
validity).
Validitas isi
Validitas isi terkait dengan kelayakan item-item
dalam tes guna mewakili komponen dari kawasan isi materi yang diukur atau
sejauh mana item tersebut sesuai dengan
indikator keperilakuan dari atribut yang diukur. Validitas isi harus dilakukan
sejak awal pengembangan tes. Prosedur ini terkait dengan domain perilaku yang
hendak diukur, di mana analisis terhadap domain perilaku ini dilakukan sejak
awal atau sejak dimulainya prosedur pengembangan tes dan bukan setelah tes
dipersiapkan. Layak tidaknya suatu item disipulkan dari hasil penilaian
(judgement) yang dilakukan oleh ahli berdasarkan logic. Judgement ini dapat
ditingkatkan objektivitasnya jika dilakukan oleh banyak orang. Hasil penilaian
ini dapat dinyatakan dalam bentuk indeks validitas isi seperti yang dinyatakan
oleh Lawshe dengan CVR dan Aiken dengan indeks Aiken’s V.
Koefisien
validitas Aiken’s V didasarkan pada hasil penilaian panel ahli sebanyak n orang
terhadap suatu item mengenai sejauh mana item tersebut mewakili konstrak.
Formula untuk menghitung koefisien validitas Aiken’s V adalah (Aiken, 1985)
lo
= angka penilaian validitas terendah
c
= angka penilaian validitas tertinggi
r
= angka yang diberikan penilai
s
= r – lo
Validitas konstrak
Validitas konstrak mengungkap kesesuaian antara
stuktur konstrak yang diteorikan dengan data hasil tes. Validitas kontstrak
merupakan proses yang berlanjut terus seiring dengan perkembangan konsep/teori
mengenai trait yang diukur (Azwar, 2015). Dalam Anastasi dan Urbina (1997) juga
dilanjutkan dengan pemaparan teknik atau cara untuk mengidentifikasi konstruk
yang digunakan dalam prosedur validasi ini, di antaranya: faktor perubahan
perkembangan, korelasi dengan tes lain, analisis faktor, konsistensi internal,
validasi konvergen dan diskriminan, intervensi eksperimental, Structural Equation Modelling, dan
kontribusi psikologi kognitif.
Salah
satu studi yang dilakukan untuk mengidentifikasi validitas konstrak adalah
dengan pendekatan multitrait-multimethod. Metode
yang dilakukan dengan pendekatan multitrait-multimethod
adalah dengan mengadmistrasikan alat tes yang mengukur trait yang sama
namun dengan metode yang berbeda serta mengadmistrasikan trait yang berbeda
dengan metode yang sama maupun yang berbeda. Dengan metode ini dapat
disimpulkan adanya validitas konvergen,
yakni tingginya koefisien korelasi pada tes yang mengukur trait yang sama
meskipun dengan metode yang berbeda, dan validitas
diskriminan yaitu rendahnya koefisien korelasi ada tes yangmengukur trait
yang berbeda meskipun dengan metode yang sama.
Validitas
konstrak juga dapat dilakukan melalui prosedur analisis faktor konfirmatori (Confirmatory Factor Analysis). Analisis
faktor merupakan sekumpulan prosedur matematika yang komplek guna menganalisis
saling hubungan di antara variabel serta menjelaskan saling hubungan tersebut
dalam bentuk kelompok variabel yang terbatas yang disebut faktor (Azwar, 2015).
Prosedur analisis faktor dapat dilakukan dengan menambahkan tes yang bukan
mengukur trait apa yang ingin kita validasi, yang kemudian disebut marker test. Adanya validitas kontrak
ditunjukkan dengan rendahnya loading
factor pada tes pada faktor yang tidak diungkap. Pengertian ini hampir
mirip dengan validitas konvergen dan
diskriminan.
Validitas kriteria
Anastasi
dan Urbina (1997) menjelaskan bahwa prosedur validitas kriteria (criterion validity) menunjukkan efektifitas tes
yang digunakan untuk memprediksi performa seseorang. Kriteria yang dijadikan
tolak ukur validasi skor tes bisa diperoleh pada saat yang hampir bersamaan
atau setelah dalam rentang waktu tertentu. Terdapat dua jenis validitas
kriteria yang keduanya dibedakan berdasarkan waktu antara tes dengan kriteria,
yaitu concurrent validity (validitas
konkuren) dan predictive validity
(validitas prediktif).
Validitas prediktif misalnya digunakan untuk seleksi, baik itu seleksi masuk perguruan tinggi atau seleksi kerja. Dalam validitas ini terdapat rentang waktu yang cukup lama antara hasil tes dengan membandingkannya pada kriteria. Tes dikatakan valid apabila orang-orang yang memperoleh skor tinggi pada saat seleksi menunjukkan performa yang memuaskan saat kuliah atau saat kerja.
Validitas konkuren tidak memerlukan rentang
waktu lama untuk membandingkan hasil tes dengan kriterianya, misal bisa dibandingkan dengan Indeks Prestasi
Kumulatif (IPK) pada saat pengetesan terjadi, atau skor performa karyawan
dengan skor kesuksesan bekerja saat itu (Anastasi & Urbina, 1997). Pada
dasarnya penentuan validitas apa yang dipakai ditentukan dari tujuannya. Jika
tujuan dari tes adalah untuk melakukan diagnosis maka digunakanlah pengujian
validitas konkuren. Sedangkan jika tes digunakan untuk memprediksi hasil-hasil
di masa depan maka digunakan pengujian validitas prediktif.
Referensi
Anastasi,
A. & Urbina, S. (1997). Psychological
Testing. 7th edition. New Jersey: Prentice-Hall.
Aiken, L. R.
(1985). Three Coefficients for Analyzing the Reliability and Validity of
Ratings.
Azwar, S. (2015). Dasar-dasar
Psikometri. Yogyakarta: Pustaka Pelajar
Cohen,
R,J. & Swerdlik, M.E. (2005). Psychological
Testing and Assessment. 6th edition. New York: McGraw-Hill Companies, Inc.
Crocker,
L. & Algina, J. (1986). Introduction
to classical and modern test theory. Fort Worth : Harcourt Brace Jovanovich
College Publishers.
Subscribe to:
Posts (Atom)
Showing posts with label Teori Skor Klasik. Show all posts
Showing posts with label Teori Skor Klasik. Show all posts
Dalam proses penyusunan alat tes, proses seleksi item menjadi bagian yang sangat krusial. Proses ini bertujuan untuk memilih item mana saja yang layak kita masukkan dalam alat tes kita. Dalam analisis dengan teori tes klasik, daya diskriminasi item menjadi salah satu paramater yang paling utama dalam seleksi item. Daya diskriminasi item menunjukkan seberapa baik item dalam membedakan individu mana yang memiliki kemampuan dan mana yang tidak. Dalam konteks tes kognitif, dimana jawaban soal hanya diskor benar dan salah (1/0), ada tiga jenis parameter diskriminasi item yang biasa digunakan, yakni indeks diskriminasi item, korelasi point-biserial, dan korelasi biserial. Diantara ketiganya, terkadang kita bingung mau menggunakan yang mana karena tidak terlalu memahami perbedaannya. Tulisan ini akan menjelaskan perbedaan ketiganya dan bagaimana penggunaannya.

Ketika kita menggunakan pendekatan kuantitatif dalam melakukan
sebuah penelitian, tentunya kita akan menggunakan alat ukur untuk mendapatkan
data yang dibutuhkan. Alat ukur berguna untuk menguantifikasikan variabel yang
ingin diukur. Seperti halnya jika kita ingin mengetahui tekanan darah, kita
bisa menggunakan tensimeter. Tentunya, tensimeter yang sudah dikalibrasi
sehingga menghasilkan nilai tekanan darah yang valid dan reliabel. Pengukuran
tekanan darah merupakan contoh pengukuran atribut fisik. Bagaimana jika kita
ingin mengukur atribut psikologis?
Pada artikel sebelumnya telah dibahas parameter yang perlu diperhatikan
dalam prosedur analisis item dengan menggunakan Pendekatan Tes Klasik, yakni (1)
tingkat kesulitan item, (2) daya diskriminasi item, dan (3) efektivitas
distraktor. Secara konseptual ketiga parameter tersebut telah dibahas. Tulisan ini
akan menjelaskan prosedur analisis item berdasarkan tiga parameter menggunakan
Software Iteman. Iteman merupakan salah satu software analisis butir soal
berbasiskan pendekatan teori tes klasik. Program ini termasuk satu paket program dalam
MicroCAT°n yang dikembangkan oleh Assessment Systems Corporation mulai tahun
1982 dan mengalami revisi hingga saat ini. Versi yang paling umum dipakai guru-guru atau dosen kita adalah versi yang masing menggunakan DOS, namun karena versi tersebut sudah tidak kompatibel lagi dengan laptop saya, maka dalam contoh ini versi yang akan digunakan dalam
analisis ini adalah Iteman 3.6. Namun pada prinsipnya, file yang digunakan dan script membuat data filenya sama saja.
Menyiapkan data untuk analisis
Program iteman dapat menganalisis file dalam format .txt atau .dat. Untuk
menyiapkan data, kita perlu menginput terlebih dahulu jawaban dari subjek kita.
Untuk lebih mudah kita bisa menginput di Microsoft Ecxel baru kemudian kita
copy ke notepad. Berikut ini contoh
data yang akan digunakan dalam analisis kita. Tes yang disajikan adalah tes TPA
dengan jumlah soal 45 item.
Gambar di atas adalah file yang akan kita gunakan untuk input ke dalam program iteman untuk dianalisis. Keterangan dari script file input adalah sebagai berikut.
Baris pertama
Kolom 1-3 : jumlah butir soal, maksimal 250 butir
(dalam contoh 045)
Kolom 4 : kosong/spasi
Kolom 5 : kode untuk jawaban kosong (dalam
contoh “O”)
Kolom 6 : kosong/spasi
Kolom 7 : kode untuk butir yang belum dijawab (dalam contoh “N”)
Kolom 7 : kode untuk butir yang belum dijawab (dalam contoh “N”)
Kolom 8 : kosong/spasi
Kolom 9-10 : jumlah karakter identitas data siswa (dalam
contoh 05)
Baris kedua : kunci jawaban
Baris ketiga : jumlah pilihan jawaban (dalam contoh ada soal yang
memiliki 4 opsi, ada yang 5 opsi)
Baris keempat : kode Y jika soal ikut dianalisis, kode N jika
soal tidak diikutkan dianalisis
Baris kelima dan seterusnya
merupakan identitas dan jawaban subjek.
Jika file sudah siap, silakan disimpan dalam format .txt atau .dat. Misalkan dalam analisis ini file disimpan dengan nama TES-TPA.txt. Lokasi penyimpanan file harus satu folder dengan program iteman berada.
Menjalankan Iteman
Untuk mulai menjalankan iteman silakan buka program iteman. Untuk memasukan
file script kita, tekan configure, kemudian
pada input data file name masukan
file TES-TPA.txt kita tadi. Kemudian pada analysis
output file nama, silakan buat nama file output kita nanti, bebas, misalkan
dalam hal ini nama filenya OUTPUT-TPA.OUT .
Pada tab options, ada beberapa pilihan analisis yang akan dilakukan. Type of corelation merupakan pilihan apakah kita mau mengeluarkan output berupa korelasi point-biserial atau biserial. Pada ability grouping, jika kita menghendaki dikeluarkan output indeks diskriminasi dari kelompok tinggi dan kelompok rendah centang “yes”. Correct for spuriousness merupakan koreksi terhadap efek spurious seperti yang sudah dijelaskan di artikel sebelumnya. Express endorsement merupakan tingkat kesulitan item yang bisa dipilih apakan disajikan dalam bentuk proporsi atau persentase. Jika sudah kita pilih sesuai kebutuhan, lalu tekan ok dan kemudia tekan run analysis atau icon gambar komputer.
Untuk melihat output analisis kita, silakan tekan view output. File
output juga bisa kita lihat di
folder yang sudah kita tentukan tadi dengan nama file OUTPUT-TPA.OUT.
Membaca Output Iteman
Rambu-rambu untuk menilai hasil analisis telah dijelaskan di tulisan sebelumnya. Item nomer 1 mempunyai tingkat kesulitan (prop.correct) 0,13, artinya item ini termasuk item yang sulit
karena hanya 13% dari seluruh subjek yang mampu menjawab dengan benar. Item
nomor 1 juga memiliki korelasi
point-biserial (rpbis) sebesar 0,09 dan indeks diskriminasi sebesar -0,15. Item
ini termasuk item yang kurang baik karena tidak mampu membedakan subjek dengan
kemampuan tinggi dan rendah. Iteman juga
memberikan rekomendasi seperti yang tertulis di output “CHCEK THE KEY, C was
specified, A works better”. Artinya ada kemungkinan kita salah kunci karena
ternyata dengan kunci A, korelasi point-biserialnya lebih baik. Pada item nomer
1 semua distraktor berfungsi dengan
baik karena semuanya dipilih oleh subjek.
Item nomer 2 mempunyai
tingkat kesulitan (prop.correct) 0,74, artinya item ini
termasuk item yang mudah karena ada 74% dari seluruh subjek yang mampu menjawab
dengan benar. Item nomor 1 juga memiliki korelasi
point-biserial (rpbis) sebesar 0,22. Butir yang memiliki daya beda di atas
0,2 menurut Fernandes (1984) sudah dianggap baik, sehingga item tersebut dapat
diterima, sedangkan jika menurut Ebel (dalam Azwar, 2015), dengan nilai rpbis=0,22
item ini belum memuaskan dan masih perlu perbaikan. Pada item nomer 2, distraktor C tidak bekerja dengan
efektif karena tidak ada subjek yang memilihnya, sehingga pilihan ini perlu
direvisi.
Selain memberikan
informasi masing-masing item, iteman juga mengeluarkan output berupa rangkuman
statistik alat tes kita. Dari output tersebut dapat kita ketahui reliabilitas alpha tes ini 0,778 dengan
Standard Error Measurement (SEM)
sebesar 2,625. Instrumen yang memiliki reliabilitas Alpha di atas 0,7 menurut
Feldt dan Brennan (1989) sudah dianggap reliabel. Sehingga tes ini sudah
memenuhi kriteria tersebut. Keterangan statistik lainnya dapat dilihat dari
hasil output di atas.
Untuk mempelajari iteman secara lebih detil, buku user manual iteman versi 3.6 dapat didownload di sini
File input TES-TPA.txt dalam tulisan ini dapat digunakan untuk latihan teman-teman, silakan download di sini
Untuk mempelajari iteman secara lebih detil, buku user manual iteman versi 3.6 dapat didownload di sini
File input TES-TPA.txt dalam tulisan ini dapat digunakan untuk latihan teman-teman, silakan download di sini
Referensi
Fernandes, H.J.X. (1984). Testing and Measurement. Jakarta: Nasional
Education Planing Evaluation and Curriculum Development.
Feldt, L. S. & Brennan, R. L. (1989). “Reliability” dalam Linn R. L.
(Eds.), Educational Measurement Third Edition. (pp. 105-146). New York:
McMillan.
Dalam proses penyusunan tes, item-item yang telah direview secara
kualitatif oleh ahli di bidangnya dapat dinyatakan valid secara isi. Meskipun demikian,
dalam tes prestasi perlu dilakukan analisis tambahan yang bertujuan untuk
memperoleh item-item yang memiliki daya ukur dan daya beda yang tinggi sehingga
tujuan pengkuran yakni untuk membedakan kemampuan satu individu dengan individu
lain dapat tercapai. Prosedur ini sering disebut sebagai analisis dan seleksi
item karena tujuan dari prosedur ini tidak lain adalah mengetahui item-item
mana saja yang layak untuk dipertahankan atau direvisi bahkan dibuang.
Prosedur analisis
dan seleksi item soal berdasarkan teori tes klasik memperhatikan tiga
parameter, yaitu (1)
tingkat kesulitan item, (2) daya diskriminasi item, dan (3) efektivitas
distraktor (Azwar, 2015).
Analisis tersebut dilakukan beradsarkan jawaban subjek terhadap item-item
dalam tes. Meskipun tingkat
kesulitan item dan daya diskriminasi item dihitung secara terpisah, namun dalam evaluasi terhadap item soal
keduanya dilihat sebagai kesatuan komponen yang akan menentukan apakah suatu item
dianggap baik atau tidak (Azwar, 2013). Parameter ketiga yakni efektivitas
distraktor hanya berlaku pada soal berbentuk pilihan ganda.
Tingkat Kesulitan Item
Tingkat kesulitan item merupakan perbandingan antara jumlah penjawab item benar dengan banyaknya penjawab item.
Tingkat kesulitan biasa ditentukan oleh indeks kesukaran dan dilambangkan
dengan p. Indeks
kesukaran item dapat dihitung melalui persamaan berikut.
P = ni / N
N merupakan total subjek yang menjawab item tersebut, sementara ni
merupakan jumlah subjek yang menjawab dengan benar. Indeks kesukaran item berkisar
antara 0 sampai 1, dimana indeks yang mendekati angka 1 berarti item tersebut
semakin mudah. Begitu pula sebaliknya, semakin mendekati angka 0 berarti item
tersebut semakin sulit. Item
soal yang ideal adalah item yang memiliki tingkat kesukaran berada di sekitar
p=0,5, hal ini dikarenakan nilai p=0,5 memungkinkan untuk mendapat varians
terbesar. Rumus varians pada item dikotomi adalah s2=p(1-p), hal ini
berarti varians akan maksimal pada p=0,5. Secara teoritis varians yang maksimal
akan menghasilkan daya diskriminasi yang tinggi pula (Azwar, 2013). Meskipun demikian,
tidak ada acuan pokok dalam menentukan berapa nilai tingkat kesulitan yang
baik. Hal ini dikarenakan tingkat kesulitan sangat bergantung pada tujuan tes
tersebut. Jika tes dilakukan untuk suatu penempatan (placement test), maka tingkat kesulitan disesuaikan secara beragam
mulai dari yang paling mudah sampai yang paling sulit. Namun jika tes dilakukan
untuk suatu seleksi, maka dapat dipilih item-item yang sulit karena yang
dipilih adalah sebagian kecil pelamar saja yang memiliki kemampuan tinggi.
Seperti yang sudah dijelaskan dalam artikel mengenai teori tes klasik,
salah satu keterbatasan dari teori tes klasik adalah adanya sample dependent,
artinya indeks kesukaran yang diperoleh juga bergantung dari dimana tes itu
diujikan. Misalkan soal matematika yang sama, bisa jadi terasa sulit jika
diujikan di sekolah yang berada di pelosok, namun bisa jadi terasa mudah jika
diujikan di sekolah favorit. Tingkat kesulitan item merupakan ukuran bagi
seluruh kelompok subjek, bukan bagi masing-masing individu. Tingkat kesukaran item bagi masing-masing
individu adalah berbeda dan kita tidak dapat mengetahuinya.
Daya Dikskriminasi Item
Daya diskriminasi item
adalah kemampuan item dalam membedakan antara satu subjek dengan subjek
yang lain. Dalam
hal tes kognitif, daya diskriminasi item berarti bertujuan untuk membedakan
individu yang memiliki kemampuan tinggi (pintar) dan kemampuan rendah (bodoh). Suatu item soal dapat dikatakan
memiliki daya diskriminasi yang baik apabila item tersebut dapat dijawab dengan
benar oleh seluruh atau sebagian besar subjek dari kelompok kemampuan tinggi dan
tidak dapat dijawab dengan benar oleh sebagian atau seluruh subjek dari
kelompok kemampuan rendah. Jika proporsi penjawab benar soal dari
kelompok tinggi lebih besar daripada proporsi penjawab benar pada kelompok
rendah, maka daya dikriminasinya tinggi. Namun sebaliknya, jika proporsi penjawab benar soal dari
kelompok rendah lebih besar daripada proporsi penjawab benar pada kelompok tinggi,
maka daya dikriminasinya rendah. Item yang demikian bisa jadi menyesatkan, bisa
jadi soal
tersebut salah kunci atau
sulit dipahami kalimatnya (Azwar,
2013).
Secara sederhana,
daya diskriminasi merupakan perbedaan proporsi penjawab benar kelompok kemampuan
tinggi (PT) dan penjawab benar kelompok kemampuan rendah (PR).
Rumus untuk menghitung daya diskriminasi
butir dapat dituliskan sebagai berikut (Azwar, 2013).
d = PT - PR
Seperti rumus dalam indeks kesukaran, PT merupakan rasio antara banyaknya
butir yang dijawab benar di kelompok tinggi (niT) dengan banyaknya penjawab
dari kelompok tinggi (NT). Begitu pula proporsi (PR) adalah rasio
antara banyaknya butir yang dijawab benar di kelompok rendah (niR) dengan
banyaknya penjawab dari kelompok rendah (NR). Sehingga rumus
di atas dapat dijabarkan sebagai berikut.
Bila sampel yang digunakan sedikit, kelompok tinggi dapat dijelaskan
sebagai 50% subjek yang memiliki skor tertinggi sedangkan kelompok rendah
merupakan 50% subjek yang memiliki skor terendah. Namun jika subjek yang
digunakan cukup banyak, maka dapat ditentukan kelompok tinggi sebagai 27% dari
seluruh subjek dengan skor tertinggi dan kelompok rendah adalah 27% dari
seluruh subjek dengan skor terendah. Sedangkan sisanya 46% subjek termasuk
dalam kelompok sedang dan tidak disertakan dalam analisis.
Selain diestimasi melalui indeks daya diskriminasi item, daya beda juga
bisa diestimasi melalui korelasi item-total. Dasar yang digunakan dalam
analisis item ini adalah memilih item-item yang fungsi ukurnya sesuai dengan fungsi
ukur tes secara keseluruhan. Koefisien korelasi item-total dapat dihitung
dengan korelasi product moment Pearson yang
berkisar antara -1 sampai dengan 1. Item
yang memiliki koefisien korelasi item-total mendekati 1 berarti baik dalam
membedakan individu, sedangkan item yang memiliki koefisien korelasi item-total
mendekati -1 berarti menyesatkan. Azwar (2015) menjelaskan bahwa dalam kaitannya
dengan hasil komputasi koefisien korelasi antara korelasi item dengan skor
test, item yang ada dalam tes dikhawatirkan dapat mengakibatkan over estimate dikarenakan besarnya
kontribusi item dalam menentukan skor test. Keadaan inilah yang disebut spurious overlap. Untuk menghilangkan
efek spurious overlap tersebut maka
koefisien korelasi item total yang dihitung dengan korelasi product moment Pearson dikoreksi dengan
nilai Deviasi Standar. Formula ini kemudian menghasilkan koefisien yang dikenal
dengan corrected item-total correlation
coefficient. Namun jika jumlah item cukup banyak (di atas 30), efek
tersebut bisa diabaikan.
Pada tes yang dikotomi (skor item terdiri dari 1 dan 0), koefisien korelasi
item-total dapat dihitung dengan formula korelasi point-biserial (rpbis).
Rumus untuk menghitung korelasi point-biserial (rpbis) adalah
sebagai berikut
Indeks daya diskriminasi berkisar antara -1 sampai dengan 1. Dalam seleksi
item, ada beberapa ahli yang mengungkapkan nilai minimal daya diskriminasi item
yang diperlukan. Meskipun tidak ada pendapat yang mutlak yang mengatakan berapa
nilai indeks diskriminasi minimal yang ditetapkan dalam seleksi item, namun
prinsip umum yang digunakan adalah memilih item dengan indeks daya diskriminasi
item yang tinggi. Sebagai gambaran Ebel (dalam Azwar, 2015) menyarankan
penggunaan kriteria evaluasi terhadap indeks diskriminasi item ebagai berikut.
Indeks
Diskriminasi
|
Evaluasi
|
>0,40
|
Bagus sekali
|
0,30 – 0,39
|
Lumayan bagus, tapi masih perlu
peningkatan
|
0,20 – 0,29
|
Belum memuaskan, perlu perbaikan
|
<0,20
|
Jelek dan item harus dibuang
|
Efektivitas Disktraktor
Efektivitas distraktor hanya digunakan dalam soal yang berbentuk pilihan
ganda. Efektivitas distraktor digunakan untuk melihat apakah pilihan jawaban
distraktor (yang bukan kunci jawaban) berfungsi sebagaimana mestinya, yaitu
dipilih oleh sebagian besar subjek dari kelompok rendah dan hanya sedikit
dipilih oleh kelompok dengan abilitas tinggi. Distraktor dapat dikatakan
efektif apabila (a) dipilih oleh mayoritas atau seluruh subjek dari kelompok
abilitas rendah, dan (b) jawaban yang dipilih oleh kelompok tersebut menyebar
secara merata pada masing-masing distraktor (Azwar, 2013).
Referensi
Azwar, S. (2013). Penyusunan Skala Psikologi Edisi 2. Yogyakarta: Pustaka Pelajar.
Azwar, S. (2015). Konstruksi Tes Kemampuan Kognitif. Yogyakarta: Pustaka Pelajar
Mengapa judulnya dalam kurung konsep teori tes klasik? Karena tulisan ini akan mengulas jenis-jenis reliabilitas berdasarkan pendekatan teori tes klasik. Tentu saja ada pendekatan lain seperti konsep reliabilitas dalam Rasch model yang sedikit berbeda dengan pendekatan ini. Berikut ini adalah formula reliabilitas yang diturunkan dari konsep reliabilitas dari teori tes klasik.
Reliabilitas mengacu pada konsistensi skor yang diperoleh dari orang yang sama ketika ia dites kembali dengan tes yang sama pada situasi yang berbeda atau dites dengan tes yang berbeda namun item-item tes tersebut bersifat ekuivalen atau setara (Anastasi & Urbina, 1997). Berkaitan dengan asumsi di atas, dirumuskan pula mengenai konsep tes paralel. Menurut teori ini, dua bentuk tes diseut paralel apabila skor murni dari setiap subjek adalah sama pada kedua tes (T1=T2), dan bagi setiap populasi yang dikenai tes tersebut varians erornya adalah sama besar σe2 = σe2. Batasan tersebut mengandung arti bahwa mean dan varians skor tampak yang setara serta keduanya memiliki korelasi skor tampak dengan yang setara pula. Batasan lain yang dirumuskan adalah mengenai konsep essentially tau-equivalent. Kedua tes memiliki sifat tau-equivalent apabila besarnya perbedaan skor murni setiap individu pada kedua tes selalu sama. Itu artinya T1 = T2 + C, dimana C suatu bilangan konstan. Tes yang paralel sudah pasti tau-equivalent.
Reliabilitas mengacu pada konsistensi skor yang diperoleh dari orang yang sama ketika ia dites kembali dengan tes yang sama pada situasi yang berbeda atau dites dengan tes yang berbeda namun item-item tes tersebut bersifat ekuivalen atau setara (Anastasi & Urbina, 1997). Berkaitan dengan asumsi di atas, dirumuskan pula mengenai konsep tes paralel. Menurut teori ini, dua bentuk tes diseut paralel apabila skor murni dari setiap subjek adalah sama pada kedua tes (T1=T2), dan bagi setiap populasi yang dikenai tes tersebut varians erornya adalah sama besar σe2 = σe2. Batasan tersebut mengandung arti bahwa mean dan varians skor tampak yang setara serta keduanya memiliki korelasi skor tampak dengan yang setara pula. Batasan lain yang dirumuskan adalah mengenai konsep essentially tau-equivalent. Kedua tes memiliki sifat tau-equivalent apabila besarnya perbedaan skor murni setiap individu pada kedua tes selalu sama. Itu artinya T1 = T2 + C, dimana C suatu bilangan konstan. Tes yang paralel sudah pasti tau-equivalent.
Koefisien
Reliabilitas
Interpretasi 1: ρxx'
Korelasi skor tampak antara
dua tes yang paralel
Koefisien reliablitas adalah
sejauhmana distribusi skor tampak pada dua tes yang paralel berkorelasi
Interpretasi 2: ρxx'2
Besarnya proporsi varians X
yang dijelaskan oleh hubungan liniernya dengan X'
Kuadrat koefisien
reliabilitas adalah sama dengan besarnya proporsi varians X yag dijelaskan oleh
hubungan liniernya dengan X’
Interpretasi 3: ρxx'
= σt2/σx2
Koefisien reliabilitas
adalah perbandingan varians skor murni dan varian skor tampak pada hasil ukur
suatu tes
Interpretasi 4: ρxx' = ρ2xt
Koefisien reliabilitas
adalah kuadrat koefisien korelasi antara skor tampak dan skor murni.
Interpretasi 5: ρxx'
= 1 - ρ2xe
Koefisien reliabilitas
adalah sama dengan satu dikurangi oleh kuadrat koefisien korelasi skor tampat
dan eror pengukuran
Interpretasi 6: ρxx'
= 1 – σe2/σx2
Koefisien reliabilitas
adalah satu dikurangi besarnya proporsi varians eror yang terkandung dalam
varians skor tampak.
Interval Kepercaaan
Sekalipun skor murni
individu dalam tes tidak dapat diketahui secara pasti, namun masih dapat
dilakukan semacam estimasi untuk menentukan taraf estimasi dari skor murni.
Ƭ = X + SE(Zα/2)
Estimasi skor murni juga
dapat dilakukan dengan melihat koefisien reliabilitas dan mean nya.
Ƭ = ρxx' (x - μx)
+ μx
Pendekatan Reliabilitas
Secara
umum, perhitungan terhadap reliabilitas dapat dilakukan dengan tiga pendekatan,
yakni tes-ulang (test-retest),
pendekatan estimasi reliabiltas bentuk paralel (parallel-form), dan pendekatan penyajian tunggai (single trial administration), atau yang
lebih dikenal dengan istilah konsistensi internal. Berikut penjelasan ketiga
pendekatan tersebut.
Test-retest
Metode
pengujian reliabilitas test-retest
digunakan pada saat ingin diketahui
seberapa konsisten respon dari seorang peserta tes di waktu yang berbeda. Koefisien
reliabilitas yang diperoleh dengan metode pengujian test-retest ini disebut
sebagai koefisien stabilitas (Crocker & Algina, 1986). Metode pengujian ini
dilakukan dengan menggunakan satu form tes dengan 2 kali sesi pengujian. Hasil
pengujian dari kedua tes tersebut nantinya akan menghasilkan 2 distribusi skor
tes yaitu skor tes dari sesi pengujian yang pertama dan skor tes dari tes yang
sama namun dari sesi pengujian yang kedua. Koefisien reliabilitas diperoleh
dengan cara melakukan perhitungan korelasi antar kedua distribusi skor
tersebut, sehingga nantinya akan diperoleh suatu nilai korelasi yang dalam
metode pengujian test-retest ini disebut sebagai koefisien stabilitas. Penyebutan
koefisien stabilitas sebagai koefisien reliabilitas pada metode ini dimaksudkan
pada kestabilan hasil pengukuran tes pada peserta tes yang sama antara hasil
pengukuran tes yang pertama dengan tes yang kedua (Stability over time).
Parallel-form
Dalam
metode test-retest, efek pengetahuan sebelumnya terhadap tes yang sama terutama
ketika peserta tes masih dapat mengingat item-item tes yang dikerjakannya atau
masih mengingat bagaimana cara mengerjakannya, menjadi permasalahan yang
mungkin terjadi. Untuk mengatasi hal tersebut, digunakanlah metode pengujian
reliabilitas lain yang serupa dengan metode test-retest,
di mana peserta tes diuji dengan dua kali sesi pengerjaan tes namun dengan dua
form test yang itemnya berbeda tapi memiliki sifat ekuivalen antar keduanya. Metode
pengujian reliabilitas ini juga memiliki koefisien reliabilitas yang merupakan
hasil korelasi antara skor tes pertama dan skor tes kedua. Koefisien reliabilitas
dalam metode parallel-form mengukur
dua hal yaitu kestabilitasan hasil pengukuran antar waktu dan konsistensi
respon peserta tes terhadap item-item tes yang berbeda atau dua form tes yang
berbeda (Anastasi & Urbina, 1997).
Konsistensi internal
Dalam
pelaksanaannya, metode test-retest dan
parallel-form memiliki beberapa
kekurangan. Utuk test-retest kendala yang dihadapi adalah bagaimana menentukan
interval waktu yang pas antara tes pertama dan kedua, sehingga tidak terjadi carry over effect (efek bawaan) yang
mempengaruhi besaran koefisien yang dihasilkan. Sedangkan kendala utama
bentuk parallel-form adalah sulitnya menciptakan dua tes yang benar-benar
paralel. Selain itu kedua metode tersebut juga kurang praktis karena harus
disajikan dua kali. Dengan alasan yan dikemukakan di atas, metode penyajian
tunggal yang menghasilkan koefisien konsistensi internal banyak digunakan
karena memiliki nilai praktis yang lebih tinggi.
Komputasi
koefisien konsistensi internal diawali dengan pembelahan tes menjadi beberapa
bagian. Dalam pembelahan, apabila memungkinkan sebisa mungkin bentuk belahannya
paralel, sehingga estimasi reliabilitas yang dihasilkan lebih akurat. Berikut
adalah beberapa metode dalam pembelahan tes. Secara umum, untuk dilakukan
pembelahan dua bagian ada beberapa asumsi yang harus dipenuhi yaitu mean belah
pertama dan kedua setara, varians belah pertama dan kedua setara, serta
koefiesn korelasi belah pertama dan kedua tinggi. Ada beberapa metode yang
adapat digunakan untuk estimasi reliabilitas belah dua.
Spearman-Brwon
ρxx'
= 2ρyy' / 1+ ρyy'
Dengan
y adalah hasil belahan pertama dan y’ adalah hasil belahan kedua. Syarat untuk
metode spearman-brown adalah kedua belahan harus parlalel. Apabila syarat ini
tidak terpenuhi maka hasil estimasi reliabilitasnya tidak benar.
Rulon
ρxx' = 1 – σd2/σx2
Dengan
d sama dengan eror yaitu nilai belahan pertama dikurangi belahan kedua. Syarat
yang harus dipenuhi oleh metode Rulon ini adalah kedua belahan jumlah itemnya
harus sama.
Alpha-Cronbach
Formula
ini sama dengan formula Gutman,
untuk kasus belah dua. Syarat yang harus dipenuhi oleh metode ini adalah kedua
belahan harus tau ekuivalen dan berarti varians kedua belahan juga setara.
Pelanggaran syarat ini berakibat hasil estimasi yang underestimate. Alpha
cronbach tidak hanya bisa digunakan untuk belah dua saja, tapi juga bisa
digunakan untuk belah berapapun. Berikut adalah formula umum Alpha Cronbach
dengan tes dibelah sejumlah k belahan.
Formula umum alpha cronbach:
Kuder-Richardson
Kuder
Richradson 20 (KR-20) adalah metode estimasi reliabilitas yang sama dengan
Alpha, namun hanya digunakan untuk item-item yang dikotomi (skor 1 dan 0).
KR-21 merupakan pengembangan dari KR-20 yang lebih tahan terhadap perbedaan
varians antar item.
Apabila
pembelahan dilakukan menjadi tiga bagian yang tidak sama panjang dapat
diesmitasi dengan metode Krustoff, yakni
rxx' = st2/sx2
Referensi
Azwar, S. (2015). Dasar-dasar
Psikometri. Yogyakarta: Pustaka Pelajar
Anastasi,
A. & Urbina, S. (1997). Psychological
Testing. 7th edition. New Jersey: Prentice-Hall.
Crocker,
L. & Algina, J. (1986). Introduction
to classical and modern test theory. Fort Worth : Harcourt Brace Jovanovich
College Publishers.
Validitas menyangkut apa yang diukur tes dan seberapa baik tes tersebut bisa mengukur (Anastasi & Urbina, 1997). Suatu tes yang dinyatakan reliabel, namun belum tentu tes tersebut valid. Sedangkan jika tes tersebut dinyatakan valid, maka tes tersebut akan reliabel. Pengujian reliabilitas tidak memberikan kesimpulan tentang apa yang diukur tes, melainkan hanya memberi informasi bahwa hasil pengukuran tes tersebut konsisten (Crocker & Algina, 1986). Sebuah tes tidak akan dinyatakan valid, jika tes tersebut tidak reliabel. Cohen dan Swerdlik (2005) bahkan juga berpendapat serupa bahwa reliablitas itu memang penting, namun reliabilitas tidaklah cukup untuk suatu tes yang baik, karena tes haruslah valid. Lebih lanjut kemudian, validitas dipahami sebagai bagian dari karakteristik skor tes, bukan karakteristik tes.
Menurut
pandangan teori klasik, validitas mengunjukkan seberapa dekat besaran skor
tampak dengan skor murni. Semakin dekat skor tampak dengan skor murni, berarti
eror pengukurannya semakin kecil, yang itu artinya semakin valid pengukuran
tersebut. Secara umum, ada tiga prosedur validasi dalam sudut pandang teori
klasik yaitu prosedur validitas isi (content
validity), validitas kriteria (criterion-related
validity) dan validitas konstruk (construct
validity).
Validitas isi
Validitas isi terkait dengan kelayakan item-item
dalam tes guna mewakili komponen dari kawasan isi materi yang diukur atau
sejauh mana item tersebut sesuai dengan
indikator keperilakuan dari atribut yang diukur. Validitas isi harus dilakukan
sejak awal pengembangan tes. Prosedur ini terkait dengan domain perilaku yang
hendak diukur, di mana analisis terhadap domain perilaku ini dilakukan sejak
awal atau sejak dimulainya prosedur pengembangan tes dan bukan setelah tes
dipersiapkan. Layak tidaknya suatu item disipulkan dari hasil penilaian
(judgement) yang dilakukan oleh ahli berdasarkan logic. Judgement ini dapat
ditingkatkan objektivitasnya jika dilakukan oleh banyak orang. Hasil penilaian
ini dapat dinyatakan dalam bentuk indeks validitas isi seperti yang dinyatakan
oleh Lawshe dengan CVR dan Aiken dengan indeks Aiken’s V.
Koefisien
validitas Aiken’s V didasarkan pada hasil penilaian panel ahli sebanyak n orang
terhadap suatu item mengenai sejauh mana item tersebut mewakili konstrak.
Formula untuk menghitung koefisien validitas Aiken’s V adalah (Aiken, 1985)
lo
= angka penilaian validitas terendah
c
= angka penilaian validitas tertinggi
r
= angka yang diberikan penilai
s
= r – lo
Validitas konstrak
Validitas konstrak mengungkap kesesuaian antara
stuktur konstrak yang diteorikan dengan data hasil tes. Validitas kontstrak
merupakan proses yang berlanjut terus seiring dengan perkembangan konsep/teori
mengenai trait yang diukur (Azwar, 2015). Dalam Anastasi dan Urbina (1997) juga
dilanjutkan dengan pemaparan teknik atau cara untuk mengidentifikasi konstruk
yang digunakan dalam prosedur validasi ini, di antaranya: faktor perubahan
perkembangan, korelasi dengan tes lain, analisis faktor, konsistensi internal,
validasi konvergen dan diskriminan, intervensi eksperimental, Structural Equation Modelling, dan
kontribusi psikologi kognitif.
Salah
satu studi yang dilakukan untuk mengidentifikasi validitas konstrak adalah
dengan pendekatan multitrait-multimethod. Metode
yang dilakukan dengan pendekatan multitrait-multimethod
adalah dengan mengadmistrasikan alat tes yang mengukur trait yang sama
namun dengan metode yang berbeda serta mengadmistrasikan trait yang berbeda
dengan metode yang sama maupun yang berbeda. Dengan metode ini dapat
disimpulkan adanya validitas konvergen,
yakni tingginya koefisien korelasi pada tes yang mengukur trait yang sama
meskipun dengan metode yang berbeda, dan validitas
diskriminan yaitu rendahnya koefisien korelasi ada tes yangmengukur trait
yang berbeda meskipun dengan metode yang sama.
Validitas
konstrak juga dapat dilakukan melalui prosedur analisis faktor konfirmatori (Confirmatory Factor Analysis). Analisis
faktor merupakan sekumpulan prosedur matematika yang komplek guna menganalisis
saling hubungan di antara variabel serta menjelaskan saling hubungan tersebut
dalam bentuk kelompok variabel yang terbatas yang disebut faktor (Azwar, 2015).
Prosedur analisis faktor dapat dilakukan dengan menambahkan tes yang bukan
mengukur trait apa yang ingin kita validasi, yang kemudian disebut marker test. Adanya validitas kontrak
ditunjukkan dengan rendahnya loading
factor pada tes pada faktor yang tidak diungkap. Pengertian ini hampir
mirip dengan validitas konvergen dan
diskriminan.
Validitas kriteria
Anastasi
dan Urbina (1997) menjelaskan bahwa prosedur validitas kriteria (criterion validity) menunjukkan efektifitas tes
yang digunakan untuk memprediksi performa seseorang. Kriteria yang dijadikan
tolak ukur validasi skor tes bisa diperoleh pada saat yang hampir bersamaan
atau setelah dalam rentang waktu tertentu. Terdapat dua jenis validitas
kriteria yang keduanya dibedakan berdasarkan waktu antara tes dengan kriteria,
yaitu concurrent validity (validitas
konkuren) dan predictive validity
(validitas prediktif).
Validitas prediktif misalnya digunakan untuk seleksi, baik itu seleksi masuk perguruan tinggi atau seleksi kerja. Dalam validitas ini terdapat rentang waktu yang cukup lama antara hasil tes dengan membandingkannya pada kriteria. Tes dikatakan valid apabila orang-orang yang memperoleh skor tinggi pada saat seleksi menunjukkan performa yang memuaskan saat kuliah atau saat kerja.
Validitas konkuren tidak memerlukan rentang
waktu lama untuk membandingkan hasil tes dengan kriterianya, misal bisa dibandingkan dengan Indeks Prestasi
Kumulatif (IPK) pada saat pengetesan terjadi, atau skor performa karyawan
dengan skor kesuksesan bekerja saat itu (Anastasi & Urbina, 1997). Pada
dasarnya penentuan validitas apa yang dipakai ditentukan dari tujuannya. Jika
tujuan dari tes adalah untuk melakukan diagnosis maka digunakanlah pengujian
validitas konkuren. Sedangkan jika tes digunakan untuk memprediksi hasil-hasil
di masa depan maka digunakan pengujian validitas prediktif.
Referensi
Anastasi,
A. & Urbina, S. (1997). Psychological
Testing. 7th edition. New Jersey: Prentice-Hall.
Aiken, L. R.
(1985). Three Coefficients for Analyzing the Reliability and Validity of
Ratings.
Azwar, S. (2015). Dasar-dasar
Psikometri. Yogyakarta: Pustaka Pelajar
Cohen,
R,J. & Swerdlik, M.E. (2005). Psychological
Testing and Assessment. 6th edition. New York: McGraw-Hill Companies, Inc.
Crocker,
L. & Algina, J. (1986). Introduction
to classical and modern test theory. Fort Worth : Harcourt Brace Jovanovich
College Publishers.
Subscribe to:
Posts
(
Atom
)