Showing posts with label Teori Skor Klasik. Show all posts
Showing posts with label Teori Skor Klasik. Show all posts

Perbedaan Indeks Diskriminasi Item, Korelasi Point-biserial, dan Korelasi Biserial

Dalam proses penyusunan alat tes, proses seleksi item menjadi bagian yang sangat krusial. Proses ini bertujuan untuk memilih item mana saja yang layak kita masukkan dalam alat tes kita. Dalam analisis dengan teori tes klasik, daya diskriminasi item menjadi salah satu paramater yang paling utama dalam seleksi item. Daya diskriminasi item menunjukkan seberapa baik item dalam membedakan individu mana yang memiliki kemampuan dan mana yang tidak. Dalam konteks tes kognitif, dimana jawaban soal hanya diskor benar dan salah (1/0), ada tiga jenis parameter diskriminasi item yang biasa digunakan, yakni indeks diskriminasi item, korelasi point-biserial, dan korelasi biserial. Diantara ketiganya, terkadang kita bingung mau menggunakan yang mana karena tidak terlalu memahami perbedaannya. Tulisan ini akan menjelaskan perbedaan ketiganya dan bagaimana penggunaannya.

Memaknai Corrected Item-Total Correlation pada Alat Ukur Penelitian

Ketika kita menggunakan pendekatan kuantitatif dalam melakukan sebuah penelitian, tentunya kita akan menggunakan alat ukur untuk mendapatkan data yang dibutuhkan. Alat ukur berguna untuk menguantifikasikan variabel yang ingin diukur. Seperti halnya jika kita ingin mengetahui tekanan darah, kita bisa menggunakan tensimeter. Tentunya, tensimeter yang sudah dikalibrasi sehingga menghasilkan nilai tekanan darah yang valid dan reliabel. Pengukuran tekanan darah merupakan contoh pengukuran atribut fisik. Bagaimana jika kita ingin mengukur atribut psikologis?

Analisis Item dengan Iteman

Pada artikel sebelumnya telah dibahas parameter yang perlu diperhatikan dalam prosedur analisis item dengan menggunakan Pendekatan Tes Klasik, yakni (1) tingkat kesulitan item, (2) daya diskriminasi item, dan (3) efektivitas distraktor. Secara konseptual ketiga parameter tersebut telah dibahas. Tulisan ini akan menjelaskan prosedur analisis item berdasarkan tiga parameter menggunakan Software Iteman. Iteman merupakan salah satu software analisis butir soal berbasiskan pendekatan teori tes klasik.  Program ini termasuk satu paket program dalam MicroCAT°n yang dikembangkan oleh Assessment Systems Corporation mulai tahun 1982 dan mengalami revisi hingga saat ini. Versi yang paling umum dipakai guru-guru atau dosen kita adalah versi yang masing menggunakan DOS, namun karena versi tersebut sudah tidak kompatibel lagi dengan laptop saya, maka dalam contoh ini versi yang akan digunakan dalam analisis ini adalah Iteman 3.6. Namun pada prinsipnya, file yang digunakan dan script membuat data filenya sama saja.

Menyiapkan data untuk analisis
Program iteman dapat menganalisis file dalam format .txt atau .dat. Untuk menyiapkan data, kita perlu menginput terlebih dahulu jawaban dari subjek kita. Untuk lebih mudah kita bisa menginput di Microsoft Ecxel baru kemudian kita copy ke notepad. Berikut ini contoh data yang akan digunakan dalam analisis kita. Tes yang disajikan adalah tes TPA dengan jumlah soal 45 item.

Gambar di atas adalah file yang akan kita gunakan untuk input ke dalam program iteman untuk dianalisis. Keterangan dari script file input adalah sebagai berikut.
Baris pertama
Kolom 1-3       : jumlah butir soal, maksimal 250 butir (dalam contoh 045)
Kolom 4           : kosong/spasi
Kolom 5           : kode untuk jawaban kosong (dalam contoh “O”)
Kolom 6           : kosong/spasi
Kolom 7       : kode untuk butir yang belum dijawab (dalam contoh “N”)
Kolom 8           : kosong/spasi
Kolom 9-10     : jumlah karakter identitas data siswa (dalam contoh 05)
Baris kedua     : kunci jawaban
Baris ketiga     : jumlah pilihan jawaban (dalam contoh ada soal yang memiliki 4 opsi, ada yang 5 opsi)
Baris keempat : kode Y jika soal ikut dianalisis, kode N jika soal tidak diikutkan dianalisis
Baris kelima dan seterusnya merupakan identitas dan jawaban subjek.

Jika file sudah siap, silakan disimpan dalam format .txt atau .dat. Misalkan dalam analisis ini file disimpan dengan nama TES-TPA.txt. Lokasi penyimpanan file harus satu folder dengan program iteman berada.

Menjalankan Iteman
Untuk mulai menjalankan iteman silakan buka program iteman. Untuk memasukan file script kita, tekan configure, kemudian pada input data file name masukan file TES-TPA.txt kita tadi. Kemudian pada analysis output file nama, silakan buat nama file output kita nanti, bebas, misalkan dalam hal ini nama filenya OUTPUT-TPA.OUT .

Pada tab options, ada beberapa pilihan analisis yang akan dilakukan. Type of corelation merupakan pilihan apakah kita mau mengeluarkan output berupa korelasi point-biserial atau biserial. Pada ability grouping, jika kita menghendaki dikeluarkan output indeks diskriminasi dari kelompok tinggi dan kelompok rendah centang “yes”. Correct for spuriousness merupakan koreksi terhadap efek spurious seperti yang sudah dijelaskan di artikel sebelumnya. Express endorsement merupakan tingkat kesulitan item yang bisa dipilih apakan disajikan dalam bentuk proporsi atau persentase. Jika sudah kita pilih sesuai kebutuhan, lalu tekan ok dan kemudia tekan run analysis atau icon gambar komputer.

Untuk melihat output analisis kita, silakan tekan view output. File output juga bisa kita lihat di folder yang sudah kita tentukan tadi dengan nama file OUTPUT-TPA.OUT.

Membaca Output Iteman
  
Rambu-rambu untuk menilai hasil analisis telah dijelaskan di tulisan sebelumnya. Item nomer 1 mempunyai tingkat kesulitan (prop.correct) 0,13, artinya item ini termasuk item yang sulit karena hanya 13% dari seluruh subjek yang mampu menjawab dengan benar. Item nomor 1 juga memiliki korelasi point-biserial (rpbis) sebesar 0,09 dan indeks diskriminasi sebesar -0,15. Item ini termasuk item yang kurang baik karena tidak mampu membedakan subjek dengan kemampuan tinggi dan rendah.  Iteman juga memberikan rekomendasi seperti yang tertulis di output “CHCEK THE KEY, C was specified, A works better”. Artinya ada kemungkinan kita salah kunci karena ternyata dengan kunci A, korelasi point-biserialnya lebih baik. Pada item nomer 1 semua distraktor berfungsi dengan baik karena semuanya dipilih oleh subjek.

Item nomer 2 mempunyai tingkat kesulitan (prop.correct) 0,74, artinya item ini termasuk item yang mudah karena ada 74% dari seluruh subjek yang mampu menjawab dengan benar. Item nomor 1 juga memiliki korelasi point-biserial (rpbis) sebesar 0,22. Butir yang memiliki daya beda di atas 0,2 menurut Fernandes (1984) sudah dianggap baik, sehingga item tersebut dapat diterima, sedangkan jika menurut Ebel (dalam Azwar, 2015), dengan nilai rpbis=0,22 item ini belum memuaskan dan masih perlu perbaikan. Pada item nomer 2, distraktor C tidak bekerja dengan efektif karena tidak ada subjek yang memilihnya, sehingga pilihan ini perlu direvisi.



Selain memberikan informasi masing-masing item, iteman juga mengeluarkan output berupa rangkuman statistik alat tes kita. Dari output tersebut dapat kita ketahui reliabilitas alpha tes ini 0,778 dengan Standard Error Measurement (SEM) sebesar 2,625. Instrumen yang memiliki reliabilitas Alpha di atas 0,7 menurut Feldt dan Brennan (1989) sudah dianggap reliabel. Sehingga tes ini sudah memenuhi kriteria tersebut. Keterangan statistik lainnya dapat dilihat dari hasil output di atas. 

Untuk mempelajari iteman secara lebih detil, buku user manual iteman versi 3.6 dapat didownload di sini
File input TES-TPA.txt dalam tulisan ini dapat digunakan untuk latihan teman-teman, silakan download di sini



Referensi
Azwar, S. (2015). Konstruksi Tes Kemampuan Kognitif. Yogyakarta: Pustaka Pelajar

Fernandes, H.J.X. (1984). Testing and Measurement. Jakarta: Nasional Education Planing Evaluation and Curriculum Development.
           
Feldt, L. S. & Brennan, R. L. (1989). “Reliability” dalam Linn R. L. (Eds.), Educational Measurement Third Edition. (pp. 105-146). New York: McMillan.
  

Pedoman Analisis Item Menggunakan Pendekatan Teori Tes Klasik

Dalam proses penyusunan tes, item-item yang telah direview secara kualitatif oleh ahli di bidangnya dapat dinyatakan valid secara isi. Meskipun demikian, dalam tes prestasi perlu dilakukan analisis tambahan yang bertujuan untuk memperoleh item-item yang memiliki daya ukur dan daya beda yang tinggi sehingga tujuan pengkuran yakni untuk membedakan kemampuan satu individu dengan individu lain dapat tercapai. Prosedur ini sering disebut sebagai analisis dan seleksi item karena tujuan dari prosedur ini tidak lain adalah mengetahui item-item mana saja yang layak untuk dipertahankan atau direvisi bahkan dibuang.

Prosedur analisis dan seleksi item soal berdasarkan teori tes klasik memperhatikan tiga parameter, yaitu (1) tingkat kesulitan item, (2) daya diskriminasi item, dan (3) efektivitas distraktor (Azwar, 2015). Analisis tersebut dilakukan beradsarkan jawaban subjek terhadap item-item dalam tes. Meskipun tingkat kesulitan item dan daya diskriminasi item dihitung secara terpisah, namun dalam evaluasi terhadap item soal keduanya dilihat sebagai kesatuan komponen yang akan menentukan apakah suatu item dianggap baik atau tidak (Azwar, 2013). Parameter ketiga yakni efektivitas distraktor hanya berlaku pada soal berbentuk pilihan ganda.

Tingkat Kesulitan Item   
Tingkat kesulitan item merupakan perbandingan antara jumlah penjawab item benar dengan banyaknya penjawab item. Tingkat kesulitan biasa ditentukan oleh indeks kesukaran dan dilambangkan dengan p. Indeks kesukaran item dapat dihitung melalui persamaan berikut.

  P = ni / N

N merupakan total subjek yang menjawab item tersebut, sementara ni merupakan jumlah subjek yang menjawab dengan benar. Indeks kesukaran item berkisar antara 0 sampai 1, dimana indeks yang mendekati angka 1 berarti item tersebut semakin mudah. Begitu pula sebaliknya, semakin mendekati angka 0 berarti item tersebut semakin sulit. Item soal yang ideal adalah item yang memiliki tingkat kesukaran berada di sekitar p=0,5, hal ini dikarenakan nilai p=0,5 memungkinkan untuk mendapat varians terbesar. Rumus varians pada item dikotomi adalah s2=p(1-p), hal ini berarti varians akan maksimal pada p=0,5. Secara teoritis varians yang maksimal akan menghasilkan daya diskriminasi yang tinggi pula (Azwar, 2013). Meskipun demikian, tidak ada acuan pokok dalam menentukan berapa nilai tingkat kesulitan yang baik. Hal ini dikarenakan tingkat kesulitan sangat bergantung pada tujuan tes tersebut. Jika tes dilakukan untuk suatu penempatan (placement test), maka tingkat kesulitan disesuaikan secara beragam mulai dari yang paling mudah sampai yang paling sulit. Namun jika tes dilakukan untuk suatu seleksi, maka dapat dipilih item-item yang sulit karena yang dipilih adalah sebagian kecil pelamar saja yang memiliki kemampuan tinggi.    

Seperti yang sudah dijelaskan dalam artikel mengenai teori tes klasik, salah satu keterbatasan dari teori tes klasik adalah adanya sample dependent, artinya indeks kesukaran yang diperoleh juga bergantung dari dimana tes itu diujikan. Misalkan soal matematika yang sama, bisa jadi terasa sulit jika diujikan di sekolah yang berada di pelosok, namun bisa jadi terasa mudah jika diujikan di sekolah favorit. Tingkat kesulitan item merupakan ukuran bagi seluruh kelompok subjek, bukan bagi masing-masing individu. Tingkat kesukaran item bagi masing-masing individu adalah berbeda dan kita tidak dapat mengetahuinya.

Daya Dikskriminasi Item
Daya diskriminasi item adalah kemampuan item dalam membedakan antara satu subjek dengan subjek yang lain. Dalam hal tes kognitif, daya diskriminasi item berarti bertujuan untuk membedakan individu yang memiliki kemampuan tinggi (pintar) dan kemampuan rendah (bodoh). Suatu item soal dapat dikatakan memiliki daya diskriminasi yang baik apabila item tersebut dapat dijawab dengan benar oleh seluruh atau sebagian besar subjek dari kelompok kemampuan tinggi dan tidak dapat dijawab dengan benar oleh sebagian atau seluruh subjek dari kelompok kemampuan rendah. Jika proporsi penjawab benar soal dari kelompok tinggi lebih besar daripada proporsi penjawab benar pada kelompok rendah, maka daya dikriminasinya tinggi. Namun sebaliknya,  jika proporsi penjawab benar soal dari kelompok rendah lebih besar daripada proporsi penjawab benar pada kelompok tinggi, maka daya dikriminasinya rendah. Item yang demikian bisa jadi menyesatkan, bisa jadi soal tersebut salah kunci atau sulit dipahami kalimatnya (Azwar, 2013).

Secara sederhana, daya diskriminasi merupakan perbedaan proporsi penjawab benar kelompok kemampuan tinggi (PT) dan penjawab benar kelompok kemampuan rendah (PR). Rumus untuk menghitung daya diskriminasi butir dapat dituliskan sebagai berikut (Azwar, 2013).

  d = PT - PR

Seperti rumus dalam indeks kesukaran, PT merupakan rasio antara banyaknya butir yang dijawab benar di kelompok tinggi (niT) dengan banyaknya penjawab dari kelompok tinggi (NT). Begitu pula proporsi (PR) adalah rasio antara banyaknya butir yang dijawab benar di kelompok rendah (niR) dengan banyaknya penjawab dari kelompok rendah (NR). Sehingga rumus di atas dapat dijabarkan sebagai berikut.


Bila sampel yang digunakan sedikit, kelompok tinggi dapat dijelaskan sebagai 50% subjek yang memiliki skor tertinggi sedangkan kelompok rendah merupakan 50% subjek yang memiliki skor terendah. Namun jika subjek yang digunakan cukup banyak, maka dapat ditentukan kelompok tinggi sebagai 27% dari seluruh subjek dengan skor tertinggi dan kelompok rendah adalah 27% dari seluruh subjek dengan skor terendah. Sedangkan sisanya 46% subjek termasuk dalam kelompok sedang dan tidak disertakan dalam analisis.

Selain diestimasi melalui indeks daya diskriminasi item, daya beda juga bisa diestimasi melalui korelasi item-total. Dasar yang digunakan dalam analisis item ini adalah memilih item-item yang fungsi ukurnya sesuai dengan fungsi ukur tes secara keseluruhan. Koefisien korelasi item-total dapat dihitung dengan korelasi product moment Pearson yang berkisar antara -1 sampai dengan 1. Item yang memiliki koefisien korelasi item-total mendekati 1 berarti baik dalam membedakan individu, sedangkan item yang memiliki koefisien korelasi item-total mendekati -1 berarti menyesatkan. Azwar (2015) menjelaskan bahwa dalam kaitannya dengan hasil komputasi koefisien korelasi antara korelasi item dengan skor test, item yang ada dalam tes dikhawatirkan dapat mengakibatkan over estimate dikarenakan besarnya kontribusi item dalam menentukan skor test. Keadaan inilah yang disebut spurious overlap. Untuk menghilangkan efek spurious overlap tersebut maka koefisien korelasi item total yang dihitung dengan korelasi product moment Pearson dikoreksi dengan nilai Deviasi Standar. Formula ini kemudian menghasilkan koefisien yang dikenal dengan corrected item-total correlation coefficient. Namun jika jumlah item cukup banyak (di atas 30), efek tersebut bisa diabaikan.

Pada tes yang dikotomi (skor item terdiri dari 1 dan 0), koefisien korelasi item-total dapat dihitung dengan formula korelasi point-biserial (rpbis). Rumus untuk menghitung korelasi point-biserial (rpbis) adalah sebagai berikut

Indeks daya diskriminasi berkisar antara -1 sampai dengan 1. Dalam seleksi item, ada beberapa ahli yang mengungkapkan nilai minimal daya diskriminasi item yang diperlukan. Meskipun tidak ada pendapat yang mutlak yang mengatakan berapa nilai indeks diskriminasi minimal yang ditetapkan dalam seleksi item, namun prinsip umum yang digunakan adalah memilih item dengan indeks daya diskriminasi item yang tinggi. Sebagai gambaran Ebel (dalam Azwar, 2015) menyarankan penggunaan kriteria evaluasi terhadap indeks diskriminasi item ebagai berikut.
Indeks Diskriminasi
Evaluasi
>0,40
Bagus sekali
0,30 – 0,39
Lumayan bagus, tapi masih perlu peningkatan
0,20 – 0,29
Belum memuaskan, perlu perbaikan
<0,20
Jelek dan item harus dibuang

Efektivitas Disktraktor
 
Efektivitas distraktor hanya digunakan dalam soal yang berbentuk pilihan ganda. Efektivitas distraktor digunakan untuk melihat apakah pilihan jawaban distraktor (yang bukan kunci jawaban) berfungsi sebagaimana mestinya, yaitu dipilih oleh sebagian besar subjek dari kelompok rendah dan hanya sedikit dipilih oleh kelompok dengan abilitas tinggi. Distraktor dapat dikatakan efektif apabila (a) dipilih oleh mayoritas atau seluruh subjek dari kelompok abilitas rendah, dan (b) jawaban yang dipilih oleh kelompok tersebut menyebar secara merata pada masing-masing distraktor (Azwar, 2013).

Referensi
Azwar, S. (2013). Penyusunan Skala Psikologi Edisi 2. Yogyakarta: Pustaka Pelajar.

Azwar, S. (2015). Konstruksi Tes Kemampuan Kognitif. Yogyakarta: Pustaka Pelajar

Reliabilitas (Konsep Teori Tes Klasik)

Mengapa judulnya dalam kurung konsep teori tes klasik? Karena tulisan ini akan mengulas jenis-jenis reliabilitas berdasarkan pendekatan teori tes klasik. Tentu saja ada pendekatan lain seperti konsep reliabilitas dalam Rasch model yang sedikit berbeda dengan pendekatan ini. Berikut ini adalah formula reliabilitas yang diturunkan dari konsep reliabilitas dari teori tes klasik.

Reliabilitas mengacu pada konsistensi skor yang diperoleh dari orang yang sama ketika ia dites kembali dengan tes yang sama pada situasi yang berbeda atau dites dengan tes yang berbeda namun item-item tes tersebut bersifat ekuivalen atau setara (Anastasi & Urbina, 1997). Berkaitan dengan asumsi di atas, dirumuskan pula mengenai konsep tes paralel. Menurut teori ini, dua bentuk tes diseut paralel apabila skor murni dari setiap subjek adalah sama pada kedua tes (T1=T2), dan bagi setiap populasi yang dikenai tes tersebut varians erornya adalah sama besar σe2 = σe2. Batasan tersebut mengandung arti bahwa mean dan varians skor tampak yang setara serta keduanya memiliki korelasi skor tampak dengan yang setara pula. Batasan lain yang dirumuskan adalah mengenai konsep essentially tau-equivalent. Kedua tes memiliki sifat tau-equivalent apabila besarnya perbedaan skor murni setiap individu pada kedua tes selalu sama. Itu artinya T1 = T2 + C, dimana C suatu bilangan konstan. Tes yang paralel sudah pasti tau-equivalent.
Koefisien Reliabilitas
Interpretasi 1: ρxx'
Korelasi skor tampak antara dua tes yang paralel
Koefisien reliablitas adalah sejauhmana distribusi skor tampak pada dua tes yang paralel berkorelasi

Interpretasi 2: ρxx'2
Besarnya proporsi varians X yang dijelaskan oleh hubungan liniernya dengan X'
Kuadrat koefisien reliabilitas adalah sama dengan besarnya proporsi varians X yag dijelaskan oleh hubungan liniernya dengan X’

Interpretasi 3: ρxx' = σt2x2
Koefisien reliabilitas adalah perbandingan varians skor murni dan varian skor tampak pada hasil ukur suatu tes

Interpretasi 4:  ρxx' = ρ2xt
Koefisien reliabilitas adalah kuadrat koefisien korelasi antara skor tampak dan skor murni.

Interpretasi 5: ρxx' = 1 - ρ2xe
Koefisien reliabilitas adalah sama dengan satu dikurangi oleh kuadrat koefisien korelasi skor tampat dan eror pengukuran

Interpretasi 6: ρxx' = 1 – σe2x2
Koefisien reliabilitas adalah satu dikurangi besarnya proporsi varians eror yang terkandung dalam varians skor tampak.

Interval Kepercaaan
Sekalipun skor murni individu dalam tes tidak dapat diketahui secara pasti, namun masih dapat dilakukan semacam estimasi untuk menentukan taraf estimasi dari skor murni.
Ƭ = X + SE(Zα/2)
Estimasi skor murni juga dapat dilakukan dengan melihat koefisien reliabilitas dan mean nya.
Ƭ = ρxx' (x - μx) + μx

Pendekatan Reliabilitas
Secara umum, perhitungan terhadap reliabilitas dapat dilakukan dengan tiga pendekatan, yakni tes-ulang (test-retest), pendekatan estimasi reliabiltas bentuk paralel (parallel-form), dan pendekatan penyajian tunggai (single trial administration), atau yang lebih dikenal dengan istilah konsistensi internal. Berikut penjelasan ketiga pendekatan tersebut.

Test-retest
Metode pengujian reliabilitas test-retest digunakan  pada saat ingin diketahui seberapa konsisten respon dari seorang peserta tes di waktu yang berbeda. Koefisien reliabilitas yang diperoleh dengan metode pengujian test-retest ini disebut sebagai koefisien stabilitas (Crocker & Algina, 1986). Metode pengujian ini dilakukan dengan menggunakan satu form tes dengan 2 kali sesi pengujian. Hasil pengujian dari kedua tes tersebut nantinya akan menghasilkan 2 distribusi skor tes yaitu skor tes dari sesi pengujian yang pertama dan skor tes dari tes yang sama namun dari sesi pengujian yang kedua. Koefisien reliabilitas diperoleh dengan cara melakukan perhitungan korelasi antar kedua distribusi skor tersebut, sehingga nantinya akan diperoleh suatu nilai korelasi yang dalam metode pengujian test-retest ini disebut sebagai koefisien stabilitas. Penyebutan koefisien stabilitas sebagai koefisien reliabilitas pada metode ini dimaksudkan pada kestabilan hasil pengukuran tes pada peserta tes yang sama antara hasil pengukuran tes yang pertama dengan tes yang kedua (Stability over time).

Parallel-form
Dalam metode test-retest, efek pengetahuan sebelumnya terhadap tes yang sama terutama ketika peserta tes masih dapat mengingat item-item tes yang dikerjakannya atau masih mengingat bagaimana cara mengerjakannya, menjadi permasalahan yang mungkin terjadi. Untuk mengatasi hal tersebut, digunakanlah metode pengujian reliabilitas lain yang serupa dengan metode test-retest, di mana peserta tes diuji dengan dua kali sesi pengerjaan tes namun dengan dua form test yang itemnya berbeda tapi memiliki sifat ekuivalen antar keduanya. Metode pengujian reliabilitas ini juga memiliki koefisien reliabilitas yang merupakan hasil korelasi antara skor tes pertama dan skor tes kedua. Koefisien reliabilitas dalam metode parallel-form mengukur dua hal yaitu kestabilitasan hasil pengukuran antar waktu dan konsistensi respon peserta tes terhadap item-item tes yang berbeda atau dua form tes yang berbeda (Anastasi & Urbina, 1997).

Konsistensi internal
Dalam pelaksanaannya, metode test-retest dan parallel-form memiliki beberapa kekurangan. Utuk test-retest kendala yang dihadapi adalah bagaimana menentukan interval waktu yang pas antara tes pertama dan kedua, sehingga tidak terjadi carry over effect (efek bawaan) yang mempengaruhi besaran koefisien yang dihasilkan. Sedangkan kendala utama bentuk  parallel-form adalah sulitnya menciptakan dua tes yang benar-benar paralel. Selain itu kedua metode tersebut juga kurang praktis karena harus disajikan dua kali. Dengan alasan yan dikemukakan di atas, metode penyajian tunggal yang menghasilkan koefisien konsistensi internal banyak digunakan karena memiliki nilai praktis yang lebih tinggi.

Komputasi koefisien konsistensi internal diawali dengan pembelahan tes menjadi beberapa bagian. Dalam pembelahan, apabila memungkinkan sebisa mungkin bentuk belahannya paralel, sehingga estimasi reliabilitas yang dihasilkan lebih akurat. Berikut adalah beberapa metode dalam pembelahan tes. Secara umum, untuk dilakukan pembelahan dua bagian ada beberapa asumsi yang harus dipenuhi yaitu mean belah pertama dan kedua setara, varians belah pertama dan kedua setara, serta koefiesn korelasi belah pertama dan kedua tinggi. Ada beberapa metode yang adapat digunakan untuk estimasi reliabilitas belah dua.
Spearman-Brwon
 ρxx' = 2ρyy' / 1+ ρyy'
Dengan y adalah hasil belahan pertama dan y’ adalah hasil belahan kedua. Syarat untuk metode spearman-brown adalah kedua belahan harus parlalel. Apabila syarat ini tidak terpenuhi maka hasil estimasi reliabilitasnya tidak benar.

Rulon
ρxx' = 1 – σd2x2
Dengan d sama dengan eror yaitu nilai belahan pertama dikurangi belahan kedua. Syarat yang harus dipenuhi oleh metode Rulon ini adalah kedua belahan jumlah itemnya harus sama.

Alpha-Cronbach

Formula ini sama dengan formula Gutman, untuk kasus belah dua. Syarat yang harus dipenuhi oleh metode ini adalah kedua belahan harus tau ekuivalen dan berarti varians kedua belahan juga setara. Pelanggaran syarat ini berakibat hasil estimasi yang underestimate. Alpha cronbach tidak hanya bisa digunakan untuk belah dua saja, tapi juga bisa digunakan untuk belah berapapun. Berikut adalah formula umum Alpha Cronbach dengan tes dibelah sejumlah k belahan.
Formula umum alpha cronbach:




Kuder-Richardson

Kuder Richradson 20 (KR-20) adalah metode estimasi reliabilitas yang sama dengan Alpha, namun hanya digunakan untuk item-item yang dikotomi (skor 1 dan 0). KR-21 merupakan pengembangan dari KR-20 yang lebih tahan terhadap perbedaan varians antar item.
Apabila pembelahan dilakukan menjadi tiga bagian yang tidak sama panjang dapat diesmitasi dengan metode Krustoff, yakni
rxx' = st2/sx2

Referensi
Azwar, S. (2015). Dasar-dasar Psikometri. Yogyakarta: Pustaka Pelajar
Anastasi, A. & Urbina, S. (1997). Psychological Testing. 7th edition. New Jersey: Prentice-Hall.
Crocker, L. & Algina, J. (1986). Introduction to classical and modern test theory. Fort Worth : Harcourt Brace Jovanovich College Publishers.

Validitas dalam Penyusunan Alat Ukur


Validitas menyangkut apa yang diukur tes dan seberapa baik tes tersebut bisa mengukur (Anastasi & Urbina, 1997). Suatu tes yang dinyatakan reliabel, namun belum tentu tes tersebut valid. Sedangkan jika tes tersebut dinyatakan valid, maka tes tersebut akan reliabel. Pengujian reliabilitas tidak memberikan kesimpulan tentang apa yang diukur tes, melainkan hanya memberi informasi bahwa hasil pengukuran tes tersebut konsisten (Crocker & Algina, 1986). Sebuah tes tidak akan dinyatakan valid, jika tes tersebut tidak reliabel. Cohen dan Swerdlik (2005) bahkan juga berpendapat serupa bahwa reliablitas itu memang penting, namun reliabilitas tidaklah cukup untuk suatu tes yang baik, karena tes haruslah valid. Lebih lanjut kemudian, validitas dipahami sebagai bagian dari karakteristik skor tes, bukan karakteristik tes.

Menurut pandangan teori klasik, validitas mengunjukkan seberapa dekat besaran skor tampak dengan skor murni. Semakin dekat skor tampak dengan skor murni, berarti eror pengukurannya semakin kecil, yang itu artinya semakin valid pengukuran tersebut. Secara umum, ada tiga prosedur validasi dalam sudut pandang teori klasik yaitu prosedur validitas isi (content validity), validitas kriteria (criterion-related validity) dan validitas konstruk (construct validity).

Validitas isi
Validitas isi terkait dengan kelayakan item-item dalam tes guna mewakili komponen dari kawasan isi materi yang diukur atau sejauh mana item tersebut  sesuai dengan indikator keperilakuan dari atribut yang diukur. Validitas isi harus dilakukan sejak awal pengembangan tes. Prosedur ini terkait dengan domain perilaku yang hendak diukur, di mana analisis terhadap domain perilaku ini dilakukan sejak awal atau sejak dimulainya prosedur pengembangan tes dan bukan setelah tes dipersiapkan. Layak tidaknya suatu item disipulkan dari hasil penilaian (judgement) yang dilakukan oleh ahli berdasarkan logic. Judgement ini dapat ditingkatkan objektivitasnya jika dilakukan oleh banyak orang. Hasil penilaian ini dapat dinyatakan dalam bentuk indeks validitas isi seperti yang dinyatakan oleh Lawshe dengan CVR dan Aiken dengan indeks Aiken’s V.

Koefisien validitas Aiken’s V didasarkan pada hasil penilaian panel ahli sebanyak n orang terhadap suatu item mengenai sejauh mana item tersebut mewakili konstrak. Formula untuk menghitung koefisien validitas Aiken’s V adalah (Aiken, 1985)
lo = angka penilaian validitas terendah
c = angka penilaian validitas tertinggi
r = angka yang diberikan penilai
s = r – lo

Validitas konstrak
Validitas konstrak mengungkap kesesuaian antara stuktur konstrak yang diteorikan dengan data hasil tes. Validitas kontstrak merupakan proses yang berlanjut terus seiring dengan perkembangan konsep/teori mengenai trait yang diukur (Azwar, 2015). Dalam Anastasi dan Urbina (1997) juga dilanjutkan dengan pemaparan teknik atau cara untuk mengidentifikasi konstruk yang digunakan dalam prosedur validasi ini, di antaranya: faktor perubahan perkembangan, korelasi dengan tes lain, analisis faktor, konsistensi internal, validasi konvergen dan diskriminan, intervensi eksperimental, Structural Equation Modelling, dan kontribusi psikologi kognitif.

Salah satu studi yang dilakukan untuk mengidentifikasi validitas konstrak adalah dengan pendekatan multitrait-multimethod. Metode yang dilakukan dengan pendekatan multitrait-multimethod adalah dengan mengadmistrasikan alat tes yang mengukur trait yang sama namun dengan metode yang berbeda serta mengadmistrasikan trait yang berbeda dengan metode yang sama maupun yang berbeda. Dengan metode ini dapat disimpulkan adanya validitas konvergen, yakni tingginya koefisien korelasi pada tes yang mengukur trait yang sama meskipun dengan metode yang berbeda, dan validitas diskriminan yaitu rendahnya koefisien korelasi ada tes yangmengukur trait yang berbeda meskipun dengan metode yang sama.

Validitas konstrak juga dapat dilakukan melalui prosedur analisis faktor konfirmatori (Confirmatory Factor Analysis). Analisis faktor merupakan sekumpulan prosedur matematika yang komplek guna menganalisis saling hubungan di antara variabel serta menjelaskan saling hubungan tersebut dalam bentuk kelompok variabel yang terbatas yang disebut faktor (Azwar, 2015). Prosedur analisis faktor dapat dilakukan dengan menambahkan tes yang bukan mengukur trait apa yang ingin kita validasi, yang kemudian disebut marker test. Adanya validitas kontrak ditunjukkan dengan rendahnya loading factor pada tes pada faktor yang tidak diungkap. Pengertian ini hampir mirip dengan  validitas konvergen dan diskriminan.

Validitas kriteria
Anastasi dan Urbina (1997) menjelaskan bahwa prosedur validitas kriteria (criterion validity) menunjukkan efektifitas tes yang digunakan untuk memprediksi performa seseorang. Kriteria yang dijadikan tolak ukur validasi skor tes bisa diperoleh pada saat yang hampir bersamaan atau setelah dalam rentang waktu tertentu. Terdapat dua jenis validitas kriteria yang keduanya dibedakan berdasarkan waktu antara tes dengan kriteria, yaitu concurrent validity (validitas konkuren) dan predictive validity (validitas prediktif).  

Validitas prediktif misalnya digunakan untuk seleksi, baik itu seleksi masuk perguruan tinggi atau seleksi kerja. Dalam validitas ini terdapat rentang waktu yang cukup lama antara hasil tes dengan membandingkannya pada kriteria. Tes dikatakan valid apabila orang-orang yang memperoleh skor tinggi pada saat seleksi menunjukkan performa yang memuaskan saat kuliah atau saat kerja.
Validitas konkuren tidak memerlukan rentang waktu lama untuk membandingkan hasil tes dengan kriterianya, misal  bisa dibandingkan dengan Indeks Prestasi Kumulatif (IPK) pada saat pengetesan terjadi, atau skor performa karyawan dengan skor kesuksesan bekerja saat itu (Anastasi & Urbina, 1997). Pada dasarnya penentuan validitas apa yang dipakai ditentukan dari tujuannya. Jika tujuan dari tes adalah untuk melakukan diagnosis maka digunakanlah pengujian validitas konkuren. Sedangkan jika tes digunakan untuk memprediksi hasil-hasil di masa depan maka digunakan pengujian validitas prediktif.

Referensi
Anastasi, A. & Urbina, S. (1997). Psychological Testing. 7th edition. New Jersey: Prentice-Hall.
Aiken, L. R. (1985). Three Coefficients for Analyzing the Reliability and Validity of Ratings.
Azwar, S. (2015). Dasar-dasar Psikometri. Yogyakarta: Pustaka Pelajar
Cohen, R,J. & Swerdlik, M.E. (2005). Psychological Testing and Assessment. 6th edition. New York: McGraw-Hill Companies, Inc.
Crocker, L. & Algina, J. (1986). Introduction to classical and modern test theory. Fort Worth : Harcourt Brace Jovanovich College Publishers.



Showing posts with label Teori Skor Klasik. Show all posts
Showing posts with label Teori Skor Klasik. Show all posts
Perbedaan Indeks Diskriminasi Item, Korelasi Point-biserial, dan Korelasi Biserial
Dalam proses penyusunan alat tes, proses seleksi item menjadi bagian yang sangat krusial. Proses ini bertujuan untuk memilih item mana saja yang layak kita masukkan dalam alat tes kita. Dalam analisis dengan teori tes klasik, daya diskriminasi item menjadi salah satu paramater yang paling utama dalam seleksi item. Daya diskriminasi item menunjukkan seberapa baik item dalam membedakan individu mana yang memiliki kemampuan dan mana yang tidak. Dalam konteks tes kognitif, dimana jawaban soal hanya diskor benar dan salah (1/0), ada tiga jenis parameter diskriminasi item yang biasa digunakan, yakni indeks diskriminasi item, korelasi point-biserial, dan korelasi biserial. Diantara ketiganya, terkadang kita bingung mau menggunakan yang mana karena tidak terlalu memahami perbedaannya. Tulisan ini akan menjelaskan perbedaan ketiganya dan bagaimana penggunaannya.
 Memaknai Corrected Item-Total Correlation pada Alat Ukur Penelitian
Ketika kita menggunakan pendekatan kuantitatif dalam melakukan sebuah penelitian, tentunya kita akan menggunakan alat ukur untuk mendapatkan data yang dibutuhkan. Alat ukur berguna untuk menguantifikasikan variabel yang ingin diukur. Seperti halnya jika kita ingin mengetahui tekanan darah, kita bisa menggunakan tensimeter. Tentunya, tensimeter yang sudah dikalibrasi sehingga menghasilkan nilai tekanan darah yang valid dan reliabel. Pengukuran tekanan darah merupakan contoh pengukuran atribut fisik. Bagaimana jika kita ingin mengukur atribut psikologis?

Analisis Item dengan Iteman
Pada artikel sebelumnya telah dibahas parameter yang perlu diperhatikan dalam prosedur analisis item dengan menggunakan Pendekatan Tes Klasik, yakni (1) tingkat kesulitan item, (2) daya diskriminasi item, dan (3) efektivitas distraktor. Secara konseptual ketiga parameter tersebut telah dibahas. Tulisan ini akan menjelaskan prosedur analisis item berdasarkan tiga parameter menggunakan Software Iteman. Iteman merupakan salah satu software analisis butir soal berbasiskan pendekatan teori tes klasik.  Program ini termasuk satu paket program dalam MicroCAT°n yang dikembangkan oleh Assessment Systems Corporation mulai tahun 1982 dan mengalami revisi hingga saat ini. Versi yang paling umum dipakai guru-guru atau dosen kita adalah versi yang masing menggunakan DOS, namun karena versi tersebut sudah tidak kompatibel lagi dengan laptop saya, maka dalam contoh ini versi yang akan digunakan dalam analisis ini adalah Iteman 3.6. Namun pada prinsipnya, file yang digunakan dan script membuat data filenya sama saja.

Menyiapkan data untuk analisis
Program iteman dapat menganalisis file dalam format .txt atau .dat. Untuk menyiapkan data, kita perlu menginput terlebih dahulu jawaban dari subjek kita. Untuk lebih mudah kita bisa menginput di Microsoft Ecxel baru kemudian kita copy ke notepad. Berikut ini contoh data yang akan digunakan dalam analisis kita. Tes yang disajikan adalah tes TPA dengan jumlah soal 45 item.

Gambar di atas adalah file yang akan kita gunakan untuk input ke dalam program iteman untuk dianalisis. Keterangan dari script file input adalah sebagai berikut.
Baris pertama
Kolom 1-3       : jumlah butir soal, maksimal 250 butir (dalam contoh 045)
Kolom 4           : kosong/spasi
Kolom 5           : kode untuk jawaban kosong (dalam contoh “O”)
Kolom 6           : kosong/spasi
Kolom 7       : kode untuk butir yang belum dijawab (dalam contoh “N”)
Kolom 8           : kosong/spasi
Kolom 9-10     : jumlah karakter identitas data siswa (dalam contoh 05)
Baris kedua     : kunci jawaban
Baris ketiga     : jumlah pilihan jawaban (dalam contoh ada soal yang memiliki 4 opsi, ada yang 5 opsi)
Baris keempat : kode Y jika soal ikut dianalisis, kode N jika soal tidak diikutkan dianalisis
Baris kelima dan seterusnya merupakan identitas dan jawaban subjek.

Jika file sudah siap, silakan disimpan dalam format .txt atau .dat. Misalkan dalam analisis ini file disimpan dengan nama TES-TPA.txt. Lokasi penyimpanan file harus satu folder dengan program iteman berada.

Menjalankan Iteman
Untuk mulai menjalankan iteman silakan buka program iteman. Untuk memasukan file script kita, tekan configure, kemudian pada input data file name masukan file TES-TPA.txt kita tadi. Kemudian pada analysis output file nama, silakan buat nama file output kita nanti, bebas, misalkan dalam hal ini nama filenya OUTPUT-TPA.OUT .

Pada tab options, ada beberapa pilihan analisis yang akan dilakukan. Type of corelation merupakan pilihan apakah kita mau mengeluarkan output berupa korelasi point-biserial atau biserial. Pada ability grouping, jika kita menghendaki dikeluarkan output indeks diskriminasi dari kelompok tinggi dan kelompok rendah centang “yes”. Correct for spuriousness merupakan koreksi terhadap efek spurious seperti yang sudah dijelaskan di artikel sebelumnya. Express endorsement merupakan tingkat kesulitan item yang bisa dipilih apakan disajikan dalam bentuk proporsi atau persentase. Jika sudah kita pilih sesuai kebutuhan, lalu tekan ok dan kemudia tekan run analysis atau icon gambar komputer.

Untuk melihat output analisis kita, silakan tekan view output. File output juga bisa kita lihat di folder yang sudah kita tentukan tadi dengan nama file OUTPUT-TPA.OUT.

Membaca Output Iteman
  
Rambu-rambu untuk menilai hasil analisis telah dijelaskan di tulisan sebelumnya. Item nomer 1 mempunyai tingkat kesulitan (prop.correct) 0,13, artinya item ini termasuk item yang sulit karena hanya 13% dari seluruh subjek yang mampu menjawab dengan benar. Item nomor 1 juga memiliki korelasi point-biserial (rpbis) sebesar 0,09 dan indeks diskriminasi sebesar -0,15. Item ini termasuk item yang kurang baik karena tidak mampu membedakan subjek dengan kemampuan tinggi dan rendah.  Iteman juga memberikan rekomendasi seperti yang tertulis di output “CHCEK THE KEY, C was specified, A works better”. Artinya ada kemungkinan kita salah kunci karena ternyata dengan kunci A, korelasi point-biserialnya lebih baik. Pada item nomer 1 semua distraktor berfungsi dengan baik karena semuanya dipilih oleh subjek.

Item nomer 2 mempunyai tingkat kesulitan (prop.correct) 0,74, artinya item ini termasuk item yang mudah karena ada 74% dari seluruh subjek yang mampu menjawab dengan benar. Item nomor 1 juga memiliki korelasi point-biserial (rpbis) sebesar 0,22. Butir yang memiliki daya beda di atas 0,2 menurut Fernandes (1984) sudah dianggap baik, sehingga item tersebut dapat diterima, sedangkan jika menurut Ebel (dalam Azwar, 2015), dengan nilai rpbis=0,22 item ini belum memuaskan dan masih perlu perbaikan. Pada item nomer 2, distraktor C tidak bekerja dengan efektif karena tidak ada subjek yang memilihnya, sehingga pilihan ini perlu direvisi.



Selain memberikan informasi masing-masing item, iteman juga mengeluarkan output berupa rangkuman statistik alat tes kita. Dari output tersebut dapat kita ketahui reliabilitas alpha tes ini 0,778 dengan Standard Error Measurement (SEM) sebesar 2,625. Instrumen yang memiliki reliabilitas Alpha di atas 0,7 menurut Feldt dan Brennan (1989) sudah dianggap reliabel. Sehingga tes ini sudah memenuhi kriteria tersebut. Keterangan statistik lainnya dapat dilihat dari hasil output di atas. 

Untuk mempelajari iteman secara lebih detil, buku user manual iteman versi 3.6 dapat didownload di sini
File input TES-TPA.txt dalam tulisan ini dapat digunakan untuk latihan teman-teman, silakan download di sini



Referensi
Azwar, S. (2015). Konstruksi Tes Kemampuan Kognitif. Yogyakarta: Pustaka Pelajar

Fernandes, H.J.X. (1984). Testing and Measurement. Jakarta: Nasional Education Planing Evaluation and Curriculum Development.
           
Feldt, L. S. & Brennan, R. L. (1989). “Reliability” dalam Linn R. L. (Eds.), Educational Measurement Third Edition. (pp. 105-146). New York: McMillan.
  
Pedoman Analisis Item Menggunakan Pendekatan Teori Tes Klasik
Dalam proses penyusunan tes, item-item yang telah direview secara kualitatif oleh ahli di bidangnya dapat dinyatakan valid secara isi. Meskipun demikian, dalam tes prestasi perlu dilakukan analisis tambahan yang bertujuan untuk memperoleh item-item yang memiliki daya ukur dan daya beda yang tinggi sehingga tujuan pengkuran yakni untuk membedakan kemampuan satu individu dengan individu lain dapat tercapai. Prosedur ini sering disebut sebagai analisis dan seleksi item karena tujuan dari prosedur ini tidak lain adalah mengetahui item-item mana saja yang layak untuk dipertahankan atau direvisi bahkan dibuang.

Prosedur analisis dan seleksi item soal berdasarkan teori tes klasik memperhatikan tiga parameter, yaitu (1) tingkat kesulitan item, (2) daya diskriminasi item, dan (3) efektivitas distraktor (Azwar, 2015). Analisis tersebut dilakukan beradsarkan jawaban subjek terhadap item-item dalam tes. Meskipun tingkat kesulitan item dan daya diskriminasi item dihitung secara terpisah, namun dalam evaluasi terhadap item soal keduanya dilihat sebagai kesatuan komponen yang akan menentukan apakah suatu item dianggap baik atau tidak (Azwar, 2013). Parameter ketiga yakni efektivitas distraktor hanya berlaku pada soal berbentuk pilihan ganda.

Tingkat Kesulitan Item   
Tingkat kesulitan item merupakan perbandingan antara jumlah penjawab item benar dengan banyaknya penjawab item. Tingkat kesulitan biasa ditentukan oleh indeks kesukaran dan dilambangkan dengan p. Indeks kesukaran item dapat dihitung melalui persamaan berikut.

  P = ni / N

N merupakan total subjek yang menjawab item tersebut, sementara ni merupakan jumlah subjek yang menjawab dengan benar. Indeks kesukaran item berkisar antara 0 sampai 1, dimana indeks yang mendekati angka 1 berarti item tersebut semakin mudah. Begitu pula sebaliknya, semakin mendekati angka 0 berarti item tersebut semakin sulit. Item soal yang ideal adalah item yang memiliki tingkat kesukaran berada di sekitar p=0,5, hal ini dikarenakan nilai p=0,5 memungkinkan untuk mendapat varians terbesar. Rumus varians pada item dikotomi adalah s2=p(1-p), hal ini berarti varians akan maksimal pada p=0,5. Secara teoritis varians yang maksimal akan menghasilkan daya diskriminasi yang tinggi pula (Azwar, 2013). Meskipun demikian, tidak ada acuan pokok dalam menentukan berapa nilai tingkat kesulitan yang baik. Hal ini dikarenakan tingkat kesulitan sangat bergantung pada tujuan tes tersebut. Jika tes dilakukan untuk suatu penempatan (placement test), maka tingkat kesulitan disesuaikan secara beragam mulai dari yang paling mudah sampai yang paling sulit. Namun jika tes dilakukan untuk suatu seleksi, maka dapat dipilih item-item yang sulit karena yang dipilih adalah sebagian kecil pelamar saja yang memiliki kemampuan tinggi.    

Seperti yang sudah dijelaskan dalam artikel mengenai teori tes klasik, salah satu keterbatasan dari teori tes klasik adalah adanya sample dependent, artinya indeks kesukaran yang diperoleh juga bergantung dari dimana tes itu diujikan. Misalkan soal matematika yang sama, bisa jadi terasa sulit jika diujikan di sekolah yang berada di pelosok, namun bisa jadi terasa mudah jika diujikan di sekolah favorit. Tingkat kesulitan item merupakan ukuran bagi seluruh kelompok subjek, bukan bagi masing-masing individu. Tingkat kesukaran item bagi masing-masing individu adalah berbeda dan kita tidak dapat mengetahuinya.

Daya Dikskriminasi Item
Daya diskriminasi item adalah kemampuan item dalam membedakan antara satu subjek dengan subjek yang lain. Dalam hal tes kognitif, daya diskriminasi item berarti bertujuan untuk membedakan individu yang memiliki kemampuan tinggi (pintar) dan kemampuan rendah (bodoh). Suatu item soal dapat dikatakan memiliki daya diskriminasi yang baik apabila item tersebut dapat dijawab dengan benar oleh seluruh atau sebagian besar subjek dari kelompok kemampuan tinggi dan tidak dapat dijawab dengan benar oleh sebagian atau seluruh subjek dari kelompok kemampuan rendah. Jika proporsi penjawab benar soal dari kelompok tinggi lebih besar daripada proporsi penjawab benar pada kelompok rendah, maka daya dikriminasinya tinggi. Namun sebaliknya,  jika proporsi penjawab benar soal dari kelompok rendah lebih besar daripada proporsi penjawab benar pada kelompok tinggi, maka daya dikriminasinya rendah. Item yang demikian bisa jadi menyesatkan, bisa jadi soal tersebut salah kunci atau sulit dipahami kalimatnya (Azwar, 2013).

Secara sederhana, daya diskriminasi merupakan perbedaan proporsi penjawab benar kelompok kemampuan tinggi (PT) dan penjawab benar kelompok kemampuan rendah (PR). Rumus untuk menghitung daya diskriminasi butir dapat dituliskan sebagai berikut (Azwar, 2013).

  d = PT - PR

Seperti rumus dalam indeks kesukaran, PT merupakan rasio antara banyaknya butir yang dijawab benar di kelompok tinggi (niT) dengan banyaknya penjawab dari kelompok tinggi (NT). Begitu pula proporsi (PR) adalah rasio antara banyaknya butir yang dijawab benar di kelompok rendah (niR) dengan banyaknya penjawab dari kelompok rendah (NR). Sehingga rumus di atas dapat dijabarkan sebagai berikut.


Bila sampel yang digunakan sedikit, kelompok tinggi dapat dijelaskan sebagai 50% subjek yang memiliki skor tertinggi sedangkan kelompok rendah merupakan 50% subjek yang memiliki skor terendah. Namun jika subjek yang digunakan cukup banyak, maka dapat ditentukan kelompok tinggi sebagai 27% dari seluruh subjek dengan skor tertinggi dan kelompok rendah adalah 27% dari seluruh subjek dengan skor terendah. Sedangkan sisanya 46% subjek termasuk dalam kelompok sedang dan tidak disertakan dalam analisis.

Selain diestimasi melalui indeks daya diskriminasi item, daya beda juga bisa diestimasi melalui korelasi item-total. Dasar yang digunakan dalam analisis item ini adalah memilih item-item yang fungsi ukurnya sesuai dengan fungsi ukur tes secara keseluruhan. Koefisien korelasi item-total dapat dihitung dengan korelasi product moment Pearson yang berkisar antara -1 sampai dengan 1. Item yang memiliki koefisien korelasi item-total mendekati 1 berarti baik dalam membedakan individu, sedangkan item yang memiliki koefisien korelasi item-total mendekati -1 berarti menyesatkan. Azwar (2015) menjelaskan bahwa dalam kaitannya dengan hasil komputasi koefisien korelasi antara korelasi item dengan skor test, item yang ada dalam tes dikhawatirkan dapat mengakibatkan over estimate dikarenakan besarnya kontribusi item dalam menentukan skor test. Keadaan inilah yang disebut spurious overlap. Untuk menghilangkan efek spurious overlap tersebut maka koefisien korelasi item total yang dihitung dengan korelasi product moment Pearson dikoreksi dengan nilai Deviasi Standar. Formula ini kemudian menghasilkan koefisien yang dikenal dengan corrected item-total correlation coefficient. Namun jika jumlah item cukup banyak (di atas 30), efek tersebut bisa diabaikan.

Pada tes yang dikotomi (skor item terdiri dari 1 dan 0), koefisien korelasi item-total dapat dihitung dengan formula korelasi point-biserial (rpbis). Rumus untuk menghitung korelasi point-biserial (rpbis) adalah sebagai berikut

Indeks daya diskriminasi berkisar antara -1 sampai dengan 1. Dalam seleksi item, ada beberapa ahli yang mengungkapkan nilai minimal daya diskriminasi item yang diperlukan. Meskipun tidak ada pendapat yang mutlak yang mengatakan berapa nilai indeks diskriminasi minimal yang ditetapkan dalam seleksi item, namun prinsip umum yang digunakan adalah memilih item dengan indeks daya diskriminasi item yang tinggi. Sebagai gambaran Ebel (dalam Azwar, 2015) menyarankan penggunaan kriteria evaluasi terhadap indeks diskriminasi item ebagai berikut.
Indeks Diskriminasi
Evaluasi
>0,40
Bagus sekali
0,30 – 0,39
Lumayan bagus, tapi masih perlu peningkatan
0,20 – 0,29
Belum memuaskan, perlu perbaikan
<0,20
Jelek dan item harus dibuang

Efektivitas Disktraktor
 
Efektivitas distraktor hanya digunakan dalam soal yang berbentuk pilihan ganda. Efektivitas distraktor digunakan untuk melihat apakah pilihan jawaban distraktor (yang bukan kunci jawaban) berfungsi sebagaimana mestinya, yaitu dipilih oleh sebagian besar subjek dari kelompok rendah dan hanya sedikit dipilih oleh kelompok dengan abilitas tinggi. Distraktor dapat dikatakan efektif apabila (a) dipilih oleh mayoritas atau seluruh subjek dari kelompok abilitas rendah, dan (b) jawaban yang dipilih oleh kelompok tersebut menyebar secara merata pada masing-masing distraktor (Azwar, 2013).

Referensi
Azwar, S. (2013). Penyusunan Skala Psikologi Edisi 2. Yogyakarta: Pustaka Pelajar.

Azwar, S. (2015). Konstruksi Tes Kemampuan Kognitif. Yogyakarta: Pustaka Pelajar
Reliabilitas  (Konsep Teori Tes Klasik)
Mengapa judulnya dalam kurung konsep teori tes klasik? Karena tulisan ini akan mengulas jenis-jenis reliabilitas berdasarkan pendekatan teori tes klasik. Tentu saja ada pendekatan lain seperti konsep reliabilitas dalam Rasch model yang sedikit berbeda dengan pendekatan ini. Berikut ini adalah formula reliabilitas yang diturunkan dari konsep reliabilitas dari teori tes klasik.

Reliabilitas mengacu pada konsistensi skor yang diperoleh dari orang yang sama ketika ia dites kembali dengan tes yang sama pada situasi yang berbeda atau dites dengan tes yang berbeda namun item-item tes tersebut bersifat ekuivalen atau setara (Anastasi & Urbina, 1997). Berkaitan dengan asumsi di atas, dirumuskan pula mengenai konsep tes paralel. Menurut teori ini, dua bentuk tes diseut paralel apabila skor murni dari setiap subjek adalah sama pada kedua tes (T1=T2), dan bagi setiap populasi yang dikenai tes tersebut varians erornya adalah sama besar σe2 = σe2. Batasan tersebut mengandung arti bahwa mean dan varians skor tampak yang setara serta keduanya memiliki korelasi skor tampak dengan yang setara pula. Batasan lain yang dirumuskan adalah mengenai konsep essentially tau-equivalent. Kedua tes memiliki sifat tau-equivalent apabila besarnya perbedaan skor murni setiap individu pada kedua tes selalu sama. Itu artinya T1 = T2 + C, dimana C suatu bilangan konstan. Tes yang paralel sudah pasti tau-equivalent.
Koefisien Reliabilitas
Interpretasi 1: ρxx'
Korelasi skor tampak antara dua tes yang paralel
Koefisien reliablitas adalah sejauhmana distribusi skor tampak pada dua tes yang paralel berkorelasi

Interpretasi 2: ρxx'2
Besarnya proporsi varians X yang dijelaskan oleh hubungan liniernya dengan X'
Kuadrat koefisien reliabilitas adalah sama dengan besarnya proporsi varians X yag dijelaskan oleh hubungan liniernya dengan X’

Interpretasi 3: ρxx' = σt2x2
Koefisien reliabilitas adalah perbandingan varians skor murni dan varian skor tampak pada hasil ukur suatu tes

Interpretasi 4:  ρxx' = ρ2xt
Koefisien reliabilitas adalah kuadrat koefisien korelasi antara skor tampak dan skor murni.

Interpretasi 5: ρxx' = 1 - ρ2xe
Koefisien reliabilitas adalah sama dengan satu dikurangi oleh kuadrat koefisien korelasi skor tampat dan eror pengukuran

Interpretasi 6: ρxx' = 1 – σe2x2
Koefisien reliabilitas adalah satu dikurangi besarnya proporsi varians eror yang terkandung dalam varians skor tampak.

Interval Kepercaaan
Sekalipun skor murni individu dalam tes tidak dapat diketahui secara pasti, namun masih dapat dilakukan semacam estimasi untuk menentukan taraf estimasi dari skor murni.
Ƭ = X + SE(Zα/2)
Estimasi skor murni juga dapat dilakukan dengan melihat koefisien reliabilitas dan mean nya.
Ƭ = ρxx' (x - μx) + μx

Pendekatan Reliabilitas
Secara umum, perhitungan terhadap reliabilitas dapat dilakukan dengan tiga pendekatan, yakni tes-ulang (test-retest), pendekatan estimasi reliabiltas bentuk paralel (parallel-form), dan pendekatan penyajian tunggai (single trial administration), atau yang lebih dikenal dengan istilah konsistensi internal. Berikut penjelasan ketiga pendekatan tersebut.

Test-retest
Metode pengujian reliabilitas test-retest digunakan  pada saat ingin diketahui seberapa konsisten respon dari seorang peserta tes di waktu yang berbeda. Koefisien reliabilitas yang diperoleh dengan metode pengujian test-retest ini disebut sebagai koefisien stabilitas (Crocker & Algina, 1986). Metode pengujian ini dilakukan dengan menggunakan satu form tes dengan 2 kali sesi pengujian. Hasil pengujian dari kedua tes tersebut nantinya akan menghasilkan 2 distribusi skor tes yaitu skor tes dari sesi pengujian yang pertama dan skor tes dari tes yang sama namun dari sesi pengujian yang kedua. Koefisien reliabilitas diperoleh dengan cara melakukan perhitungan korelasi antar kedua distribusi skor tersebut, sehingga nantinya akan diperoleh suatu nilai korelasi yang dalam metode pengujian test-retest ini disebut sebagai koefisien stabilitas. Penyebutan koefisien stabilitas sebagai koefisien reliabilitas pada metode ini dimaksudkan pada kestabilan hasil pengukuran tes pada peserta tes yang sama antara hasil pengukuran tes yang pertama dengan tes yang kedua (Stability over time).

Parallel-form
Dalam metode test-retest, efek pengetahuan sebelumnya terhadap tes yang sama terutama ketika peserta tes masih dapat mengingat item-item tes yang dikerjakannya atau masih mengingat bagaimana cara mengerjakannya, menjadi permasalahan yang mungkin terjadi. Untuk mengatasi hal tersebut, digunakanlah metode pengujian reliabilitas lain yang serupa dengan metode test-retest, di mana peserta tes diuji dengan dua kali sesi pengerjaan tes namun dengan dua form test yang itemnya berbeda tapi memiliki sifat ekuivalen antar keduanya. Metode pengujian reliabilitas ini juga memiliki koefisien reliabilitas yang merupakan hasil korelasi antara skor tes pertama dan skor tes kedua. Koefisien reliabilitas dalam metode parallel-form mengukur dua hal yaitu kestabilitasan hasil pengukuran antar waktu dan konsistensi respon peserta tes terhadap item-item tes yang berbeda atau dua form tes yang berbeda (Anastasi & Urbina, 1997).

Konsistensi internal
Dalam pelaksanaannya, metode test-retest dan parallel-form memiliki beberapa kekurangan. Utuk test-retest kendala yang dihadapi adalah bagaimana menentukan interval waktu yang pas antara tes pertama dan kedua, sehingga tidak terjadi carry over effect (efek bawaan) yang mempengaruhi besaran koefisien yang dihasilkan. Sedangkan kendala utama bentuk  parallel-form adalah sulitnya menciptakan dua tes yang benar-benar paralel. Selain itu kedua metode tersebut juga kurang praktis karena harus disajikan dua kali. Dengan alasan yan dikemukakan di atas, metode penyajian tunggal yang menghasilkan koefisien konsistensi internal banyak digunakan karena memiliki nilai praktis yang lebih tinggi.

Komputasi koefisien konsistensi internal diawali dengan pembelahan tes menjadi beberapa bagian. Dalam pembelahan, apabila memungkinkan sebisa mungkin bentuk belahannya paralel, sehingga estimasi reliabilitas yang dihasilkan lebih akurat. Berikut adalah beberapa metode dalam pembelahan tes. Secara umum, untuk dilakukan pembelahan dua bagian ada beberapa asumsi yang harus dipenuhi yaitu mean belah pertama dan kedua setara, varians belah pertama dan kedua setara, serta koefiesn korelasi belah pertama dan kedua tinggi. Ada beberapa metode yang adapat digunakan untuk estimasi reliabilitas belah dua.
Spearman-Brwon
 ρxx' = 2ρyy' / 1+ ρyy'
Dengan y adalah hasil belahan pertama dan y’ adalah hasil belahan kedua. Syarat untuk metode spearman-brown adalah kedua belahan harus parlalel. Apabila syarat ini tidak terpenuhi maka hasil estimasi reliabilitasnya tidak benar.

Rulon
ρxx' = 1 – σd2x2
Dengan d sama dengan eror yaitu nilai belahan pertama dikurangi belahan kedua. Syarat yang harus dipenuhi oleh metode Rulon ini adalah kedua belahan jumlah itemnya harus sama.

Alpha-Cronbach

Formula ini sama dengan formula Gutman, untuk kasus belah dua. Syarat yang harus dipenuhi oleh metode ini adalah kedua belahan harus tau ekuivalen dan berarti varians kedua belahan juga setara. Pelanggaran syarat ini berakibat hasil estimasi yang underestimate. Alpha cronbach tidak hanya bisa digunakan untuk belah dua saja, tapi juga bisa digunakan untuk belah berapapun. Berikut adalah formula umum Alpha Cronbach dengan tes dibelah sejumlah k belahan.
Formula umum alpha cronbach:




Kuder-Richardson

Kuder Richradson 20 (KR-20) adalah metode estimasi reliabilitas yang sama dengan Alpha, namun hanya digunakan untuk item-item yang dikotomi (skor 1 dan 0). KR-21 merupakan pengembangan dari KR-20 yang lebih tahan terhadap perbedaan varians antar item.
Apabila pembelahan dilakukan menjadi tiga bagian yang tidak sama panjang dapat diesmitasi dengan metode Krustoff, yakni
rxx' = st2/sx2

Referensi
Azwar, S. (2015). Dasar-dasar Psikometri. Yogyakarta: Pustaka Pelajar
Anastasi, A. & Urbina, S. (1997). Psychological Testing. 7th edition. New Jersey: Prentice-Hall.
Crocker, L. & Algina, J. (1986). Introduction to classical and modern test theory. Fort Worth : Harcourt Brace Jovanovich College Publishers.

Validitas dalam Penyusunan Alat Ukur

Validitas menyangkut apa yang diukur tes dan seberapa baik tes tersebut bisa mengukur (Anastasi & Urbina, 1997). Suatu tes yang dinyatakan reliabel, namun belum tentu tes tersebut valid. Sedangkan jika tes tersebut dinyatakan valid, maka tes tersebut akan reliabel. Pengujian reliabilitas tidak memberikan kesimpulan tentang apa yang diukur tes, melainkan hanya memberi informasi bahwa hasil pengukuran tes tersebut konsisten (Crocker & Algina, 1986). Sebuah tes tidak akan dinyatakan valid, jika tes tersebut tidak reliabel. Cohen dan Swerdlik (2005) bahkan juga berpendapat serupa bahwa reliablitas itu memang penting, namun reliabilitas tidaklah cukup untuk suatu tes yang baik, karena tes haruslah valid. Lebih lanjut kemudian, validitas dipahami sebagai bagian dari karakteristik skor tes, bukan karakteristik tes.

Menurut pandangan teori klasik, validitas mengunjukkan seberapa dekat besaran skor tampak dengan skor murni. Semakin dekat skor tampak dengan skor murni, berarti eror pengukurannya semakin kecil, yang itu artinya semakin valid pengukuran tersebut. Secara umum, ada tiga prosedur validasi dalam sudut pandang teori klasik yaitu prosedur validitas isi (content validity), validitas kriteria (criterion-related validity) dan validitas konstruk (construct validity).

Validitas isi
Validitas isi terkait dengan kelayakan item-item dalam tes guna mewakili komponen dari kawasan isi materi yang diukur atau sejauh mana item tersebut  sesuai dengan indikator keperilakuan dari atribut yang diukur. Validitas isi harus dilakukan sejak awal pengembangan tes. Prosedur ini terkait dengan domain perilaku yang hendak diukur, di mana analisis terhadap domain perilaku ini dilakukan sejak awal atau sejak dimulainya prosedur pengembangan tes dan bukan setelah tes dipersiapkan. Layak tidaknya suatu item disipulkan dari hasil penilaian (judgement) yang dilakukan oleh ahli berdasarkan logic. Judgement ini dapat ditingkatkan objektivitasnya jika dilakukan oleh banyak orang. Hasil penilaian ini dapat dinyatakan dalam bentuk indeks validitas isi seperti yang dinyatakan oleh Lawshe dengan CVR dan Aiken dengan indeks Aiken’s V.

Koefisien validitas Aiken’s V didasarkan pada hasil penilaian panel ahli sebanyak n orang terhadap suatu item mengenai sejauh mana item tersebut mewakili konstrak. Formula untuk menghitung koefisien validitas Aiken’s V adalah (Aiken, 1985)
lo = angka penilaian validitas terendah
c = angka penilaian validitas tertinggi
r = angka yang diberikan penilai
s = r – lo

Validitas konstrak
Validitas konstrak mengungkap kesesuaian antara stuktur konstrak yang diteorikan dengan data hasil tes. Validitas kontstrak merupakan proses yang berlanjut terus seiring dengan perkembangan konsep/teori mengenai trait yang diukur (Azwar, 2015). Dalam Anastasi dan Urbina (1997) juga dilanjutkan dengan pemaparan teknik atau cara untuk mengidentifikasi konstruk yang digunakan dalam prosedur validasi ini, di antaranya: faktor perubahan perkembangan, korelasi dengan tes lain, analisis faktor, konsistensi internal, validasi konvergen dan diskriminan, intervensi eksperimental, Structural Equation Modelling, dan kontribusi psikologi kognitif.

Salah satu studi yang dilakukan untuk mengidentifikasi validitas konstrak adalah dengan pendekatan multitrait-multimethod. Metode yang dilakukan dengan pendekatan multitrait-multimethod adalah dengan mengadmistrasikan alat tes yang mengukur trait yang sama namun dengan metode yang berbeda serta mengadmistrasikan trait yang berbeda dengan metode yang sama maupun yang berbeda. Dengan metode ini dapat disimpulkan adanya validitas konvergen, yakni tingginya koefisien korelasi pada tes yang mengukur trait yang sama meskipun dengan metode yang berbeda, dan validitas diskriminan yaitu rendahnya koefisien korelasi ada tes yangmengukur trait yang berbeda meskipun dengan metode yang sama.

Validitas konstrak juga dapat dilakukan melalui prosedur analisis faktor konfirmatori (Confirmatory Factor Analysis). Analisis faktor merupakan sekumpulan prosedur matematika yang komplek guna menganalisis saling hubungan di antara variabel serta menjelaskan saling hubungan tersebut dalam bentuk kelompok variabel yang terbatas yang disebut faktor (Azwar, 2015). Prosedur analisis faktor dapat dilakukan dengan menambahkan tes yang bukan mengukur trait apa yang ingin kita validasi, yang kemudian disebut marker test. Adanya validitas kontrak ditunjukkan dengan rendahnya loading factor pada tes pada faktor yang tidak diungkap. Pengertian ini hampir mirip dengan  validitas konvergen dan diskriminan.

Validitas kriteria
Anastasi dan Urbina (1997) menjelaskan bahwa prosedur validitas kriteria (criterion validity) menunjukkan efektifitas tes yang digunakan untuk memprediksi performa seseorang. Kriteria yang dijadikan tolak ukur validasi skor tes bisa diperoleh pada saat yang hampir bersamaan atau setelah dalam rentang waktu tertentu. Terdapat dua jenis validitas kriteria yang keduanya dibedakan berdasarkan waktu antara tes dengan kriteria, yaitu concurrent validity (validitas konkuren) dan predictive validity (validitas prediktif).  

Validitas prediktif misalnya digunakan untuk seleksi, baik itu seleksi masuk perguruan tinggi atau seleksi kerja. Dalam validitas ini terdapat rentang waktu yang cukup lama antara hasil tes dengan membandingkannya pada kriteria. Tes dikatakan valid apabila orang-orang yang memperoleh skor tinggi pada saat seleksi menunjukkan performa yang memuaskan saat kuliah atau saat kerja.
Validitas konkuren tidak memerlukan rentang waktu lama untuk membandingkan hasil tes dengan kriterianya, misal  bisa dibandingkan dengan Indeks Prestasi Kumulatif (IPK) pada saat pengetesan terjadi, atau skor performa karyawan dengan skor kesuksesan bekerja saat itu (Anastasi & Urbina, 1997). Pada dasarnya penentuan validitas apa yang dipakai ditentukan dari tujuannya. Jika tujuan dari tes adalah untuk melakukan diagnosis maka digunakanlah pengujian validitas konkuren. Sedangkan jika tes digunakan untuk memprediksi hasil-hasil di masa depan maka digunakan pengujian validitas prediktif.

Referensi
Anastasi, A. & Urbina, S. (1997). Psychological Testing. 7th edition. New Jersey: Prentice-Hall.
Aiken, L. R. (1985). Three Coefficients for Analyzing the Reliability and Validity of Ratings.
Azwar, S. (2015). Dasar-dasar Psikometri. Yogyakarta: Pustaka Pelajar
Cohen, R,J. & Swerdlik, M.E. (2005). Psychological Testing and Assessment. 6th edition. New York: McGraw-Hill Companies, Inc.
Crocker, L. & Algina, J. (1986). Introduction to classical and modern test theory. Fort Worth : Harcourt Brace Jovanovich College Publishers.



Artikel Lainnya