Membaca Output Hasil Analisis Program Quest

Tulisan sebelumnya telah menjelaskan bagaimana cara menganalisis item dengan program Quest, mulai dari membuat data file sampai menjalankan program Quest. Dari hasil analisis dengan Quest kita telah memperoleh empat file output, yakni TPAsh, TPAit, TPAca, TPAtn yang semuanya memiliki format .out. Sekarang kita akan melihat satu per satu file tersebut dan melihat informasi apa yang bisa kita peroleh dari masing-masing file tersebut.

Hasil Analisis Secara Simultan
Hasil analisis secara simultan dapat dilihat pada file TPAsh.out. File ini menyajikan ringkasan statistik analisis item dan analisis subjek kita.


Data di atas merupakan rangkuman statistik item dan subjek kita. Data ini menyajikan mean, SD, mean INFIT dan OUTFIT dan juga reliabilitas baik itu pada item maupun subjek. Dari data tersebut diketahui nilai person reliability adalah 0,51 dan nilai item reliability adalah 0,94. Hal ini menunjukkan bahwa konsistensi jawaban dari subjek kita masih lemah, namun kualitas butir soal dalam instrumen aspek reliabilitasnya cukup baik. Temuan ini serupa dengan yang dihasilkan dari analisis dengan winstep
 
Selain menyajikan data statistik, Quest juga mampu menyajikan peta item dan person. Bagian sebelah kanan merupakan nomor item, sedangkan bagian sebelah kiri adalah pesebaran subjek dimana setiap tanda silang mewakili 50 subjek. Pesebaran item dan subjek disusun dengan skala yang sama sehingga secara umum dapat kita ketahui bahwa soal yang ada memiliki tingkat kesulitan yang lebih tinggi daripada kemampuan subjek. Item nomer 38 merupakan item yang paling sulit, dan secara teoritis tidak ada subjek yang mampu menjawab soal tersebut karena kemampuannya masih di bawah tingkat kesulitan soal tersebut.


Tampilan di atas merupakan distribusi item berdasarkan kecocokannya dengan model. Parameter yang digunakan adalah INFIT MNSQ. Garis putus-putus secara vertikal menandakan rentang nilai INFIT MNSQ yang diterima, yakni antara 0,77 – 1,30 (Adam & Khoo, 1996). Dari gambar tersebut dapat kita ketahui bahwa semua item berada di range nilai yang diterima, sehingga semua item fit dengan model.

Hasil Analisis tentang Item
Hasil analisis tentang item dapat dilihat di dalam file TPAit.out. File ini merupakan versi lengkap dari gambar sebelumnya yang memuat kecocok item dengan model.


Dari gambar di atas dapat diketahui bahwa item nomer 1, dari 185 orang yang menjawab, ada 38 orang yang menjawab dengan benar. Sedangkan angka 0,58 merupatan tingkat kesulitan item (b). Semakin tinggi nilainya, semakin sulit soal tersebut. Untuk nilai b semakin mendekati -2 berarti item tersebut terlalu mudah, begitu juga sebaliknya, semakin mendekati 2 berarti item tersebut terlalu sulit.  Nilai INFIT dan OUTFIT adalah untuk menguji ketepatan item dengan model. Dalam Quest ditetapkan suatu item akan fit dengan model jika nilai INFIT MNSQ berkisar antara 0,77 – 1,33 (Adam & Khoo, 1996). Ada juga yang menggunakan pengujian berdasar nilai INFIT t, yakni menggunakan kisaran antara -2 sampai +2 (Bond & Fox, 2007).

Hasil Analisis Tentang Subjek
Hasil analisis tentang item dapat dilihat di dalam file TPAca.out.


Dari gambar di atas dapat diketahui bahwa subjek nomer 1 (001LK) memiliki skor mentah 13 (jawaban benar 13) dari 40 soal yang dia kerjakan. Estimates merupakan nilai abilitas (θ) setelah dikalibrasikan.  Untuk subjek nomer 1 nilai abilitasnya yaitu -0,82. Semakin tinggi nilai abilitasnya, semakin pintar orang tersebut.  Nilai INFIT dan OUTFIT juga berfungsi sama dengan pada analisis item, yakni untuk menguji ketepatan subjek dengan model. Dalam Quest ditetapkan suatu subjek akan fit dengan model jika nilai INFIT MNSQ berkisar antara 0,77 – 1,33 (Adam & Khoo, 1996). Ada juga yang menggunakan pengujian berdasar nilai INFIT t, yakni menggunakan kisaran antara -2 sampai +2 (Bond & Fox, 2015).

Hasil Analisis tentang Item dengan Teori Klasik
Salah satu kelebihan Quest yaitu mampu menganalisis tes dalam pendekatan modern maupun klasik secara bersamaan. Untuk melihat hasil analisis Teori Tes klasik dapat dilihat pada file TPAtn.out.

Dari gambar di atas kita dapat melihat tiga parameter analisis item pada teori tes klasik, yakni tingkat kesulitan, daya diskriminasi, dan efektivitas distraktor. Pada Quest, tingkat kesulitan dituliskan dalam bentuk persen, bukan proporsi seperti di iteman. Pada contoh di atas item 1 memiliki tingkat kesulitan 20,5% atau 0,20. Hal ini berarti item cukup sulit. Ingat, pada analsis klasik, indeks tingkat kesulitan yang rendah menandakan item yang sulit. Daya diskriminasi item nomer 1 adalah 0,16 (dilihat dari nilai pt-biserial). Hal ini berarti item nomer 1 masih perlu diperbaiki. Untuk melihat efektivitas distraktor, kita lihat presentase subjek dalam memilih opsi yang ada. Pada nomer 1, ternyata semua opsi distraktor dipilih oleh subjek dan pt-biserialnya lebih rendah dari kunci (kunci diberi tanda *). Hal ini menandakan distraktor kita sudah berfungsi dengan baik. Panduan menilai item dari pendekatan teori klasi dapat dibaca ulang disini. Selain tiga parameter teori klasik, output ini juga masih menyajikan hasil analisis tes modern yakni adanya tresholds/nilai logit/tingkat kesulitan Rasch, error, dan INFIT MNSQ.


Selain pada level item, output file ini juga menyajikan informasi mengenai instrumen tes. Dari gambar dapat diketaui tes memiliki nilai mean 13,10 dengan SD 4,09. Reliabilitas internal consistency (Alpha) adalah 0,54 yang berarti tes masih perlu diperbaiki. Di situ juga disebutkan bahwa perhitungan mean, SD, dan Reliabilitas Alpha di kasus ini mengasumsikan jawaban yang kosong diskor sebagai jawaban salah (0).

Referensi
Adam, R.J. & Khoo S.T. (1996). Acer Quest: The Interactive Test Analysis System. Victoria: The Australia Council for Educational Research, 2010, Hlm 1-24


Bond, T. G., & Fox, C. M. (2015). Applying the Rasch Model Fundamental Measurement in the Human Sciences, Third Edition. New York: Routledge

Analisis Item Menggunakan Program Quest

Quest merupakan salah satu software yang dapat digunakan untuk mengalisis item ataupun tes. Elemen sentral program Quest adalah Rasch Model satu parameter (1-PL). Tujuan utama program Quest adalah parameter peserta (kemampuan peserta = θ) dan parameter item (utamanya adalah tingkat kesulitan item b). Meskipun demikian, Quest memiliki keistimewaan karena dapat mengeluarka output berupa analsis teori klasik sekaligus dengan memasukan perintah “itanal” pada syntax. File output dari analisis teori klasik ini memberikan informasi tentang statsitik item dan perangkat tes. Statistik item yang dimaksud adalah tingkat kesulitan item, daya diskriminasi, dan efektivitas distraktor. Program ini dapat menganalisis data respons yang diskor secara dikotomi (1-0) maupun politomi (1-2-3-dst). Program Quest juga mampu melakukan estimasi parameter untuk item maupun untuk person (subjek) dengan menggunakan unconditional (UCON) atau joint maximum likelihood (Adan & Khoo, 1996).

Menyiapkan Data File Analisis Quest
Untuk membuat data file, kita perlu memiliki data identitas responden dan jawaban responden. Data file program quest dapat dibuat di notepad dengan format file adalah .txt. Namun untuk memudahkan dalam menginput kita bisa melakukannya di excel terlebih dahulu baru kemudian kita copy ke notepad. Format dalam membuat data file adalah sebagai berikut. Data file tersebut dapat disownload disini untuk latihan



Keterangan dari gambar tersebut adalah sebagai berikut.
Kolom 1-5 merupakan identitas subjek. Kolom 1-3 adalah nomer absen, kolom 4 adalah jenis kelamin (Laki-laki/perempuan), kolom 5 adalah asal daerah (desa/kota). Sedangkan kolom 6-45 merupakan data jawaban subjek.
Jika kita sudah selesai menginput data, kita simpan file kita dalam format .txt. Ingat, untuk menyimpan file harus satu folder dengan program Quest kita. Kita simpan file tersebut dengan nama TPA-QUEST.txt.

Membuat File Control Quest
File control ini adalah syntax yang kita qunakan untuk memerintahkan program Quest untuk melakukan analisis. File control dibuat dengan format seperti gambar di bawah.

Keterangan:
Title TPA menunjukkan nama identitas file kita
Data_file TPA-QUEST.txt menunjukkan nama data file yang sudah kita buat tadi.
Codes ABCD menunjukkan code data jawaban kita yang ditulis dalam bentuk A, B, C, D.
format id 1-5 items 6-45, format id menunjukkan kolom identitas subjek, sedangkan items 6-45 menunjukkan kolom item berada di kolom 6-45. Data ini kita sesuaikan dengan data file yang sudah kita buat di awal.
key CCBABCCBBACCBBABACBAAACDBBCDCBDABDDBBADB menunjukkan kunci jawaban kita
set width=107 ! page menunjukkan lebar halaman kertas
estimate menunjukkan diestimasi otomatis menurut program Quest
show >> TPAsh.out menunjukkan nama file output hasil analisis secara simultan
show items >> TPAit.out menunjukkan nama file output hasil analisis tentang item (tingkat kesulitan, nilai INFIT MNSQ, INFIT t)
show cases >> TPAca.out menunjukkan nama file output hasil analisis tentang subjek (skor mentah, skor logit, nilai INFIT MNSQ, INFIT t)
itanal >> TPAtn.out menunjukkan nama file output hasil analisis tentang item lengkap baik secara pendekatan teori klasik maupun teori respon butir.
quit menunjukkan kode perintah diakhiri

Jika sudah selesai membuat file control tersebut, kita simpan di folder yang sama dengan program Quest dan data file kita dengan nama TPA-QUEST-CTRL.txt.

Menjalankan Program Quest
Program quest merupakan program berbasis DOS. Untuk menjalankannya silakan doble klik pada program, kemudian akan muncul tampilan seperti ini.


Untuk memerintahkan Quest untuk mulai menganalisis, ketik submit (spasi) nama file control kita. Dalam contoh ini kita ketik submit TPA-QUEST-CTRL.txt. Setelah itu Quest akan mulai menganalisis data kita. Jika sudah tidak ada lagi aktivitas di program Quest artinya data kita sudah selesai dianalisis dan dapat dilihat hasilnya di folder dimana kita menyimpan program Quest, data file, dan file control tadi. File output kita merupakan file yang memiliki format .out.

Demikian cara menganalisis item menggunakan pogram Quest. Untuk melihat informasi apa saja yang didapat dari file output yang ada dan bagaimana cara membacanya akan dijelaskan dalam tulisan berikutnya.

Untuk mendapatkan file dalam format PDF dapat mendownload di sini



Referensi

Adam, R.J. & Khoo S.T. (1996). Acer Quest: The Interactive Test Analysis System. Victoria: The Australia Council for Educational Research, 2010, Hlm 1-24

Identifikasi Bias Butir dengan Uji DIF pada Winstep

Tujuan penyusunan instrumen tes adalah untuk mengukur kemampuan tertentu dari peserta tes. Dari sejumlah peserta tes tersebut tentu memiliki beragam karakteristik, misal jenis kelamin atau asal daerah.  Sebuah butir soal dikatakan adil jika kemungkinan keberhasilan pada butir soal tersebut adalah sama untuk pengambil tes yang memiliki kemampuan sama dari populasi yang sama tanpa memperhatikan karakteristik mereka.  Namun terkadang suatu soal dikerjakan oleh dua orang yang memiliki kemampuan sama ternyata peluang untuk menjawab benar dari kedua orang tersebut berbeda hanya karena perbedaan karakteristik. Bias butir adalah suatu kondisi tes yang tidak adil, tidak konsisten, dan tercemar oleh faktor-faktor di luar faktor kemampuan yang hendak dites. Butir yang bias mengakibatkan suatu tes bersifat diskriminatif atau memihak pada kelompok tertentu yang penyebabnya dapat ditinjau dari berbagai segi yang sama sekali tidak ada hubungannya dengan faktor kemampuan, seperti jenis kelamin, suku, budaya, wilayah, dan lain-lain (Osterlind, 1983). Sehingga bias suatu tes dapat diartikan sebagai ketakvalidan atau error sistematik dalam mengukur anggota-anggota dari suatu kelompok yang diteliti.

Ada 2 pendekatan dasar statistika untuk mendeteksi bias pada suatu tes. Pendekatan pertama yaitu pendekatan eksternal. Pendekatan eksternal ini menggunakan suatu kriteria diluar dari tes. Pendekatan ini juga dikenal dengan model validitas prediktif untuk mendeteksi bias suatu tes dengan metode regresi. Pendekatan kedua yaitu pendekatan internal. Pendekatan internal ini didasarkan pada Differential Item Functioning (DIF) dari butir-butir tes itu yang secara keseluruhannya tentu akan menggambarkan bias suatu tes secara utuh. Hanya saja DIF ini sensitif terhadap tes yang multidimensional, sehingga hasil uji statistiknya yang signifikan belum tentu menunjukkan butir yang diteliti mengandung bias.  Inilah perbedaan mendasar antara bias butir dan DIF. Untuk mendeteksi DIF sendiri ada dua pendekatan yang digunakan, yakni pendekatan dengan Teori Klasik dan Pendekatan Teori Respon Butir. Tulisan ini akan membahas teknis mengidentifikasi biar butir dengan uji DIF melalui pendekatan Teori Respon Butir (Rasch) menggunakan software Winstep.

Untuk latihan kali ini, script yang sudah kita buat dalam tulisan sebelumnya untuk latihan dapat didownload di sini. Sebelum kita mulai mengalaisis DIF dalam Winstep mari kita cermati terlebih dahulu script kita untuk melihat format label subjek kita. Kita buka script kita dalam notepad dan scrol script ke bagian bawah hingga menemukan format seperti ini.

Tampilan di atas merupakan data yang sudah kita input. Mari kita cermati pada bagian label subjek kita. Kolom 1-3 menunjukkan nomor absen, kolom 4 menunjukkan jenis kelamin (laki-laki – perempuan), dan kolom 5 menunjukkan asal daerah (kota - desa). Sehingga jika kita ingin menguji DIF antar jenis kelamin, target sasaran kita adalah kolom ke-4 sejumlah 1 karakter.

Mari kita mulai analisis di winstep. Jalankan winstep, klik file – open file, kemudian pilih file script kita. Jika file sudah dibuka, silakan tekan enter, kemudian tekan enter lagi, maka winstep akan mulai menganalisis. Jika sudah selesai menganalisis, klik bagian output tables 30. Item: DIFF,betwee/within. Karena kita hendak melihat apakah ada bias butir antar jenis kelamin, maka pada kolom DIF masukan $S4W1 (pada label subjek kolom ke 4 sejumlah 1 karakter). Untuk menampilkan plot DIF kita, centang bagian display plot.
Jika sudah, tekan OK, lalu pilih label dan kemudian winstep akan mulai menganalisis. Akan ada dua output yang diberikan winstep yakni berupa output hasil analisis statistik dalam format txt dan output plot dalam format excel. Mari kita lihat output dalam format txt terlebih dahulu.

Untuk melihat signifikansi DIF, silakan langsung scroll ke bawah di bagian tabel 30.4. Untuk melihat ada tidaknya item yang DIF, kita lihat probabilitnya. Jika probability  <0,05, maka ada perbedaan yang signifikan antara laki-laki dan perempuan. Dari tampilan di atas terlihat bahwa item nomer 33 memiliki probability sebesar 0,0179 (<0,05), jadi item tersebut teridentifikasi DIF atau terindikasi ada bias butir. Selanjutnya mari kita lihat output plot dari excel.

 Plot ini adalah versi visual dari analisis statistik yang sudah ditampilkan dalam output tabel 30.4. Grafik menunjukan tingkat kesulitan item relatif bagi masing-masing kelompok. Semakin tinggi titik grafik, semakin sulit item tersebut bagi kelompok itu. Terdapat tiga buah kurva berdasarkan jenis kelamin, yakni L (laki-laki), P (perempuan), dan tanda * (bintang) yang menunjukkan nilai rata-ratanya. Dari grafik tersebut secara kasar terlihat bahwa jarak nilai DIF measure antara L dan P yang paling jauh adalah pada item nomer 33. Sedangkan pada item lainnya jarak antara L dan P tidak terlalu jauh. Hal ini menunjukkan pada item 33 perbedaan tingkat kesulitan antara laki-laki dan perempuan berbeda cukup besar. Dalam hal ini perempuan lebih diuntungkan karena item tersebut nampak lebih sulit bagi laki-laki dibandingkan perempuan. Oleh karena itu item nomer 33 ada baiknya ditinjau ulang apakah memang benar item tersebut lebih menguntungkan perempuan dibandingkan laki-laki. Kita bisa mengulangi prosedur tersebut untuk mengidentifikasi apakah ada bias item antara subjek yang berbeda asal daerahnya (desa – kota).


Referensi:

Osterlind, S. J. (1983). Test item bias. Beverly Hills, CA: Sage Publication Inc.

Analisis Instrumen Tes dengan Winstep

Selain menyajikan hasil analisis pada level item, Winstep juga mampu menyediakan hasil analisis pada tes. Script yang sudah kita buat dalam tulisan sebelumnya untuk latihan dapat didownload di siniUntuk mendapatkan informasi mengenai ringkasan statistik dari alat tes yang disajikan kita bisa munculkan dari menu output tables lalu pilih tabel 3.1 summary statistics. Akan muncul tampilan seperti ini

Keterangan dari output tersebut akan dijelaskan di bawah
  • Mean measure pada person adalah sebesar -0,85. Nilai mean yang lebih kecil dari 0 menunjukkan bahwa kecenderungan abilitas subjek lebih kecil dibandingkan dengan tingkat kesulitan soal.
  • Nilai Alpha Cronbach (KR-20) adalah koefisien reliabilitas yang dihitung berdasarkan pendekatan teori tes klasik. Nilai ini merupakan interaksi antara person dan item secara keseluruhan. Nilai Alpha adalah sebesar 0,54. Hal ini menunjukan reliabilitas tes ecara umum masih belum memuaskan
  • Nilai person reliability adalah 0,49 dan nilai item reliability adalah 0,95. Hal ini menunjukkan bahwa konsistensi jawaban dari subjek kita masih lemah, namun kualitas butir soal dalam instrumen aspek reliabilitasnya cukup baik.
  • Nilai INFIT dan OUTFIT MNSQ niai yang ideal adalah yang mendekati 1 sedangkan untuk nilai INFIT dan OUTFIT ZSTD nilai yang ideal adalah mendekati 0. Untuk tabel person dan item, nilai meannya INFIT dan OUTFIT MNSQ serta INFIT dan OUTFIT ZSTD sudah mendekati ideal.   
  • Nilai separation juga menunjukkan kualitas instrumen maupun kualitas subjek kita. Semakin besar nilai separation semakin bagus karena bisa mengidentifikasi kelompok subjek (mampu – tidak mampu) dan kelompok butir (sulit – mudah) yang lebih luas. Rumus yang bisa digunakan untuk melihat pengelompokan secara lebih teliti disebut pemisahan strata dengan formula sebagai berikut:
           H = [(4 X separation) + 1] / 3
  • Jadi misalkan item separation kita adalah 4,18 maka H = [(4 X 4,18) + 1] / 3 yakni 5,9 atau dibulatkan 6, yang berarti terdapat 6 kelompok butir soal.

Secara lebih lengkap, Fisher, W.P. Jr memberikan panduan untuk menilai kualitas instrumen yang dapat dilihat di tabel di bawah.

Fungsi Informasi Pengukuran
Setiap pengukuran menghasilkan informasi mengenai hasil pengukuran. Informasi pengukuran yang diinginkan bukan berdasar pada individu yang diukur, melainkan informasi pada fokus pengukuran. Informasi pengukuran ini berdasar pada hubungan antara tes dengan individu. Sumintono dan Widhiarso (2015) menjelaskan beberapa manfaat dari fungsi informasi tes adalah sebagai berikut:
  1. Fungsi informasi akan menunjukkan untuk apa pengukuran dilakukan. Sebagai contoh, untuk tes screening, tes remidi, dan tes untuk Anak Berkebutuhan Khusus memusatkan tes dengan fungsi informasi seperti grafik warna merah. Sebaliknya jika tes dilakukan untuk seleksi yang ketat, fungsi informasi tes yang dibutuhkan adalah tes dengan fungsi informasi seperti pada grafik warna hitam.
  2. Fungsi informasi menunjukkan reliabilitas pengukuran yang dilakukan. Model Rasch menekankan pada koefisien separasi (item separation). Semakin tinggi puncak informasi yang dapat dicapai, semakin tinggi nilai reliabilitas pengukuran yang dilakukan.


Untuk melihat fungsi informasi pengukuran, kita dapat melihat melalui menu graph kemudian pilih test information function, maka akan diperoleh outut seperti di bawah ini.

Dari grafik di atas kita dapat menyimpulkan bahwa dari 40 soal yang kita sajikan pada 185 subjek menunjukkan item-item soalnya cocok untuk menetahui tingkat abilitas siswa yang sedang saja.

Referensi
Sumintono, B., & Widhiarso, W. (2015). Aplikasi Pemodelan Rasch pada Assessment PendidikanCimahi: Trim Komunikata.


Analisis Item Menggunakan Winstep

Tulisan ini merupakan kelanjutan dari tulisan Analisis Rasch Menggunakan Winstep. Tulisan ini akan mencoba mengeksplorasi apa saja yang bisa kita ketahui dari analisis Rasch dengan Winstep. Aplikasi Winstep memberikan banyak sekali output analisis yang dapat kita manfaatkan sesuai kebutuhan kita. Pilihan output itu dapat dilihat di output tables untuk melihat hasil analisis secara umum, output files untuk menyajikan keluaran di file lain seperti excel atau SPSS, dan juga bisa berupa graph untuk menampilkan kurva tes atau item. Winstep juga menyajikan output yang memberikan informasi mengenai item dan juga mengenai responden kita. Kali ini kita akan fokus mengeksplore keluaran winstep yang menganalisis item terlebih dahulu.

Untuk mulai menganalisis, silakan buka winstep kita dan buka script winstep kita dengan cara kli file – open file, kemudian pilih file script kita. Script yang sudah kita buat dalam tulisan sebelumnya untuk latihan dapat didownload di sini. Jika file sudah dibuka, silakan tekan enter, kemudian tekan enter lagi, maka winstep akan mulai menganalisis. Jika sudah selesai menganalisis, klik bagian output tables.

Dari tampilan tersebut banyak sekali pilihan output yang bisa dikeluarkan baik itu yang memberikan informasi terkait item maupun terkait responden (person). Kita mulai saja untuk melihat analisis item kita dengan winstep.

Melihat Peta Item-Person
Salah satu keistimewaan analisis Rasch dengan Winstep adalah adanya peta yang menggambarkan pesebaran kemampuan subjek dan sebaran tingkat kesulitan item dengan skala yang sama. Peta ini disebut Wright Map yang tidak lain adalah peta person-item. Untuk melihat peta item, kita dapat klik output tables – 12. Item: map. Maka akan diperoleh output seperti gambar di bawah.

Pada sisi kiri adalah pesebaran kemampuan subjek, sedangkan pada sisi kanan adalah pesebaran item. Dari peta tersebut dapat diketahui bahwa secara umum soal-soal dalam tes lebih sulit jika dibanding dengan kemampuan subjek. Item yang paling sulit adalah item nomer 38 (i38) yang berada di posisi paling atas. Secara teoritis dengan soal itu tidak akan ada subjek yang punya peluang menjawab benar soal tersebut karena memiliki kemampuan yang lebih rendah dari tingkat kesulitan soal tersebut. Untuk melihat tingkat kesulitan item lebih detail akan diulas di bawah.

Melihat Tingkat kesulitan item
Untuk mengetahui tingka kesulitan item, pada menu di bagian atas kita klik outupt tables, lalu pilih 13. Item:measure. Maka akan keluar output seperti gambar di bawah.

Kalau kita perhatikan, output tersebut sudah diurutkan oleh Winstep berdasarkan tingkat kesulitannya. Item yang memiliki tingkat kesulitan paling tinggi berada di paling atas, sedangkan item yang paling mudah berada di paling bawah. Hal ini juga sama dengan yang ditampilkan dalam peta item yang sudah dibahas di atas. Mari kita bedah satu per-satu tampilan di atas. Entry number menunjukkan urutan kita dalam menginput data. Karena kita menginput data sesuai dengan urutan nomor item, maka entri number disini juga sama dengan nomor item. Hal ini bisa dilihat bahwa entry number sama dengan kolom item di paling kanan. Total score merupakan jumlah penjawab benar pada soal tersebut. Total count adalah jumlah penjawab pada soal tersebut.  Sedangkan measure menunjukkan tingkat kesulitan item kita. Infit-outfit MNSQ dan ZSTD menunjukkan apakah item kita fit sesuai dengan model Rasch. PT-Measure corr merupakan kepanjangan dari Point Measure Correlation, atau hampir sama dengan korelasi point-biserial dalam teori tes klasik. Parameter ini menunjukkan daya diskriminasi ietm. Paduan hal mengenai ini sudah dibahas dalam tulisan mengenai pengenalan Rasch model.

Ada beberapa hal yang perlu kita perhatikan dari output analisis Rasch dengan wisntep ini. Nilai logit (measure) yang tinggi menunjukkan bahwa item tersebut memiliki tingkat kesulitan yang tinggi. Hal ini berkorelasi dengan total score, dimana jumlah penjawab benar yang sedikit dalam total score berkorelasi dengan nilai measure yang semakin tinggi. Data measure item ini juga memiliki skala yang sama. Sebagai contoh item nomer 38 nilai measurenya adalah 1,50 yang hampir dua kali dari item nomer 25 yang nilai measurenya adalah 0,73. Jadi dapat dikatakan item nomer 38 tingkat kesulitannya hampir dua kali dari item nomer 25. Algoritma perhitungan melalui probabilitas odd ratio dan transformasi logit inilah yang dapat menunjukkan secara pasti tingkat kesulitan dalam interval yang sama. Hasil analisis ini tentu akan menghasilkan output yang berbeda lagi jika cara skoring kita diubah dengan mengidentifikasi item missing misalnya karena item missing belum tentu akan di skor 0 (jawaban salah).

Nilai measure ini juga disusun seperti nilai Z dimana nilai biasanya akan berkisar antara -3 sampai +3. Namun nilai dalam hal ini nilai logit diatas 2 atau di bawah -2 sudah bisa dianggap sebagai nilai yang ektstrem. Suminto dan Widhiarso (2015) memberikan panduan dalam menilai item tersebut menjadi empat kategori, yakni:
  1. Nilai measure < -1 = item sangat mudah
  2. Nilai measure -1 s.d. 0 = item mudah
  3. Nilai measure 0 s.d. 1 = item sulit
  4. Nilai measure > 1 = item sangat sulit

Tingkat Kesesuaian Item (Item Fit)
Tingkat kesesuaian item ini digunakan untuk melihat ketepatan item dengan model atau item fit. Item fit menjelaskan apakah item soal kita berfungsi normal melakukan pengukuran atau tidak.  Jika ada item yang tidak fit, hal ini mengindikasikan adanya miskonsepsi subjek dalam menjawab soal tersebut. Untuk mengetahui tingka kesulitan item, pada menu di bagian atas kita klik outupt tables, lalu pilih 10. Item:fit order Maka akan keluar output seperti gambar di bawah.

Menurut Boone, Staver, & Yale (2014), nilai outfit means-square, outfit z-standard, dan point measure correlation  adalah kriteria yang digunakan untuk melihat tingkat kesesuaian butir. Jika item tersebut tidak memenuhi kriteria ada baiknnya item tersebut diperbaiki atau diganti. Panduan untuk menilai kriteria kesesuaian butir menurut Boone, et al (2014) adalah sebagai berikut
  1. Nilai Outfit Mean Square (MNSQ) yang diterima : 0,5 < MNSQ < 1,5
  2. Nilai outfit Z-standard (ZSTD) yang diterima: -2,0 < ZSTD < +2,0
  3. Nilai Point Measure Correlation yang diterima: 0,4 < pt measure corr <0,85
Karena point measure correlation pada prinsipnya sama dengan korelasi point-biserial pada teori tes klasik, Alagumalai, Curtis, & Hungi (2005) mengklasifikasikan nilai Point Measure Correlation tersebut menjadi sangat bagus (>0,40), bagus (0,30–0,39), cukup (0,20-0,29), tidak mampu mendiskriminasi (0,00-0,19), dan membutuhkan pemeriksaan terhadap butir (<0,00).

Jika kita lihat pada output tesebut, dapat kita lihat bahwa Winstep sudah mengurutkan item berdasarkan item mana saja yang tidak fit. Item yang tidak fit biasanya ditaruh di urutan paling atas. Seperti pada tampilan contoh di atas, item-item yang ditampilkan memiliki nilai Point Measure Correlation yang rendah meskipun kalau dari kriteria yang lain (outfit means-square dan outfit z-standard) masih memenuhi syarat. Kemputusan untuk memperbaiki, mengganti atau membiarkan soal tetap berada di tangan peneliti atau pembuat soal sesuai dengan telaah kualitas soal secara kualitatif.



Referensi
Alagumalai, S., Curtis, D. D., & Hungi, N. (2005). Applied Rasch Measurement: A Book of Exemplars. Dordrecht: Springer

Boone, W. J., Staver, R. J., & Yale, S. M. (2014). Rasch Analysis in the Human Sciences. London: Springer.

Sumintono, B., & Widhiarso, W. (2015). Aplikasi Pemodelan Rasch pada Assessment PendidikanCimahi: Trim Komunikata. 
Membaca Output Hasil Analisis Program Quest
Tulisan sebelumnya telah menjelaskan bagaimana cara menganalisis item dengan program Quest, mulai dari membuat data file sampai menjalankan program Quest. Dari hasil analisis dengan Quest kita telah memperoleh empat file output, yakni TPAsh, TPAit, TPAca, TPAtn yang semuanya memiliki format .out. Sekarang kita akan melihat satu per satu file tersebut dan melihat informasi apa yang bisa kita peroleh dari masing-masing file tersebut.

Hasil Analisis Secara Simultan
Hasil analisis secara simultan dapat dilihat pada file TPAsh.out. File ini menyajikan ringkasan statistik analisis item dan analisis subjek kita.


Data di atas merupakan rangkuman statistik item dan subjek kita. Data ini menyajikan mean, SD, mean INFIT dan OUTFIT dan juga reliabilitas baik itu pada item maupun subjek. Dari data tersebut diketahui nilai person reliability adalah 0,51 dan nilai item reliability adalah 0,94. Hal ini menunjukkan bahwa konsistensi jawaban dari subjek kita masih lemah, namun kualitas butir soal dalam instrumen aspek reliabilitasnya cukup baik. Temuan ini serupa dengan yang dihasilkan dari analisis dengan winstep
 
Selain menyajikan data statistik, Quest juga mampu menyajikan peta item dan person. Bagian sebelah kanan merupakan nomor item, sedangkan bagian sebelah kiri adalah pesebaran subjek dimana setiap tanda silang mewakili 50 subjek. Pesebaran item dan subjek disusun dengan skala yang sama sehingga secara umum dapat kita ketahui bahwa soal yang ada memiliki tingkat kesulitan yang lebih tinggi daripada kemampuan subjek. Item nomer 38 merupakan item yang paling sulit, dan secara teoritis tidak ada subjek yang mampu menjawab soal tersebut karena kemampuannya masih di bawah tingkat kesulitan soal tersebut.


Tampilan di atas merupakan distribusi item berdasarkan kecocokannya dengan model. Parameter yang digunakan adalah INFIT MNSQ. Garis putus-putus secara vertikal menandakan rentang nilai INFIT MNSQ yang diterima, yakni antara 0,77 – 1,30 (Adam & Khoo, 1996). Dari gambar tersebut dapat kita ketahui bahwa semua item berada di range nilai yang diterima, sehingga semua item fit dengan model.

Hasil Analisis tentang Item
Hasil analisis tentang item dapat dilihat di dalam file TPAit.out. File ini merupakan versi lengkap dari gambar sebelumnya yang memuat kecocok item dengan model.


Dari gambar di atas dapat diketahui bahwa item nomer 1, dari 185 orang yang menjawab, ada 38 orang yang menjawab dengan benar. Sedangkan angka 0,58 merupatan tingkat kesulitan item (b). Semakin tinggi nilainya, semakin sulit soal tersebut. Untuk nilai b semakin mendekati -2 berarti item tersebut terlalu mudah, begitu juga sebaliknya, semakin mendekati 2 berarti item tersebut terlalu sulit.  Nilai INFIT dan OUTFIT adalah untuk menguji ketepatan item dengan model. Dalam Quest ditetapkan suatu item akan fit dengan model jika nilai INFIT MNSQ berkisar antara 0,77 – 1,33 (Adam & Khoo, 1996). Ada juga yang menggunakan pengujian berdasar nilai INFIT t, yakni menggunakan kisaran antara -2 sampai +2 (Bond & Fox, 2007).

Hasil Analisis Tentang Subjek
Hasil analisis tentang item dapat dilihat di dalam file TPAca.out.


Dari gambar di atas dapat diketahui bahwa subjek nomer 1 (001LK) memiliki skor mentah 13 (jawaban benar 13) dari 40 soal yang dia kerjakan. Estimates merupakan nilai abilitas (θ) setelah dikalibrasikan.  Untuk subjek nomer 1 nilai abilitasnya yaitu -0,82. Semakin tinggi nilai abilitasnya, semakin pintar orang tersebut.  Nilai INFIT dan OUTFIT juga berfungsi sama dengan pada analisis item, yakni untuk menguji ketepatan subjek dengan model. Dalam Quest ditetapkan suatu subjek akan fit dengan model jika nilai INFIT MNSQ berkisar antara 0,77 – 1,33 (Adam & Khoo, 1996). Ada juga yang menggunakan pengujian berdasar nilai INFIT t, yakni menggunakan kisaran antara -2 sampai +2 (Bond & Fox, 2015).

Hasil Analisis tentang Item dengan Teori Klasik
Salah satu kelebihan Quest yaitu mampu menganalisis tes dalam pendekatan modern maupun klasik secara bersamaan. Untuk melihat hasil analisis Teori Tes klasik dapat dilihat pada file TPAtn.out.

Dari gambar di atas kita dapat melihat tiga parameter analisis item pada teori tes klasik, yakni tingkat kesulitan, daya diskriminasi, dan efektivitas distraktor. Pada Quest, tingkat kesulitan dituliskan dalam bentuk persen, bukan proporsi seperti di iteman. Pada contoh di atas item 1 memiliki tingkat kesulitan 20,5% atau 0,20. Hal ini berarti item cukup sulit. Ingat, pada analsis klasik, indeks tingkat kesulitan yang rendah menandakan item yang sulit. Daya diskriminasi item nomer 1 adalah 0,16 (dilihat dari nilai pt-biserial). Hal ini berarti item nomer 1 masih perlu diperbaiki. Untuk melihat efektivitas distraktor, kita lihat presentase subjek dalam memilih opsi yang ada. Pada nomer 1, ternyata semua opsi distraktor dipilih oleh subjek dan pt-biserialnya lebih rendah dari kunci (kunci diberi tanda *). Hal ini menandakan distraktor kita sudah berfungsi dengan baik. Panduan menilai item dari pendekatan teori klasi dapat dibaca ulang disini. Selain tiga parameter teori klasik, output ini juga masih menyajikan hasil analisis tes modern yakni adanya tresholds/nilai logit/tingkat kesulitan Rasch, error, dan INFIT MNSQ.


Selain pada level item, output file ini juga menyajikan informasi mengenai instrumen tes. Dari gambar dapat diketaui tes memiliki nilai mean 13,10 dengan SD 4,09. Reliabilitas internal consistency (Alpha) adalah 0,54 yang berarti tes masih perlu diperbaiki. Di situ juga disebutkan bahwa perhitungan mean, SD, dan Reliabilitas Alpha di kasus ini mengasumsikan jawaban yang kosong diskor sebagai jawaban salah (0).

Referensi
Adam, R.J. & Khoo S.T. (1996). Acer Quest: The Interactive Test Analysis System. Victoria: The Australia Council for Educational Research, 2010, Hlm 1-24


Bond, T. G., & Fox, C. M. (2015). Applying the Rasch Model Fundamental Measurement in the Human Sciences, Third Edition. New York: Routledge
Analisis Item Menggunakan Program Quest
Quest merupakan salah satu software yang dapat digunakan untuk mengalisis item ataupun tes. Elemen sentral program Quest adalah Rasch Model satu parameter (1-PL). Tujuan utama program Quest adalah parameter peserta (kemampuan peserta = θ) dan parameter item (utamanya adalah tingkat kesulitan item b). Meskipun demikian, Quest memiliki keistimewaan karena dapat mengeluarka output berupa analsis teori klasik sekaligus dengan memasukan perintah “itanal” pada syntax. File output dari analisis teori klasik ini memberikan informasi tentang statsitik item dan perangkat tes. Statistik item yang dimaksud adalah tingkat kesulitan item, daya diskriminasi, dan efektivitas distraktor. Program ini dapat menganalisis data respons yang diskor secara dikotomi (1-0) maupun politomi (1-2-3-dst). Program Quest juga mampu melakukan estimasi parameter untuk item maupun untuk person (subjek) dengan menggunakan unconditional (UCON) atau joint maximum likelihood (Adan & Khoo, 1996).

Menyiapkan Data File Analisis Quest
Untuk membuat data file, kita perlu memiliki data identitas responden dan jawaban responden. Data file program quest dapat dibuat di notepad dengan format file adalah .txt. Namun untuk memudahkan dalam menginput kita bisa melakukannya di excel terlebih dahulu baru kemudian kita copy ke notepad. Format dalam membuat data file adalah sebagai berikut. Data file tersebut dapat disownload disini untuk latihan



Keterangan dari gambar tersebut adalah sebagai berikut.
Kolom 1-5 merupakan identitas subjek. Kolom 1-3 adalah nomer absen, kolom 4 adalah jenis kelamin (Laki-laki/perempuan), kolom 5 adalah asal daerah (desa/kota). Sedangkan kolom 6-45 merupakan data jawaban subjek.
Jika kita sudah selesai menginput data, kita simpan file kita dalam format .txt. Ingat, untuk menyimpan file harus satu folder dengan program Quest kita. Kita simpan file tersebut dengan nama TPA-QUEST.txt.

Membuat File Control Quest
File control ini adalah syntax yang kita qunakan untuk memerintahkan program Quest untuk melakukan analisis. File control dibuat dengan format seperti gambar di bawah.

Keterangan:
Title TPA menunjukkan nama identitas file kita
Data_file TPA-QUEST.txt menunjukkan nama data file yang sudah kita buat tadi.
Codes ABCD menunjukkan code data jawaban kita yang ditulis dalam bentuk A, B, C, D.
format id 1-5 items 6-45, format id menunjukkan kolom identitas subjek, sedangkan items 6-45 menunjukkan kolom item berada di kolom 6-45. Data ini kita sesuaikan dengan data file yang sudah kita buat di awal.
key CCBABCCBBACCBBABACBAAACDBBCDCBDABDDBBADB menunjukkan kunci jawaban kita
set width=107 ! page menunjukkan lebar halaman kertas
estimate menunjukkan diestimasi otomatis menurut program Quest
show >> TPAsh.out menunjukkan nama file output hasil analisis secara simultan
show items >> TPAit.out menunjukkan nama file output hasil analisis tentang item (tingkat kesulitan, nilai INFIT MNSQ, INFIT t)
show cases >> TPAca.out menunjukkan nama file output hasil analisis tentang subjek (skor mentah, skor logit, nilai INFIT MNSQ, INFIT t)
itanal >> TPAtn.out menunjukkan nama file output hasil analisis tentang item lengkap baik secara pendekatan teori klasik maupun teori respon butir.
quit menunjukkan kode perintah diakhiri

Jika sudah selesai membuat file control tersebut, kita simpan di folder yang sama dengan program Quest dan data file kita dengan nama TPA-QUEST-CTRL.txt.

Menjalankan Program Quest
Program quest merupakan program berbasis DOS. Untuk menjalankannya silakan doble klik pada program, kemudian akan muncul tampilan seperti ini.


Untuk memerintahkan Quest untuk mulai menganalisis, ketik submit (spasi) nama file control kita. Dalam contoh ini kita ketik submit TPA-QUEST-CTRL.txt. Setelah itu Quest akan mulai menganalisis data kita. Jika sudah tidak ada lagi aktivitas di program Quest artinya data kita sudah selesai dianalisis dan dapat dilihat hasilnya di folder dimana kita menyimpan program Quest, data file, dan file control tadi. File output kita merupakan file yang memiliki format .out.

Demikian cara menganalisis item menggunakan pogram Quest. Untuk melihat informasi apa saja yang didapat dari file output yang ada dan bagaimana cara membacanya akan dijelaskan dalam tulisan berikutnya.

Untuk mendapatkan file dalam format PDF dapat mendownload di sini



Referensi

Adam, R.J. & Khoo S.T. (1996). Acer Quest: The Interactive Test Analysis System. Victoria: The Australia Council for Educational Research, 2010, Hlm 1-24
Identifikasi Bias Butir dengan Uji DIF pada Winstep
Tujuan penyusunan instrumen tes adalah untuk mengukur kemampuan tertentu dari peserta tes. Dari sejumlah peserta tes tersebut tentu memiliki beragam karakteristik, misal jenis kelamin atau asal daerah.  Sebuah butir soal dikatakan adil jika kemungkinan keberhasilan pada butir soal tersebut adalah sama untuk pengambil tes yang memiliki kemampuan sama dari populasi yang sama tanpa memperhatikan karakteristik mereka.  Namun terkadang suatu soal dikerjakan oleh dua orang yang memiliki kemampuan sama ternyata peluang untuk menjawab benar dari kedua orang tersebut berbeda hanya karena perbedaan karakteristik. Bias butir adalah suatu kondisi tes yang tidak adil, tidak konsisten, dan tercemar oleh faktor-faktor di luar faktor kemampuan yang hendak dites. Butir yang bias mengakibatkan suatu tes bersifat diskriminatif atau memihak pada kelompok tertentu yang penyebabnya dapat ditinjau dari berbagai segi yang sama sekali tidak ada hubungannya dengan faktor kemampuan, seperti jenis kelamin, suku, budaya, wilayah, dan lain-lain (Osterlind, 1983). Sehingga bias suatu tes dapat diartikan sebagai ketakvalidan atau error sistematik dalam mengukur anggota-anggota dari suatu kelompok yang diteliti.

Ada 2 pendekatan dasar statistika untuk mendeteksi bias pada suatu tes. Pendekatan pertama yaitu pendekatan eksternal. Pendekatan eksternal ini menggunakan suatu kriteria diluar dari tes. Pendekatan ini juga dikenal dengan model validitas prediktif untuk mendeteksi bias suatu tes dengan metode regresi. Pendekatan kedua yaitu pendekatan internal. Pendekatan internal ini didasarkan pada Differential Item Functioning (DIF) dari butir-butir tes itu yang secara keseluruhannya tentu akan menggambarkan bias suatu tes secara utuh. Hanya saja DIF ini sensitif terhadap tes yang multidimensional, sehingga hasil uji statistiknya yang signifikan belum tentu menunjukkan butir yang diteliti mengandung bias.  Inilah perbedaan mendasar antara bias butir dan DIF. Untuk mendeteksi DIF sendiri ada dua pendekatan yang digunakan, yakni pendekatan dengan Teori Klasik dan Pendekatan Teori Respon Butir. Tulisan ini akan membahas teknis mengidentifikasi biar butir dengan uji DIF melalui pendekatan Teori Respon Butir (Rasch) menggunakan software Winstep.

Untuk latihan kali ini, script yang sudah kita buat dalam tulisan sebelumnya untuk latihan dapat didownload di sini. Sebelum kita mulai mengalaisis DIF dalam Winstep mari kita cermati terlebih dahulu script kita untuk melihat format label subjek kita. Kita buka script kita dalam notepad dan scrol script ke bagian bawah hingga menemukan format seperti ini.

Tampilan di atas merupakan data yang sudah kita input. Mari kita cermati pada bagian label subjek kita. Kolom 1-3 menunjukkan nomor absen, kolom 4 menunjukkan jenis kelamin (laki-laki – perempuan), dan kolom 5 menunjukkan asal daerah (kota - desa). Sehingga jika kita ingin menguji DIF antar jenis kelamin, target sasaran kita adalah kolom ke-4 sejumlah 1 karakter.

Mari kita mulai analisis di winstep. Jalankan winstep, klik file – open file, kemudian pilih file script kita. Jika file sudah dibuka, silakan tekan enter, kemudian tekan enter lagi, maka winstep akan mulai menganalisis. Jika sudah selesai menganalisis, klik bagian output tables 30. Item: DIFF,betwee/within. Karena kita hendak melihat apakah ada bias butir antar jenis kelamin, maka pada kolom DIF masukan $S4W1 (pada label subjek kolom ke 4 sejumlah 1 karakter). Untuk menampilkan plot DIF kita, centang bagian display plot.
Jika sudah, tekan OK, lalu pilih label dan kemudian winstep akan mulai menganalisis. Akan ada dua output yang diberikan winstep yakni berupa output hasil analisis statistik dalam format txt dan output plot dalam format excel. Mari kita lihat output dalam format txt terlebih dahulu.

Untuk melihat signifikansi DIF, silakan langsung scroll ke bawah di bagian tabel 30.4. Untuk melihat ada tidaknya item yang DIF, kita lihat probabilitnya. Jika probability  <0,05, maka ada perbedaan yang signifikan antara laki-laki dan perempuan. Dari tampilan di atas terlihat bahwa item nomer 33 memiliki probability sebesar 0,0179 (<0,05), jadi item tersebut teridentifikasi DIF atau terindikasi ada bias butir. Selanjutnya mari kita lihat output plot dari excel.

 Plot ini adalah versi visual dari analisis statistik yang sudah ditampilkan dalam output tabel 30.4. Grafik menunjukan tingkat kesulitan item relatif bagi masing-masing kelompok. Semakin tinggi titik grafik, semakin sulit item tersebut bagi kelompok itu. Terdapat tiga buah kurva berdasarkan jenis kelamin, yakni L (laki-laki), P (perempuan), dan tanda * (bintang) yang menunjukkan nilai rata-ratanya. Dari grafik tersebut secara kasar terlihat bahwa jarak nilai DIF measure antara L dan P yang paling jauh adalah pada item nomer 33. Sedangkan pada item lainnya jarak antara L dan P tidak terlalu jauh. Hal ini menunjukkan pada item 33 perbedaan tingkat kesulitan antara laki-laki dan perempuan berbeda cukup besar. Dalam hal ini perempuan lebih diuntungkan karena item tersebut nampak lebih sulit bagi laki-laki dibandingkan perempuan. Oleh karena itu item nomer 33 ada baiknya ditinjau ulang apakah memang benar item tersebut lebih menguntungkan perempuan dibandingkan laki-laki. Kita bisa mengulangi prosedur tersebut untuk mengidentifikasi apakah ada bias item antara subjek yang berbeda asal daerahnya (desa – kota).


Referensi:

Osterlind, S. J. (1983). Test item bias. Beverly Hills, CA: Sage Publication Inc.

Analisis Instrumen Tes dengan Winstep
Selain menyajikan hasil analisis pada level item, Winstep juga mampu menyediakan hasil analisis pada tes. Script yang sudah kita buat dalam tulisan sebelumnya untuk latihan dapat didownload di siniUntuk mendapatkan informasi mengenai ringkasan statistik dari alat tes yang disajikan kita bisa munculkan dari menu output tables lalu pilih tabel 3.1 summary statistics. Akan muncul tampilan seperti ini

Keterangan dari output tersebut akan dijelaskan di bawah
  • Mean measure pada person adalah sebesar -0,85. Nilai mean yang lebih kecil dari 0 menunjukkan bahwa kecenderungan abilitas subjek lebih kecil dibandingkan dengan tingkat kesulitan soal.
  • Nilai Alpha Cronbach (KR-20) adalah koefisien reliabilitas yang dihitung berdasarkan pendekatan teori tes klasik. Nilai ini merupakan interaksi antara person dan item secara keseluruhan. Nilai Alpha adalah sebesar 0,54. Hal ini menunjukan reliabilitas tes ecara umum masih belum memuaskan
  • Nilai person reliability adalah 0,49 dan nilai item reliability adalah 0,95. Hal ini menunjukkan bahwa konsistensi jawaban dari subjek kita masih lemah, namun kualitas butir soal dalam instrumen aspek reliabilitasnya cukup baik.
  • Nilai INFIT dan OUTFIT MNSQ niai yang ideal adalah yang mendekati 1 sedangkan untuk nilai INFIT dan OUTFIT ZSTD nilai yang ideal adalah mendekati 0. Untuk tabel person dan item, nilai meannya INFIT dan OUTFIT MNSQ serta INFIT dan OUTFIT ZSTD sudah mendekati ideal.   
  • Nilai separation juga menunjukkan kualitas instrumen maupun kualitas subjek kita. Semakin besar nilai separation semakin bagus karena bisa mengidentifikasi kelompok subjek (mampu – tidak mampu) dan kelompok butir (sulit – mudah) yang lebih luas. Rumus yang bisa digunakan untuk melihat pengelompokan secara lebih teliti disebut pemisahan strata dengan formula sebagai berikut:
           H = [(4 X separation) + 1] / 3
  • Jadi misalkan item separation kita adalah 4,18 maka H = [(4 X 4,18) + 1] / 3 yakni 5,9 atau dibulatkan 6, yang berarti terdapat 6 kelompok butir soal.

Secara lebih lengkap, Fisher, W.P. Jr memberikan panduan untuk menilai kualitas instrumen yang dapat dilihat di tabel di bawah.

Fungsi Informasi Pengukuran
Setiap pengukuran menghasilkan informasi mengenai hasil pengukuran. Informasi pengukuran yang diinginkan bukan berdasar pada individu yang diukur, melainkan informasi pada fokus pengukuran. Informasi pengukuran ini berdasar pada hubungan antara tes dengan individu. Sumintono dan Widhiarso (2015) menjelaskan beberapa manfaat dari fungsi informasi tes adalah sebagai berikut:
  1. Fungsi informasi akan menunjukkan untuk apa pengukuran dilakukan. Sebagai contoh, untuk tes screening, tes remidi, dan tes untuk Anak Berkebutuhan Khusus memusatkan tes dengan fungsi informasi seperti grafik warna merah. Sebaliknya jika tes dilakukan untuk seleksi yang ketat, fungsi informasi tes yang dibutuhkan adalah tes dengan fungsi informasi seperti pada grafik warna hitam.
  2. Fungsi informasi menunjukkan reliabilitas pengukuran yang dilakukan. Model Rasch menekankan pada koefisien separasi (item separation). Semakin tinggi puncak informasi yang dapat dicapai, semakin tinggi nilai reliabilitas pengukuran yang dilakukan.


Untuk melihat fungsi informasi pengukuran, kita dapat melihat melalui menu graph kemudian pilih test information function, maka akan diperoleh outut seperti di bawah ini.

Dari grafik di atas kita dapat menyimpulkan bahwa dari 40 soal yang kita sajikan pada 185 subjek menunjukkan item-item soalnya cocok untuk menetahui tingkat abilitas siswa yang sedang saja.

Referensi
Sumintono, B., & Widhiarso, W. (2015). Aplikasi Pemodelan Rasch pada Assessment PendidikanCimahi: Trim Komunikata.


Analisis Item Menggunakan Winstep
Tulisan ini merupakan kelanjutan dari tulisan Analisis Rasch Menggunakan Winstep. Tulisan ini akan mencoba mengeksplorasi apa saja yang bisa kita ketahui dari analisis Rasch dengan Winstep. Aplikasi Winstep memberikan banyak sekali output analisis yang dapat kita manfaatkan sesuai kebutuhan kita. Pilihan output itu dapat dilihat di output tables untuk melihat hasil analisis secara umum, output files untuk menyajikan keluaran di file lain seperti excel atau SPSS, dan juga bisa berupa graph untuk menampilkan kurva tes atau item. Winstep juga menyajikan output yang memberikan informasi mengenai item dan juga mengenai responden kita. Kali ini kita akan fokus mengeksplore keluaran winstep yang menganalisis item terlebih dahulu.

Untuk mulai menganalisis, silakan buka winstep kita dan buka script winstep kita dengan cara kli file – open file, kemudian pilih file script kita. Script yang sudah kita buat dalam tulisan sebelumnya untuk latihan dapat didownload di sini. Jika file sudah dibuka, silakan tekan enter, kemudian tekan enter lagi, maka winstep akan mulai menganalisis. Jika sudah selesai menganalisis, klik bagian output tables.

Dari tampilan tersebut banyak sekali pilihan output yang bisa dikeluarkan baik itu yang memberikan informasi terkait item maupun terkait responden (person). Kita mulai saja untuk melihat analisis item kita dengan winstep.

Melihat Peta Item-Person
Salah satu keistimewaan analisis Rasch dengan Winstep adalah adanya peta yang menggambarkan pesebaran kemampuan subjek dan sebaran tingkat kesulitan item dengan skala yang sama. Peta ini disebut Wright Map yang tidak lain adalah peta person-item. Untuk melihat peta item, kita dapat klik output tables – 12. Item: map. Maka akan diperoleh output seperti gambar di bawah.

Pada sisi kiri adalah pesebaran kemampuan subjek, sedangkan pada sisi kanan adalah pesebaran item. Dari peta tersebut dapat diketahui bahwa secara umum soal-soal dalam tes lebih sulit jika dibanding dengan kemampuan subjek. Item yang paling sulit adalah item nomer 38 (i38) yang berada di posisi paling atas. Secara teoritis dengan soal itu tidak akan ada subjek yang punya peluang menjawab benar soal tersebut karena memiliki kemampuan yang lebih rendah dari tingkat kesulitan soal tersebut. Untuk melihat tingkat kesulitan item lebih detail akan diulas di bawah.

Melihat Tingkat kesulitan item
Untuk mengetahui tingka kesulitan item, pada menu di bagian atas kita klik outupt tables, lalu pilih 13. Item:measure. Maka akan keluar output seperti gambar di bawah.

Kalau kita perhatikan, output tersebut sudah diurutkan oleh Winstep berdasarkan tingkat kesulitannya. Item yang memiliki tingkat kesulitan paling tinggi berada di paling atas, sedangkan item yang paling mudah berada di paling bawah. Hal ini juga sama dengan yang ditampilkan dalam peta item yang sudah dibahas di atas. Mari kita bedah satu per-satu tampilan di atas. Entry number menunjukkan urutan kita dalam menginput data. Karena kita menginput data sesuai dengan urutan nomor item, maka entri number disini juga sama dengan nomor item. Hal ini bisa dilihat bahwa entry number sama dengan kolom item di paling kanan. Total score merupakan jumlah penjawab benar pada soal tersebut. Total count adalah jumlah penjawab pada soal tersebut.  Sedangkan measure menunjukkan tingkat kesulitan item kita. Infit-outfit MNSQ dan ZSTD menunjukkan apakah item kita fit sesuai dengan model Rasch. PT-Measure corr merupakan kepanjangan dari Point Measure Correlation, atau hampir sama dengan korelasi point-biserial dalam teori tes klasik. Parameter ini menunjukkan daya diskriminasi ietm. Paduan hal mengenai ini sudah dibahas dalam tulisan mengenai pengenalan Rasch model.

Ada beberapa hal yang perlu kita perhatikan dari output analisis Rasch dengan wisntep ini. Nilai logit (measure) yang tinggi menunjukkan bahwa item tersebut memiliki tingkat kesulitan yang tinggi. Hal ini berkorelasi dengan total score, dimana jumlah penjawab benar yang sedikit dalam total score berkorelasi dengan nilai measure yang semakin tinggi. Data measure item ini juga memiliki skala yang sama. Sebagai contoh item nomer 38 nilai measurenya adalah 1,50 yang hampir dua kali dari item nomer 25 yang nilai measurenya adalah 0,73. Jadi dapat dikatakan item nomer 38 tingkat kesulitannya hampir dua kali dari item nomer 25. Algoritma perhitungan melalui probabilitas odd ratio dan transformasi logit inilah yang dapat menunjukkan secara pasti tingkat kesulitan dalam interval yang sama. Hasil analisis ini tentu akan menghasilkan output yang berbeda lagi jika cara skoring kita diubah dengan mengidentifikasi item missing misalnya karena item missing belum tentu akan di skor 0 (jawaban salah).

Nilai measure ini juga disusun seperti nilai Z dimana nilai biasanya akan berkisar antara -3 sampai +3. Namun nilai dalam hal ini nilai logit diatas 2 atau di bawah -2 sudah bisa dianggap sebagai nilai yang ektstrem. Suminto dan Widhiarso (2015) memberikan panduan dalam menilai item tersebut menjadi empat kategori, yakni:
  1. Nilai measure < -1 = item sangat mudah
  2. Nilai measure -1 s.d. 0 = item mudah
  3. Nilai measure 0 s.d. 1 = item sulit
  4. Nilai measure > 1 = item sangat sulit

Tingkat Kesesuaian Item (Item Fit)
Tingkat kesesuaian item ini digunakan untuk melihat ketepatan item dengan model atau item fit. Item fit menjelaskan apakah item soal kita berfungsi normal melakukan pengukuran atau tidak.  Jika ada item yang tidak fit, hal ini mengindikasikan adanya miskonsepsi subjek dalam menjawab soal tersebut. Untuk mengetahui tingka kesulitan item, pada menu di bagian atas kita klik outupt tables, lalu pilih 10. Item:fit order Maka akan keluar output seperti gambar di bawah.

Menurut Boone, Staver, & Yale (2014), nilai outfit means-square, outfit z-standard, dan point measure correlation  adalah kriteria yang digunakan untuk melihat tingkat kesesuaian butir. Jika item tersebut tidak memenuhi kriteria ada baiknnya item tersebut diperbaiki atau diganti. Panduan untuk menilai kriteria kesesuaian butir menurut Boone, et al (2014) adalah sebagai berikut
  1. Nilai Outfit Mean Square (MNSQ) yang diterima : 0,5 < MNSQ < 1,5
  2. Nilai outfit Z-standard (ZSTD) yang diterima: -2,0 < ZSTD < +2,0
  3. Nilai Point Measure Correlation yang diterima: 0,4 < pt measure corr <0,85
Karena point measure correlation pada prinsipnya sama dengan korelasi point-biserial pada teori tes klasik, Alagumalai, Curtis, & Hungi (2005) mengklasifikasikan nilai Point Measure Correlation tersebut menjadi sangat bagus (>0,40), bagus (0,30–0,39), cukup (0,20-0,29), tidak mampu mendiskriminasi (0,00-0,19), dan membutuhkan pemeriksaan terhadap butir (<0,00).

Jika kita lihat pada output tesebut, dapat kita lihat bahwa Winstep sudah mengurutkan item berdasarkan item mana saja yang tidak fit. Item yang tidak fit biasanya ditaruh di urutan paling atas. Seperti pada tampilan contoh di atas, item-item yang ditampilkan memiliki nilai Point Measure Correlation yang rendah meskipun kalau dari kriteria yang lain (outfit means-square dan outfit z-standard) masih memenuhi syarat. Kemputusan untuk memperbaiki, mengganti atau membiarkan soal tetap berada di tangan peneliti atau pembuat soal sesuai dengan telaah kualitas soal secara kualitatif.



Referensi
Alagumalai, S., Curtis, D. D., & Hungi, N. (2005). Applied Rasch Measurement: A Book of Exemplars. Dordrecht: Springer

Boone, W. J., Staver, R. J., & Yale, S. M. (2014). Rasch Analysis in the Human Sciences. London: Springer.

Sumintono, B., & Widhiarso, W. (2015). Aplikasi Pemodelan Rasch pada Assessment PendidikanCimahi: Trim Komunikata. 

Artikel Lainnya