Penerapan Computer Adaptive Testing (CAT) dalam Pengadministrasian Tes


Perkembangan teknologi komputer berdampak pada semakin berkembangnya metode pengadministrasian tes. Jika dulu tes hanya disajikan dengan paper and pencil, sekarang penggunaan komputer untuk melakukan tes sudah umum dilakukan. Hal ini tentu saja lebih menghemat sumber daya kertas dan juga waktu skoring. Selama ini kita mungkin familiar dengan istilah Computer Based Test (CBT) atau tes berbasis komputer. Secara umum, CBT merupakan versi komputerisasi dari tes dengan metode paper and pencil, jadi hanya memindahkan media yang sebelumnya mengerjakan di lembar jawaban ke komputer. Pengadministrasian dan skoring dilakukan dengan komputer, baik secara online maupun secara offline, sehingga dapat lebih cepat dan dapat langsung dilihat hasilnya. Karena dilakukan dengan komputer, soal yang disajikan atau distraktornya pun bisa diacak sesuai dengan keinginan penyedia tes. Namun, penyajian tes dan skoring masih sama seperti model paper and pencil test.

Model lain pengadministrasian tes yang memanfaatkan teknologi komputer adalah Computer Adaptive Testing (CAT). CAT merupakan prosedur pengadministrasian tes dengan komputer yang adaptif karena butir soal yang disajikan dapat menyesuaikan dengan tujuan pengetesan dan abilitas subjek. Penggunaan CAT memungkinkan pembuat tes untuk membuat tes yang lebih efisien dalam mengukur kemampuan subjek dari berbagai tingkat kemampuan. Tes yang menggunakan media CAT terdiri dari butir soal yang dipilih secara acak oleh komputer dari bank soal berdasarkan dari tingkat kesulitannya. Butir-butir soal yang dipilih sesuai estimasi terhadap tingkat kemampuan subjek. Bank soal yang dipakai dalam CAT telah teruji dan terkalibrasi dengan optimal untuk populasi tertentu sehingga kesalahan standar pengukuran (SEM) panjang tes mengalami penurunan tanpa mengurangi presisi dan kehandalan (Gershon, 2005).

Pelaksanaan tes antara satu subjek dengan subjek lainnya berbeda-beda karena tes baru akan berhenti jika telah diperoleh keseimbangan antara abilitas subjek dengan tingkat kesulitan butir, hingga diperoleh suatu presisi. Setiap soal memiliki tingkat kesulitan yang berbeda, selain itu setiap subjek juga memiliki tingkat abilitas yang berbeda-beda. Dengan menggunakan teknik analisis tertentu, tingkat kemampuan subjek dan tingkat kesulitan butir dapat berada pada kontinum atau metrik yang sama. Oleh karena itu, sebuah butir soal dapat dikatakan tidak sesuai dengan tingkat kemampuan subjek jika tingkat kesulitan butir lebih tinggi atau lebih rendah dibanding dengan kemampuan subjek. Jika seorang subjek berhasil mengerjakan satu butir soal maka dia akan disajikan butir soal yang memiliki tingkat kesulitan lebih tinggi. Namun jika subjek salah dalam menjawab soal pertama maka pada soal kedua subjek akan diberikan soal yang memiliki tingkat kesulitan lebih rendah. Proses ini akan berlangsung terus-menerus hingga tingkat kesulitan butir soal yang diberikan sesuai dengan tingkat kemampuan subjek. Tes akan berhenti ketika akurasi estimasi terhadap kemampuan subjek cukup tinggi.

Teori psikometri yang digunakan dalam prosedur CAT ini adalah analisis butir dengan menggunakan Model Rasch atau Teori Respons Butir (IRT). Model Rasch/IRT juga dapat digunakan untuk mengevaluasi seberapa jauh butir memberikan informasi mengenai abilitas seseorang. Butir yang sesuai dengan kemampuan subjek akan memberikan informasi yang optimal dibanding dengan butir yang tidak tepat dengan abilitas yang diukur. Berkaitan dengan hal ini Rasch/IRT salah satu statistik yang dipakai untuk menjelaskan besarnya informasi yang didapatkan dari pemberian soal adalah indeks informasi butir. Karena harga indeks ini berlaku berbeda antara satu level abilitas dengan level abilitas lainnya, maka seringkali indeks ini diwujudkan dalam bentuk fungsi yang dinamakan dengan fungsi informasi butir (item informatif function/IIF). Jika indeks ini dikaitkan dengan properti pada level tes, maka dinamakan dengan fungsi informasi tes (Test informatif function/TIF). Dua properti statistik inilah yang dipakai untuk perakitan butir (test assembly) yang sangat berguna dalam pengadministrasian CAT. Menurut Bjorner  dik. (2007) IRT memberikan beberapa keuntungan antara lain:
  1. Relevansi dan presisi tes dapat dioptimalkan untuk beban responden diberikan.
  2. Presisi tes dapat disesuaikan dengan kebutuhan yang spesifik. Jika seorang pengguna tes tidak memerlukan presisi tinggi, pengetesan tes dapat dihentikan lebih awal untuk mengurangi beban responden. Namun jika diharapkan tes akan memberikan presisi yang tinggi, maka perlu diberikan butir tambahan untuk pengukuran lebih lanjut.
  3. Skor yang dihasilkan dari butir soal tertentu ditempatkan pada metrik yang sama dengan butir soal lain yang mengukur atribut yang sama dan tingkat abilitas yang sama terlepas dari bank soal mana yang digunakan.
  4. Bank soal dapat dikembangkan secara bertahap dengan pengawasan dan evaluasi kualitas butir yang berkelanjutan.
  5. Proses subjek dalam menjawab dapat dipantau secara langsung (real time) untuk memastikan tingginya kualitas penilaian. Selain itu pola-pola jawaban yang tidak konsisten tetap dieksplorasi untuk mendeteksi adanya kemungkinan soal yang bocor atau subjek yang menyontek.

Salah satu poin penting dalam pengembangan CAT adalah adanya bank soal yang memadahi. Istilah bank soal secara umum digunakan untuk menunjukkan koleksi butir dalam jumlah yang sangat besar. Butir yang bisa disimpan dalam bank soal dapat diambil oleh berbagai aspek, misalnya jenis mata pelajaran, tujuan pengukuran jenis instruksional, sifat pengukuran. Properti psikometris yang disertakan dalam bank soal dapat berupa tingkat kesulitan atau daya diskriminasi butir. Pengembangan bank soal juga harus memudahkan program komputer untuk mengakses dan memberikan butir kepada subjek tes. Agar program komputer dapat mengakses dan memilih butir dengan baik, pengembang tes harus (a) menyediakan bank soal yang mampu menjangkau semua tingkat abilitas subjek di dalam populasi, (b) memiliki cadangan butir soal alternatif untuk setiap tingkatan abilitas yang diukur. Teori analisis tes modern, misalnya Rasch/IRT merupakan komponen yang penting dalam pemilihan butir soal untuk mengonstruksi bank soal.

Referensi
Bjorner, J. B., Chang, C.-H., Thissen, D., & Reeve, B. B. (2007). Developing tailored instruments: item banking and computerized adaptive assessment. Quality of Life Research, 16(1), 95-108. doi:10.1007/s11136-007-9168-6

Gershon, R. C. (2005). Computer Adaptive Testing. Journal of Applied Measurement, 6(1), 109-127.


Mahasiswa PhD di ELTE, Hungaria. Dosen Psikologi di UMM, Indonesia.

Share this

Related Posts

Previous
Next Post »

Perkembangan teknologi komputer berdampak pada semakin berkembangnya metode pengadministrasian tes. Jika dulu tes hanya disajikan dengan paper and pencil, sekarang penggunaan komputer untuk melakukan tes sudah umum dilakukan. Hal ini tentu saja lebih menghemat sumber daya kertas dan juga waktu skoring. Selama ini kita mungkin familiar dengan istilah Computer Based Test (CBT) atau tes berbasis komputer. Secara umum, CBT merupakan versi komputerisasi dari tes dengan metode paper and pencil, jadi hanya memindahkan media yang sebelumnya mengerjakan di lembar jawaban ke komputer. Pengadministrasian dan skoring dilakukan dengan komputer, baik secara online maupun secara offline, sehingga dapat lebih cepat dan dapat langsung dilihat hasilnya. Karena dilakukan dengan komputer, soal yang disajikan atau distraktornya pun bisa diacak sesuai dengan keinginan penyedia tes. Namun, penyajian tes dan skoring masih sama seperti model paper and pencil test.

Model lain pengadministrasian tes yang memanfaatkan teknologi komputer adalah Computer Adaptive Testing (CAT). CAT merupakan prosedur pengadministrasian tes dengan komputer yang adaptif karena butir soal yang disajikan dapat menyesuaikan dengan tujuan pengetesan dan abilitas subjek. Penggunaan CAT memungkinkan pembuat tes untuk membuat tes yang lebih efisien dalam mengukur kemampuan subjek dari berbagai tingkat kemampuan. Tes yang menggunakan media CAT terdiri dari butir soal yang dipilih secara acak oleh komputer dari bank soal berdasarkan dari tingkat kesulitannya. Butir-butir soal yang dipilih sesuai estimasi terhadap tingkat kemampuan subjek. Bank soal yang dipakai dalam CAT telah teruji dan terkalibrasi dengan optimal untuk populasi tertentu sehingga kesalahan standar pengukuran (SEM) panjang tes mengalami penurunan tanpa mengurangi presisi dan kehandalan (Gershon, 2005).

Pelaksanaan tes antara satu subjek dengan subjek lainnya berbeda-beda karena tes baru akan berhenti jika telah diperoleh keseimbangan antara abilitas subjek dengan tingkat kesulitan butir, hingga diperoleh suatu presisi. Setiap soal memiliki tingkat kesulitan yang berbeda, selain itu setiap subjek juga memiliki tingkat abilitas yang berbeda-beda. Dengan menggunakan teknik analisis tertentu, tingkat kemampuan subjek dan tingkat kesulitan butir dapat berada pada kontinum atau metrik yang sama. Oleh karena itu, sebuah butir soal dapat dikatakan tidak sesuai dengan tingkat kemampuan subjek jika tingkat kesulitan butir lebih tinggi atau lebih rendah dibanding dengan kemampuan subjek. Jika seorang subjek berhasil mengerjakan satu butir soal maka dia akan disajikan butir soal yang memiliki tingkat kesulitan lebih tinggi. Namun jika subjek salah dalam menjawab soal pertama maka pada soal kedua subjek akan diberikan soal yang memiliki tingkat kesulitan lebih rendah. Proses ini akan berlangsung terus-menerus hingga tingkat kesulitan butir soal yang diberikan sesuai dengan tingkat kemampuan subjek. Tes akan berhenti ketika akurasi estimasi terhadap kemampuan subjek cukup tinggi.

Teori psikometri yang digunakan dalam prosedur CAT ini adalah analisis butir dengan menggunakan Model Rasch atau Teori Respons Butir (IRT). Model Rasch/IRT juga dapat digunakan untuk mengevaluasi seberapa jauh butir memberikan informasi mengenai abilitas seseorang. Butir yang sesuai dengan kemampuan subjek akan memberikan informasi yang optimal dibanding dengan butir yang tidak tepat dengan abilitas yang diukur. Berkaitan dengan hal ini Rasch/IRT salah satu statistik yang dipakai untuk menjelaskan besarnya informasi yang didapatkan dari pemberian soal adalah indeks informasi butir. Karena harga indeks ini berlaku berbeda antara satu level abilitas dengan level abilitas lainnya, maka seringkali indeks ini diwujudkan dalam bentuk fungsi yang dinamakan dengan fungsi informasi butir (item informatif function/IIF). Jika indeks ini dikaitkan dengan properti pada level tes, maka dinamakan dengan fungsi informasi tes (Test informatif function/TIF). Dua properti statistik inilah yang dipakai untuk perakitan butir (test assembly) yang sangat berguna dalam pengadministrasian CAT. Menurut Bjorner  dik. (2007) IRT memberikan beberapa keuntungan antara lain:
  1. Relevansi dan presisi tes dapat dioptimalkan untuk beban responden diberikan.
  2. Presisi tes dapat disesuaikan dengan kebutuhan yang spesifik. Jika seorang pengguna tes tidak memerlukan presisi tinggi, pengetesan tes dapat dihentikan lebih awal untuk mengurangi beban responden. Namun jika diharapkan tes akan memberikan presisi yang tinggi, maka perlu diberikan butir tambahan untuk pengukuran lebih lanjut.
  3. Skor yang dihasilkan dari butir soal tertentu ditempatkan pada metrik yang sama dengan butir soal lain yang mengukur atribut yang sama dan tingkat abilitas yang sama terlepas dari bank soal mana yang digunakan.
  4. Bank soal dapat dikembangkan secara bertahap dengan pengawasan dan evaluasi kualitas butir yang berkelanjutan.
  5. Proses subjek dalam menjawab dapat dipantau secara langsung (real time) untuk memastikan tingginya kualitas penilaian. Selain itu pola-pola jawaban yang tidak konsisten tetap dieksplorasi untuk mendeteksi adanya kemungkinan soal yang bocor atau subjek yang menyontek.

Salah satu poin penting dalam pengembangan CAT adalah adanya bank soal yang memadahi. Istilah bank soal secara umum digunakan untuk menunjukkan koleksi butir dalam jumlah yang sangat besar. Butir yang bisa disimpan dalam bank soal dapat diambil oleh berbagai aspek, misalnya jenis mata pelajaran, tujuan pengukuran jenis instruksional, sifat pengukuran. Properti psikometris yang disertakan dalam bank soal dapat berupa tingkat kesulitan atau daya diskriminasi butir. Pengembangan bank soal juga harus memudahkan program komputer untuk mengakses dan memberikan butir kepada subjek tes. Agar program komputer dapat mengakses dan memilih butir dengan baik, pengembang tes harus (a) menyediakan bank soal yang mampu menjangkau semua tingkat abilitas subjek di dalam populasi, (b) memiliki cadangan butir soal alternatif untuk setiap tingkatan abilitas yang diukur. Teori analisis tes modern, misalnya Rasch/IRT merupakan komponen yang penting dalam pemilihan butir soal untuk mengonstruksi bank soal.

Referensi
Bjorner, J. B., Chang, C.-H., Thissen, D., & Reeve, B. B. (2007). Developing tailored instruments: item banking and computerized adaptive assessment. Quality of Life Research, 16(1), 95-108. doi:10.1007/s11136-007-9168-6

Gershon, R. C. (2005). Computer Adaptive Testing. Journal of Applied Measurement, 6(1), 109-127.


No comments

Artikel Lainnya