Analisis Data yang Tidak Berdistribusi Normal dengan Bootstrapping di SPSS


Pada tulisan sebelumnya telah dibahas proses bootrapping dan kelebihannya. Salah satu kelebihan bootstrapping adalah dapat melakukan analisis pada data yang tidak terdistribusi secara normal. Tulisan ini akan memberikan ilustrasi bagaimana analisis bootsrapping ini dapat dilakukan pada data yang tidak normal, sehingga menghasilkan estimasi yang lebih cermat. Sebagaimana kita ketahui, statistik inferensial parametrik pada umumnya menghendaki asumsi normalitas terpenuhi. Pelanggaran asumsi normalitas yang cukup parah, apalagi jika jumlah sampel tidak cukup besar dapat mengakibatkan nilai p yang diperoleh tidak akurat.

Di bawah ini saya sajikan data fiktif mengenai tiga variabel, yaitu prestasi, motivasi, dan IQ. Data dapat didownload di sini. Pada analisis kali ini, saya ingin mengetahui korelasi antar ketiga variabel tersebut. Artinya saya akan menguji korelasi antara prestasi dan motivasi, prestasi dan IQ, serta motivasi dan IQ. Analisis dilakukan dengan korelasi Pearson. Meskipun di contoh ini saya hanya menyajikan analisis korelasi saja, metode bootstrap dapat dilakukan untuk berbagai uji statistik seperti korelasi, regresi, t-test, dan Anova.

Sebelum saya lakukan analisis, saya lihat terlebih dahulu histogramnya untuk melihat apakah data saya terdistribusi normal atau tidak. Analisis akan dilakukan dengan SPSS. Untuk cara uji normalitas silakan lihat artikel ini. Histogram ketiga variabel ditunjukkan pada gambar di bawah. Dari gambar di bawah terlihat bahwa variabel prestasi terdistribusi secara tidak normal, sedangkan variabel motivasi dan IQ sudah normal.

Analisis korelasi Pearson
Meskipun asumsi normalitas variabel prestasi tidak terpenuhi, namun saya akan mencoba tetap melakukan analisis korelasi Pearson. Untuk cara analisis silakan lihat di artikel ini. Setelah analisis dilakukan, berikut adalah hasilnya.
Dari output terlihat bahwa ketiga variabel saling berkorelasi secara signifikan (p < 0,05), baik prestasi dengan motivasi (r = 0,304), prestasi dengan IQ (r = 287), dan motivasi dengan IQ (R= 384). Namun sebagaimana kita tahu dari uji normalitas tadi, variabel prestasi mengalami penyimpangan asumsi normalitas yang cukup parah. Sehingga nilai p yang dihasilkan masih perlu dipertanyatan. Sekarang mari kita coba uji korelasi tersebut dengan metode bootstrapping.

Analisis korelasi Pearson dengan boostrapping
Untuk melakukan analisis korelasi dengan boostrapping, langkahnya kurang lebih sama, klik analyze – correlate – bivariate, dan masukkan ketiga variabel. Lalu klik boostrap.. maka akan muncul seperti ini.
Lalu centang perform bootstrapping, dan tentukan jumlah sampel kita. By default SPSS akan mengeluarkan 1.000, artinya kita akan melakukan resample sejumlah 1.000 kali. Kita bisa meningkatkan angka ini sehingga hasilnya bisa lebih akurat, namun sebagian besar ahli berpendapat bahwa menaikkan sampel lebih sari 1.000 tidak akan berdampak besar. Semakin besar sampel, semakin lama pula komputer akan melakukan komputasi. Untuk contoh kali ini kita gunakan 1.000 sampel saja. Jika sudah klik continue dan OK. Output dapat dilihat di bawah
Untuk membaca hasil analisis dengan bootstrapping, kita cukup melihat pada baris yang bertuliskan bootstrap. Hasil tersebut adalah hasil analisis boostrap dengan 1.000 sampel pada taraf kepercayaan 95%. Untuk melihat apakah korelasinya signifikan atau tidak, kita lihat pada batas bawah (lower) dan batas atas (upper). Lower dan upper merupakan rentang nilai r yang sesungguhnya dengan taraf kepercayaan 95%. Misalkan, korelasi prestasi dan motivasi adalah r = 0,304; dan nilai sesungguhnya berada pada rentang antara -0,018 (lower) sampai dengan 0,538 (upper). Dikarenakan dalam rentang tersebut mengandung nilai nol yang berarti tidak ada hubungan, jadi dapat disimpulkan bahwa tidak ada hubungan antara prestasi dan motivasi. Atau cara mudahnya, jika upper dan lower berada pada satu kutub yang sama, misal sama-sama memiliki nilai positif atau sama-sama memiliki nilai negatif maka korelasinya signifikan; namun sebaliknya jika upper dan lower kutubnya berbeda, maka tidak signifikan.

Dari output tersebut kita tahu bahwa sesungguhnya antara prestasi dan motivasi tidak berhubungan, begitu juga dengan prestasi dan IQ. Hasil ini berbeda dengan analisis sebelumnya yang tanpa menggunakan boostrapping. Jika disuruh memilih, kita akan menggunakan hasil yang mana? Tentu saja saya lebih percaya pada hasil analisis dengan bootstrapping karena asumsi normalitas variabel prestasi tadi tidak terpenuhi. Sementara jika kita menggunakan bootstrap, kita tidak memerlukan asumsi normalitas. Jika kita lihat lebih lanjut pada korelasi antara motivasi dengan IQ yang keduanya berdistribusi normal, baik menggunakan analisis biasa ataupun dengan boostrapping menghasilkan hasil yang sama, yakni sama-sama ada korelasi yang signifikan.

Saya melakukan analisis boostrapping beberapa kali kok hasilnya berbeda?  
Ya, seringkali ketika kita melakukan bootstrapping, hasil nilai lower dan upper antar satu analisis dengan analisis yang lain hasilnya berbeda. Mengapa demikian? Karena komputer melakukan resample secara acak, jadi ada kemungkinan yang akan data yang terambil juga berbeda. Sayangnya jika kita analisis dengan SPSS, kita tidak bisa mengetahui hasil resample data kita. Namun perbedaan hasil itu semakin kecil kemungkinannya jika kita menggunakan sampel bootstrapping yang sangat besar, misal di atas 10.000. Namun kembali lagi, konsekuensi menggunakan sampel yang besar adalah analisis yang memakan waktu cukup lama.

Berkenalan dengan Bootstrapping dalam Statistik


Bootstrapping adalah prosedur statistik dengan cara mengubah data dari sampel yang kita peroleh dan melakukan replikasi dari data sampel tersebut (resampling) secara acak untuk diperoleh data simulasi baru. Prosedur ini dapat digunakan untuk menghitung standar error, interval kepercayaan, dan melakukan pengujian hipotesis untuk berbagai jenis analisis statistik. Metode bootstrap adalah pendekatan alternatif untuk pengujian hipotesis tradisional dan cukup populer saat ini karena memiliki banyak manfaat. Tulisan ini akan memperkenalkan cara kerja teknik bootstrap dan perbedaannya dengan teknik statistik konvensional.

Baik metode bootstrap maupun metode tradisional menggunakan suatu sampel untuk menarik kesimpulan tentang populasi. Perbedaan utama antara bootstrap dan statistik tradisional adalah bagaimana mereka memperkirakan distribusi sampel. Pada uji hipotesis statistik tradisional, untuk memperoleh hasil yang valid, peneliti menggunakan uji statistik yang ketat dan harus memenuhi asumsi tertentu (misalnya normalitas). Metode bootstrap menggunakan pendekatan yang sangat berbeda untuk memperkirakan distribusi sampling. Metode ini mengambil data sampel yang diperoleh, dan kemudian melakukan resample data tersebut berulang-ulang untuk membuat banyak simulasi sampel. Prosedur bootstrap menggunakan distribusi sampel ini sebagai dasar untuk menentukan interval kepercayaan dan pengujian hipotesis. Mari saya contohkan bagaimana proses bootsrapping ini bekerja.

Gambar di atas adalah dataset yang saya miliki dengan jumlah subjek 5 orang. Dari data tersebut kemudian dilakukan bootstrap sebanyak 5 sampel. Dataset yang di-resample memiliki ukuran yang sama dengan dataset asli dan hanya berisi skor-skor yang ada di dataset asli. Selain itu, skor ini dapat muncul lebih banyak atau lebih sedikit di dataset yang di-resample dibandingkan di dataset asli. Proses resampling dilakukan acak dan bisa menciptakan dataset simulasi yang berbeda. Setiap proses bootstrap menghasilkan parameter sampel baru, misalkan di gambar itu saya tuliskan nilai mean. Mean ini kemudian dirata-rata lagi sampai seluruh proses bootstrap selesai, sehingga kita bisa memperoleh  estimasi rerata dari populasi. Dari contoh di atas misalkan, didapatkan estimasi rerata dari populasi adalah 2,92; sementara rerata dari data aslinya adalah 3. Dari nilai tersebut kita mendapatkan nilai bias sebesar 2,92 - 3 = 0,8. 

Tentu saja, contoh ini adalah contoh paling sedernaha. Dalam penelitian yang sesungguhnya peneliti harus menggunakan subjek yang lebih banyak dan melakukan resampling yang lebih banyak pula, pada umumnya hingga ribuan kali. Dikarenakan resample ini dilakukan ribuan kali, sudah pasti kita butuh bantuan komputer untuk melakukannya. Perlu diingat bahwa bootstrap tidak membuat data baru, namun dia memperlakukan sampel asli sebagai proxy untuk populasi dan kemudian mengambil sampel acak dari data itu. Oleh karena itu, asumsi utama untuk bootstrap adalah bahwa sampel asli secara akurat mewakili populasi aktual.

Kelebihan metode bootstrap dibanding metode tradisional
Metode tradisional pada umumnya mengasumsikan bahwa data harus mengikuti distribusi normal atau distribusi lainnya. Namun bagaimana jika ternyata distribusi data kita tidak normal. Jika anda membaca tentang central limit theorem atau robust-nya berbagai teknik analisis statistik paramterik, mungkin Anda akan tetap hajar saja melakukan analisis dengan statistik parametrik, asalkan jumlah sampel Anda cukup besar. Namun jika sampel kita juga tidak cukup banyak dan bahkan penyimpangan terhadap asumsi normalitasnya cukup parah, apa yang harus dilakukan? Sebagai alternatifnya, teknik bootstrap ini dapat digunakan. Misalkan, peneliti memiliki data yang tidak berdistribusi normal dengan jumlah sampel terbatas. Dikarenakan dia tidak memenuhi asumsi normalitas, maka alternatif solusi yang dapat digunakan adalah menggunakan boostrapping.

Bootstrap tidak memerlukan asumsi apapun tentang distribusi data Anda. Boostrap sudah melakukan resample dari data sampel anda hingga ribuan kali, dan menghitung paramater statistik dari hasil resample tersebut. Dikarenakan resample dilakukan ribuan kali, central limit theorem berbicara di sini, dimana teorema ini mengatakan bahwa ketika ukuran sampel cukup besar, distribusi sampel dari mean untuk suatu variabel akan mendekati distribusi normal terlepas dari bagaimana distribusi variabel itu dalam populasi. Dengan demikian, asumsi normalitas tidak diperlukan lagi di sini.

Gambar di bawah ini merupakan ilustrasi perbandingan data asli, data dengan boostrapping 10 sampel, dan data dengan boostrapping 1.000 sampel. Pada data original, distribusi data terlihat menceng ke kanan. Seperti yang terlihat pada gambar, semakin besar resample yang dilakukan, distribusi sampel akan semakin mendekati bentuk distribusi normal.
Untuk menguji hipotesis dengan metode bootstrapping, peneliti perlu melihat pada nilai taraf kepercayaan (confidence interval). Bootstrap akan memberikan batas bawah (lower) dan batas atas (upper) dari taraf kepercayaan yang ada. Suatu analisis dikatakan signifikan jika batas atas dan batas bawah berada pada satu kutub yang sama, misal sama-sama memiliki nilai positif atau sama-sama memiliki nilai negatif. Bootstrap ini dapat dilakukan untuk berbagai uji statistik seperti korelasi, regresi, t-test, Anova, bahkan SEM. Beberapa software analisis statistik juga sudah memfasilitasi metode bootstrap ini, seperti dengan SPSS. Demonstrasi analisis statistik pada data yang tidak memenuhi asumsi normalitas dengan metode boostrap dapat dilihat pada artikel selanjutnya.    













Tujuh Dosa Besar dalam Analisis Statistik



Tulisan ini merupakan inti sari dan sedikit modifikasi dari tulisan Kuzon, Urbancheck, dan McCabe (1996) yang berjudul “The Seven Deadly Sins of Statistical Analysis”. Meskipun artikel tersebut sudah ditulis lebih dari 20 tahun yang lalu, namun kenyataannya dosa-dosa besar tersebut masih banyak dilakukan oleh para peneliti kuantitatif saat ini. Oleh karena itu tulisan ini hanya sebagai pengingat sekaligus menjelaskan kembali dosa-dosa tersebut bagi yang belum tahu. Ketujuh dosa besar dalam analisis statistik tersebut adalah

Rumus Slovin untuk Menentukan Jumlah Sampel dan Kontroversinya


Untuk mementukan sampel dari populasi, peneliti perlu menggunakan rumus statistik untuk menentukan jumlah sampel minimal yang dibutuhkan. Ada beberapa formula yang dapat digunakan untuk menentukan jumlah sampel dari suatu populasi yang diketahui. Misal peneliti ingin meneliti IQ orang Indonesia, maka peneliti dapat mengetahui jumlah populasi dan tahu karakteristik perilaku populasinya karena IQ selalu mengikuti kurve normal. Namun bagaimana jika peneliti ingin meneliti opini mahasiswa terhadap partai politik yang tidak diketahui karakteristik perilaku populasinya? Untuk kasus kedua dimana peneliti tidak tahu perilaku populasinya, peneliti dapat menggunakan rumus Slovin. Jadi rumus Slovin merupakan rumus untuk menghitung jumlah sampel minimal pada populasi yang tidak diketahui. Rumus ini begitu populer di kalangan mahasiswa, terutama untuk tugas akhir mereka.

Bagaimana menghitung dengan Rumus Slovin?
Rumus Slovin dapat dituliskan sebagai berikut

n = jumlah sampel minimal
N = jumlah populasi
e = margin of error / error tolerance

Misal seorang peneliti melakukan penelitian tentang sikap mahasiswa terhadap partai politik dengan jumlah populasi 1.000 orang, dan peneliti tersebut menetapkan tingkat kesalahan yang ditoleransi adalah 5%, maka dengan formula tersebut dapat dihitung jumlah sampel minimal yang diperlukan adalah n = 1.000 / 1 + (1.000x0,05x0,05) = 286. Dengan demikian penelitian tersebut setidaknya harus melibatkan 286 mahasiswa.

Masalah dengan Rumus Slovin
Rumus Slovin dapat memberikan gambaran kasar untuk menentukan jumlah sampel. Namun, rumus non-parametrik ini tidak memiliki ketelitian matematis (Ryan, 2013). Misalnya, tidak ada cara untuk menghitung power statistik (yang memberikan informasi seberapa besar kemungkinan penelitian membedakan efek aktual). Padahal ukuran sampel berdampak langsung pada power statistik, sedangkan jika power statistik rendah, akan menghasilkan kesimpulan yang tidak akurat. Selain itu, tidak jelas dari sumber referensi teks apa tepatnya yang dimaksud "margin of error" dalam rumus ini. Beberapa teks mengatakan e dalam rumus ini adalah margin of error, beberapa lainnya mengatakan error tolerance. Dilihat dari konteksnya, hampir pasti ini adalah nama lain untuk menyebut alpha (α) dalam statistik klasik. Lagipula, jika memang e dalam rumus ini adalah margin of error, bagaimana kita bisa menetapkannya terlebih dahulu padahal standar deviasi populasinya saja tidak diketahui. Rumus ini juga hanya masuk akal jika digunakan untuk penelitian yang tujuannya menghitung persentase, bukan untuk penelitian korelasional. 

Selain masalah power statistik dan penggunaan istilah yang kurang tepat, masalah lain yang menyebabkan rumus ini memiliki reputasi kurang baik di kalangan akademis dunia (tapi di Indonesia cukup populer) adalah karena asal usul rumus ini yang tidak jelas muncul dari mana. Sampai saat itu belum diketahui siapakah Slovin yang dimaksudkan dalam rumus ini. Dalam berbagai literatur juga tidak diketahui sipakah Slovin yang telah menciptakan rumus ini. Desas-desus yang berhembus, rumus ini diciptakan oleh Michael Slovin, namun desas-desus yang lain mengatakan bahwa Slovin yang dimaksud adalah Mark Slovin, Kulkol Slovin, dan ada pula Robert Slovin, entah mana yang betul.

Di buku statistika dan metodologi penelitian terbitan Indonesia, sepertinya bukunya Arikunto dan Sugiyono, rumus ini banyak disebutkan, begitupun cara menghitungnya. Di buku terbitan asing pun juga ada, seperti di buku “Elementary Statistics: A Modern Approach” oleh Altares et. Al (dalam buku itu disebut Sloven). Terlebih lagi, beberapa website tentang statistika juga banyak yang mencantumkan cara menghitung dengan rumus ini. Namun semuanya tidak ada yang mensitasi satu dokumen yang dijadikan rujukan rumus tersebut. Wikipedia, tempat dimana segala informasi ada di sana juga tidak mampu memberikan keterangan lebih lanjut mengenai siapakah rumus ini dan siapakah penemunya. Di berbagai forum peneliti dunia, seperti di Researchgate atau di Stackexchange, siapakah Slovin ini sesungguhnya juga masih menjadi perdebatan (lebih ke arah olok-olok terhadap asal-usul Slovin ini sebenarnya).

Rumus ini sendiri begitu populer di beberapa negara berkembang, terutama di Indonesia dan Filipina karena buku metodologi penelitian yang banyak disitasi di kedua negara tersebut menyebutkan rumus ini. Rumus ini sering dijadikan justifikasi mahasiswa untuk mengerjakan skripsinya ketika kebingungan mencari berapa jumlah sampel ideal untuk penelitian mereka. Meskipun sekilas rumus ini nampak sederhana dan praktis, seolah-olah kita bisa langsung tahu bahwa sampel minimal yang diambil dari rumus nantinya mempunyai tingkat kesalahan sesuai dengan rumus ini. Namun kenyataannya ada beberapa hal yang harus dipertimbangkan dalam menentukan sampel, setidaknya dari tiga komponen statistik yaitu statistical power, effect size, dan signifikansi (baca lebih lanjut di sini). Selain itu, dari berbagai tinjauan literatur, tampaknya tidak ada orang bernama Slovin yang mengajukan rumus ini. Yamane (1967) adalah referensi tertua dimana rumusnya dapat ditemukan.

Nampaknya rumus Slovin ini adalah rumus yang populer yang berasal dari tradisi turun menurun yang diajarkan guru kita. Meskipun demikian, dokumen tertulis yang menyebutkan siapakah sesungguhnya Slovin itu masih belum jelas. Jadi, nampaknya kita perlu memutuskan rantai ajaran turun-temurun ini, dan menjadikan rumus Slovin ini sebagai guyonan statistik saja, seperti yang dilakukan para ahli metodologi di Barat sana. Khususnya bagi teman-teman peneliti yang memang mengincar publikasi ke jurnal internasional, jangan sampai nanti malah artikel kita yang jadi guyonan karena masih menggunakan rumus yang tidak jelas asal-usulnya.

Referensi
Ryan, T. (2013). Sample Size Determination and Power. John Wiley and Sons.
Yamane, T. (1967). Statistics: An Introductory Analysis, 2nd Edition, New York: Harper and Row.


Menentukan Jumlah Sampel Minimal Penelitian dengan G*Power


Salah satu pertanyaan yang paling sering ditanyakan mahasiswa ketika hendak mengambil data adalah, berapa jumlah sampel yang tepat untuk penelitian saya. Di tulisan sebelumnya saya sudah mengulas tentang jumlah sampel minimal dan juga tentang konsep signifikansi, statistical power, dan effect size. Di tulisan kali ini saya akan mengulas bagaimana cara menghitung jumlah sampel minimal serta statistical power yang diperoleh dengan bantuan software G*Power.

G * Power adalah software untuk menghitung statistical power atau kekuatan uji statistik untuk berbagai uji t, uji F, uji χ2, uji z, uji korelasi, dan uji statistik lainnya. G * Power juga dapat digunakan untuk menghitung ukuran efek (effect size) dan untuk menampilkannya secara grafis hasil analisis, sehingga software ini juga cocok digunakan untuk melakukan studi simulasi dan proses pengajaran. Sebenarnya G*Power dapat digunakan untuk mengestimasi lima hal berikut: (1) A priori (ukuran sampel N dihitung sebagai fungsi dari power 1 - β, level signifikansi α, dan effect size populasi yang tidak terdeteksi), (2) Compromise (baik α dan 1 - β dihitung sebagai fungsi effect size, N, dan rasio probabilitas kesalahan (q = β / α)), (3) Kriteria (α dan kriteria keputusan terkait dihitung sebagai fungsi 1 - β, effect size, dan N), (4) Post-hoc (1 - β dihitung sebagai fungsi α, effect size populasi, dan N), dan (5) Sensitivitas (effect size populasi dihitung sebagai fungsi α, 1 - β, dan N). Tulisan ini hanya akan fokus pada fungsi pertama, yaitu fungsi apriori untuk menentukan jumlah sampel berdasarkan power, level signifikansi, dan effect size. Jika menginginkan untuk mendownload software G*Power, anda dapat mendownloadnya secara gratis di sini

Untuk menentukan sampel minimal pada uji statistik, ada beberapa langkah yang harus dilakukan
1.    Menentukan jenis analisis yang akan diestimasi. Jenis analisis bervariasi, tergantung dari jenis data dan hipotesis yang ingin dijawab. Untuk melihat jenis analisis secara lengkap bisa dilihat di sini. 
2.  Menentukan level signifikansi (α ) yang hendak digunakan dalam penelitian. Dalam penelitian di Psikologi, pada umumnya level signifikansi yang ditoleransi adalah 0,05 atau 0,01. Jika kita menghendaki kecermatan yang tinggi kita bisa menggunakan level signifikansi 0,01; namun secara umum level signifikansi 0,05 sudah diterima.
3.    Menentukan statistical power yang diharapkan. Pada umumnya dalam penelitian Psikologi,  statistical power yang diharapkan yaitu yang tinggi, setidaknya di atas 0,80 (80%).
4.    Menentukan effect size yang diharapkan. Jika dalam menentukan level signifikansi dan power pada umumnya sudah ada standarnya, menentukan effect size ini sedikit tricky karena kita belum memiliki effect size karena belum mengambil data. Lalu bagaimana cara kita menentukan effect size yang kita harapkan? Ada dua cara: pertama, dengan melihat effect size penelitian-penelitian sebelumnya yang meneliti variabel yang sama. Effect size penelitian sebelumnya dapat kita jadikan referensi untuk jadi dasar kita menentukan effect size yang diharapkan. Jika memang belum ada penelitian sebelumnya, cara yang kedua yaitu menggunakan penilaian klinis untuk menentukan besaran efek terkecil yang dianggap relevan. Misal kita ingin menguji hubungan X dan Y dan kita menghendaki analisis kita sensitif untuk menguji korelasi dengan efek kecil sekalipun, maka kita dapat menuliskan effect sizenya sebesar 0,1. Sebagai referensi, kita dapat melihat klasifikasi effect size dari Cohen di tabel di bawah.
5.    Menentukan tail(s) yang akan digunakan. Banyaknya tail(s), apakah one-tail atau two-tails tergantung dari apakah hipotesis kita memiliki arah atau tidak. Penjelasan mengenai one-tail atau two-tails dapat dibaca di sini

Jika kita sudah menentukan hal di atas, maka kita bisa mengestimasi jumlah sampel minimal yang dibutuhkan untuk penelitian kita.

Menentukan sampel minimal uji korelasi dengan G*Power
Untuk menentukan jumlah sampel minimal untuk uji korelasi, maka kita atur sebagai berikut
1.    Klik test – correlation and regression – correlation: bivariate normal model
2.    Pilih type power analysis A priori: compute required sample size – given α, power, effect size
3.    Jika hipotesis kita belum memiliki arah, maka isikan tail(s) dengan two
4.  Correlation ρ H1 merupakan effect size atau nilai korelasi yang dikehendaki. Misal penelitian sebelumnya sebagian besar menemukan hasil korelasi r = 0,2; maka kita bisa isikan 0,2
5.    α err prob merupakan level signifikansi yang ditoleransi, kita bisa isikan 0,05
6.    Power (1 – β err prob) merupakan power statistik yang diharapkan, kita bisa isikan 0,80
7.    Correlation ρ H0 merupakan hipotesis null kita, kita bisa isikan 0

Jika semua paramnater sudah diisi, maka klik calculate dan kita bisa lihat jumlah sampel minimal di total sample size. Dari output di sampingnya kita dapat lihat bahwa jumlah sampel minimal yang dibutuhkan adalah 193 subjek.

Menentukan sampel minimal uji t kelompok independen dengan G*Power
Untuk menentukan jumlah sampel minimal untuk uji t kelompok independen, maka kita atur sebagai berikut
1.    Klik test – means – two independent groups
2.    Pilih type power analysis A priori: compute required sample size – given α, power, effect size
3.    Jika hipotesis kita belum memiliki arah, maka isikan tail(s) dengan two
4.    Effect size d merupakan effect size yang dikehendaki. Misal penelitian sebelumnya sebagian besar menemukan hasil d = 0,5; maka kita bisa isikan 0,5. Namun tidak semua penelitian melaporkan nilai d karena by default, software seperti SPSS tidak bisa mengeluarkan nilai d secara otomatis. Jika memang demikian kita bisa klik determine di samping kiri, lalu isikan nilai mean dan SD masing-masing kelompok.
5.    α err prob merupakan level signifikansi yang ditoleransi, kita bisa isikan 0,05
6.    Power (1 – β err prob) merupakan power statistik yang diharapkan, kita bisa isikan 0,80
7.   Allocation ratio N2/N1 merupakan perbandingan jumlah kelompok 1 dan 2. Jika kita menghendaki kedua kelompok jumlahnya sama, maka kita bisa isikan angka 1

Jika semua paramnater sudah diisi, maka klik calculate dan kita bisa lihat jumlah sampel minimal di total sample size. Dari output di sampingnya kita dapat lihat bahwa jumlah sampel minimal yang dibutuhkan adalah 128 subjek, dengan masing-masing kelompok berjumlah 64 subjek.

Cara di atas merupakan cara top-down, artinya dari awal kita sudah menentukan jumlah sampel dari parameter yang sudah diketahui. Meskipun demikian, ketika kita sudah mengambil data dan melakukan analisis, kita bisa mengulangi analisis tersebut dengan memasukkan nilai effect size yang sesungguhnya kita peroleh dari data. Misalnya, pada analisis pertama dengan uji korelasi, setelah dianalisis dengan sampel sejumlah 193 subjek (sesuai yang direkomendasikan di atas), ternyata nilai korelasinya sebesar 0,25. Kemudian kita masukkan kembali nilai effect sizenya 0,25 dan diperoleh hasil total sample size yang dibutuhkan adalah 123 dan power > 0,80. Dengan demikian sampel kita sudah memenuhi kriteria.


Signifikansi, Effect Size, Statistical Power, dan Besaran Sampel


Bagi peneliti kuantitatif, konsep dari signifikansi, besaran efek (Effect Size), kekuatan uji statistik (Statistical Power), dan besaran sampel merupakan konsep dasar yang harusnya dipahami. Namun kenyataannya, di mata kuliah statistika, tidak semua dosen menjelaskan konsep dasar ini, dan tidak semua dosen menjelaskan dengan tepat empat konsep ini. Penelitian Psikologi, terutama yang menggunakan pendekatan eksperimen sebagian besar ingin membandingkan apakah terdapat perbedaan variabel antara dua kelompok atau lebih. Misalnya sebuah penelitian ingin menguji apakah terapi psikologis mampu meningkatkan kepercayaan diri subjek. Penelitian dilakukan dengan desain between subject dengan kelompok kontrol dan eksperimen, dimana kelompok kontrol tidak diberi terapi, sedangkan kelompok eksperimen diberi terapi. Penelitian tersebut memiliki hipotesis bahwa “terdapat perbedaan kepercayaan diri antara kelompok kontrol dan kelompok eksperimen, dimana kelompok eksperimen memiliki kepercayaan diri yang lebih tinggi”.

Statistik inferensial tradisional tidak menguji hipotesis tersebut, melainkan menguji hipotesis null yang menyatakan bahwa “tidak ada perbedaan kepercayaan diri antara kelompok kontrol dan eksperimen”. Pendekatan ini sering disebut dengan Null Hypothesis Significance Testing (NHST). Peneliti melakukan uji statistik dengan independent sample t-test. Jika probabilitas jangka panjang data yang diobservasi muncul di bawah hipotesis null sangat rendah (misal di bawah 5%), peneliti menyimpulkan bahwa hipotesis null sangat kecil kemungkinannya untuk benar. Karena sangat kecil kemungkinan bahwa hipotesis null benar, maka peneliti menolak hipotesis null, dan menyimpulkan bahwa terapinya memberikan efek positif terhadap kepercayaan diri. Uji statistik tradisional ini memiliki beberapa paramater untuk memastikan kesimpulan tepat, yakni kriteria signifikansi, Effect Size, dan Statistical power, dan besaran sampel. Tulisan ini akan memberikan gambaran empat konsep ini dan bagaimana hubungan di antara keempatnya.

Kriteria Signifikansi
Dalam statistik tradisional, kesalahan Tipe I dilambangkan dengan simbol α (alfa), dan merupakan probabilitas jangka panjang sebuah penelitian menolak hipotesis null, ketika hipotesis null benar. Sebagian besar penelitian Psikologi dan humaniora memberikan toleransi 5% (α = 0.05) terhadap terjadinya kesalahan Tipe I atau atau biasa disebut false positives. Hal ini berarti, dalam pengambilan data yang dilakukan berkali-kali dengan batas tidak terhingga, terdapat kemungkinan 5% atau kurang bahwa efek yang ditemukan dalam observasi sebenarnya tidak ada. Toleransi terhadap kesalahan Tipe I dilambangkan dengan p, sehingga nilai p di bawah 0,05 (di bawah batas toleransi) dianggap sebagai temuan yang signifikan dan sebaliknya. Dalam contoh penelitian eksperimen di atas, jika menggunakan kriteria p < 0,05 artinya peluang peneliti salah menyimpulkan bahwa terapinya memiliki efek positif, padahal terapi tersebut tidak memiliki efek positif adalah sebesar 5%.

Kekuatan uji statistik (statistical power)
Dalam statistik tradisional, kesalahan Tipe II dilambangkan dengan simbol β (beta), dan merupakan probabilitas jangka panjang sebuah penelitian gagal menolak hipotesis null, ketika hipotesis null tidak benar. Kekuatan uji statistik (power) dalam statistik inferensial tradisional merupakan kontrol terhadap kesalahan Tipe II atau disebut juga sebagai false negatives (1- β). Sebagian besar penelitian Psikologi dan humaniora memberikan toleransi 20% terjadinya kesalahan Tipe II, sehingga penelitian-penelitian tersebut memiliki Statistical power sebesar 80% (Cohen, 1990). Hal ini berarti, dalam pengambilan data yang dilakukan berkali-kali dengan batas tidak terhingga, terdapat kemungkinan 80% atau lebih untuk menyimpulkan bahwa suatu efek tidak ada, ketika efek tersebut memang tidak ada.

Secara umum antara signifikansi (α) dan Statistical power (1- β) memiliki hubungan yang positif. Seperti terlihat pada gambar di bawah, jika kita meningkatkan level signifikansi (α), maka kita akan mengurangi daerah penerimaan hipotesis null. Berkurangnya daerah penerimaan ini secara otomatis meningkatkan nilai beta. Meningkatnya nilai beta akan menunjukkan nilai kekuatan uji bertambah.   

Besaran efek (effect size)
Besaran efek (effect size) menunjukkan perbedaan terstandar antara skor dari kelompok kontrol dan eksperimen. Dalam penelitian, peneliti tidak hanya tertarik pada perbedaan antara kelompok kontrol dan eksperimen, namun juga seberapa besar perbedaan antara kelompok kontrol dan kelompok eksperimen. Effect Size merupakan satuan standar, artinya, Effect Size dapat dibandingkan antar beberapa skala yang berbeda dan dapat dibandingkan antar beberapa penelitian dengan besaran sampel yang berbeda-beda. Dalam contoh penelitian eksperimen di atas, Effect Size yang dapat digunakan adalah Cohen’s d, yang semakin besar nilainya maka semakin besar perbedaan antara kelompok kontrol dan kelompok eksperimen. Effect Size ada beragam jenisnya sesuai jenis analisanya, misal Effect Size untuk uji beda dua kelompok menggunakan Cohen’s d, Effect Size uji korelasi menggunakan koefisien r, dan Effect Size Anova menggunakan Eta squared. Klasifikasi Effect Size pada berbagai jenis analisis dapat dilihat pada tabel di bawah.

Besaran sampel
Besaran sampel dalam statistik inferensial tradisional dapat dihitung dengan memanfaatkan dinamika relasi antara parameter-parameter yang telah dijabarkan sebelumnya. Formula untuk menentukan besaran sampel berdasarkan tiga paramater sebelumnya adalah sebagai berikut.

Besaran sampel uji beda dua kelompok

Besaran sampel uji korelasi


Sebagai contoh, jika penelitian eksperimen di atas menghendaki kriteria signifikansi p < 0,05 two-tailed dan power, 1-β = 0,80 dan mengharapkan Effect Size sebesar 0,5. Dengan demikian dapat dihitung Z1-α/2 = 1,960 dan Z1-β = 0,842 (menggunakan tabel distribusi normal) sehingga diperoleh besaran sampel 2*((1,960+0,842)/0,5)^2 = ~ 64 subjek per kelompok.

Bagaimana jika peneliti hanya menggunakan 30 subjek saja per kelompok? Dengan memasukan ke formula, dengan Effect Size dan kriteria signifikansi yang sama, maka akan diperoleh power sebesar 0,478. Hal ini berarti, penelitian dengan sampel 30 subjek memiliki taraf kesalahan Tipe II sebesar 52,2%. Dengan kata lain, terdapat 52,2% kemungkinan dalam penelitian ini untuk menolak hipotesis null, padahal hipotesis null tersebut benar. Taraf kesalahan sebesar 52,2% ini melebihi toleransi kesalahan Tipe II sebesar 20% dalam sebagian besar penelitian Psikologi dan humaniora.

Ketika kesalahan Tipe I dan II dikontrol, secara umum hubungan antara Effect Size dan jumlah sampel dapat ditunjukkan pada gambar di bawah ini.
Dari gambar terlihat bahwa Effect Size memiliki hubungan negatif dengan jumlah sampel. Untuk mendeteksi Effect Size yang kecil, dibutuhkan sampel yang lebih banyak, dan sebaliknya. Selain itu, Effect Size memiliki relasi eksponensial dengan besaran sampel. Ketika Effect Size yang diharapkan kecil, maka jumlah sampel yang dibutuhkan untuk mendeteksi suatu efek bertambah secara eksponensial menjadi sangat besar dan sebaliknya.

Dalam penelitian psikologi dan humaniora seringkali peneliti mengontrol taraf kesalahan Tipe I, namun tidak mengontrol taraf kesalahan Tipe II dan tidak mempertimbangkan Effect Size dalam pengambilan keputusan. Ketika taraf kesalahan Tipe II tidak dikontrol, Effect Size yang terhitung biasanya merupakan overestimasi, dan ketika Effect Size ini digunakan untuk menghitung Statistical power dalam penelitian replikasi, hasil penelitian sebagian besar tidak mereplikasi temuan sebelumnya. Oleh karena itu, dalam menentukan sampel, peneliti hendaknya memperhatikan keempat paramater tersebut.

Berapa Ukuran Sampel Ideal dalam Penelitian Kuantitatif?


Dalam penelitian kuantitatif di Psikologi, salah satu pertanyaan yang paling banyak ditanyakan adalah berapa jumlah sampel yang ideal untuk penelitian saya. Di beberapa literatur dijelaskan cara menentukan jumlah sampel minimal dari suatu populasi yang diketahui. Yang paling populer, misalnya dengan melihat tabel Krejcie, tabel Isaac, atau rumus Slovin, meskipun beberapa peneliti juga meragukan referensi dari cara tersebut. Masalahnya, di Psikologi sebagian besar penelitian tidak diketahui jumlah populasinya dan penelitian hanya difokuskan pada variabel. Apalagi pada penelitian eksperimen, besarnya sampel tidak ditentukan oleh besarnya populasi. Hal ini menyulitkan peneliti untuk menentukan berapa jumlah sampel minimal yang dibutuhkan.

Panduan untuk Menentukan Model Fit dalam SEM




Structural Equation Modelling (SEM) merupakan teknik analisis data yang populer di kalangan peneliti dari berbagai disiplin. Bagi mahasiswa doktoral di Ilmu Sosial, analisis ini sudah seperti “menu wajib” yang harus dikuasai. Namun, masalah perkara model teoritis mana yang paling mewakili data masih menjadi perdebatan. Dengan banyaknya indeks fit yang tersedia, dan tidak adanya kesepakatan tentang indeks mana yang harus dilaporkan, membuat menjadi bingung. Selain itu berapa nilai cut-off dari indeks yang ada juga belum disepakati. Tulisan ini merupakan intisari dari tulisan Hooper dkk yang berupaya untuk memperkenalkan berbagai indeks fit yang dapat digunakan sebagai pedoman bagi peneliti SEM serta memberi gambaran indeks fit mana yang paling sering digunakan untuk laporan tulisan ilmiah.

Absolute fit indices
Absolute fit indices menentukan seberapa baik model apriori cocok dengan data sampel dan menunjukkan model mana yang memiliki kecocokan paling unggul. Indeks ini memberikan indikasi paling mendasar tentang seberapa baik teori yang diusulkan cocok dengan data. Yang termasuk dalam kategori ini adalah tes Chi-Squared, RMSEA, GFI, AGFI, RMR dan SRMR.
Model chi-square (χ2)
Nilai Chi-Square adalah ukuran tradisional untuk mengevaluasi kesesuaian model keseluruhan (Hu dan Bentler, 1999). Model fit yang baik akan memberikan hasil yang tidak signifikan pada ambang 0,05 (Barrett, 2007), sehingga statistik Chi-Square sering disebut sebagai 'badness of fit'. Meskipun Chi-square sangat populer, namun indeks ini memiliki beberapa kekurangan. Pertama, indeks ini mengasumsikan normalitas multivariat, dan pelanggaran asumsi ini menyebabkan penolakan model, meskipun bisa jadi model tersebut tepat. Kedua, karena chi-square pada dasarnya adalah uji signifikansi statistik, maka indeks ini sangat terpengaruh oleh besarnya sampel. Jika sampel terlalu kecil, kecenderungannya akan tidak signifikan, sementara jika sampel terlalu besar, kecenderungannya akan signifikan. Dengan demikian, chi-square hampir pasti menolak model jika sampel yang digunakan banyak.
Root mean square error of approximation (RMSEA)
RMSEA adalah statistik fit kedua yang dilaporkan dalam program LISREL dan pertama kali dikembangkan oleh Steiger dan Lind. RMSEA memberi tahu kita seberapa baik model, dengan estimasi parameter yang tidak diketahui tetapi dipilih secara optimal akan sesuai dengan matriks kovarians populasi. Dalam beberapa tahun terakhir, indeks ini dianggap sebagai 'salah satu indeks kecocokan paling informatif' karena kepekaannya terhadap jumlah parameter yang diperkirakan dalam model. Salah satu keuntungan terbesar dari RMSEA adalah adanya interval kepercayaan nilainya. Secara umum RMSEA dalam model yang pas memiliki batas bawah mendekati 0 sedangkan batas atasnya harus kurang dari 0,08.
Goodness-of-fit statistic (GFI) and the adjusted goodness-of-fit statistic (AGFI)
Statistik Goodness-of-Fit (GFI) dibuat oleh Jöreskog dan Sorbom sebagai alternatif dari uji Chi-Square dengan menghitung proporsi varian yang diperhitungkan oleh perkiraan kovarians populasi. Statistik ini berkisar dari 0 hingga 1 dengan jumlah sampel yang besar dapat meningkatkan nilainya. Selain itu, GFI juga cenderung meningkat dengan meningkatnya jumlah parameter dan juga memiliki overestimasi dengan sampel besar. Secara tradisional, batas minimal yang diterima adalah 0,90, namun, studi simulasi telah menunjukkan bahwa ketika factor loading dan ukuran sampel rendah, cut-off yang lebih tinggi dari 0,95 adalah lebih tepat (Miles dan Shevlin, 1998). Mengingat sensitivitas indeks ini, indeks ini menjadi kurang populer dalam beberapa tahun terakhir dan bahkan tidak direkomendasikan untuk digunakan. AGFI adalah indeks yang menyesuaikan GFI berdasarkan derajat kebebasan. Seperti halnya GFI, nilai-nilai untuk AGFI juga berkisar antara 0 dan 1, dan secara umum nilai 0,90 atau lebih menunjukkan model yang fit. Mengingat pengaruh ukuran sampel pada dua indeks kecocokan ini, mereka tidak bisa berdiri sendiri.
Root mean square residual (RMR) and standardised root mean square residual (SRMR)
RMR dan SRMR adalah akar kuadrat dari perbedaan antara residual dari matriks kovarians sampel dan model kovarians hipotesis. Nilai untuk rentang SRMR berkisar dari 0 – 1, dengan model fit yang memiliki nilai kurang dari 0,05 (Byrne, 1998; Diamantopoulos dan Siguaw, 2000), namun nilai setinggi 0,08 dianggap dapat diterima (Hu dan Bentler, 1999).

Incremental fit indices
Incremental fit indices juga dikenal sebagai komparatif (Miles dan Shevlin, 2007) atau indeks kecocokan relatif (McDonald dan Ho, 2002), adalah sekelompok indeks yang tidak menggunakan chi-square dalam bentuk mentahnya tetapi membandingkan nilai chisquare dengan model dasar. Yang termasuk dalam kategori ini adalah NFI dan CFI.
Normed-fit index (NFI)
Statistik ini menilai model dengan membandingkan nilai χ2 dari model dengan χ2 dari model nol. Nilai untuk rentang statistik ini antara 0 – 1. Bentler dan Bonnet (1980) merekomendasikan nilai yang lebih besar dari 0,90 yang menunjukkan kecocokan yang baik. Saran yang lebih baru menyatakan bahwa kriteria cut-off seharusnya menjadi NFI ≥ 0,95 (Hu dan Bentler, 1999). Kelemahan utama indeks ini adalah sensitif terhadap ukuran sampel, akan menghasilkan nilai underestimate jika sampel kurang dari 200 (Mulaik et al, 1989; Bentler, 1990), dan karenanya tidak direkomendasikan untuk untuk digunakan sendirian. Masalah ini diperbaiki oleh Non-Normed Fit Index (NNFI, juga dikenal sebagai indeks Tucker-Lewis (TLI), indeks yang lebih suka model yang lebih sederhana. Masalah terakhir dengan NNFI adalah bahwa karena sifatnya yang non-normed, nilai bisa lebih dari 1,0 dan hal ini sulit untuk ditafsirkan (Byrne, 1998). Bentler dan Hu (1999) telah menyarankan NNFI ≥ 0,95 sebagai ambang batas.
CFI (Comparative fit index)
Comparative Fit Index (CFI: Bentler, 1990) adalah bentuk revisi dari NFI yang memperhitungkan ukuran sampel (Byrne, 1998) yang berkinerja baik bahkan ketika ukuran sampel kecil. Seperti halnya NFI, nilai untuk rentang statistik ini antara 0 - 1. Kriteria cut-off dari CFI awalnya adalah ≥ 0,90, namun penelitian terbaru menunjukkan nilai CFI ≥ 0,95 saat ini diakui sebagai indikasi model fit (Hu dan Bentler, 1999). Saat ini, indeks ini merupakan ukuran paling populer karena menjadi salah satu ukuran yang paling sedikit dipengaruhi oleh ukuran sampel.

Parsimony fit indices
Model yang jenuh dan kompleks menunjukkan bahwa proses estimasi tergantung pada data sampel menghasilkan model teoretis yang kurang kuat yang secara paradoks menghasilkan indeks fit yang lebih baik. Untuk mengatasi masalah ini, Mulaik et al (1989) telah mengembangkan dua indeks fit parsimoni; Parsimony Goodness-of-Fit Index (PGFI) dan Parsimonious Normed Fit Index (PNFI). PGFI didasarkan pada GFI dengan menyesuaikan hilangnya derajat kebebasan, sementara PNFI juga sama namun didasarkan pada NFI. Tidak ada batas nilai yang direkomendasikan untuk menilai model fit berdasarkan kedua indeks ini, namun biasanya nilai yang diharapkan adalah di atas 0,90.

Bentuk kedua dari indeks fit parsimoni juga dikenal sebagai indeks criteria kriteria informasi. Mungkin yang paling dikenal dari indeks ini adalah Akaike Information Criterion (AIC) atau Consistent Version of AIC (CAIC) yang menyesuaikan ukuran sampel (Akaike, 1974). Nilai yang kecil menunjukkan model yang fit dan sederhana. Karena indeks ini tidak dinormalkan ke skala 0-1, sulit untuk menyarankan nilai cut-offnya. Sebagai catatan, statistik ini membutuhkan ukuran sampel 200 untuk membuatnya reliabel. Secara ringkah Hooper, Coughlan, dan Mullen (2008)
 Merangkumnya dalam tabel di bawah.

Tabel 1. Indeks fit dan ambang batasnya
Indeks fit
Ambang batas
Keterangan
Absolute Fit Indices
Chi-Square χ2
χ2 rendah relatif terhadap df dengan nilai p tidak signifikan (p> 0,05)

Relative χ2 (χ2/df)
2:1 (Tabachnik and Fidell, 2007), 3:1 (Kline, 2005)
Menyesuaikan ukuran sampel
Root Mean Square Error
of Approximation (RMSEA)
Nilai kurang dari 0.07 (Steiger, 2007)
Memiliki distribusi yang dikenal. Nilai kurang dari 0,03 mewakili kecocokan yang sangat baik.
GFI
Lebih besar dari 0,95
Skala antara 0 dan 1, dengan nilai yang lebih tinggi menunjukkan kesesuaian model yang lebih baik. Statistik ini harus digunakan dengan hati-hati
AGFI
Lebih besar dari 0,95
Penyesuaian GFI berdasarkan jumlah parameter dalam model. Nilai dapat jatuh di luar rentang 0-1.0.
RMR
Model yang baik memiliki RMR kecil (Tabachnick dan Fidell, 2007)
Berbasis residual. Perbedaan rata-rata kuadrat antara residu kovarian sampel dan residu kovariansi yang diestimasi. Unstandardised
SRMR
Kurang dari 0,08 (Hu dan Bentler, 1999)
Versi standar RMR. Lebih mudah diinterpretasi karena sifatnya yang terstandar
Incremental Fit Indices
NFI
Lebih besar dari 0,95
Menilai kecocokan relatif terhadap model baseline yang mengasumsikan tidak ada kovarian antara variabel yang diamati. Cenderung overestimate dalam sampel kecil
NNFI (TLI)
Lebih besar dari 0,95
Nilai yang tidak dinormalkan, bisa berada di luar rentang 0-1. Berperforma baik dalam studi simulasi (Sharma et al, 2005; McDonald dan Marsh, 1990)
CFI
Lebih besar dari 0,95
Normed, rentang 0-1

Melaporkan model fit
Untuk melaporkan indeks fit mana yang harus ditampilkan, tidak perlu memasukkan semua indeks fit yang dikeluarkan oleh program analisis karena akan membebani pembaca maupun reviewer. Meskipun demikian, kita juga tidak boleh hanya menampilkan indeks yang menunjukkan fit paling baik saja karena dapat menghilangkan informasi penting. Meskipun tidak ada aturan pokok mengenai ini, melaporkan berbagai indeks diperlukan karena indeks yang berbeda mencerminkan aspek yang berbeda dari kesesuaian model. Kline (2005) merekomendasikan indeks yang harus dilaporkanadalah uji Chi-Square, RMSEA, CFI dan SRMR. Boomsma (2000) merekomendasikan hal serupa, tetapi menambahkan squared multiple correlations dari setiap persamaan juga dilaporkan. Sementara Hooper, Coughlan, dan Mullen (2008) menyarankan untuk melaporkan nilai Chi-Square, df, dan nilai p-nya; RMSEA dan interval kepercayaannya, SRMR, CFI dan satu indeks kesesuaian parsimoni seperti PNFI. Indeks-indeks ini dipilih karena paling tidak sensitif terhadap ukuran sampel, kesalahan spesifikasi model, dan estimasi parameter.

Meningkatkan model fit
Model yang diajukan terkadang memiliki model fit yang kurang baik. Melakukan modifikasi model merupakan praktek yang berbahaya, namun beberapa modifikasi lokal dapat dilakukan. Modifikasi dapat dilakukan dengan menilai kesesuaian setiap konstruk dan item-itemnya untuk menentukan apakah ada item yang lemah. Item dengan R-square rendah (kurang dari 0,20) harus dihapus dari analisis karena ini merupakan indikasi tingkat kesalahan yang sangat tinggi.

Langkah lain yang sering dilakukan untuk meningkatkan model fit adalah mengkorelasikan antar eror. Praktek ini menunjukkan bahwa ada hal lain yang tidak ditentukan dalam model yang menyebabkan kovarian. Jika seorang peneliti memutuskan untuk mengkorelasikan error tersebut, maka perlu ada justifikasi teoretis yang kuat. Mengkorelasikan error dalam satu variabel lebih dibenarkan daripada korelasi lintas variabel laten, namun dampak statistik dan substantif juga harus dibahas secara jelas. Jika peneliti merasa dapat membuktikan bahwa langkah yang diambil ini tepat, maka mengkorelasikan error ini dapat diterima, namun tetap saja langkah ini perlu dilakukan secara hati-hati.

Referensi utama

Hooper, D., Coughlan, J. and Mullen, M. R. (2008). Structural Equation Modelling: Guidelines for Determining Model Fit. The Electronic Journal of Business Research Methods, 6 (1), 53 – 60

Referensi pendukung

Akaike, H. (1974). A New Look at the Statistical Model Identification. IEE Transactions on Automatic Control, 19 (6), 716-23.
Barrett, P. (2007), Structural Equation Modelling: Adjudging Model Fit. Personality and Individual Differences, 42 (5), 815-24.

Boomsma, A. (2000). Reporting Analyses of Covariance Structures. Structural Equation Modeling, 7 (3), 461-83

Hu, L.T. and Bentler, P.M. (1999). Cutoff Criteria for Fit Indexes in Covariance Structure Analysis: Conventional Criteria Versus New Alternatives. Structural Equation Modeling, 6 (1), 1-55.

Kline, R.B. (2005). Principles and Practice of Structural Equation Modeling (2nd Edition ed.). New York: The Guilford Press.

Mulaik, S.A., James, L.R., Van Alstine, J., Bennet, N., Lind, S., and Stilwell, C.D. (1989). Evaluation of Goodness-of-Fit Indices for Structural Equation Models. Psychological Bulletin, 105 (3), 430-45.

Artikel Lainnya