Menentukan Jumlah Sampel Minimal Penelitian dengan G*Power


Salah satu pertanyaan yang paling sering ditanyakan mahasiswa ketika hendak mengambil data adalah, berapa jumlah sampel yang tepat untuk penelitian saya. Di tulisan sebelumnya saya sudah mengulas tentang jumlah sampel minimal dan juga tentang konsep signifikansi, statistical power, dan effect size. Di tulisan kali ini saya akan mengulas bagaimana cara menghitung jumlah sampel minimal serta statistical power yang diperoleh dengan bantuan software G*Power.

G * Power adalah software untuk menghitung statistical power atau kekuatan uji statistik untuk berbagai uji t, uji F, uji χ2, uji z, uji korelasi, dan uji statistik lainnya. G * Power juga dapat digunakan untuk menghitung ukuran efek (effect size) dan untuk menampilkannya secara grafis hasil analisis, sehingga software ini juga cocok digunakan untuk melakukan studi simulasi dan proses pengajaran. Sebenarnya G*Power dapat digunakan untuk mengestimasi lima hal berikut: (1) A priori (ukuran sampel N dihitung sebagai fungsi dari power 1 - β, level signifikansi α, dan effect size populasi yang tidak terdeteksi), (2) Compromise (baik α dan 1 - β dihitung sebagai fungsi effect size, N, dan rasio probabilitas kesalahan (q = β / α)), (3) Kriteria (α dan kriteria keputusan terkait dihitung sebagai fungsi 1 - β, effect size, dan N), (4) Post-hoc (1 - β dihitung sebagai fungsi α, effect size populasi, dan N), dan (5) Sensitivitas (effect size populasi dihitung sebagai fungsi α, 1 - β, dan N). Tulisan ini hanya akan fokus pada fungsi pertama, yaitu fungsi apriori untuk menentukan jumlah sampel berdasarkan power, level signifikansi, dan effect size. Jika menginginkan untuk mendownload software G*Power, anda dapat mendownloadnya secara gratis di sini

Untuk menentukan sampel minimal pada uji statistik, ada beberapa langkah yang harus dilakukan
1.    Menentukan jenis analisis yang akan diestimasi. Jenis analisis bervariasi, tergantung dari jenis data dan hipotesis yang ingin dijawab. Untuk melihat jenis analisis secara lengkap bisa dilihat di sini. 
2.  Menentukan level signifikansi (α ) yang hendak digunakan dalam penelitian. Dalam penelitian di Psikologi, pada umumnya level signifikansi yang ditoleransi adalah 0,05 atau 0,01. Jika kita menghendaki kecermatan yang tinggi kita bisa menggunakan level signifikansi 0,01; namun secara umum level signifikansi 0,05 sudah diterima.
3.    Menentukan statistical power yang diharapkan. Pada umumnya dalam penelitian Psikologi,  statistical power yang diharapkan yaitu yang tinggi, setidaknya di atas 0,80 (80%).
4.    Menentukan effect size yang diharapkan. Jika dalam menentukan level signifikansi dan power pada umumnya sudah ada standarnya, menentukan effect size ini sedikit tricky karena kita belum memiliki effect size karena belum mengambil data. Lalu bagaimana cara kita menentukan effect size yang kita harapkan? Ada dua cara: pertama, dengan melihat effect size penelitian-penelitian sebelumnya yang meneliti variabel yang sama. Effect size penelitian sebelumnya dapat kita jadikan referensi untuk jadi dasar kita menentukan effect size yang diharapkan. Jika memang belum ada penelitian sebelumnya, cara yang kedua yaitu menggunakan penilaian klinis untuk menentukan besaran efek terkecil yang dianggap relevan. Misal kita ingin menguji hubungan X dan Y dan kita menghendaki analisis kita sensitif untuk menguji korelasi dengan efek kecil sekalipun, maka kita dapat menuliskan effect sizenya sebesar 0,1. Sebagai referensi, kita dapat melihat klasifikasi effect size dari Cohen di tabel di bawah.
5.    Menentukan tail(s) yang akan digunakan. Banyaknya tail(s), apakah one-tail atau two-tails tergantung dari apakah hipotesis kita memiliki arah atau tidak. Penjelasan mengenai one-tail atau two-tails dapat dibaca di sini

Jika kita sudah menentukan hal di atas, maka kita bisa mengestimasi jumlah sampel minimal yang dibutuhkan untuk penelitian kita.

Menentukan sampel minimal uji korelasi dengan G*Power
Untuk menentukan jumlah sampel minimal untuk uji korelasi, maka kita atur sebagai berikut
1.    Klik test – correlation and regression – correlation: bivariate normal model
2.    Pilih type power analysis A priori: compute required sample size – given α, power, effect size
3.    Jika hipotesis kita belum memiliki arah, maka isikan tail(s) dengan two
4.  Correlation ρ H1 merupakan effect size atau nilai korelasi yang dikehendaki. Misal penelitian sebelumnya sebagian besar menemukan hasil korelasi r = 0,2; maka kita bisa isikan 0,2
5.    α err prob merupakan level signifikansi yang ditoleransi, kita bisa isikan 0,05
6.    Power (1 – β err prob) merupakan power statistik yang diharapkan, kita bisa isikan 0,80
7.    Correlation ρ H0 merupakan hipotesis null kita, kita bisa isikan 0

Jika semua paramnater sudah diisi, maka klik calculate dan kita bisa lihat jumlah sampel minimal di total sample size. Dari output di sampingnya kita dapat lihat bahwa jumlah sampel minimal yang dibutuhkan adalah 193 subjek.

Menentukan sampel minimal uji t kelompok independen dengan G*Power
Untuk menentukan jumlah sampel minimal untuk uji t kelompok independen, maka kita atur sebagai berikut
1.    Klik test – means – two independent groups
2.    Pilih type power analysis A priori: compute required sample size – given α, power, effect size
3.    Jika hipotesis kita belum memiliki arah, maka isikan tail(s) dengan two
4.    Effect size d merupakan effect size yang dikehendaki. Misal penelitian sebelumnya sebagian besar menemukan hasil d = 0,5; maka kita bisa isikan 0,5. Namun tidak semua penelitian melaporkan nilai d karena by default, software seperti SPSS tidak bisa mengeluarkan nilai d secara otomatis. Jika memang demikian kita bisa klik determine di samping kiri, lalu isikan nilai mean dan SD masing-masing kelompok.
5.    α err prob merupakan level signifikansi yang ditoleransi, kita bisa isikan 0,05
6.    Power (1 – β err prob) merupakan power statistik yang diharapkan, kita bisa isikan 0,80
7.   Allocation ratio N2/N1 merupakan perbandingan jumlah kelompok 1 dan 2. Jika kita menghendaki kedua kelompok jumlahnya sama, maka kita bisa isikan angka 1

Jika semua paramnater sudah diisi, maka klik calculate dan kita bisa lihat jumlah sampel minimal di total sample size. Dari output di sampingnya kita dapat lihat bahwa jumlah sampel minimal yang dibutuhkan adalah 128 subjek, dengan masing-masing kelompok berjumlah 64 subjek.

Cara di atas merupakan cara top-down, artinya dari awal kita sudah menentukan jumlah sampel dari parameter yang sudah diketahui. Meskipun demikian, ketika kita sudah mengambil data dan melakukan analisis, kita bisa mengulangi analisis tersebut dengan memasukkan nilai effect size yang sesungguhnya kita peroleh dari data. Misalnya, pada analisis pertama dengan uji korelasi, setelah dianalisis dengan sampel sejumlah 193 subjek (sesuai yang direkomendasikan di atas), ternyata nilai korelasinya sebesar 0,25. Kemudian kita masukkan kembali nilai effect sizenya 0,25 dan diperoleh hasil total sample size yang dibutuhkan adalah 123 dan power > 0,80. Dengan demikian sampel kita sudah memenuhi kriteria.


Signifikansi, Effect Size, Statistical Power, dan Besaran Sampel


Bagi peneliti kuantitatif, konsep dari signifikansi, besaran efek (Effect Size), kekuatan uji statistik (Statistical Power), dan besaran sampel merupakan konsep dasar yang harusnya dipahami. Namun kenyataannya, di mata kuliah statistika, tidak semua dosen menjelaskan konsep dasar ini, dan tidak semua dosen menjelaskan dengan tepat empat konsep ini. Penelitian Psikologi, terutama yang menggunakan pendekatan eksperimen sebagian besar ingin membandingkan apakah terdapat perbedaan variabel antara dua kelompok atau lebih. Misalnya sebuah penelitian ingin menguji apakah terapi psikologis mampu meningkatkan kepercayaan diri subjek. Penelitian dilakukan dengan desain between subject dengan kelompok kontrol dan eksperimen, dimana kelompok kontrol tidak diberi terapi, sedangkan kelompok eksperimen diberi terapi. Penelitian tersebut memiliki hipotesis bahwa “terdapat perbedaan kepercayaan diri antara kelompok kontrol dan kelompok eksperimen, dimana kelompok eksperimen memiliki kepercayaan diri yang lebih tinggi”.

Statistik inferensial tradisional tidak menguji hipotesis tersebut, melainkan menguji hipotesis null yang menyatakan bahwa “tidak ada perbedaan kepercayaan diri antara kelompok kontrol dan eksperimen”. Pendekatan ini sering disebut dengan Null Hypothesis Significance Testing (NHST). Peneliti melakukan uji statistik dengan independent sample t-test. Jika probabilitas jangka panjang data yang diobservasi muncul di bawah hipotesis null sangat rendah (misal di bawah 5%), peneliti menyimpulkan bahwa hipotesis null sangat kecil kemungkinannya untuk benar. Karena sangat kecil kemungkinan bahwa hipotesis null benar, maka peneliti menolak hipotesis null, dan menyimpulkan bahwa terapinya memberikan efek positif terhadap kepercayaan diri. Uji statistik tradisional ini memiliki beberapa paramater untuk memastikan kesimpulan tepat, yakni kriteria signifikansi, Effect Size, dan Statistical power, dan besaran sampel. Tulisan ini akan memberikan gambaran empat konsep ini dan bagaimana hubungan di antara keempatnya.

Kriteria Signifikansi
Dalam statistik tradisional, kesalahan Tipe I dilambangkan dengan simbol α (alfa), dan merupakan probabilitas jangka panjang sebuah penelitian menolak hipotesis null, ketika hipotesis null benar. Sebagian besar penelitian Psikologi dan humaniora memberikan toleransi 5% (α = 0.05) terhadap terjadinya kesalahan Tipe I atau atau biasa disebut false positives. Hal ini berarti, dalam pengambilan data yang dilakukan berkali-kali dengan batas tidak terhingga, terdapat kemungkinan 5% atau kurang bahwa efek yang ditemukan dalam observasi sebenarnya tidak ada. Toleransi terhadap kesalahan Tipe I dilambangkan dengan p, sehingga nilai p di bawah 0,05 (di bawah batas toleransi) dianggap sebagai temuan yang signifikan dan sebaliknya. Dalam contoh penelitian eksperimen di atas, jika menggunakan kriteria p < 0,05 artinya peluang peneliti salah menyimpulkan bahwa terapinya memiliki efek positif, padahal terapi tersebut tidak memiliki efek positif adalah sebesar 5%.

Kekuatan uji statistik (statistical power)
Dalam statistik tradisional, kesalahan Tipe II dilambangkan dengan simbol β (beta), dan merupakan probabilitas jangka panjang sebuah penelitian gagal menolak hipotesis null, ketika hipotesis null tidak benar. Kekuatan uji statistik (power) dalam statistik inferensial tradisional merupakan kontrol terhadap kesalahan Tipe II atau disebut juga sebagai false negatives (1- β). Sebagian besar penelitian Psikologi dan humaniora memberikan toleransi 20% terjadinya kesalahan Tipe II, sehingga penelitian-penelitian tersebut memiliki Statistical power sebesar 80% (Cohen, 1990). Hal ini berarti, dalam pengambilan data yang dilakukan berkali-kali dengan batas tidak terhingga, terdapat kemungkinan 80% atau lebih untuk menyimpulkan bahwa suatu efek tidak ada, ketika efek tersebut memang tidak ada.

Secara umum antara signifikansi (α) dan Statistical power (1- β) memiliki hubungan yang positif. Seperti terlihat pada gambar di bawah, jika kita meningkatkan level signifikansi (α), maka kita akan mengurangi daerah penerimaan hipotesis null. Berkurangnya daerah penerimaan ini secara otomatis meningkatkan nilai beta. Meningkatnya nilai beta akan menunjukkan nilai kekuatan uji bertambah.   

Besaran efek (effect size)
Besaran efek (effect size) menunjukkan perbedaan terstandar antara skor dari kelompok kontrol dan eksperimen. Dalam penelitian, peneliti tidak hanya tertarik pada perbedaan antara kelompok kontrol dan eksperimen, namun juga seberapa besar perbedaan antara kelompok kontrol dan kelompok eksperimen. Effect Size merupakan satuan standar, artinya, Effect Size dapat dibandingkan antar beberapa skala yang berbeda dan dapat dibandingkan antar beberapa penelitian dengan besaran sampel yang berbeda-beda. Dalam contoh penelitian eksperimen di atas, Effect Size yang dapat digunakan adalah Cohen’s d, yang semakin besar nilainya maka semakin besar perbedaan antara kelompok kontrol dan kelompok eksperimen. Effect Size ada beragam jenisnya sesuai jenis analisanya, misal Effect Size untuk uji beda dua kelompok menggunakan Cohen’s d, Effect Size uji korelasi menggunakan koefisien r, dan Effect Size Anova menggunakan Eta squared. Klasifikasi Effect Size pada berbagai jenis analisis dapat dilihat pada tabel di bawah.

Besaran sampel
Besaran sampel dalam statistik inferensial tradisional dapat dihitung dengan memanfaatkan dinamika relasi antara parameter-parameter yang telah dijabarkan sebelumnya. Formula untuk menentukan besaran sampel berdasarkan tiga paramater sebelumnya adalah sebagai berikut.

Besaran sampel uji beda dua kelompok

Besaran sampel uji korelasi


Sebagai contoh, jika penelitian eksperimen di atas menghendaki kriteria signifikansi p < 0,05 two-tailed dan power, 1-β = 0,80 dan mengharapkan Effect Size sebesar 0,5. Dengan demikian dapat dihitung Z1-α/2 = 1,960 dan Z1-β = 0,842 (menggunakan tabel distribusi normal) sehingga diperoleh besaran sampel 2*((1,960+0,842)/0,5)^2 = ~ 64 subjek per kelompok.

Bagaimana jika peneliti hanya menggunakan 30 subjek saja per kelompok? Dengan memasukan ke formula, dengan Effect Size dan kriteria signifikansi yang sama, maka akan diperoleh power sebesar 0,478. Hal ini berarti, penelitian dengan sampel 30 subjek memiliki taraf kesalahan Tipe II sebesar 52,2%. Dengan kata lain, terdapat 52,2% kemungkinan dalam penelitian ini untuk menolak hipotesis null, padahal hipotesis null tersebut benar. Taraf kesalahan sebesar 52,2% ini melebihi toleransi kesalahan Tipe II sebesar 20% dalam sebagian besar penelitian Psikologi dan humaniora.

Ketika kesalahan Tipe I dan II dikontrol, secara umum hubungan antara Effect Size dan jumlah sampel dapat ditunjukkan pada gambar di bawah ini.
Dari gambar terlihat bahwa Effect Size memiliki hubungan negatif dengan jumlah sampel. Untuk mendeteksi Effect Size yang kecil, dibutuhkan sampel yang lebih banyak, dan sebaliknya. Selain itu, Effect Size memiliki relasi eksponensial dengan besaran sampel. Ketika Effect Size yang diharapkan kecil, maka jumlah sampel yang dibutuhkan untuk mendeteksi suatu efek bertambah secara eksponensial menjadi sangat besar dan sebaliknya.

Dalam penelitian psikologi dan humaniora seringkali peneliti mengontrol taraf kesalahan Tipe I, namun tidak mengontrol taraf kesalahan Tipe II dan tidak mempertimbangkan Effect Size dalam pengambilan keputusan. Ketika taraf kesalahan Tipe II tidak dikontrol, Effect Size yang terhitung biasanya merupakan overestimasi, dan ketika Effect Size ini digunakan untuk menghitung Statistical power dalam penelitian replikasi, hasil penelitian sebagian besar tidak mereplikasi temuan sebelumnya. Oleh karena itu, dalam menentukan sampel, peneliti hendaknya memperhatikan keempat paramater tersebut.

Berapa Ukuran Sampel Ideal dalam Penelitian Kuantitatif?


Dalam penelitian kuantitatif di Psikologi, salah satu pertanyaan yang paling banyak ditanyakan adalah berapa jumlah sampel yang ideal untuk penelitian saya. Di beberapa literatur dijelaskan cara menentukan jumlah sampel minimal dari suatu populasi yang diketahui. Yang paling populer, misalnya dengan melihat tabel Krejcie, tabel Isaac, atau rumus Slovin, meskipun beberapa peneliti juga meragukan referensi dari cara tersebut. Masalahnya, di Psikologi sebagian besar penelitian tidak diketahui jumlah populasinya dan penelitian hanya difokuskan pada variabel. Apalagi pada penelitian eksperimen, besarnya sampel tidak ditentukan oleh besarnya populasi. Hal ini menyulitkan peneliti untuk menentukan berapa jumlah sampel minimal yang dibutuhkan.

Panduan untuk Menentukan Model Fit dalam SEM




Structural Equation Modelling (SEM) merupakan teknik analisis data yang populer di kalangan peneliti dari berbagai disiplin. Bagi mahasiswa doktoral di Ilmu Sosial, analisis ini sudah seperti “menu wajib” yang harus dikuasai. Namun, masalah perkara model teoritis mana yang paling mewakili data masih menjadi perdebatan. Dengan banyaknya indeks fit yang tersedia, dan tidak adanya kesepakatan tentang indeks mana yang harus dilaporkan, membuat menjadi bingung. Selain itu berapa nilai cut-off dari indeks yang ada juga belum disepakati. Tulisan ini merupakan intisari dari tulisan Hooper dkk yang berupaya untuk memperkenalkan berbagai indeks fit yang dapat digunakan sebagai pedoman bagi peneliti SEM serta memberi gambaran indeks fit mana yang paling sering digunakan untuk laporan tulisan ilmiah.

Absolute fit indices
Absolute fit indices menentukan seberapa baik model apriori cocok dengan data sampel dan menunjukkan model mana yang memiliki kecocokan paling unggul. Indeks ini memberikan indikasi paling mendasar tentang seberapa baik teori yang diusulkan cocok dengan data. Yang termasuk dalam kategori ini adalah tes Chi-Squared, RMSEA, GFI, AGFI, RMR dan SRMR.
Model chi-square (χ2)
Nilai Chi-Square adalah ukuran tradisional untuk mengevaluasi kesesuaian model keseluruhan (Hu dan Bentler, 1999). Model fit yang baik akan memberikan hasil yang tidak signifikan pada ambang 0,05 (Barrett, 2007), sehingga statistik Chi-Square sering disebut sebagai 'badness of fit'. Meskipun Chi-square sangat populer, namun indeks ini memiliki beberapa kekurangan. Pertama, indeks ini mengasumsikan normalitas multivariat, dan pelanggaran asumsi ini menyebabkan penolakan model, meskipun bisa jadi model tersebut tepat. Kedua, karena chi-square pada dasarnya adalah uji signifikansi statistik, maka indeks ini sangat terpengaruh oleh besarnya sampel. Jika sampel terlalu kecil, kecenderungannya akan tidak signifikan, sementara jika sampel terlalu besar, kecenderungannya akan signifikan. Dengan demikian, chi-square hampir pasti menolak model jika sampel yang digunakan banyak.
Root mean square error of approximation (RMSEA)
RMSEA adalah statistik fit kedua yang dilaporkan dalam program LISREL dan pertama kali dikembangkan oleh Steiger dan Lind. RMSEA memberi tahu kita seberapa baik model, dengan estimasi parameter yang tidak diketahui tetapi dipilih secara optimal akan sesuai dengan matriks kovarians populasi. Dalam beberapa tahun terakhir, indeks ini dianggap sebagai 'salah satu indeks kecocokan paling informatif' karena kepekaannya terhadap jumlah parameter yang diperkirakan dalam model. Salah satu keuntungan terbesar dari RMSEA adalah adanya interval kepercayaan nilainya. Secara umum RMSEA dalam model yang pas memiliki batas bawah mendekati 0 sedangkan batas atasnya harus kurang dari 0,08.
Goodness-of-fit statistic (GFI) and the adjusted goodness-of-fit statistic (AGFI)
Statistik Goodness-of-Fit (GFI) dibuat oleh Jöreskog dan Sorbom sebagai alternatif dari uji Chi-Square dengan menghitung proporsi varian yang diperhitungkan oleh perkiraan kovarians populasi. Statistik ini berkisar dari 0 hingga 1 dengan jumlah sampel yang besar dapat meningkatkan nilainya. Selain itu, GFI juga cenderung meningkat dengan meningkatnya jumlah parameter dan juga memiliki overestimasi dengan sampel besar. Secara tradisional, batas minimal yang diterima adalah 0,90, namun, studi simulasi telah menunjukkan bahwa ketika factor loading dan ukuran sampel rendah, cut-off yang lebih tinggi dari 0,95 adalah lebih tepat (Miles dan Shevlin, 1998). Mengingat sensitivitas indeks ini, indeks ini menjadi kurang populer dalam beberapa tahun terakhir dan bahkan tidak direkomendasikan untuk digunakan. AGFI adalah indeks yang menyesuaikan GFI berdasarkan derajat kebebasan. Seperti halnya GFI, nilai-nilai untuk AGFI juga berkisar antara 0 dan 1, dan secara umum nilai 0,90 atau lebih menunjukkan model yang fit. Mengingat pengaruh ukuran sampel pada dua indeks kecocokan ini, mereka tidak bisa berdiri sendiri.
Root mean square residual (RMR) and standardised root mean square residual (SRMR)
RMR dan SRMR adalah akar kuadrat dari perbedaan antara residual dari matriks kovarians sampel dan model kovarians hipotesis. Nilai untuk rentang SRMR berkisar dari 0 – 1, dengan model fit yang memiliki nilai kurang dari 0,05 (Byrne, 1998; Diamantopoulos dan Siguaw, 2000), namun nilai setinggi 0,08 dianggap dapat diterima (Hu dan Bentler, 1999).

Incremental fit indices
Incremental fit indices juga dikenal sebagai komparatif (Miles dan Shevlin, 2007) atau indeks kecocokan relatif (McDonald dan Ho, 2002), adalah sekelompok indeks yang tidak menggunakan chi-square dalam bentuk mentahnya tetapi membandingkan nilai chisquare dengan model dasar. Yang termasuk dalam kategori ini adalah NFI dan CFI.
Normed-fit index (NFI)
Statistik ini menilai model dengan membandingkan nilai χ2 dari model dengan χ2 dari model nol. Nilai untuk rentang statistik ini antara 0 – 1. Bentler dan Bonnet (1980) merekomendasikan nilai yang lebih besar dari 0,90 yang menunjukkan kecocokan yang baik. Saran yang lebih baru menyatakan bahwa kriteria cut-off seharusnya menjadi NFI ≥ 0,95 (Hu dan Bentler, 1999). Kelemahan utama indeks ini adalah sensitif terhadap ukuran sampel, akan menghasilkan nilai underestimate jika sampel kurang dari 200 (Mulaik et al, 1989; Bentler, 1990), dan karenanya tidak direkomendasikan untuk untuk digunakan sendirian. Masalah ini diperbaiki oleh Non-Normed Fit Index (NNFI, juga dikenal sebagai indeks Tucker-Lewis (TLI), indeks yang lebih suka model yang lebih sederhana. Masalah terakhir dengan NNFI adalah bahwa karena sifatnya yang non-normed, nilai bisa lebih dari 1,0 dan hal ini sulit untuk ditafsirkan (Byrne, 1998). Bentler dan Hu (1999) telah menyarankan NNFI ≥ 0,95 sebagai ambang batas.
CFI (Comparative fit index)
Comparative Fit Index (CFI: Bentler, 1990) adalah bentuk revisi dari NFI yang memperhitungkan ukuran sampel (Byrne, 1998) yang berkinerja baik bahkan ketika ukuran sampel kecil. Seperti halnya NFI, nilai untuk rentang statistik ini antara 0 - 1. Kriteria cut-off dari CFI awalnya adalah ≥ 0,90, namun penelitian terbaru menunjukkan nilai CFI ≥ 0,95 saat ini diakui sebagai indikasi model fit (Hu dan Bentler, 1999). Saat ini, indeks ini merupakan ukuran paling populer karena menjadi salah satu ukuran yang paling sedikit dipengaruhi oleh ukuran sampel.

Parsimony fit indices
Model yang jenuh dan kompleks menunjukkan bahwa proses estimasi tergantung pada data sampel menghasilkan model teoretis yang kurang kuat yang secara paradoks menghasilkan indeks fit yang lebih baik. Untuk mengatasi masalah ini, Mulaik et al (1989) telah mengembangkan dua indeks fit parsimoni; Parsimony Goodness-of-Fit Index (PGFI) dan Parsimonious Normed Fit Index (PNFI). PGFI didasarkan pada GFI dengan menyesuaikan hilangnya derajat kebebasan, sementara PNFI juga sama namun didasarkan pada NFI. Tidak ada batas nilai yang direkomendasikan untuk menilai model fit berdasarkan kedua indeks ini, namun biasanya nilai yang diharapkan adalah di atas 0,90.

Bentuk kedua dari indeks fit parsimoni juga dikenal sebagai indeks criteria kriteria informasi. Mungkin yang paling dikenal dari indeks ini adalah Akaike Information Criterion (AIC) atau Consistent Version of AIC (CAIC) yang menyesuaikan ukuran sampel (Akaike, 1974). Nilai yang kecil menunjukkan model yang fit dan sederhana. Karena indeks ini tidak dinormalkan ke skala 0-1, sulit untuk menyarankan nilai cut-offnya. Sebagai catatan, statistik ini membutuhkan ukuran sampel 200 untuk membuatnya reliabel. Secara ringkah Hooper, Coughlan, dan Mullen (2008)
 Merangkumnya dalam tabel di bawah.

Tabel 1. Indeks fit dan ambang batasnya
Indeks fit
Ambang batas
Keterangan
Absolute Fit Indices
Chi-Square χ2
χ2 rendah relatif terhadap df dengan nilai p tidak signifikan (p> 0,05)

Relative χ2 (χ2/df)
2:1 (Tabachnik and Fidell, 2007), 3:1 (Kline, 2005)
Menyesuaikan ukuran sampel
Root Mean Square Error
of Approximation (RMSEA)
Nilai kurang dari 0.07 (Steiger, 2007)
Memiliki distribusi yang dikenal. Nilai kurang dari 0,03 mewakili kecocokan yang sangat baik.
GFI
Lebih besar dari 0,95
Skala antara 0 dan 1, dengan nilai yang lebih tinggi menunjukkan kesesuaian model yang lebih baik. Statistik ini harus digunakan dengan hati-hati
AGFI
Lebih besar dari 0,95
Penyesuaian GFI berdasarkan jumlah parameter dalam model. Nilai dapat jatuh di luar rentang 0-1.0.
RMR
Model yang baik memiliki RMR kecil (Tabachnick dan Fidell, 2007)
Berbasis residual. Perbedaan rata-rata kuadrat antara residu kovarian sampel dan residu kovariansi yang diestimasi. Unstandardised
SRMR
Kurang dari 0,08 (Hu dan Bentler, 1999)
Versi standar RMR. Lebih mudah diinterpretasi karena sifatnya yang terstandar
Incremental Fit Indices
NFI
Lebih besar dari 0,95
Menilai kecocokan relatif terhadap model baseline yang mengasumsikan tidak ada kovarian antara variabel yang diamati. Cenderung overestimate dalam sampel kecil
NNFI (TLI)
Lebih besar dari 0,95
Nilai yang tidak dinormalkan, bisa berada di luar rentang 0-1. Berperforma baik dalam studi simulasi (Sharma et al, 2005; McDonald dan Marsh, 1990)
CFI
Lebih besar dari 0,95
Normed, rentang 0-1

Melaporkan model fit
Untuk melaporkan indeks fit mana yang harus ditampilkan, tidak perlu memasukkan semua indeks fit yang dikeluarkan oleh program analisis karena akan membebani pembaca maupun reviewer. Meskipun demikian, kita juga tidak boleh hanya menampilkan indeks yang menunjukkan fit paling baik saja karena dapat menghilangkan informasi penting. Meskipun tidak ada aturan pokok mengenai ini, melaporkan berbagai indeks diperlukan karena indeks yang berbeda mencerminkan aspek yang berbeda dari kesesuaian model. Kline (2005) merekomendasikan indeks yang harus dilaporkanadalah uji Chi-Square, RMSEA, CFI dan SRMR. Boomsma (2000) merekomendasikan hal serupa, tetapi menambahkan squared multiple correlations dari setiap persamaan juga dilaporkan. Sementara Hooper, Coughlan, dan Mullen (2008) menyarankan untuk melaporkan nilai Chi-Square, df, dan nilai p-nya; RMSEA dan interval kepercayaannya, SRMR, CFI dan satu indeks kesesuaian parsimoni seperti PNFI. Indeks-indeks ini dipilih karena paling tidak sensitif terhadap ukuran sampel, kesalahan spesifikasi model, dan estimasi parameter.

Meningkatkan model fit
Model yang diajukan terkadang memiliki model fit yang kurang baik. Melakukan modifikasi model merupakan praktek yang berbahaya, namun beberapa modifikasi lokal dapat dilakukan. Modifikasi dapat dilakukan dengan menilai kesesuaian setiap konstruk dan item-itemnya untuk menentukan apakah ada item yang lemah. Item dengan R-square rendah (kurang dari 0,20) harus dihapus dari analisis karena ini merupakan indikasi tingkat kesalahan yang sangat tinggi.

Langkah lain yang sering dilakukan untuk meningkatkan model fit adalah mengkorelasikan antar eror. Praktek ini menunjukkan bahwa ada hal lain yang tidak ditentukan dalam model yang menyebabkan kovarian. Jika seorang peneliti memutuskan untuk mengkorelasikan error tersebut, maka perlu ada justifikasi teoretis yang kuat. Mengkorelasikan error dalam satu variabel lebih dibenarkan daripada korelasi lintas variabel laten, namun dampak statistik dan substantif juga harus dibahas secara jelas. Jika peneliti merasa dapat membuktikan bahwa langkah yang diambil ini tepat, maka mengkorelasikan error ini dapat diterima, namun tetap saja langkah ini perlu dilakukan secara hati-hati.

Referensi utama

Hooper, D., Coughlan, J. and Mullen, M. R. (2008). Structural Equation Modelling: Guidelines for Determining Model Fit. The Electronic Journal of Business Research Methods, 6 (1), 53 – 60

Referensi pendukung

Akaike, H. (1974). A New Look at the Statistical Model Identification. IEE Transactions on Automatic Control, 19 (6), 716-23.
Barrett, P. (2007), Structural Equation Modelling: Adjudging Model Fit. Personality and Individual Differences, 42 (5), 815-24.

Boomsma, A. (2000). Reporting Analyses of Covariance Structures. Structural Equation Modeling, 7 (3), 461-83

Hu, L.T. and Bentler, P.M. (1999). Cutoff Criteria for Fit Indexes in Covariance Structure Analysis: Conventional Criteria Versus New Alternatives. Structural Equation Modeling, 6 (1), 1-55.

Kline, R.B. (2005). Principles and Practice of Structural Equation Modeling (2nd Edition ed.). New York: The Guilford Press.

Mulaik, S.A., James, L.R., Van Alstine, J., Bennet, N., Lind, S., and Stilwell, C.D. (1989). Evaluation of Goodness-of-Fit Indices for Structural Equation Models. Psychological Bulletin, 105 (3), 430-45.

Catatan Mengenai Uji Normalitas: Jangan Panik Jika Data Tidak Normal!


Pertanyaan yang paling sering disampaikan ke saya melalui website atau disampaikan secara langsung adalah: Data saya tidak normal, saya harus bagaimana Pak? Pertanyaan putus asa, seolah-olah usaha mengambil data dengan susah payah ini tidak ada hasilnya. Susah-susah mengumpulkan data sampai 500 orang, namun akhirnya harus menggunakan analisis non-parametrik hanya karena datanya tidak normal. Sebuah kemubaziran yang luar biasa. Dari seluruh artikel dan video yang saya buat, artikel cara mengatasi data berdistribusi tidak normal inilah yang paling laris dan banyak dikomentari orang yang mengalami nasib yang sama. Padahal alih-alih langsung mengatasi data tidak normal, kita harus paham dulu apa itu normalitas dan jenis-jenis uji normalitas. Tulisan ini akan memberikan beberapa catatan yang harus kita pahami terlebih dahulu sebelum menilai data kita normal atau tidak.

Semesta Psikometrika Punya Cabang di Youtube!

Channel Youtube ini adalah cita-cita lama saya untuk memudahkan pembaca yang memiliki keterbatasan waktu untuk membaca penuh artikel atau pembaca yang kesulitan memahami bahasa tulis. Berhubung laptop saya adalah laptop tua yang bersuara keras jika digunakan untuk rekaman, ditambah lagi sering nge-hang jika digunakan untuk analisis data yang berat, maka proses rekaman menjadi terhambat. Cita-cita membuat channel Youtube akhirnya terealisasi berkat dukungan istri (laptop istri lebih tepatnya). Dikarenakan istri sekarang sudah berubah status menjadi full time mother, jadi laptopnya nganggur dan sayang kalau tidak diberdayakan. Jadilah laptop tersebut jadi modal bagi saya untuk rekaman dan membuat channel Youtube ini.

Analisis dan Seleksi Item Skala dengan SPSS

Dalam proses penyusunan skala, setelah skala dievaluasi oleh para pakar terkait revelansi item dan juga tata bahasanya, skala tersebut harus diujicobakan ke subjek dalam jumlah besar (lebih dari 30 orang). Uji coba ini dilakukan guna melihat reliabilitas skala dan juga daya diskriminasi (korelasi item-total) masing-masing item. Proses ini dapat dilakukan dengan bantuan software analisis data, salah satunya SPSS.

Analisis Regresi Tunggal dan Berganda dengan SPSS

Koefien korelasi hanya mampu menggambarkan kuat lemahnya hubungan dua variabel, namun tidak mampu menjelaskan hubungan funsional variabel mana yang menjadi sebab dan variabel mana yang menjadi akibat. Analisis regresi mempelajari bentuk hubungan antara satu atau lebih variabel bebas (X) dengan satu variabel tergantung (Y). Oleh karena itu, secara umum dapat dikatakan analisis regresi merupakan kelanjutan dari analisis korelasi karena dapat menentukan daya prediksi perubahan variabel Y akibat perubahan variabel X. Untuk dapat melakukan analisis regresi, data kita minimal harus berada pada level interval dan terdistribusi normal. Untuk menguji asumsi normalitas, dapat dilihat di sini.

Artikel Lainnya