Pengaruh Adanya Outliers terhadap Analisis Statistik

Seringkali kita merasa gagal sebagai peneliti ketika hasil analisis statistik kita ternyata tidak sesuai dengan hipotesis kita atau hasil uji statistik kita tidak signifikan. Menanggapi kemungkinan buruk tersebut, kita seharusnya tidak tergesa-gesa mengambil kesimpulan bahwa hipotesis kita tidak terbukti. Kita harus mencari tahu terlebih dahulu apakah analisis yang kita gunakan sudah tepat, atau data yang kita gunakan sudah benar-benar dapat dipertanggungjawabkan. Salah satu penyebab kacaunya hasil analisis statistik kita adalah karena adanya data outliers.

Apa itu outliers?
Outliers adalah data yang memiliki nilai sangat jauh dari nilai umumnya, atau dengan kata lain memiliki nilai yang ekstrem. Adanya outliers ini dapat berpengaruh pada hasil uji asumsi, seperti uji normalitas, lineraritas, maupun homogenitas varians. Lebih parah lagi, outliers ini dapat berpengaruh pada pegambilan kesimpulan penelitian dari hasil uji statistik. Ada beberapa faktor yang menyebabkan munculnya data outliers, diantaranya adalah:
  • Kesalahan penginputan data
  • Kesalahan pengambilan sampel
  • Subjek yang mengerjakan secara asal-asalan
  • Fakta di lapangan memang demikian

Jika alasan munculnya outliers adalah karena kesalahan penginputan, maka bisa kita koreksi. Namun jika munculnya outliers adalah karena kesalahan pengambilan sampel atau subjek yang mengerjakan secara asal-asalan, maka lebih baik kita bersihkan terlebih dahulu data tersebut sebelum kita melakukan analisis statistik.

Cara mengidentifikasi outliers
Ada berbagai macam cara mengidentifikasi outliers, seperti dengan menampilkan histogram, menampilkan nilai Z, dan boxplot. Secara umum, data disebut outliers jika memiliki nilai Z di atas 2,5 atau di bawah -2,5. Berikut adalah cara mengidentifikasi dengan boxplot di SPSS. Untuk melihat data outliers, kita dapat melakukannya di menu analyze – descriptive statistics – explore. Kemudian kita masukan variabel yang dinyatakan tidak normal, yakni variabel kepuasan ke kotak dependent list, lalu klik menu statistics dan centang bagian outliers. Jika sudah klik continue dan OK.

Untuk melihat data mana saja yang terindikasi sebagai outliers, kita dapat langsung menuju bagian boxplot pada output. Hasil output boxplot data kita dapat dilihat pada gambar di bawah.
Gambar tersebut mengindikasikan data-data mana saja yang terindikasi merupakan data ekstrem atau outliers.  Jika data berada di atas kotak, menunjukkan data ekstrem tinggi, sedangkan jika berada di bawah kotak menunjukkan data ekstrem rendah. Semakin jauh dari kotak, semakin ekstrem data tersebut. Dari output di atas kita dapat melihat bahwa subjek nomer 1, 2, 3, 4, 5 terindikasi sebagai outliers. Subjek nomer 1 dan 2 merupakan subjek yang paling ekstrem nilainya.

Dampak outliers pada uji statistik
Outliers dapat mengubah kesimpulan penelitian yang diambil dari hasil analsis statistik. Berikut ini adalah contoh penelitian mengenai “hubungan antara pelayanan istri dengan kepuasan suami”. Untuk melihat hubungan kedua variabel tersebut di SPSS, dapat dilihat dari menu analyze – correlate – bivariate. Lalu masukkan variabel kepuasan dan pelayanan, lalu klik OK.
Jika dilihat dari output di atas, diperoleh nilai r=0,167 dan p=0,129 (p>0,05), sehingga diperoleh kesimpulan tidak ada hubungan antara pelayanan istri dengan kepuasan suami. Namun apakah memang benar demikian? Mari kita lihat scaterplot dan garis korelasi kedua variabel tersebut.

Untuk melihat scaterplot, klik graph – legacy dialogs – scatter/dot – simple scatter – define. Lalu masukkan variabel kepuasan ke Y axis, pelayanan ke X Axix, dan ID ke label cases by. Kemudian klik options dan centang display charts with case labels.   

Jika sudah tekan continue dan OK, maka kita akan mendapatkan ouput berupa scatterplot. Untuk menampilkan garis korelasi scatterplot kita, doble klik pada gambar scatterplot, lalu klik menu add fit line at total yang berada di atas gambar. Maka akan diperoleh output seperti gambar di bawah ini.
Dari gambar di atas daat kita lihat bahwa terdapat dua subjek yang memiliki nilai jauh sekali dari garis korelasinya. Hal ini tentu akan berpengaruh pada kemiringan garis korelasi. Nilai R square yang menunjukkan sumbangan efektif variabel pelayanan terhadap kepuasan hanya sebesar 0,026 (2,6%). Adanya outliers yakni subjek nomer 1 dan 2 menarik garis korelasi, yang menyebabkan hubungan kedua variabel tersebut menjadi lemah.

Sekarang mari kita coba hapus dua outliers tersebut. Untuk menghapus data subjek, klik kanan pada nomer subjek, lalu pilih clear. Untuk menghapus, jangan lupa, kita menghapus dari subjek yang bawah terlebih dahulu, agar nomer subjek tidak bergeser nantinya. Setelah data outliers tersebut kita hapus, kita anlisis ulang data kita dengan analisis korelasi pearson. Hasil analisis ulang kita adalah sebagai berikut.
Dari output tersebut terlihat bahwa ada hubungan yang signifikan antara pelayanan dengan kepuasan. Nilai r=0,381 dan p<0,01. Nilai ini jauh lebih tinggi dibanding sebelumnya. Sekarang mari kita lihat scatterplotnya kembali. Ulangi prosedur menampilkan scatterplot tadi. Berikut adalah hasilnya.
Dari output tersebut terlihat bahwa garis korelasi menjadi lebih curam, semakin mendekati 45 derajat jika dibanding sebelumnya. Nilai R Square juga meningkat menjadi 0,145 (14,5%).

Simulasi ini menunjukkan bahwa adanya dua subjek yang memiliki nilai ekstrem ternyata dapat membuat pengaruh yang begitu besar dalam kesimpulan hasil analisis statistik. Analisis statistik yang melibatkan outliers, meskipun hanya dua orang, menghasilkan kesimpulan tidak signifikan. Sedangkan ketika outliers dihapus, hasil analisis menjadi signifikan dan nilai R Square juga meningkat. Jadi ketika kita hendak mengambil kesimpulan akan hasil analisis kita, terlebih dahulu kita harus mengecek data kita apakah sudah bersih atau belum.











Pensiunan guru SD yang sudah promosi menjadi dosen Psikologi di Universitas Muhammadiyah Malang

Share this

Related Posts

Previous
Next Post »

27 komentar

Write komentar
March 31, 2018 at 11:45 PM delete

Mau nanya jika di boxplot muncul 5 data outlier tapi data yang dihapus hanya 1 yaitu data yang paling ekstrem, apakah tindakan tersebut diperbolehkan ?

Dan kalau boleh tau judul buku yang menjelaskan ttg box plot dan scatterplot itu buku apa ya ?
Terima kasih ��

Reply
avatar
April 1, 2018 at 7:57 AM delete

Boleh sekali, justru lebih baik jika hanya menghapus sedikit subjek yang paling eskrem nilainya. Referensi terkait outliers, boxplot, dan scatterplot bisa dilihat di buku Andy Field: Discovering statistics using SPSS. Buku bisa didownload di halaman download

Reply
avatar
April 24, 2018 at 6:19 PM delete

Apakah boleh setelah di outlier dengen melihat nilai zscores tetapi data tidak normal kemudian melakukan outlier kembali dengan boxplot?

Reply
avatar
April 26, 2018 at 2:29 AM delete

Apakah bisa melakukan boxplot pertama data belum normal kemudian melakukan bloxpot ke dua kali ?

Reply
avatar
April 26, 2018 at 2:30 AM delete

Apakah ada modul yang mendukung ketika outlier dilakukan dengan zscore kemudian outlier ke dua dengan boxplot?.

Reply
avatar
April 27, 2018 at 2:37 AM delete

Referensi terkait outliers, boxplot, dan scatterplot bisa dilihat di buku Andy Field: Discovering statistics using SPSS. Buku bisa didownload di halaman download

Reply
avatar
May 2, 2018 at 7:50 AM delete

Apakah bisa melakukan boxplot pertama data belum normal kemudian melakukan bloxpot ke dua kali ?

Reply
avatar
May 3, 2018 at 1:06 AM delete

Silakan saja kalau itu membantu, asalkan jumlah sampel masih tetap mencukupi

Reply
avatar
May 31, 2018 at 9:58 PM delete

Bagaimana jika tidak ada data outlier sdngkan data tidak normal?

Reply
avatar
June 6, 2018 at 9:10 PM delete

Bisa digunakan transformasi data atau menggunakan analisis statistik non-parametrik

Reply
avatar
July 7, 2018 at 3:12 AM delete

Saya mau bertanya, apakah ada keunggulan tersendiri menggunakan outlier ketimbang transformasi data??

Reply
avatar
July 8, 2018 at 8:18 PM delete

Keduanya memiliki kelebihan dan kekurangan masing-masing. Menghilangkan outliers tentu akan mengurangi jumlah sample kita yang juga bisa berdampak pada power statistik kita, namun interpretasi bisa dilakukan sesui dengan skor aslinya. Sementara menggunakan transformasi kita tidak bisa menginterpretasikan skor pada skor asli

Reply
avatar
July 29, 2018 at 2:10 AM delete

Saya mau bertanya. Apakah boleh menggunakan data outlier pada penelitian yg menggunan data pertahun. Misal kita mengambil penelitian 5 tahun tiap perusahaan. Setelah menggunakn outlier brrt kn ada yg dihilangkn misalnya 2 tahun dihilangkn. Apakah bisa dipertamggung jwbkn dtnya nnt.. terima kash

Reply
avatar
August 26, 2018 at 11:01 PM delete

Saya mau bertanya ni mas, apabila setelah diuji normalitas dan data yg dihasilkan normal tapi masih memiliki 2 data outlier, apakah data outlier trrsebut harus tetap dibuang?

Reply
avatar
September 17, 2018 at 5:04 AM delete

mas saya mau tanya, kalau di contoh kan itu pake 2 variabel. bagaimana jika hanya 1 variabel?

Reply
avatar
September 17, 2018 at 7:05 PM delete

Saya kurang paham maksud hanya 1 variabel seperti apa. Tapi cara untuk mengidentifikasi outliers 1 varibel juga sama seperti langkah pertama di artikel ini

Reply
avatar
September 18, 2018 at 11:07 PM delete

Jika outlayer lebih dari setengah data itu knp ya ?

Reply
avatar
January 17, 2019 at 1:05 AM delete

Saya mau tanya bagaimana jika uji f pada spss f hitung lebih besar daripada f tabel tp sig nya jg ikut lebih besar dari 0,05 ? Apakah itu tetep layak atau tidak

Reply
avatar
February 2, 2019 at 3:12 PM delete

Saya mau tanya..batasan outlier itu berapa sih..??kalau sampe 25 outlier ..apakah boleh..?

Reply
avatar
July 2, 2019 at 1:31 AM delete

Assalamualaikum
Maaf ka mau tanya apakah boleh jika data udah di outlier sekali tetep tidak normal terus di outlier lagi sampe 2 kali itu boleh tidak yaa ka
Mohon jawabannya yaa ka
Terimakasih ka😇

Reply
avatar
July 16, 2019 at 12:10 PM delete

say mau nanyak
apakah boleh data yang sudah kita transform terus kita outlierkan lagi?
adakah bahan reftensi seperti ini

Reply
avatar
July 24, 2019 at 7:38 PM delete

Apakah alasan data di outlier itu ada literaturnya ?

Reply
avatar
July 29, 2019 at 8:28 PM delete

Mas saya mau nanya..
Jika penguji menanyakan kenapa data kamu menggunakan tranfom data sedangkan tranfom data itu memanipulasikan data ? Jawbnya apa mas

Reply
avatar
August 2, 2019 at 10:52 PM delete

Siang mas, mau nanya . Setelah dilakukan outlier otomatis jmlh data mnjdi berkurang dari data awalnya. Kemudian yg saya mau tanyakan, Data yang digunakan sebagai uji hipotesis itu tetap data awal( sebelum dlkkn outlier) atau data setelah dilakkn outlier? Trmksih

Reply
avatar

Artikel Lainnya