Berkenalan dengan Bootstrapping dalam Statistik


Bootstrapping adalah prosedur statistik dengan cara mengubah data dari sampel yang kita peroleh dan melakukan replikasi dari data sampel tersebut (resampling) secara acak untuk diperoleh data simulasi baru. Prosedur ini dapat digunakan untuk menghitung standar error, interval kepercayaan, dan melakukan pengujian hipotesis untuk berbagai jenis analisis statistik. Metode bootstrap adalah pendekatan alternatif untuk pengujian hipotesis tradisional dan cukup populer saat ini karena memiliki banyak manfaat. Tulisan ini akan memperkenalkan cara kerja teknik bootstrap dan perbedaannya dengan teknik statistik konvensional.

Baik metode bootstrap maupun metode tradisional menggunakan suatu sampel untuk menarik kesimpulan tentang populasi. Perbedaan utama antara bootstrap dan statistik tradisional adalah bagaimana mereka memperkirakan distribusi sampel. Pada uji hipotesis statistik tradisional, untuk memperoleh hasil yang valid, peneliti menggunakan uji statistik yang ketat dan harus memenuhi asumsi tertentu (misalnya normalitas). Metode bootstrap menggunakan pendekatan yang sangat berbeda untuk memperkirakan distribusi sampling. Metode ini mengambil data sampel yang diperoleh, dan kemudian melakukan resample data tersebut berulang-ulang untuk membuat banyak simulasi sampel. Prosedur bootstrap menggunakan distribusi sampel ini sebagai dasar untuk menentukan interval kepercayaan dan pengujian hipotesis. Mari saya contohkan bagaimana proses bootsrapping ini bekerja.

Gambar di atas adalah dataset yang saya miliki dengan jumlah subjek 5 orang. Dari data tersebut kemudian dilakukan bootstrap sebanyak 5 sampel. Dataset yang di-resample memiliki ukuran yang sama dengan dataset asli dan hanya berisi skor-skor yang ada di dataset asli. Selain itu, skor ini dapat muncul lebih banyak atau lebih sedikit di dataset yang di-resample dibandingkan di dataset asli. Proses resampling dilakukan acak dan bisa menciptakan dataset simulasi yang berbeda. Setiap proses bootstrap menghasilkan parameter sampel baru, misalkan di gambar itu saya tuliskan nilai mean. Mean ini kemudian dirata-rata lagi sampai seluruh proses bootstrap selesai, sehingga kita bisa memperoleh  estimasi rerata dari populasi. Dari contoh di atas misalkan, didapatkan estimasi rerata dari populasi adalah 2,92; sementara rerata dari data aslinya adalah 3. Dari nilai tersebut kita mendapatkan nilai bias sebesar 2,92 - 3 = 0,8. 

Tentu saja, contoh ini adalah contoh paling sedernaha. Dalam penelitian yang sesungguhnya peneliti harus menggunakan subjek yang lebih banyak dan melakukan resampling yang lebih banyak pula, pada umumnya hingga ribuan kali. Dikarenakan resample ini dilakukan ribuan kali, sudah pasti kita butuh bantuan komputer untuk melakukannya. Perlu diingat bahwa bootstrap tidak membuat data baru, namun dia memperlakukan sampel asli sebagai proxy untuk populasi dan kemudian mengambil sampel acak dari data itu. Oleh karena itu, asumsi utama untuk bootstrap adalah bahwa sampel asli secara akurat mewakili populasi aktual.

Kelebihan metode bootstrap dibanding metode tradisional
Metode tradisional pada umumnya mengasumsikan bahwa data harus mengikuti distribusi normal atau distribusi lainnya. Namun bagaimana jika ternyata distribusi data kita tidak normal. Jika anda membaca tentang central limit theorem atau robust-nya berbagai teknik analisis statistik paramterik, mungkin Anda akan tetap hajar saja melakukan analisis dengan statistik parametrik, asalkan jumlah sampel Anda cukup besar. Namun jika sampel kita juga tidak cukup banyak dan bahkan penyimpangan terhadap asumsi normalitasnya cukup parah, apa yang harus dilakukan? Sebagai alternatifnya, teknik bootstrap ini dapat digunakan. Misalkan, peneliti memiliki data yang tidak berdistribusi normal dengan jumlah sampel terbatas. Dikarenakan dia tidak memenuhi asumsi normalitas, maka alternatif solusi yang dapat digunakan adalah menggunakan boostrapping.

Bootstrap tidak memerlukan asumsi apapun tentang distribusi data Anda. Boostrap sudah melakukan resample dari data sampel anda hingga ribuan kali, dan menghitung paramater statistik dari hasil resample tersebut. Dikarenakan resample dilakukan ribuan kali, central limit theorem berbicara di sini, dimana teorema ini mengatakan bahwa ketika ukuran sampel cukup besar, distribusi sampel dari mean untuk suatu variabel akan mendekati distribusi normal terlepas dari bagaimana distribusi variabel itu dalam populasi. Dengan demikian, asumsi normalitas tidak diperlukan lagi di sini.

Gambar di bawah ini merupakan ilustrasi perbandingan data asli, data dengan boostrapping 10 sampel, dan data dengan boostrapping 1.000 sampel. Pada data original, distribusi data terlihat menceng ke kanan. Seperti yang terlihat pada gambar, semakin besar resample yang dilakukan, distribusi sampel akan semakin mendekati bentuk distribusi normal.
Untuk menguji hipotesis dengan metode bootstrapping, peneliti perlu melihat pada nilai taraf kepercayaan (confidence interval). Bootstrap akan memberikan batas bawah (lower) dan batas atas (upper) dari taraf kepercayaan yang ada. Suatu analisis dikatakan signifikan jika batas atas dan batas bawah berada pada satu kutub yang sama, misal sama-sama memiliki nilai positif atau sama-sama memiliki nilai negatif. Bootstrap ini dapat dilakukan untuk berbagai uji statistik seperti korelasi, regresi, t-test, Anova, bahkan SEM. Beberapa software analisis statistik juga sudah memfasilitasi metode bootstrap ini, seperti dengan SPSS. Demonstrasi analisis statistik pada data yang tidak memenuhi asumsi normalitas dengan metode boostrap dapat dilihat pada artikel selanjutnya.    













Pensiunan guru SD yang promosi menjadi dosen Psikologi di Universitas Muhammadiyah Malang. Sekarang balik lagi jadi mahasiswa di Benua Biru

Share this

Related Posts

Previous
Next Post »

6 komentar

Write komentar
June 23, 2020 at 11:03 PM delete

Awesome blog. I enjoyed reading your articles. This is truly a great read for me. I have bookmarked it and I am looking forward to reading new articles. Keep up the good work!
data analytics course
big data analytics malaysia
big data course

Reply
avatar
June 23, 2020 at 11:24 PM delete


i am for the first time here. I found this board and I in finding It truly helpful & it helped me out a lot. I hope to present something back and help others such as you helped me.
360DigiTMG PMP Certification
360DigiTMG PMP Course
360DigiTMG PMP Course in malaysia
360DigiTMG PMP Training in Malaysia
360DigiTMG PMP Training

Reply
avatar
June 24, 2020 at 3:09 AM delete

Regular visits listed here are the easiest method to appreciate your energy, which is why why I am going to the website everyday, searching for new, interesting info. Many, thank you!
data science course

Reply
avatar
August 3, 2020 at 7:56 PM delete


I am really enjoying reading your well written articles. It looks like you spend a lot of effort and time on your blog. I have bookmarked it and I am looking forward to reading new articles. Keep up the good work.
360DigiTMG PMP Certification

Reply
avatar
August 4, 2020 at 7:49 PM delete

Awesome blog. I enjoyed reading your articles. This is truly a great read for me. I have bookmarked it and I am looking forward to reading new articles. Keep up the good work!
data analytics course
big data analytics malaysia
big data course

Reply
avatar
August 5, 2020 at 4:44 AM delete

Great post i must say and thanks for the information. Education is definitely a sticky subject. However, is still among the leading topics of our time. I appreciate your post and look forward to more.data science course

Reply
avatar

Artikel Lainnya