Bootstrapping
adalah prosedur statistik dengan cara mengubah data dari sampel yang kita peroleh dan
melakukan replikasi dari data sampel tersebut (resampling) secara acak untuk
diperoleh data simulasi baru. Prosedur ini dapat digunakan untuk menghitung standar
error, interval kepercayaan, dan melakukan pengujian hipotesis untuk berbagai
jenis analisis statistik. Metode bootstrap adalah pendekatan alternatif untuk
pengujian hipotesis tradisional dan cukup populer saat ini karena memiliki
banyak manfaat. Tulisan ini akan memperkenalkan cara kerja teknik bootstrap dan
perbedaannya dengan teknik statistik konvensional.
Baik
metode bootstrap maupun metode tradisional menggunakan suatu sampel untuk
menarik kesimpulan tentang populasi. Perbedaan utama antara bootstrap dan
statistik tradisional adalah bagaimana mereka memperkirakan distribusi sampel. Pada
uji hipotesis statistik tradisional, untuk memperoleh hasil yang valid,
peneliti menggunakan uji statistik yang ketat dan harus memenuhi asumsi
tertentu (misalnya normalitas). Metode bootstrap menggunakan pendekatan yang
sangat berbeda untuk memperkirakan distribusi sampling. Metode ini mengambil
data sampel yang diperoleh, dan kemudian melakukan resample data tersebut
berulang-ulang untuk membuat banyak simulasi sampel. Prosedur bootstrap
menggunakan distribusi sampel ini sebagai dasar untuk menentukan interval
kepercayaan dan pengujian hipotesis. Mari saya contohkan bagaimana proses
bootsrapping ini bekerja.
Gambar
di atas adalah dataset yang saya miliki dengan jumlah subjek 5 orang. Dari data tersebut kemudian dilakukan bootstrap sebanyak 5 sampel. Dataset
yang di-resample memiliki ukuran yang sama dengan dataset asli dan hanya berisi
skor-skor yang ada di dataset asli. Selain itu, skor ini dapat muncul lebih
banyak atau lebih sedikit di dataset yang di-resample dibandingkan di dataset
asli. Proses resampling dilakukan acak dan bisa menciptakan dataset simulasi
yang berbeda. Setiap proses bootstrap menghasilkan parameter sampel baru, misalkan di gambar itu saya tuliskan nilai mean. Mean ini kemudian dirata-rata lagi sampai seluruh proses bootstrap selesai, sehingga kita bisa memperoleh estimasi rerata dari populasi. Dari contoh di atas misalkan, didapatkan estimasi rerata dari populasi adalah 2,92; sementara rerata dari data aslinya adalah 3. Dari nilai tersebut kita mendapatkan nilai bias sebesar 2,92 - 3 = 0,8.
Tentu saja, contoh ini adalah contoh paling sedernaha. Dalam penelitian yang sesungguhnya peneliti harus menggunakan subjek yang lebih banyak dan melakukan resampling yang lebih banyak pula, pada umumnya hingga ribuan kali. Dikarenakan resample ini dilakukan ribuan kali, sudah pasti kita butuh bantuan komputer untuk melakukannya. Perlu diingat bahwa bootstrap tidak membuat data baru, namun dia memperlakukan sampel asli sebagai proxy untuk populasi dan kemudian mengambil sampel acak dari data itu. Oleh karena itu, asumsi utama untuk bootstrap adalah bahwa sampel asli secara akurat mewakili populasi aktual.
Tentu saja, contoh ini adalah contoh paling sedernaha. Dalam penelitian yang sesungguhnya peneliti harus menggunakan subjek yang lebih banyak dan melakukan resampling yang lebih banyak pula, pada umumnya hingga ribuan kali. Dikarenakan resample ini dilakukan ribuan kali, sudah pasti kita butuh bantuan komputer untuk melakukannya. Perlu diingat bahwa bootstrap tidak membuat data baru, namun dia memperlakukan sampel asli sebagai proxy untuk populasi dan kemudian mengambil sampel acak dari data itu. Oleh karena itu, asumsi utama untuk bootstrap adalah bahwa sampel asli secara akurat mewakili populasi aktual.
Kelebihan metode bootstrap
dibanding metode tradisional
Metode tradisional pada umumnya mengasumsikan bahwa data harus mengikuti distribusi normal atau distribusi lainnya. Namun bagaimana jika ternyata distribusi data kita tidak normal. Jika anda membaca tentang central limit theorem atau robust-nya berbagai teknik analisis statistik paramterik, mungkin Anda akan tetap hajar saja melakukan analisis dengan statistik parametrik, asalkan jumlah sampel Anda cukup besar. Namun jika sampel kita juga tidak cukup banyak dan bahkan penyimpangan terhadap asumsi normalitasnya cukup parah, apa yang harus dilakukan? Sebagai alternatifnya, teknik bootstrap ini dapat digunakan. Misalkan, peneliti memiliki data yang tidak berdistribusi normal dengan jumlah sampel terbatas. Dikarenakan dia tidak memenuhi asumsi normalitas, maka alternatif solusi yang dapat digunakan adalah menggunakan boostrapping.
Metode tradisional pada umumnya mengasumsikan bahwa data harus mengikuti distribusi normal atau distribusi lainnya. Namun bagaimana jika ternyata distribusi data kita tidak normal. Jika anda membaca tentang central limit theorem atau robust-nya berbagai teknik analisis statistik paramterik, mungkin Anda akan tetap hajar saja melakukan analisis dengan statistik parametrik, asalkan jumlah sampel Anda cukup besar. Namun jika sampel kita juga tidak cukup banyak dan bahkan penyimpangan terhadap asumsi normalitasnya cukup parah, apa yang harus dilakukan? Sebagai alternatifnya, teknik bootstrap ini dapat digunakan. Misalkan, peneliti memiliki data yang tidak berdistribusi normal dengan jumlah sampel terbatas. Dikarenakan dia tidak memenuhi asumsi normalitas, maka alternatif solusi yang dapat digunakan adalah menggunakan boostrapping.
Bootstrap
tidak memerlukan asumsi apapun tentang distribusi data Anda. Boostrap sudah
melakukan resample dari data sampel anda hingga ribuan kali, dan menghitung
paramater statistik dari hasil resample tersebut. Dikarenakan resample
dilakukan ribuan kali, central limit
theorem berbicara di sini, dimana teorema ini mengatakan bahwa ketika ukuran
sampel cukup besar, distribusi sampel dari mean untuk suatu variabel akan
mendekati distribusi normal terlepas dari bagaimana distribusi variabel itu
dalam populasi. Dengan demikian, asumsi normalitas tidak diperlukan lagi di
sini.
Gambar
di bawah ini merupakan ilustrasi perbandingan data asli, data dengan
boostrapping 10 sampel, dan data dengan boostrapping 1.000 sampel. Pada data original, distribusi data terlihat menceng ke kanan. Seperti yang
terlihat pada gambar, semakin besar resample yang dilakukan, distribusi sampel
akan semakin mendekati bentuk distribusi normal.
Untuk
menguji hipotesis dengan metode bootstrapping, peneliti perlu melihat pada
nilai taraf kepercayaan (confidence
interval). Bootstrap akan memberikan batas bawah (lower) dan batas atas (upper)
dari taraf kepercayaan yang ada. Suatu analisis dikatakan signifikan jika batas
atas dan batas bawah berada pada satu kutub yang sama, misal sama-sama memiliki
nilai positif atau sama-sama memiliki nilai negatif. Bootstrap ini dapat
dilakukan untuk berbagai uji statistik seperti korelasi, regresi, t-test, Anova, bahkan SEM.
Beberapa software analisis statistik juga sudah memfasilitasi metode bootstrap
ini, seperti dengan SPSS. Demonstrasi analisis statistik pada data yang tidak
memenuhi asumsi normalitas dengan metode boostrap dapat dilihat pada artikel selanjutnya.
13 komentar
Write komentarAwesome blog. I enjoyed reading your articles. This is truly a great read for me. I have bookmarked it and I am looking forward to reading new articles. Keep up the good work!
Replydata analytics course
big data analytics malaysia
big data course
Replyi am for the first time here. I found this board and I in finding It truly helpful & it helped me out a lot. I hope to present something back and help others such as you helped me.
360DigiTMG PMP Certification
360DigiTMG PMP Course
360DigiTMG PMP Course in malaysia
360DigiTMG PMP Training in Malaysia
360DigiTMG PMP Training
ReplyI am really enjoying reading your well written articles. It looks like you spend a lot of effort and time on your blog. I have bookmarked it and I am looking forward to reading new articles. Keep up the good work.
360DigiTMG PMP Certification
Great post i must say and thanks for the information. Education is definitely a sticky subject. However, is still among the leading topics of our time. I appreciate your post and look forward to more.data science course
Replybolehkah saya tau sumbernya dari mana?
Replyhi terima kasih penjelasannya. sangat mudah dimengerti. bacaan pertama saya dr bing tp butuh penjelasan dlm bindo. untung ada orang yang mampu menjelaskan dengan mudah. manythanks. salam kenal
ReplyGreat Article Artificial Intelligence Projects
ReplyProject Center in Chennai
JavaScript Training in Chennai
JavaScript Training in Chennai Project Centers in Chennai
Here is an amazing QuickBooks phone number: Quickbooks Customer Service.+1 855-444-2233. This will help you in any query related to the software.
ReplyThank you for sharing such a great article.
ReplyHealthy cakes in mohali, designer cakes in mohali,
If you're looking for help in using it, just dial Quickbooks Customer Service +1 855-444-2233 to speak with a live representative.
ReplyThis is a great inspiring article. thank you for share. we also provide assignment help , content writing services, resume writing services, essay writing services, exam help services, etc.
ReplyAustralia assignment help,
Canada assignment help, India assignment help,
Germany assignment help,
USA assignment help,new york assignment help ,
assignment help in korean, assignment help liverpool.
I really happy found this website eventually. Really informative and inoperative, Thanks for the post and effort! Please keep sharing more such blog.
ReplyPlant Engineering Service
3D Laser Scanning Modelling
Reverse Engineering Cad Drawings
Point cloud to 3D Model California
kalau sampel saya 45 populasi 45, bisa menggunakan boothstraping?
ReplyEmoticonEmoticon