Feb 19, 2014

Permasalahan dengan Data tidak normal: Penyebab dan strategi permasalahan

Data terdistribusi secara normal adalah konsep umum yang sering salah paham oleh beberapa orang. Beberapa orang percaya bahwa semua data yang dikumpulkan dan digunakan untuk analisis harus didistribusikan secara normal. Tapi distribusi normal tidak terjadi sesering orang pikirkan , dan itu bukan tujuan utama . Distribusi normal adalah sarana untuk mencapai tujuan , bukan tujuan itu sendiri .

Data terdistribusi secara normal diperlukan untuk menggunakan sejumlah alat statistik , seperti analisis regresi, analisis Cp / Cpk , uji-t, analisis varians ( ANOVA ) dan masih banyak lagi. Jika seorang praktisi tidak menggunakan alat khusus seperti itu, bagaimanapun , tidak penting apakah data terdistribusi secara normal . Distribusi menjadi masalah hanya ketika praktisi mencapai suatu titik dalam sebuah proyek di mana mereka ingin menggunakan alat statistik yang memerlukan data terdistribusi normal dan mereka tidak memilikinya .
data tidak normal

Probabilitas plot pada Gambar di atas adalah contoh dari uji normalitas. Dalam hal ini , asumsi normalitas jelas tidak dapat terpenuhi, nilai p kurang dari 0,05 dan lebih dari 5 persen dari titik data berada di luar interval kepercayaan 95 persen .

Apa yang bisa dilakukan? Pada dasarnya, ada dua pilihan :

  1. Mengidentifikasi dan, jika mungkin, menentukan alasan data tidak normal dan mengatasinya atau
  2. Gunakan alat yang tidak memerlukan asumsi normalitas

Mengidentifikasi alasan data tidak normal

Ketika data tidak terdistribusi normal , penyebab non - normalitas harus ditentukan dan tindakan perbaikan yang tepat harus diambil . Ada enam alasan yang sering dialami untuk data tidak normal .

Alasan 1 : Data Ekstrim

Terlalu banyak nilai-nilai ekstrim dalam satu set data yang akan menghasilkan distribusi skewness(miring). Normalitas data dapat dicapai dengan menghilangkan data tersebut. Hal ini kemungkinan terjadi karena kesalahan menentukan pengukuran, kesalahan data-entry dan outlier dan untuk mengatasinya dengan menghapus data tersebut dari data yang digunakan untuk alasan yang masuk akal.

sangatlah penting bahwa outlier diidentifikasi sebagai penyebab yang benar-benar membuat data tidak normal sebelum mereka dieliminasi . Jangan lupa : Sifat data terdistribusi normal adalah bahwa kecil persentase dari nilai-nilai ekstrim yang diharapkan, tidak setiap outlier disebabkan oleh alasan khusus.

Alasan 2 : Tumpang tindih dari Dua atau Lebih Proses

Data tidak dapat terdistribusi secara normal karena sebenarnya berasal dari lebih dari satu proses , penjumlahan atau pergeseran, atau dari sebuah proses yang sering bergeser . Jika dua atau lebih set data yang terdistribusi secara normal yang tumpang tindih, data mungkin terlihat bimodal atau multimodal - itu akan memiliki dua atau lebih nilai yang paling sering terjadi.

Tindakan perbaikan untuk situasi ini adalah untuk menentukan X penyebab bimodal atau distribusi multimodal dan kemudian stratifikasi data . Data harus diperiksa lagi untuk normalitas dan setelah proses stratified dapat bekerja secara terpisah .

Gambar berikut menunjukkan data waktu akses website yang memiliki  data tidak normal pada sebuah website.
Website Load Time Data


Setelah stratifikasi waktu akses website antara akhir pekan dibandingkan Data hari kerja, menunjukkan kedua kelompok berdistribusi normal. sehingga bisa dijadikan perimbangan dalam analisis data yang akan.
hasil stratifikasi

Alasan 3 : Kurangnya data Diskriminasi

Round- off error atau perangkat pengukuran dengan resolusi rendah dapat membuat benar-benar data continues dan data terdistribusi normal terlihat diskrit dan tidak normal . Kurangnya data diskriminasi dan karena terbatasnya jumlah nilai yang berbeda - dapat diatasi dengan menggunakan sistem pengukuran yang lebih akurat atau dengan mengumpulkan lebih banyak data.

Alasan 4 : Data yang diurutkan

Data yang dikumpulkan tidak mungkin terdistribusi normal jika itu merupakan hanya bagian dari seluruh data dalam suatu proses. Hal ini dapat terjadi jika data dikumpulkan dan dianalisis setelah penyortiran. Data pada Gambar dibawah diperoleh dari proses produksi botol di mana target adalah untuk menghasilkan botol dengan volume 100 ml . Spesifikasi minimal dan maksimal yang dapat diterima adalah 97,5 ml dan 102,5 ml dan di luar spesifikasi tersebut dihapus dari proses analisis. Sehingga terlihat pada gambar dibawah ini. Dari data tersebut tentunya data tidak terdistribusi normal karena hanya sebagian yang dimasukkan yaitu yang masuk dalam spesifikasi.
sorted data

Alasan 5 : Nilai Mendekati Nol

Jika proses memiliki banyak nilai mendekati nol, distribusi data akan miring (skewness) ke kanan atau kiri. Dalam hal ini, transformasi seperti tenaga transformasi Box - Cox, dapat membantu membuat data normal. Dalam metode ini , semua data dinaikkan , atau diubah , dengan eksponen tertentu , ditunjukkan dengan nilai Lambda . Ketika melakukan transformasi, semua data harus dilakukan perlakuan (diubah) yang sama.

Gambar di bawah ini menggambarkan contoh dari konsep ini. Gambar menunjukkan satu set data siklus - waktu;
limited zero

menunjukkan data yang sama diubah setelah dilakukan transformasi dengan logaritma natural.
transformation box cox
Untuk bahasan transformasi box cox silahkan ke link "transormasi box cox"

Perhatikan : Metode transformasi tidak memberikan jaminan distribusi normal . Selalu periksa dengan uji normalitas untuk menentukan apakah distribusi normal dapat diterpenuhi setelah transformasi .

Alasan 6 Data Mengikuti Distribusi Berbeda

Ada banyak tipe data yang mengikuti distribusi non-normal. Contoh berikut:
  • Distribusi Weibull , ditemukan dengan data survival seperti waktu kelangsungan hidup suatu produk
  • Distribusi log - normal, ditemukan dengan panjang data seperti ketinggian
  • Distribusi Largest-extreme-value, ditemukan dengan data seperti waktu terpanjang down setiap hari
  • Distribusi eksponensial, ditemukan dengan data pertumbuhan seperti pertumbuhan bakteri
  • Distribusi Poisson, ditemukan dengan peristiwa langka seperti jumlah kecelakaan
  • Distribusi binomial, ditemukan dengan " proporsi " data seperti persen barang cacat
Jika data berikut salah satu distribusi yang berbeda , harus ditangani dengan menggunakan alat dengan menggunakan disribusi yang sama.

Alat analisis yang tidak mensyaratkan data normal

Beberapa alat statistik tidak memerlukan data terdistribusi normal . Untuk membantu para praktisi memahami kapan dan bagaimana alat ini dapat digunakan , tabel di bawah ini menunjukkan perbandingan alat yang tidak memerlukan distribusi normal dengan setara - distribusi normal.

Perbandingan alat analisis untuk data berdistribusi normal dan tidak normal
Alat analisis yang menggunakan data normalAlat analisis untuk data tidak normalDistribusi yang diperlukan
T-testMann-Whitney test; Mood’s median test; Kruskal-Wallis testAny
ANOVAMood’s median test; Kruskal-Wallis testAny
uji t berpasanganOne-sample sign testAny
F-test; Bartlett’s testLevene’s testAny
Analisis regresianalisis regresi non parametrikAny
Cp/Cpk analysisCp/Cpk analysisWeibull; log-normal; largest extreme value; Poisson; exponential; binomial

Written by: Nasrul Setiawan
STATISTIK CERIA, Updated at: 6:18 PM

66 comments :

  1. Wah, bermanfaat ketemu dengan seorang statistikawan disini...
    kalau saya sih masih calon, dari jurusan statistika UII :D , baru buat blog juga tentang ilmu statistika.
    silahkan berkenan meluncur keblog saya kak.
    portal statistik

    ReplyDelete
    Replies
    1. iyaaa gann.
      mudah-musahan bisa saling membantu yaa.
      saya dah liat blognya. kereen ga.

      Delete
  2. Mau tanya. Kalau penelitian dari awal mau bikin mann whitney, tetep harus pake uji normalitas dulu ya sebelumnya?

    ReplyDelete
    Replies
    1. ngga perlu. karena tidak perlu adanya asumsi normalitas

      Delete
  3. mau tanya, kalau uji kolmogorov-smirnov pada GEV dengan makro minitab bagaimana pengelohannya? (syntak nya)
    terimakasih

    ReplyDelete
    Replies
    1. waaaah, ilmu ane belum sampe situ.
      maksd dri Kolomogorov Smirnov pada GEV gmna ya?

      Delete
  4. mas mau tanya jika menggunakan logistik biner datanya tidak normal bagaimana cara menyikapinya agar bisa teranalisis...

    ReplyDelete
    Replies
    1. Sepengetahuan saya, regresi logistik tidak memerlukan asumsi normalitas.
      terima kasih.

      Delete
  5. Mas mau tanya kalo penelitian dengan data sekunder tapi data tidak normal, solusinya gimana ya? Makasih bisa tolong jawab yah...

    ReplyDelete
    Replies
    1. Coba transformasi dlu.
      caranya bisa di link berikut. http://statistikceria.blogspot.com/2014/02/tutorial-minitab-cara-mengatasi-membuat-asumsi-data-normal-box-cox-transformation.html

      Delete
  6. mas, maaf nih mau tanya ni
    kalo kita sudah make regresi linier berganda, datanya tidak normal bagaimana cara menyikapinya agar bisa teranalisis

    ReplyDelete
    Replies
    1. coba ditransformasi dlu pake transformasi box cox.

      ini linknya http://statistikceria.blogspot.com/2014/02/tutorial-minitab-cara-mengatasi-membuat-asumsi-data-normal-box-cox-transformation.html

      Delete
  7. mas.. mau tanya
    lg buat skripsi pgruh pmbiayaan (x) pd roa (y)
    pmbiayaannya kn bntuknya interval dan roa sudah pasti ratio
    nah bgmana mengola data sprti itu?
    apa harus ditransformasi ratio to interval
    atau bisa pakai cara lain?
    penting bgt. saya rada kurang paham masalah statistik

    ReplyDelete
    Replies
    1. kalau datnya interval dan rasio itu dianggap sama aja dalam analisis. sehingga tidak perlu dtransformasi dulu.
      jadi ga masalah kok.

      Delete
  8. Kak, ingin tanya..memungkinkan ga sih kalau uji normalitas tidak sesuai dengan alat ukur tes prestasi, karena distribusi normal tersebut lebih seharusnya dilihat dari tingkat kesukaran alat tes yang ada bukan pada rata2 kemampuan seseorang

    ReplyDelete
    Replies
    1. maaf sy kurang mengerti dengan pertanyaannya dek, tp kalau menurut sy uji normalitas itu tidak ada hubungannya dengan alat ukur, pokonya cm untuk mengetahui suatu variabel atau kumpulan variabel berdistribusi normal atau tidak...
      topiknya lebih dekat ke metode analisis dari pada ke metode pengumpulan data..

      Delete
  9. permisi..mau tanya dong kak..saya lagi bingung untuk mengolah data..penelitian saya tentang studi komparatif..jadi saya mau menggunakan t-test tp trnyata data saya tdk berdistribusi normal, bagaimana untuk membuat nya normal dan tetap menggunakan t-test? karena dosen saya monoton sekali orangnya..tdk dibolehkan menggunakan statistik non parametrik.. :( plis..bantuin kasih saran thanks

    ReplyDelete
  10. data nya interval kak..tolong dongggggg TT_TT aku pusingg abissss gr2 ini

    ReplyDelete
    Replies
    1. bisa kasih solusi gak? pliss.. :(

      Delete
    2. coba cek data yang outlier dengan grafik batang. Kalau outliernya tidak terlalu banyak, coba dihilangkan setelah itu uji normalitas lagi. Kalau banyak yang outlier, coba cek validitas datanya dengan pertanyaan pada kuisioner, mungkin saja ada nilai yang tidak logis.

      Delete
  11. Assalamu'alaikum
    Mau tanya pak, apakah jumlah observasi yang kecil bisa menjadi penyebab data tidak normal ? Skripsi saya pake data sekunder time series tapi datanya cuma 16 tahun (karena ada 1 variabel yang data publikasinya cuma tersedia 16 tahun, padahal variabel lainnya lengkap). Dan sekiranya ada metode untuk menormalkan datanya, bagaimana ya pak ?
    Terimakasih

    ReplyDelete
    Replies
    1. Wa 'alaikumsalam
      Iya pak, berdasarkan teorinya, semakin banyak jumlah data, distribusi data tersebut akan semakin mendekati distribusi normal. Solusi paling efektif itu perbanyak tahun datanya pak, karena mmg analisis data time series itu membutuhkan series data yg banyak.
      Saya sarankan variabel yang 1 itu diganti atau kalau tidak terlau penting mungkin bisa bapak hilangkan saja.

      Delete
  12. Mohon info, jika kita memiliki 2 variabel bebas yang masing-masing berskala kategorik dan 1 variabel terikat berskala numerik. Model regresi apa yg cocok? Terimakasih

    ReplyDelete
  13. mau tanya, saat uji normalitas hasilnya tidak terdistribusi normal, apa yang harus dilakukan? apakah penelitiannya bisa lanjut? soalnya setelah melakukan uji asumsi klasik yang lain (uji multikol, auto, hetero) data tidak ada yang sakit, sehat aja...trims

    ReplyDelete
  14. Muhammad Chandra gimana udah selesai skripsinya?? kalau data tidak normal berarti tidak bisa menggunakan analisis yang mengharuskan distribusi data normal. Ingat jangan sampai memodifikasi / merubah data. Merubah data hanyalah akan menjadi beban dan noda hitam nantinya yang akan menghalangimu untuk melaju memegang prinsip. Pakai saja analisis lain yang tidak memerlukan normal seperti Regresi logistik, Analisis multivariat seperti analisis faktor, analisis cluster, analisis diskriminant dan lainnya.

    ReplyDelete
  15. Salam. Pak saya ingin meminta solusi,
    data saya setelah saya uji normalitas dengan kolmogorov, 2 variabel independen hasilnya normal, sedangkan 1 variabel dependen hasilnya tidak normal (subjek benar2 terbatas hanya 30 orang dan tidak mungkin ditambahkan lagi).
    Jika saya ingin melakukan analisa dengan teknik regresi ganda tentunya saya harus memiliki variabel yg normal, lalu apa yang harus saya lakukan pak?
    Terimakasih atas perhatian & solusinya.

    ReplyDelete
  16. Mas, saya mau tanya, seandainya data saya tidak normal, bisa ga data ekstrimnya saja dibuang tanpa melakukan analisis non parametrik?

    ReplyDelete
  17. kalau mau pake uji one sample t test kalau data tidk terdistribusi normal bisa tetap dianalisis pake one sampe t -test gak ya min?

    ReplyDelete
    Replies
    1. iya kak, masalah saya juga sama dengan mbak Erly Wahyuni, tolong bantu jawab ya ka :)

      Delete
  18. saya perhatikan di tabel perbandingan alat yg digunakan untuk data tidak normal adalah alat untuk data non-parametrik (atau engga?)
    bagaimana jika datanya bukan non-parametrik? apakah alat tersebut bisa digunakan? maap mohon koreksi jika saya salah
    makasih :D

    ReplyDelete
  19. selamat pagi,saya mau tanya ,saya meneliti pengaruh sebelum dan sesudah.Ketika diuji normalitas data olmogrov smnirnov,variabel sebelum tidak normal dan variabel sesudah normal.jadi apakah kesimpulan datanya?apakah tidak normal?atau normal?bagaimana solusinya?terima kasih :) mohon dibantu ya :)

    ReplyDelete
    Replies
    1. This comment has been removed by the author.

      Delete
    2. setahu saya analisis melihat pengaruh sebelum dan sesudah.. statistik ujinya pake analisis nonparametrik mislnya uji mc nemar atau chi square ... nda perlu pake uji kenormalan lg...

      kunjugi jg blogku yah.. heriantisamsu.blogspot.com

      Delete
  20. pusing mikir spss
    mampir kesini aja gan http://kask.us/h1NFh
    50k

    ReplyDelete
  21. mohon maaf, bisa bantu gak, saya lagi uji normalitas antara dua data, sebut saja nilai antara kelas kontol dan kelas eksperimen, setelah saya uji, hasilnya itu untuk kelas kontrol datanya tidak normal dan kelas eksperimen normal, jadi bingung untuk uji selanjutnya apakah harus menggunakan u mann whitney atau t-test. karena kasus yang banyak saya temukan itu dua-duanya noemal, atau dua-duanya tidak normal jadi enak untuk menentukan uji selanjutnya, kalo kasus saya ini gimana yaa ? terima kasih :)

    ReplyDelete
  22. mohon maaf saya ingin bertanya saya sedang melakukan penelitian teteapi adjusted R Square saya minus bagaimana cara memperbaikinya ya ?

    ReplyDelete
  23. mohon maaf saya ingin bertanya saya sedang melakukan penelitian teteapi adjusted R Square saya minus bagaimana cara memperbaikinya ya ?

    ReplyDelete
  24. Mas, data saya normal semua nih...

    ReplyDelete
  25. Mau tanya, saya melakukan penelitian dgn judul korelasi dan sudah melakukan uji korelasi parsial (dng uji r), dan korelasi simultan (f dan rsquare) apakah sudah benar? Dan apakah membutuhkan uji normalitas?
    Terimakasih sebelumnya

    ReplyDelete
  26. Mau tanya, saya melakukan penelitian dgn judul korelasi dan sudah melakukan uji korelasi parsial (dng uji r), dan korelasi simultan (f dan rsquare) apakah sudah benar? Dan apakah membutuhkan uji normalitas?
    Terimakasih sebelumnya

    ReplyDelete
  27. Mau tanya, saya melakukan penelitian dgn judul korelasi dan sudah melakukan uji korelasi parsial (dng uji r), dan korelasi simultan (f dan rsquare) apakah sudah benar? Dan apakah membutuhkan uji normalitas?

    ReplyDelete
  28. untuk data pretest, apakah harus normal? (quasi)

    ReplyDelete
  29. mas, saya mau tanya saya pake data tentang rasio bank, uji normalitas & uji auto lolos semua, tp waktu uji hetero ada satu variabel yg tidak signifikan, padahal sudah saya coba Ln maupun Log, apakah ada solusi lain? terima kasih.

    ReplyDelete
  30. mau tanya..saya sedang menempuh skripsi..apa yang terjadi pada y jika data tidak normal..yang diuji kenormalan nya tersebut apakah y nya atau errornya?kemudian apa yg terjadi pada estimator jika tidak normal..apakah variannya membesar atau bagaimana..terimakasih..mohon bantuannya

    ReplyDelete
  31. pak, mw tanya kenapa data harus di LN kah?

    ReplyDelete
  32. MAs mau tanya kalo data pre test dan post test tidak normal saat di uji normaltas atau signya 0,000 knp ya? apa saya lnjut uji Man U Whitney?

    ReplyDelete
  33. mau tanya kalo datanya sekunder 5 tahun di regresikan bisa???/
    terima kasih

    ReplyDelete
  34. Mas mau tanya kalo uji normalitas tapi jumlah setiap datanya berbeda seperti x1 dan x2 20 data, sedangkan x3, x4 sama y nya 60 data. Itu gimana ya uji normalitasnya mas ? Saya menggunakan regresi berganda

    ReplyDelete
  35. SELAMAT PAGI MAU TANYA, JIKA VARIABEL INDEPENDEN SKALA DATANYA ORDINAL DAN VARIABEL DEPENDEN SKALA DATANYA NOMINAL ITU PAKE UJI APA YA? TERIMA KASIH

    ReplyDelete
  36. mau tanya pak, ada referensi yang membahas mengapa data time series tidak di perbolehkan menghilangkan data outlier?

    ReplyDelete
  37. Bro mau tanya, gimana caranya menguji data yang menyimpang dengan program spss apabila data dinyatakan tidak berdistribusi normal?terima kasih

    ReplyDelete
  38. nanya dong gan, misalkan data dengan galat berdistribusi lognormal,bagaimana cara merubah distribusi tersebut menjadi distribusi normal?

    ReplyDelete
  39. Ka saya mau nanya, setelah data saya yang ga normal di transformasi, hasilnya masih ga normal, itu gimana ya ka solusinya? Mohon dibantu jawab ka.
    Terima kasih.

    ReplyDelete
  40. Kalau pake regresi probit/normit harus normal kah? Kalau tidak normal,apa yg harus dilakukan? Terimakasih

    ReplyDelete
  41. Perkenalkan, saya dari tim kumpulbagi. Saya ingin tau, apakah kiranya anda berencana untuk mengoleksi files menggunakan hosting yang baru?
    Jika ya, silahkan kunjungi website ini www.kbagi.com untuk info selengkapnya.

    Di sana anda bisa dengan bebas share dan mendowload foto-foto keluarga dan trip, music, video, filem dll dalam jumlah dan waktu yang tidak terbatas, setelah registrasi terlebih dahulu. Gratis :)

    ReplyDelete
  42. Kami Berikan Bukti Bukan Janji
    WHATSAPP 085227746673
    Olah Data SPSS, EVIEWS, AMOS, LISREL, DLL.
    https://www.instagram.com/olahdatasemarang/
    Instagram @olahdatasemarang

    ReplyDelete
  43. Terima kasih mas, penjelasannya sangat membantu saya

    ReplyDelete
  44. Video Cronbach Alpha Menggunakan EVIEWS 9
    https://www.youtube.com/watch?v=YiMBKcvzkE4
    WHATSAPP 085227746673
    Olah Data SPSS, EVIEWS, AMOS

    ReplyDelete
  45. mas mau tanya, kalau data saya tidak normal dan tidak liner, sedangkan saya ingin menguji korelasi, bisakah saya menggunakan spearman? terimakasih sebelumnya..

    ReplyDelete
  46. Anda Kebingungan Dan Kesulitan Menyelesaikan Skripsi, Tesis, Disertasi
    Karena Pusing Mikirin Olah Data Analisis Statistika Dengan SPSS, AMOS
    LISREL, EVIEWS, SMARTPLS, DEA
    Serahkan Dan Percaya Kepada Kami.
    Kami Siap Bantu Anda.
    Olah Data Semarang (Timbul Widodo)
    WA : +62 852-2774-6673
    IG : olahdatasemarang

    ReplyDelete
  47. Pak mau tanya nih penggunaan ar (1) di eviews model regresi linier berganda itu untuk apa?

    ReplyDelete
  48. Gan ujinyang saya pakai chi square untuk uji alternatif dri data yang tdk normal pakai apa???

    ReplyDelete
  49. kak kalo data saya ga lolos heteroskedastisitas, setelah itu saya transfom data alhasil data penelitian saya bisa lolos uji heteroskedastisitas
    yang mau saya tanykan untuk melanjutkan ke analisis regersi berganda kita pake data yang mana kak ? yang sudah ditransform atau data aslinya

    ReplyDelete

 

Copyright @ 2013 Statistik Ceria

close