analisis data eksploratif

Bacaan Selanjutnya ...
Langkah pertama dalam menganalisis data adalah mempelajari karakteristik dari data tersebut. Terdapat beberapa alasan penting yang perlu kita pertimbangkan secara cermat sebelum analisis data sebenarnya kita lakukan. Alasan pertama pemeriksaan data adalah untuk memeriksa kesalahan-kesalahan yang mungkin terjadi pada berbagai tahap, mulai dari pencatatan data di lapangan sampai pada entry data pada komputer. Alasan berikutnya adalah untuk tujuan eksplorasi data sehingga kita bisa menentukan model analisis yang tepat.
Seperti kita ketahui, penelitian yang dilakukan secara ilmiah merupakan sebuah aktivitas yang bisa dianalogkan dengan pemecahan puzzle. Penelitian harus berpusat pada masalah, bukan pada tools analisis statistik yang digunakan. Sikap ingin tahu, curiga, dan imajinasi merupakan kunci utama dalam proses penemuan tersebut. Eksplorasi data merupakan bagian yang integral dari persepsi kita. Apabila tujuan akhir dari penelitian bukan untuk menghasilkan inferensi kausal, analisis data selanjutnya sudah tidak diperlukan lagi. Namun apabila diperlukan, analisis data eksploratori sangat menunjang dalam menelaah dan menemukan tentang sifat-sifat data yang nantinya dapat berguna dalam menyeleksi model statistik yang tepat. Dengan demikian, pada analisis data eksploratif, sifat dari data pengamatanlah yang akan menentukan model analisis statistik yang sesuai (atau perbaikan dari analisis yang sudah direncanakan).
Analisis data eksploratif (Exploratory Data Analysis – EDA) merupakan metode eksplorasi data dengan menggunakan teknik aritmatika sederhana dan teknik grafis dalam meringkas data pengamatan.
EDA banyak digunakan dalam berbagai hal seperti:
  • Memaksimalkan telaahan data
  • Mencari struktur data yang tersembunyi (mengungakp misteri yang tersembunyi)
  • Mengeluarkan variable penting
  • Mendeteksi kelainan dan anomali
  • Melakukan test suatu asumsi
  • Membangun model
  • Melakukan optimasi
Kontribusi utama dari pendekatan analisis data secara eksploratif terletak pada penyajian seluruh ringkasan statistik secara visual. Ringkasan statistik secara numerik saja, dapat mengaburkan, menyembunyikan, atau bahkan salah dalam merepresentasikan struktur data. Apabila ringkasan numerik digunakan secara terpisah dan langsung diterima tanpa pemeriksaan data terlebih dahulu secara visual mungkin akan mengakibatkan pemilihan model tidak tepat. Pemilihan model yang langsung dilakukan secara tergesa-gesa dan mungkin berdasarkan pada asumsi yang salah akan mengakibatkan penarikan kesimpulan yang salah.  Untuk alasan tersebut, analisis pendahuluan harus dimulai dengan pemeriksaan secara visual, bukan ringkasan data secara numerik.

Paradigma Teknik Analisis

Terdapat tiga pendekatan analisis data:
  1. Klasis (Classical)
  2. Eksploratif (Exploratory (EDA))
  3. Bayesian
Dengan demikian, EDA merupakan salah satu dari tigak teknik pendekatan analisis data yang ada. Ketiga pendekatan tersebut mempunyai kemiripan, semuanya dimulai dari teori atau permasalahan umum dan diakhiri dengan suatu kesimpulan. Perbedaannya terletak pada urutan dan fokus dari langkah-langkah perantara.
  • Analisis klasik, urutannya:
    • Masalah → Data → Model → Analisis → Kesimpulan
  • EDA, urutannya:
    • Masalah → Data → Analisis → Model → Kesimpulan
  • Bayesian, urutannya:
    • Masalah → Data → Model → Distribusi Prior/bersyarat → Analisis → Kesimpulan
Jadi, pada analisis klasik, pengumpulan data diikuti dengan penerapan model (normalitas, linieritas, dll) dan selanjutnya adalah analisis, estimasi, dan pengujian yang difokuskan pada model parameter tersebut. Pada EDA, pengumpulan data tidak diikuti dengan penerapan model, melainkan segera diikuti dengan analisis dengan tujuan untuk menentukan model apa yang akan sesuai. Akhirnya, metode pendugaan Bayesian merupakan proses pendugaan dengan mempertimbangkan dua hal, yaitu data yang sekarang kita miliki dan informasi awal mengenai kasus yang sedang kita teliti. Keduanya digunakan secara bersama-sama untuk membuat suatu kesimpulan atau uji asumsi mengenai model parameter.
Pada kenyataannya, analisis data merupakan kombinasi dari ketiga pendekatan di atas (serta pendekatan-pendekatan lainnya). Perbedaan tersebut diatas hanya diuraikan untuk menekankan perbedaan utama dari ketiga pendekatan tersebut.
EDA bukan seperangkat teknik.  EDA merupakan suatu pendekatan, pola/sikap/filosofi tentang bagaimana kita dalam menganalisis sekumpulan data. Lalu, apakah EDA sama dengan statistik grafis? Jawabannya adalah tidak.  EDA memang banyak menggunakan teknik grafis, tapi EDA tidak identik dengan analisis grafik meskipun keduanya mirip dan kadang terminologinya sering bolak-balik. Pendekatan analisis secara grafis hanya terbatas pada sekumpulan perangkat teknik yang semuanya bersifat grafis dan hanya fokus kepada satu aspek karakteristik data saja, sedangkan EDA mencakup area yang lebih luas. EDA lebih menekankan pada pendekatan langsung sehingga data sendirilah yang bisa mengungkapkan struktur dan modelnya.
Beberapa teknik grafis yang sering digunakan dalam EDA seringkali sangat sederhana. Teknik-teknik tersebut diantaranya adalah:
  • plotting data mentah (histogram, dotplot, dataplot, stem-and-leaf plot, )
  • plotting statistik sederhana seperti (boxplot, mean plot, std plot)
  • dsb

Penyajian Data Secara Grafis

Struktur data yang paling umum adalah kumpulan dari angka-angka. Struktur ini sangat sederhana, namun apabila jumlah data pengamatan sangat besar, sangat sulit bagi kita untuk melihat gambaran karakteristik data tersebut secara menyeluruh apabila hanya sekedar melihat deretan angka yang begitu banyak.
Terdapat beberapa teknik untuk meringkas dan mempelajari karakteristik dan distribusi data di mana data dapat digambarkan secara grafis. Diantaranya adalah histogram, dotplot, stem-and-leaf plot, density trace, box plot, dan probability plot.

Histogram

histogram 1
histogram 2

Dotplot

Binning: Lebar Interval = 1
dotplot 1
Binning: Lebar Interval = 2
dotplot 2
Binning: Lebar Interval =10
dotplot 3

Stem-and-leaf plot

MINITAB:
Stem-and-leaf of Nilai Ujian N = 80
Leaf Unit = 1.0

2 3 58
5 4 389
8 5 169
19 6 00133356778
(24) 7 000011122233444455667899
37 8 0000111223334566788889
15 9 000111223335789
^ ^ ^
f stem | leaf

Box-plot

box plot 1
box plot 2