Langkah pertama dalam menganalisis data adalah mempelajari karakteristik dari data tersebut. Terdapat beberapa alasan penting yang perlu kita pertimbangkan secara cermat sebelum analisis data sebenarnya kita lakukan. Alasan pertama pemeriksaan data adalah untuk memeriksa kesalahan-kesalahan yang mungkin terjadi pada berbagai tahap, mulai dari pencatatan data di lapangan sampai pada entry data pada komputer. Alasan berikutnya adalah untuk tujuan eksplorasi data sehingga kita bisa menentukan model analisis yang tepat.
Seperti kita ketahui, penelitian yang dilakukan secara ilmiah merupakan sebuah aktivitas yang bisa dianalogkan dengan pemecahan puzzle. Penelitian harus berpusat pada masalah, bukan pada tools analisis statistik yang digunakan. Sikap ingin tahu, curiga, dan imajinasi merupakan kunci utama dalam proses penemuan tersebut. Eksplorasi data merupakan bagian yang integral dari persepsi kita. Apabila tujuan akhir dari penelitian bukan untuk menghasilkan inferensi kausal, analisis data selanjutnya sudah tidak diperlukan lagi. Namun apabila diperlukan, analisis data eksploratori sangat menunjang dalam menelaah dan menemukan tentang sifat-sifat data yang nantinya dapat berguna dalam menyeleksi model statistik yang tepat. Dengan demikian, pada analisis data eksploratif, sifat dari data pengamatanlah yang akan menentukan model analisis statistik yang sesuai (atau perbaikan dari analisis yang sudah direncanakan).
Analisis data eksploratif (Exploratory Data Analysis – EDA) merupakan metode eksplorasi data dengan menggunakan teknik aritmatika sederhana dan teknik grafis dalam meringkas data pengamatan.
EDA banyak digunakan dalam berbagai hal seperti:
Pada kenyataannya, analisis data merupakan kombinasi dari ketiga pendekatan di atas (serta pendekatan-pendekatan lainnya). Perbedaan tersebut diatas hanya diuraikan untuk menekankan perbedaan utama dari ketiga pendekatan tersebut.
EDA bukan seperangkat teknik. EDA merupakan suatu pendekatan, pola/sikap/filosofi tentang bagaimana kita dalam menganalisis sekumpulan data. Lalu, apakah EDA sama dengan statistik grafis? Jawabannya adalah tidak. EDA memang banyak menggunakan teknik grafis, tapi EDA tidak identik dengan analisis grafik meskipun keduanya mirip dan kadang terminologinya sering bolak-balik. Pendekatan analisis secara grafis hanya terbatas pada sekumpulan perangkat teknik yang semuanya bersifat grafis dan hanya fokus kepada satu aspek karakteristik data saja, sedangkan EDA mencakup area yang lebih luas. EDA lebih menekankan pada pendekatan langsung sehingga data sendirilah yang bisa mengungkapkan struktur dan modelnya.
Beberapa teknik grafis yang sering digunakan dalam EDA seringkali sangat sederhana. Teknik-teknik tersebut diantaranya adalah:
Terdapat beberapa teknik untuk meringkas dan mempelajari karakteristik dan distribusi data di mana data dapat digambarkan secara grafis. Diantaranya adalah histogram, dotplot, stem-and-leaf plot, density trace, box plot, dan probability plot.
Binning: Lebar Interval = 2
Binning: Lebar Interval =10
Seperti kita ketahui, penelitian yang dilakukan secara ilmiah merupakan sebuah aktivitas yang bisa dianalogkan dengan pemecahan puzzle. Penelitian harus berpusat pada masalah, bukan pada tools analisis statistik yang digunakan. Sikap ingin tahu, curiga, dan imajinasi merupakan kunci utama dalam proses penemuan tersebut. Eksplorasi data merupakan bagian yang integral dari persepsi kita. Apabila tujuan akhir dari penelitian bukan untuk menghasilkan inferensi kausal, analisis data selanjutnya sudah tidak diperlukan lagi. Namun apabila diperlukan, analisis data eksploratori sangat menunjang dalam menelaah dan menemukan tentang sifat-sifat data yang nantinya dapat berguna dalam menyeleksi model statistik yang tepat. Dengan demikian, pada analisis data eksploratif, sifat dari data pengamatanlah yang akan menentukan model analisis statistik yang sesuai (atau perbaikan dari analisis yang sudah direncanakan).
Analisis data eksploratif (Exploratory Data Analysis – EDA) merupakan metode eksplorasi data dengan menggunakan teknik aritmatika sederhana dan teknik grafis dalam meringkas data pengamatan.
EDA banyak digunakan dalam berbagai hal seperti:
- Memaksimalkan telaahan data
- Mencari struktur data yang tersembunyi (mengungakp misteri yang tersembunyi)
- Mengeluarkan variable penting
- Mendeteksi kelainan dan anomali
- Melakukan test suatu asumsi
- Membangun model
- Melakukan optimasi
Paradigma Teknik Analisis
Terdapat tiga pendekatan analisis data:- Klasis (Classical)
- Eksploratif (Exploratory (EDA))
- Bayesian
- Analisis klasik, urutannya:
- Masalah → Data → Model → Analisis → Kesimpulan
- EDA, urutannya:
- Masalah → Data → Analisis → Model → Kesimpulan
- Bayesian, urutannya:
- Masalah → Data → Model → Distribusi Prior/bersyarat → Analisis → Kesimpulan
Pada kenyataannya, analisis data merupakan kombinasi dari ketiga pendekatan di atas (serta pendekatan-pendekatan lainnya). Perbedaan tersebut diatas hanya diuraikan untuk menekankan perbedaan utama dari ketiga pendekatan tersebut.
EDA bukan seperangkat teknik. EDA merupakan suatu pendekatan, pola/sikap/filosofi tentang bagaimana kita dalam menganalisis sekumpulan data. Lalu, apakah EDA sama dengan statistik grafis? Jawabannya adalah tidak. EDA memang banyak menggunakan teknik grafis, tapi EDA tidak identik dengan analisis grafik meskipun keduanya mirip dan kadang terminologinya sering bolak-balik. Pendekatan analisis secara grafis hanya terbatas pada sekumpulan perangkat teknik yang semuanya bersifat grafis dan hanya fokus kepada satu aspek karakteristik data saja, sedangkan EDA mencakup area yang lebih luas. EDA lebih menekankan pada pendekatan langsung sehingga data sendirilah yang bisa mengungkapkan struktur dan modelnya.
Beberapa teknik grafis yang sering digunakan dalam EDA seringkali sangat sederhana. Teknik-teknik tersebut diantaranya adalah:
- plotting data mentah (histogram, dotplot, dataplot, stem-and-leaf plot, )
- plotting statistik sederhana seperti (boxplot, mean plot, std plot)
- dsb
Penyajian Data Secara Grafis
Struktur data yang paling umum adalah kumpulan dari angka-angka. Struktur ini sangat sederhana, namun apabila jumlah data pengamatan sangat besar, sangat sulit bagi kita untuk melihat gambaran karakteristik data tersebut secara menyeluruh apabila hanya sekedar melihat deretan angka yang begitu banyak.Terdapat beberapa teknik untuk meringkas dan mempelajari karakteristik dan distribusi data di mana data dapat digambarkan secara grafis. Diantaranya adalah histogram, dotplot, stem-and-leaf plot, density trace, box plot, dan probability plot.
Histogram
Dotplot
Binning: Lebar Interval = 1Binning: Lebar Interval = 2
Binning: Lebar Interval =10
Stem-and-leaf plot
MINITAB:
Stem-and-leaf of Nilai Ujian N = 80
Leaf Unit = 1.0
2 3 58
5 4 389
8 5 169
19 6 00133356778
(24) 7 000011122233444455667899
37 8 0000111223334566788889
15 9 000111223335789
^ ^ ^
f stem | leaf
Social Plugin