Pengantar Data Mining & Statistik
Pengantar Data Mining & Statistik Sari Ningsih.,S.Si., MM., Miftahul Jannah, S.Kom., M.Kom., Djarot Hindarto, S.Kom., M.Kom., Dr. Nur Putri Erdianti, SKM., MKM., Erni Rihyanti, S.Si., M.M., Ratih Titi Komala Sari., S.Si, M.MSI., Ira Diana Sholihati, S. Si. , MMSI., Ir. Endah Tri Esthi Handayani.,M.MSI., Dr. Fauziah, S.Kom., MMSI., Panca Dewi Pamungkasari, S.T., M.T., Ph.D., Raden Muhamad Firzatullah, M.Kom., Loso Judijanto, S.Si., M.M., M.Stats., Arie Gunawan, S.Kom.. MMSI., Dr. Ir. Arief Wibowo, M.Kom.
Pengantar Data Mining & Statistik Copyright© PT Penerbit Penamuda Media, 2024 Penulis: Sari Ningsih.,S.Si., MM., Miftahul Jannah, S.Kom., M.Kom., Djarot Hindarto, S.Kom., M.Kom., Dr. Nur Putri Erdianti, SKM., MKM., Erni Rihyanti, S.Si., M.M., Ratih Titi Komala Sari., S.Si, M.MSI., Ira Diana Sholihati, S. Si. , MMSI., Ir. Endah Tri Esthi Handayani.,M.MSI., Dr. Fauziah, S.Kom., MMSI., Panca Dewi Pamungkasari, S.T., M.T., Ph.D., Raden Muhamad Firzatullah, M.Kom., Loso Judijanto, S.Si., M.M., M.Stats., Arie Gunawan, S.Kom.. MMSI., Dr. Ir. Arief Wibowo, M.Kom. ISBN: 978-623-8586-66-0 Desain Sampul: Tim PT Penerbit Penamuda Media Tata Letak: Enbookdesign Diterbitkan Oleh PT Penerbit Penamuda Media Casa Sidoarium RT 03 Ngentak, Sidoarium Dodeam Sleman Yogyakarta HP/Whatsapp : +6285700592256 Email : [email protected] Web : www.penamuda.com Instagram : @penamudamedia Cetakan Pertama, Juni 2024 x + 267, 15x23 cm Hak cipta dilindungi oleh undang-undang Dilarang memperbanyak sebagian atau seluruh isi buku tanpa izin Penerbit
v Kata Pengantar eiring dengan pesatnya perkembangan teknologi informasi, penting bagi para pembaca untuk memahami konsep dari data mining dan statistik. Buku ini hadir sebagai panduan yang komprehensif untuk memahami kedua bidang ini, serta bagaimana penggabungannya dapat memberikan wawasan bernilai dalam pengambilan keputusan. S
vi Daftar Isi Kata Pengantar ........................................................................................ v Daftar Isi ................................................................................................... vi Bab 1 - Konsep Dasar Data Mining ................................................... 1 A. Data Mining dan KDD ( Knowledge Discovery in Database )........................................................................................... 3 B. Asal Usul Data Mining.................................................................... 3 C. Tugas Data Mining (Data Mining Task)................................ 5 D. Data......................................................................................................10 Bab 2 - Pendekatan Statistik dalam Data Mining.................... 14 A. Statistik dan Data MIning .........................................................14 B. Algoritma pada Data Mining....................................................20 Bab 3 - Preprocessing Data untuk Data Mining ....................... 23 A. Pengenalan preprocessing data.............................................23 B. Pentingnya preprocessing data dan tujuan preprocessing data. ......................................................................25
vii C. Pemahaman Data..........................................................................26 D. Deskripsi data.................................................................................. 31 E. Eksplorasi data ............................................................................... 32 F. Evaluasi kualitas data .................................................................36 G. Pembersihan Data (Data Cleaning)...................................... 37 Bab 4 - Analisis Deskriptif dan Inferensial ................................. 72 A. Analisis Deskriptif..........................................................................72 B. Analisis Inferensial........................................................................78 Bab 5 - Regresi dan Korelasi dalam Data Mining .................... 85 A. Regresi................................................................................................85 B. Korelasi............................................................................................... 93 C. Konsep Dasar Tau Kendall........................................................98 Bab 6 - Analisis Klaster dalam Data Mining ............................. 101 A. Konsep Dasar Analisis Klaster...............................................102 B. Metodologi Analisis Klaster ................................................... 108 C. Aplikasi dan Evaluasi Analisis Klaster ............................... 117 Bab 7 - Analisis Asosiasi dan Frekuensi ..................................... 125 A. Analisis Asosiasi............................................................................126 B. Analisis Frekuensi ........................................................................126
viii C. Aturan Asosiasi .............................................................................127 D. Algoritma Apriori......................................................................... 130 Bab 8 - Penggunaan Statistik dalam Pengelompokan Data ......................................................................................... 139 A. Pengenalan terhadap pengelompokan data dan signifikansinya dalam statistik dan analisis data....... 140 B. Definisi pengelompokan data dan perbedaannya dengan klasifikasi....................................................................... 142 C. Konsep dasar statistik variabel, distribusi, ukuran tendensi sentral, dan dispersi ...............................................144 D. Metodologi Pengelompokan Data.......................................151 Bab 9 - Penggunaan Statistik dalam Klasifikasi Data ......... 160 A. Data dalam Statistik.................................................................. 160 B. Dasar Klasifikasi Data Statistik ........................................... 164 C. Metode Klasifikasi .......................................................................167 Bab 10 - Evaluasi Model dalam Data Mining ........................... 173 A. Kualitas Data ................................................................................ 174 B. Model Evaluasi pada Klasifikas ............................................175 C. Model Evaluasi Cluster.............................................................. 185
ix Bab 11 - Teknik Sampling dalam Data Mining ......................... 187 Bab 12 - Interpretasi Hasil Data Mining dengan Pendekatan Statistika....................................................... 199 A. Tahap Interpretasi Hasil Data Mining...............................199 B. Teknik Statistika yang Lazim Digunakan........................ 202 C. Interpretasi dengan Teknik Statistika..............................204 Bab 13 - Visualisasi Data untuk Data Mining ........................... 218 A. Pengenalan Visualisasi Data..................................................218 B. Peran Visualisasi dalam Proses Data Mining ................ 220 C. Jenis-Jenis Visualisasi Data...................................................221 D. Metode Visualisasi Data Univariate ...................................223 E. Metode Visualisasi Data Multivariate................................223 F. Penggunaan Visualisasi untuk Eksplorasi Data........... 224 G. Teknik Visualisasi untuk Pemodelan Data.......................225 H. Pemahaman Pola dengan Visualisasi................................225 I. Interaktif dan Dinamika dalam Visualisasi Data.........226 J. Penerapan Visualisasi pada Algoritma Data Mining..227 Bab 14 - Tantangan dan Peluang Integrasi Data Statistik dalam Data Mining ............................................................. 229 A. Tantangan Integrasi Data Statistik dan Data Mining230 B. Peluang Integrasi Data Statistik dan Data Mining.....236
x C. Kesimpulan dan Rekomendasi ............................................. 241 Daftar Pustaka .................................................................................... 243 Tentang Penulis ................................................................................... 258
1 Konsep Dasar Data Mining Sari Ningsih.,S.Si., MM. emajuan pesat dalam pengumpulan dan teknologi penyimpanan data telah memungkinkan organisasi mengumpulkan data dalam jumlah besar. Namun, mengekstraksi informasi yang berguna terbukti sangat menantang. Seringkali, alat dan teknik analisis data tradisional tidak dapat digunakan karena ukuran kumpulan data yang sangat besar. Terkadang, sifat data yang non-tradisional menyebabkan pendekatan tradisional tidak dapat diterapkan meskipun kumpulan datanya relatif kecil. Dalam situasi lain, pertanyaan yang perlu dijawab tidak dapat dijawab dengan menggunakan teknik analisis data yang ada, sehingga perlu dikembangkan metode baru. Data mining adalah penggunaan teknologi yang menggabungkan metode analisis data konvensional dengan algoritma yang canggih untuk mengolah volume data yang besar. Teknologi ini juga membuka kesempatan untuk menggali dan menganalisis jenis data baru serta menerapkan pendekatan baru dalam menganalisis data yang sudah ada. K
2 Dalam bagian pendahuluan ini, kami menyajikan gambaran tentang data mining dan menjelaskan topik-topik utama yang akan dibahas dalam buku ini. Kami memulai dengan menggambarkan beberapa aplikasi terkemuka yang memerlukan teknik baru dalam analisis data. Apa itu Data Mining? Data Mining merupakan langkah menemukan informasi dari data yang bermanfaat secara otomatis dalam kumpulan /repositori data besar. Teknik data mining dimanfaatkan untuk mengeksplorasi basis data yang luas guna menemukan pola baru dan berarti yang mungkin belum teridentifikasi sebelumnya. Selain itu, teknik ini juga memberikan ke-mampuan untuk meramalkan hasil pengamatan di masa yang akan datang, seperti meramalkan apakah pelanggan baru akan melakukan pembelian lebih dari $100 di pusat perbelanjaan. Tidak semua tugas penemuan informasi dianggap sebagai data mining. Misalnya, mencari catatan individual menggunakan sistem manajemen basis data atau menemukan halaman web tertentu melalui queri ke mesin pencari internet adalah tugas yang berkaitan dengan bidang pengambilan informasi. Walaupun tugas-tugas tersebut memiliki signifikansi yang besar dan mungkin memerlukan penerapan algoritma dan struktur data yang maju, mereka masih mengandalkan pada prinsip-prinsip tradisional ilmu komputer serta karakteristik data yang jelas untuk membentuk struktur indeks guna mengatur dan mengambil informasi dengan efisien. Meskipun begitu, teknik data mining telah diterapkan untuk meningkatkan sistem pencarian informasi.
3 A. Data Mining dan KDD ( Knowledge Discovery in Database ). Data mining adalah komponen penting dari proses penemuan pengetahuan dalam database (KDD), yang merujuk pada proses keseluruhan untuk menginput data menjadi informasi yang berguna, melalui data preprocessing, data mining dan postprocessing, seperti yang tergambar dalam Gambar 1. Tahapan ini melibatkan serangkaian langkah transformasi, dimulai dari prapemrosesan data hingga pasca-pemrosesan hasil data mining. Gambar 1. Proses KDD (Tan,Pang-Nin,2006) B. Asal Usul Data Mining. Terinspirasi oleh tujuan untuk mengatasi tantangan yang dibahas sebelumnya, para peneliti dari berbagai bidang ilmu mulai berkonsentrasi pada pengembangan
4 instrumen yang lebih efektif dan dapat diukur untuk menangani berbagai macam data. Pekerjaan/Proyek-proyek yang mencapai puncak dalam ranah data mining ini, dibangun berdasarkan algoritma dan metodologi yang telah digunakan oleh peneliti sebelumnya. Lebih spesifik lagi, data mining memanfaatkan konsep-konsep (1) pengujian sampel data statistik, pendugaan statistic / estimasi, dan Uji hipotesis bidang statistik, dan (2) untuk kecerdasan buatan (AI), pengenalan pola, dan machine learning yaitu teknik pemodelan, algoritma pencarian, serta teori pembelajaran untuk kecerdasan buatan (AI), pengenalan pola, dan machine learning. Data Mining juga cepat mengadopsi gagasan dari disiplin ilmu lain, termasuk optimisasi, komputasi evolusioner, teori informasi, pemrosesan sinyal, visualisasi, dan pengambilan informasi. Beberapa bidang lain juga berperan sebagai pendukung utama. Secara spesifik, sistem basis data diperlukan untuk menyediakan dukungan dalam hal penyimpanan yang efisien, pengindeksan dan pemrosesan queri. Teknik komputasi kinerja tinggi (paralel) seringkali penting dalam mengatasi ukuran besar dari beberapa kumpulan data. Teknik terdistribusi juga menyelesaikan permasalahan terkait skala dan memiliki kepentingan yang besar ketika data tidak dapat terkumpul di satu lokasi.
5 Gambar 2. Data Mining sebagai pertemuan banyak disiplin ilmu (Tan, Pang-Nin, 2006) C. Tugas Data Mining (Data Mining Task) Meliputi 2. 1. Tugas Prediktif (Predictive tasks). Tujuan dari tugas ini adalah untuk meramal nila i suatu atribut tertentu variabel terikat (dependent) berdasarkan nilai atribut lainnya atau variabel bebas (independent). 2. Tugas Deskriptif ( Descriptive tasks). Tujuannya adalah untuk mendapatkan pola, diantara nya adalah korelasi, tren, cluster, lintasan, dan anomali yang merangkum hubungan mendasar dalam data. Kegiatan deskripsi data dalam data mining sering kali bersifat eksploratif dan umumnya membutuhkan teknik pasca-pemrosesan untuk memverifikasi dan menjelaskan temuannya.
6 Gambar 3. Tugas Inti Data MiningTan,Pang-Nin,2006) Pemodelan prediktif (Predictive modeling) , mengacu pada tugas membangun model untuk variabel target sebagai fungsi dari variabel penjelas. Ada dua jenis tugas pemodelan prediktif: (1). Klasifikasi, yang digunakan untuk variabel diskrit, dan (2) Regresi, yang digunakan untuk variabel kontinu. Misalnya, memprediksi apakah pengguna web akan melakukan pembelian di toko buku online merupakan tugas klasifikasi karena variabel target bernilai biner. Di sisi lain, meramalkan harga saham di masa depan adalah tugas regresi karena harga adalah atribut yang bernilai kontinu. Tujuan dari kedua tugas tersebut adalah untuk mempelajari model yang meminimalkan kesalahan antara nilai prediksi dan nilai sebenarnya dari variabel target. Pemodelan prediktif dapat digunakan untuk mengidentifikasi pelanggan yang akan merespons kampanye pemasaran, memprediksi gangguan pada ekosistem bumi, atau menilai apakah seorang pasien mengidap penyakit tertentu berdasarkan hasil tes medis.
7 Contoh Kasus Pemodelan prediktif (Predictive modeling) : Memprediksi jenis bunga. Perhatikan tugas meramalkan suatu jenis bunga berdasarkan ciri-ciri bunga tersebut. Secara khusus, pertimbangkan untuk mengklasifikasikan bunga Iris berdasarkan apakah bunga tersebut termasuk dalam salah satu dari tiga Spesies Iris berikut: Setosa, Versicolor, atau Virginica. Untuk melakukan tugas ini, diperlukan kumpulan data yang berisi ciri-ciri berbagai bunga dari ketiga spesies tersebut. Kumpulan data dengan jenis informasi ini adalah kumpulan data Iris yang terkenal dari Repositori Pembelajaran Mesin (machine learning) UCI di http://www.ics.uci.edu/mlearn . Selain spesies bunga, kumpulan data ini berisi empat atribut lainnya: lebar sepal, panjang sepal, panjang kelopak, dan lebar kelopak. Menurut Ningsih S, (2021). Contoh analisis Klasifikasi tujuannya adalah membantu pemimpin mengorganisir data tentang kinerja dosen berdasarkan faktor-faktor seperti keahlian, tingkat pendidikan, pengalaman kerja, jabatan, serta kegiatan penelitian dan pengabdian masyarakat, yang merupakan elemen kunci dalam tugas mengajar di perguruan tinggi. Analisis Asosiasi ( Associations analysis) digunakan untuk menemukan pola yang menggambarkan fitur asosiasi yang kuat dalam data. Pola yang ditemukan biasanya direpresentasikan dalam bentuk aturan implikasi atau himpunan bagian fitur. Karena ukuran ruang pencariannya yang eksponensial, tujuan analisis asosiasi
8 adalah mengekstrak pola yang paling menarik dengan cara yang efisien. Contoh Kasus Analisis Asosiasi ( Associations analysis): Analisis Keranjang Pasar ( Market Basket Analysis). Tabel1. Market basket data
9 Menurut Ningsih S, (2022). Contoh analisis Asosisasi menggunakan algoritma Apriori adalah salah satu algoritma yang dapat diterapkan dalam berbagai konteks, termasuk dalam ranah bisnis yaitu pada sistem persediaan dan penjualan tanaman anggrek secara online. Analisis kluster (Cluster analysis) berupaya menemukan kelompok observasi yang berkaitan erat sehingga observasi yang termasuk dalam klaster yang sama lebih mirip satu sama lain dibandingkan observasi yang termasuk dalam klaster lain. Clustering telah digunakan untuk mengelompokkan kumpulan pelanggan terkait, menemukan wilayah lautan yang memiliki dampak signifikan terhadap iklim bumi, dan mengompresi data. Menurut Triayudi et.al.,(2024), Clustering adalah teknik dalam analisis data yang bertujuan untuk mengelompokkan objek-objek serupa menjadi kelompokkelompok yang saling berbeda. Contoh Kasus Analisis kluster (Cluster analysis): Pengelompokan dokumen. Kumpulan artikel berita dapat dikelompokkan berdasarkan topiknya masing-masing. Setiap artikel direpresentasikan sebagai kumpulan pasangan frekuensi kata (w,c), dimana w adalah sebuah kata dan c adalah berapa kali kata tersebut muncul dalam artikel. Ada dua cluster alami dalam kumpulan data. Cluster pertama terdiri dari empat artikel pertama yang berisi berita mengenai perekonomian, sedangkan cluster kedua berisi empat artikel terakhir yang berisi berita mengenai layanan kesehatan. Algoritma clustering yang baik harus dapat mengidentifikasi kedua cluster tersebut berdasarkan kemiripan kata yang muncul pada artikel.
10 Deteksi anomali ( Anomaly detection ) adalah tugas mengidentifikasi observasi yang karakteristiknya berbeda signifikan dengan data lainnya. Anomali atau outlier disebut sebagai pengamatan semacam ini. Algoritma deteksi anomali bertujuan untuk mengidentifikasi anomali yang sebenarnya dan mencegahnya pemberian label palsu pada objek normal sebagai anomali. Dengan kata lain, pendeteksi anomali yang baik harus memperoleh tingkat sensitivitas yang tinggi dan tingkat false alarm yang rendah. Penerapan deteksi anomali mencakup pengidentifikasian penipuan, pemrosesan jaringan, pola penyimpanan yang tidak biasa, dan gangguan ekosistem. Contoh Kasus Deteksi Anomali : Deteksi Penipuan Kartu Kredit. Perusahaan kartu kredit mencatat transaksi yang dilakukan oleh setiap pemegang kartu kredit, beserta informasi pribadi seperti batas kredit, usia, pendapatan tahunan, dan alamat. Karena jumlah kasus penipuan relatif kecil dibandingkan dengan jumlah transaksi yang sah, teknik deteksi anomali dapat diterapkan untuk membangun profil transaksi yang sah bagi pengguna. Ketika transaksi baru masuk, transaksi tersebut dibandingkan dengan profil pengguna. Jika karakteristik transaksi sangat berbeda dengan profil yang dibuat sebelumnya, maka transaksi tersebut ditandai sebagai berpotensi penipuan. D. Data Di sini kita membahas beberapa masalah terkait data yang penting untuk keberhasilan data mining: Jenis data, Kualitas data, Langkah-Langkah pemrosesan awal agar
11 data cocok untuk data mining, dan analisis data dalam hubungannya. 1. Jenis Data. Jenis data menentukan alat dan teknik mana yang dapat digunakan untuk menganalisis data; seringkali kita perlu mengakomodasi area aplikasi baru dan tipe data barunya. Suatu kumpulan data seringkali dapat dipandang sebagai kumpulan objek data (pengamatan) yang digambarkan oleh sejumlah atribut (variabel). 2. Atribut dan Pengukuran. Kami mendeskripsikan data dengan mempertimbangkan tipe atribut apa yang digunakan untuk mendeskripsikan objek data. 3. Atribut. Merupakan suatu sifat atau ciri suatu benda yang dapat berbeda-beda, baik dari satu benda ke benda lainnya, atau dari waktu ke waktu. Untuk menganalisis karakteristik suatu objek, kami memberikan nomor atau simbol pada objek tersebut. 4. Skala pengukuran. Merupakan fungsi yang mengaitkan nilai numerik atau simbolik dengan atribut suatu objek. Ob. Nilai yang digunakan untuk mewakili suatu atribut mungkin memiliki properti yang bukan merupakan properti dari atribut itu sendiri, dan sebaliknya.
12 5. Berbagai jenis atribut. Ada dua cara utama untuk mendefinisikan tipe; bergantung pada properti dan operasi yang dimiliki atribut tersebut, atau dalam hal transformasi yang diizinkan. Kita juga dapat mendeskripsikan atribut berdasarkan jumlah nilainya. Seperti diskrit atau kontinu. 6. Atribut Asimetris. Hanya kehadiran yang dianggap penting; kita mengabaikan keberadaan angka nol misalnya jika menyiratkan tidak adanya sesuatu. Jenis Kumpulan Data. Pertama-tama kita melihat karakteristik umum kumpulan data: Dimensi (jumlah atribut; bagian penting dari prapemrosesan data adalah pengurangan dimensi), Ketersebaran (ketika kita harus mengabaikan sebagian besar nilai karena nol, jadi hanya nilai bukan nol yang perlu) disimpan dan dimanipulasi), Resolusi (seringkali dimungkinkan untuk memperoleh data pada tingkat resolusi berbeda, dan propertinya berbeda pada resolusi berbeda).
13 Tabel 2. Different Attribute Type Dari tabel 2. Terlihat 2 tipe data, yaitu data kualitatif (kategori) terdiri dari data Nominal dan data Ordinal, sedangkan data kuatitatif terdiri dari data Interval dan data Ratio, terlihat deskripsi contoh serta operations nya dari setiap jenis data.
14 Pendekatan Statistik dalam Data Mining Miftahul Jannah, S.Kom., M.Kom. A. Statistik dan Data MIning Data mining adalah proses pengumpulan (penambangan) data dalam jumlah besar dan kemudian mencari informasi dari data tersebut. Ini adalah bagian dari seni dan ilmu analisis data pintar yang bertujuan untuk mendapatkan informasi dari suatu data. Informasi ini sering disajikan ke dalam bentuk model, sehingga data mining juga dapat disebut sebagai proses membangun model data. Model ini dapat digunakan untuk mendapatkan informasi dari data (Williams, 2011). Statistik adalah seni dan ilmu yang berfokus pada pengumpulan data, presentasi, dan interpretasi dalam upaya menguji teori dan membuat kesimpulan tentang semua fenomena. Tidak diragukan lagi, peran statistik dalam data mining sangat penting, mulai dari metode
15 pengumpulan data yang sangat besar hingga proses menganalisisnya. Pengolahan data lebih banyak dari statistika dan memprosesnya membutuhkan lebih banyak proses. Selain itu, data mining dapat melakukan desain percobaan untuk menguji kesimpulan yang dihasilkan, dan prosesnya harus dilakukan secara real-time (waktu nyata). Karena banyaknya proses yang membutuhkan waktu yang singkat untuk mendapatkan informasi dari data, diperlukan algoritma statistik yang tepat dan efisien (Williams, 2011). Model-model Statistika dalam Data Mining Gambar 1. Model Statistik dalam Data Mining 1. Supervised Learning Supervised learning adalah sebuah metode di mana data yang dilatih sudah ada dan variable yang ditargetkan. Akibatnya, tujuan dari metode ini adalah untuk mengelompokkan data yang sudah ada.
16 Berikut adalah contoh pembelajaran supervisornya saat ini, di mana supervisornya diberi label pada setiap data: Gambar 2. Tampilan Label Data Beberapa algoritma Supervised Learning adalah sebagai berikut: a. Tree of Decision/C4.5/ID3 b. K-Nearest Neighbor Classifier (K-NN) c. Naive Bayes Classifier (NBC) d. Artificial Neural Network (ANN)
17 e. Support Vector Machine (SVM) f. Modified K-Nearest Neighbor (MK-NN) g. Learning Vector Quantification (LVQ) h. Probabilistic Neural Network (PNN) 2. Unsupervised Learning Data latih tidak ada di supervised learning, jadi kita mengelompokkan data yang ada menjadi dua atau tiga bagian, dan seterusnya. Biasanya disebut "klasterisasi" atau "pengelompokan". Jumlah kelompok ditentukan secara manual atau sesuai keinginan. Berikut adalah contoh Unsupervised Learning: Gambar 3. Mengelompokan Data Algoritma Unsupervised Learning: a. K-Means Clustering b. K-Medoid
18 c. Hierarchical Clustering d. DBSCAN e. Fuzzy C-Means f. Self-Organizing Map (SOM) 3. Regression Model Saat kita ingin melihat bagaimana variabel target bertipe numerik berhubungan dengan beberapa variable prediktor bertipe kategorik dan atau numerik, model regresi digunakan. Model regresi seperti regresi linier sederhana dan regresi linier berganda adalah yang paling dasar ketika seseorang mulai belajar pengolahan data (statistika). Berikut adalah contoh Model Regresi: Gambar 4. Model Regresi
19 Model Regresi: a. Ordinary Least Square (OLS) b. Regression Tree c. Neural Network d. SVM untuk Regresi atau Support Vector Regression (SVR) e. Non-linear Regression f. Stepwise Regression 4. Association Rule Untuk menentukan program promosi yang tepat atau mengoptimalkan tata letak barang-barang di suatu swalayan, aturan biasa yang dikenal sebagai analisis pasar keranjang dapat digunakan. Aplikasi Association Rule (AR) mengumpulkan data pembelian pelanggan dan menggunakan statistik seperti Support, Confidence, dan Lift untuk menentukan pola belanja pelanggan. Gambar 5. Association Rule
20 Model Association Rule: a. Apriori b. Frequent Pattern Growth (FP-Growth) c. Generalized Sequential Pattern (GSP) d. Equivalence Class Clustering and Bottom-Up Lattice Traversal (ECLAT) B. Algoritma pada Data Mining 1. C4.5 – Decision Tree Salah satu metode klasifikasi yang paling populer adalah pohon keputusan, yang ditunjukkan sebagai partisi rekursif dari instance yang dibangun secara top-down; dengan cara ini, ruang instance dipartisi dengan memilih yang terbaik untuk setiap iterasi (Cherfi, 2018). 2. K-Means Algoritma k-means bergantung pada nilai k; yang selalu perlu ditentukan untuk melakukan analisis pengelompokan apa pun. Clustering dengan nilai k yang berbeda pada akhirnya akan menghasilkan hasil yang berbeda pula. Pendekatan alternatif diadopsi untuk mencegah algoritma k-means mudah terpengaruh oleh noise dan nilai outlier (Ahmed, 2020). 3. Support Vector Machine SVM adalah metode pembelajaran mesin yang berfungsi berdasarkan prinsip pengurangan risiko struktur (SRM) dengan tujuan menemukan hyperplane terbaik yang dapat memisahkan dua buah
21 kelas dari ruang input. SVM menggunakan ruang hipotesis yang terdiri dari fungsi-fungsi linier dalam ruang fitur yang luas, dan dilatih menggunakan algoritma pembelajaran yang didasarkan pada teori optimasi, menggunakan bias pembelajaran yang berasal dari statistik. 4. Apriori Dalam teknik penambangan data (datamining), algoritma apriori adalah algoritma pencarian pola yang digunakan untuk mencari kombinasi set item dengan nilai keseringan tertentu berdasarkan kriteria atau filter yang dipilih. Algoritma ini dapat membantu pemimpin dalam pengambilan keputusan. 5. K-NN Algoritma supervised digunakan dalam metode KNearest Neighbor (KNN), yang bertujuan untuk mengklasifikasikan obyek baru berdasarkan atribut dan contoh pelatihan. Algoritma KNN sangat sederhana, bekerja berdasarkan jarak terpendek dari contoh pelatihan ke query instance untuk menentukan KNN-nya. 6. Naïve Bayes Naive Bayes adalah pengklasifikasian yang dibuat oleh ilmuwan Inggris Thomas Bayes yang menggunakan metode probabilitas dan statistik untuk memprediksi peluang di masa depan berdasarkan pengalaman masa lalu. Ini dikenal sebagai teorema Bayes.
22 7. Classification And Regression Trees Metode pohon klasifikasi dan regresi (CART) adalah pohon klasifikasi dan regresi. CART menghasilkan pohon klasifikasi (classification trees) jika variabel dependennya bertipe kategorik, dan pohon regresi (regression trees) jika variabel dependennya bertipe kontinu atau numerik.
23 Preprocessing Data untuk Data Mining Djarot Hindarto, S.Kom., M.Kom. A. Pengenalan preprocessing data Dalam dunia data mining, preprocessing data merupakan tahap awal yang kritikal dan memegang peranan penting dalam kesuksesan analisis yang akan dilakukan (Applied et al., 2003). Tahapan ini melibatkan serangkaian proses untuk mengubah data mentah menjadi format yang siap dianalisis yang pada akhirnya meningkatkan kualitas dan efektivitas pengambilan keputusan berdasarkan data tersebut. Preprocessing data tidak hanya membantu dalam membersihkan data dari ketidaksempurnaan seperti noise, data yang hilang, atau inkonsistensi, namun juga dalam mengintegrasikan dan mentransformasikan data sehingga menjadi lebih mudah diinterpretasikan oleh algoritma data mining.
24 Preprocessing data berawal dari pemahaman mengenai data itu sendiri (García et al., 2016), (Hajer et al., 2020). Ini melibatkan pengumpulan data yang relevan, eksplorasi awal untuk memahami karakteristik data, serta evaluasi kualitas data yang ada. Penulis mengidentifikasi bahwa data berkualitas tinggi adalah prasyarat utama untuk analisis yang akurat, sehingga proses pembersihan data menjadi sangat esensial. Ini termasuk penanganan data yang hilang, pengurangan noise dan anomali, serta koreksi kesalahan yang mungkin terjadi selama pengumpulan data. Selanjutnya, integrasi data menjadi penting ketika data berasal dari berbagai sumber yang berbeda, yang memerlukan penyesuaian dan penggabungan agar dapat dianalisis secara keseluruhan. Transformasi data, termasuk normalisasi, diskritisasi, dan agregasi, dilakukan untuk membawa data ke dalam skala atau format yang lebih sesuai untuk analisis. Di sisi lain, reduksi data membantu dalam mengurangi volume data tanpa kehilangan informasi penting, melalui teknik seperti reduksi dimensi dan pengurangan jumlah record. Kualitas data setelah preprocessing memiliki pengaruh yang signifikan terhadap hasil analisis data mining (Sirisha et al., 2023). Oleh karena itu, setiap langkah dalam preprocessing data harus dilakukan dengan hati-hati dan keakuratan yang tinggi. Penelitian lebih lanjut dan pengembangan teknik preprocessing yang lebih efisien terus dilakukan untuk mendukung kebutuhan analisis data yang semakin kompleks.
25 B. Pentingnya preprocessing data dan tujuan preprocessing data. Pentingnya preprocessing data dalam bidang data mining tidak dapat diremehkan. Tahapan ini bertindak sebagai fondasi yang menentukan keandalan dan validitas dari keseluruhan proses analisis data. Dengan data yang bersih, konsisten, dan berkualitas tinggi, algoritma data mining dapat bekerja secara maksimal dalam mengidentifikasi pola, tren, dan insight yang relevan. Proses ini secara signifikan mengurangi risiko kesalahan interpretasi yang dapat timbul dari data yang bermasalah, seperti data yang tidak lengkap, berisi kesalahan, atau tidak konsisten. Dalam banyak kasus, langkah-langkah yang dilakukan dalam preprocessing data dapat menentukan keberhasilan atau kegagalan proyek analisis data. Tujuan preprocessing data adalah meningkatkan kualitas untuk efektivitas dan efisiensi analisis data mining, melalui pembersihan, integrasi, transformasi, reduksi, dan penyusunan data, meminimalisir noise dan inkonsistensi, serta mengembangkan fitur baru yang informatif. Dengan tujuan ini, preprocessing data memastikan bahwa data mining dapat dilakukan dengan lebih akurat, efisien, dan efektif. Langkah-langkah dalam preprocessing tidak hanya mendukung pengolahan data yang lebih baik tetapi juga membuka jalan untuk penemuan pengetahuan yang lebih mendalam dan bermakna dari kumpulan data yang kompleks. Melalui preprocessing, peneliti dapat memastikan bahwa data yang digunakan dalam analisis merupakan representasi terbaik dari realitas yang ingin diungkap, memungkinkan
26 pengambilan keputusan yang didasarkan pada bukti dan insight yang solid. C. Pemahaman Data. Pemahaman Data adalah langkah awal penting dalam preprocessing, meliputi Pengumpulan Data untuk mengumpulkan informasi relevan (Hindarto & Djajadi, 2023). Deskripsi Data untuk memahami struktur dan atribut. Eksplorasi Data untuk mengidentifikasi pola dan hubungan, serta Evaluasi Kualitas Data untuk memastikan keakuratan dan konsistensi data sebelum analisis lebih lanjut. Pengumpulan data merupakan tahap awal yang krusial dalam setiap proses analisis data, termasuk dalam bidang data mining. Proses ini melibatkan identifikasi, pengumpulan, dan penyimpanan data dari berbagai sumber yang relevan untuk keperluan analisis. Peneliti memastikan bahwa data yang dikumpulkan mencakup informasi yang cukup untuk mendukung tujuan penelitian. Dalam melakukan pengumpulan data, peneliti sering kali dihadapkan dengan tantangan untuk menentukan sumber data yang paling tepat dan metode pengumpulan data yang efisien. Di era digital saat ini, sumber data dapat bervariasi mulai dari database online, media sosial, sistem informasi geografis, hingga sensor dan perangkat IoT (Internet of Things). Peneliti menggunakan teknologi canggih untuk mengumpulkan data besar dengan cepat dan akurat. Ketersediaan alat dan teknologi pengumpulan data otomatis, seperti web scraping dan API (Application Programming
27 Interface), memudahkan peneliti dalam mengakses dan mengumpulkan data dari sumber online. Namun, peneliti juga harus mempertimbangkan aspek legalitas dan etika dalam pengumpulan data, memastikan bahwa data dikumpulkan dengan cara yang etis dan sesuai dengan peraturan yang berlaku. Setelah data berhasil dikumpulkan, langkah selanjutnya adalah melakukan verifikasi untuk memastikan integritas data. Peneliti mengorganisir data yang telah dikumpulkan, seringkali menggunakan perangkat lunak manajemen database untuk memudahkan proses ini. Pengorganisasian data melibatkan pemilahan data, penghapusan duplikasi, dan penataan data sesuai dengan struktur yang telah ditentukan. Proses pengumpulan data ini tidak hanya membutuhkan keahlian teknis dalam mengelola dan memproses data, tetapi juga kejelian dalam menilai kualitas dan relevansi data terhadap tujuan penelitian. Pengumpulan data yang efektif menjadi fondasi yang kuat bagi analisis data mining yang akurat dan bermakna. Web scraping adalah teknik pengumpulan data otomatis dari internet, khususnya dari halaman web. Teknik ini memungkinkan pengumpulan informasi besar dengan cepat, yang sangat berguna dalam berbagai bidang seperti analisis pasar, penelitian akademik, dan pengembangan produk. Sebagai contoh, mari kita pertimbangkan proses web scraping untuk mengumpulkan informasi tentang buku terlaris dari sebuah situs web penjualan buku menggunakan Python dan pustaka BeautifulSoup.
28 Langkah-langkah Web Scraping Menggunakan Python dan BeautifulSoup: 1. Persiapan: Pastikan Python terinstal di sistem. Install pustaka yang diperlukan menggunakan pip, yaitu requests untuk melakukan permintaan HTTP dan BeautifulSoup untuk parsing HTML. pip install requests beautifulsoup4 2. Request Halaman Web: Gunakan pustaka requests untuk mendapatkan konten halaman web. import requests URL = "https://example.com/bestsellers" page = requests.get(URL) 3. Parsing HTML: Gunakan BeautifulSoup untuk parsing HTML yang diterima dari halaman web. from bs4 import BeautifulSoup soup = BeautifulSoup(page.content, "html.parser")
29 4. Ekstraksi Data: Identifikasi elemen HTML yang mengandung informasi buku terlaris, seperti Judul Buku, Penulis, dan Harga. Gunakan metode BeautifulSoup untuk menemukan dan mengekstrak informasi tersebut. books = soup.find_all("div", class_="book-item") for book in books: title = book.find("h2", class_="title").text author = book.find("span", class_="author").text price = book.find("span", class_="price").text print(f"Judul: {title}, Penulis: {author}, Harga: {price}") 5. Penyimpanan Data: Simpan data yang telah diekstrak ke dalam format yang diinginkan, seperti CSV atau database. import csv with open("bestsellers.csv", mode="w", newline="", encoding="utf-8") as file: writer = csv.writer(file) writer.writerow(["Judul Buku", "Penulis", "Harga"]) for book in books: writer.writerow([book["title"], book["author"], book["price"]]) Contoh di atas merupakan proses dasar web scraping menggunakan Python dan BeautifulSoup
30 untuk mengumpulkan informasi buku terlaris dari sebuah situs web penjualan buku. Penting untuk selalu memeriksa dan mematuhi kebijakan robots.txt dari situs web target serta mempertimbangkan aspek legal dan etis sebelum melakukan web scraping. Mari kita buat sebuah skenario hipotetis untuk mengilustrasikan bagaimana hasil scrapping bisa ditampilkan dalam bentuk tabel. Misalkan kita telah melakukan web scraping pada situs web penjualan buku untuk mengumpulkan data tentang buku-buku terlaris, termasuk judul buku, penulis, dan harga. Berikut ini contoh tabel hasil scraping tersebut: Tabel 1. Hasil Scrapping No Judul Buku Penulis Harga 1 Petualangan Sherlock Holmes Arthur Conan Doyle Rp100.000 2 Filsafat Pengetahuan Karl Popper Rp150.000 3 Pengantar Ilmu Politik Miriam Budiardjo Rp120.000 4 Algoritma dan Pemrograman Gunadarma Rp200.000 5 Kecerdasan Buatan Stuart Russell Rp250.000 Tabel 1. hanyalah contoh dan tidak menggambarkan data nyata dari sebuah website. Data seperti judul buku, penulis, dan harga bisa diekstrak melalui proses web scraping yang telah dijelaskan sebelumnya, menggunakan pustaka seperti Beautiful-
31 Soup dan requests di Python. Hasil scraping kemudian dapat diolah dan disimpan dalam berbagai format, salah satunya adalah format CSV yang kemudian bisa diimport ke dalam spreadsheet untuk dibuat tabel seperti di atas. Proses penyimpanan data ke dalam format tabel memudahkan analisis lebih lanjut dan pengambilan keputusan berbasis data, misalnya untuk menentukan buku apa yang paling diminati di situs penjualan buku tersebut. Ini hanya salah satu aplikasi dari web scraping, yang bisa diadaptasi untuk berbagai kebutuhan analisis data lainnya. D. Deskripsi data Deskripsi data merupakan tahap penting dalam proses pemahaman data yang melibatkan identifikasi dan analisis karakteristik dasar dari data yang telah dikumpulkan. Tahap ini bertujuan untuk memberikan gambaran umum yang jelas dan mendalam tentang dataset, sehingga memfasilitasi langkah-langkah analisis data berikutnya dengan lebih efektif. Dalam tahap deskripsi data, penulis mengkaji setiap variabel dalam dataset untuk memahami jenis data (numerik, kategorikal), skala pengukuran (ratio, interval, ordinal, nominal), dan penggunaannya dalam analisis. Hal ini termasuk memeriksa distribusi frekuensi, mencari nilai tengah, mean (rata-rata), modus, serta menghitung ukuran tendensi sentral dan dispersi seperti standar deviasi dan varians. Penulis juga mengevaluasi kemungkinan keberadaan outliers atau nilai yang ekstrem yang dapat mempengaruhi hasil analisis.
32 Selain itu, penulis melakukan visualisasi data menggunakan grafik seperti histogram, box plots, dan scatter plots untuk memvisualisasikan distribusi dan hubungan antar variabel. Visualisasi ini sangat membantu dalam mengidentifikasi pola, tren, dan anomali yang mungkin tidak terlihat hanya dengan analisis numerik. Grafik-grafik tersebut memungkinkan penulis untuk mendapatkan insight visual yang cepat tentang struktur dan dinamika data yang dikumpulkan. Deskripsi data tidak hanya memberikan pemahaman awal mengenai data yang dihadapi, tetapi juga mendukung identifikasi masalah kualitas data yang perlu ditangani, seperti data yang hilang, inkonsistensi dalam data, atau masalah encoding yang dapat mempengaruhi analisis selanjutnya. Melalui deskripsi yang mendetail, penulis dapat merancang strategi preprocessing yang lebih efektif untuk memaksimalkan kualitas data sebelum memasuki tahap analisis data mining yang lebih kompleks. Keseluruhan proses ini vital untuk memastikan bahwa data yang akan digunakan dalam analisis adalah data yang terbaik dan paling representatif, meminimalkan risiko dan maksimalkan kegunaan data dalam pengambilan keputusan berbasis bukti. E. Eksplorasi data Eksplorasi data merupakan tahap penting yang dilakukan oleh penulis untuk memahami secara mendalam karakteristik dan struktur dari data yang akan dianalisis. Proses ini melibatkan analisis statistik deskriptif, yang mencakup perhitungan tendensi sentral
33 seperti mean, median, dan modus, serta ukuran dispersi seperti rentang, kuartil, dan standar deviasi. Melalui metode ini, penulis dapat mengidentifikasi dan memahami distribusi data, mencari kecenderungan pusat data, serta mengukur sebaran data yang akan membantu dalam penentuan metode analisis yang lebih lanjut. Analisis ini esensial untuk memastikan bahwa semua keputusan yang diambil berikutnya didasarkan pada pemahaman yang solid tentang data yang tersedia. Visualisasi data menjadi salah satu komponen utama dalam eksplorasi data, dimana penulis menggunakan berbagai bentuk grafik seperti histogram, box plots, dan scatter plots untuk mengamati distribusi, mencari pola, dan mendeteksi outlier dalam data. Alat visual ini sangat efektif dalam memberikan gambaran intuitif tentang karakteristik data, yang sering kali sulit dipahami hanya melalui analisis numerik. Melalui visualisasi, penulis dapat dengan cepat mengidentifikasi area yang memerlukan penelitian lebih dalam, seperti anomali atau variabilitas yang tidak biasa dalam kumpulan data. Ini memungkinkan penulis untuk mengarahkan fokus analisis lebih lanjut secara lebih efisien dan efektif. Selain itu, penulis juga melakukan analisis eksploratif lebih lanjut seperti pemeriksaan pola dan hubungan antar variabel dengan menggunakan teknik analisis korelasi dan regresi. Metode ini membantu dalam memahami hubungan yang mungkin tidak langsung terlihat dan mengukur seberapa kuat pengaruh antara satu variabel dengan variabel lainnya. Dengan pengetahuan ini, penulis dapat memprediksi variabel respons berdasarkan variabel independen dan mengidentifikasi faktor-faktor kunci yang
34 mungkin mempengaruhi hasil yang diperoleh dari data mining. Proses eksplorasi data ini sangat penting tidak hanya untuk memahami data yang akan dianalisis tetapi juga untuk merancang model analitis yang akurat. Dengan eksplorasi yang mendalam, penulis dapat mengeliminasi atau mengurangi risiko kesalahan dalam pengambilan keputusan yang berbasis data. Proses ini juga membantu dalam memastikan bahwa analisis yang dilakukan akan memberikan hasil yang reliabel dan valid. Oleh karena itu, eksplorasi data adalah langkah kritikal dalam setiap proyek analisis data, yang memungkinkan penulis dan analis untuk menghasilkan wawasan yang lebih bermakna dan mendalam. Penulis menggunakan metode analisis eksploratif seperti analisis korelasi untuk mengukur seberapa kuat hubungan antar variabel dalam dataset. Metode ini sangat penting dalam memahami relasi dan interdependensi antara berbagai faktor yang ada dalam data. Korelasi membantu dalam mengidentifikasi variabel-variabel yang mungkin memiliki pengaruh signifikan terhadap variabel lainnya, yang sangat berharga dalam fase modelisasi dan prediksi dalam data mining. Oleh karena itu, analisis korelasi menjadi alat bantu yang mendasar untuk penulis dalam mengembangkan model analitis yang akurat dan efektif. Analisis korelasi menyediakan wawasan tentang kemungkinan kausalitas atau asosiasi yang mungkin tidak tampak hanya dari pengamatan kasat mata. Misalnya, penulis mungkin menemukan bahwa peningkatan jumlah halaman buku berkolerasi dengan peningkatan harga jual buku, yang mengindikasikan bahwa buku dengan konten lebih banyak cenderung dihargai lebih tinggi. Penemuan
35 seperti ini memungkinkan penulis untuk lebih menggali variabel yang mempengaruhi harga buku, mempermudah penentuan faktor-faktor yang harus diperhatikan dalam analisis lebih lanjut. Dengan memahami hubungan ini, penulis dapat mengarahkan analisis regresi untuk mengkuantifikasi dan memodelkan pengaruh tersebut secara statistik. Selanjutnya, eksplorasi data membantu penulis dalam merencanakan strategi analisis yang efektif. Proses ini melibatkan identifikasi dan prioritisasi variabel berdasarkan kekuatan dan signifikansi korelasi mereka. Hal ini tidak hanya mengurangi risiko kesalahan interpretasi data tetapi juga memastikan bahwa analisis lebih lanjut dilakukan pada data yang sudah dibersihkan dan dipahami dengan baik. Dengan demikian, eksplorasi data membantu meminimalkan redundansi dan memfokuskan sumber daya pada aspek-aspek data yang paling kritis, mempercepat proses analisis dan meningkatkan akurasi hasil yang diperoleh. Oleh karena itu, eksplorasi data merupakan langkah kritikal yang tidak boleh dilewatkan sebelum memasuki tahapan analisis data yang lebih kompleks dalam proyek data mining. Langkah ini tidak hanya memperkuat fondasi untuk analisis mendalam tetapi juga menyempurnakan model yang akan digunakan dalam memproses dan menganalisis data. Melalui proses eksplorasi yang teliti, penulis dapat menghindari banyak jebakan umum dalam analisis data dan memastikan bahwa keputusan yang dibuat ber-dasarkan hasil analisis adalah valid dan dapat di-pertanggungjawabkan.
36 F. Evaluasi kualitas data Evaluasi kualitas data adalah proses penting yang dilakukan oleh penulis untuk memastikan data yang digunakan dalam analisis adalah data yang akurat, konsisten, dan dapat diandalkan. Proses ini melibatkan pemeriksaan terhadap kesalahan, kekurangan, atau ketidakkonsistenan dalam data yang dapat mempengaruhi hasil analisis. Penulis perlu mengidentifikasi dan memperbaiki masalah-masalah seperti nilai yang hilang, duplikat data, dan kesalahan entri data. Evaluasi ini juga termasuk pengecekan terhadap outlier atau nilai ekstrem yang mungkin menunjukkan kesalahan pengumpulan data atau kondisi khusus yang perlu dianalisis secara terpisah. Selain itu, evaluasi kualitas data juga melibatkan analisis terhadap kecukupan data. Penulis memeriksa apakah dataset mencakup semua elemen yang diperlukan untuk mendukung tujuan analisis dan apakah sampel data mewakili populasi yang ingin diteliti. Proses ini memastikan bahwa hasil analisis akan relevan dan berlaku umum untuk kondisi yang dipelajari. Penulis sering kali menggunakan teknik statistik untuk memastikan representasi yang baik dari data, termasuk pengujian hipotesis tentang distribusi data dan variabilitasnya. Proses verifikasi kualitas data juga mencakup validasi metodologi yang digunakan untuk mengumpulkan data tersebut. Penulis harus memastikan bahwa metode pengumpulan data telah sesuai dengan standar ilmiah yang berlaku dan bahwa data tersebut dihasilkan dari proses yang etis dan tidak bias. Ini termasuk menilai keandalan dan validitas instrumen yang digunakan dalam
37 pengumpulan data, seperti kuesioner atau alat ukur lainnya. Verifikasi ini penting untuk menjamin bahwa data yang dihasilkan benar-benar mencerminkan fenomena yang ingin dijelaskan atau diprediksi. Akhirnya, penulis harus secara berkala melakukan audit kualitas data, sebuah proses yang tidak hanya sekali dilakukan tetapi berkelanjutan sepanjang periode pengumpulan dan analisis data. Audit ini bertujuan untuk memastikan bahwa semua aspek pengumpulan dan pengolahan data telah memenuhi standar kualitas yang telah ditetapkan dan bahwa tidak ada deviasi yang mungkin mengarah pada kesalahan interpretasi hasil. Melalui evaluasi kualitas data yang sistematis dan terstruktur, penulis dapat meningkatkan kepercayaan terhadap analisis yang dilakukan dan memperkuat kesahihan temuan penelitian. G. Pembersihan Data (Data Cleaning) Pembersihan data adalah proses krusial yang dilakukan oleh penulis untuk menyiapkan dataset sebelum dilakukan analisis lebih lanjut. Tahap ini mencakup berbagai kegiatan seperti menghilangkan data yang tidak relevan, mengoreksi kesalahan yang teridentifikasi, mengatasi nilai yang hilang, serta mengidentifikasi dan menghapus outlier. Proses ini sangat penting karena data yang tidak bersih dapat menyebabkan kesalahan dalam analisis dan menyesatkan dalam pengambilan keputusan. Penulis harus secara cermat mengecek dan mengoreksi setiap entri yang salah, mengganti nilai yang hilang dengan pendekatan yang tepat seperti imputasi rata-rata,
38 median, atau modus, atau metode lebih kompleks seperti imputasi berbasis prediksi. Selain itu, penulis juga harus memperhatikan duplikasi data yang dapat terjadi karena kesalahan saat pengumpulan data atau kesalahan entri. Duplikasi ini harus diidentifikasi dan dihapus untuk menghindari bias dalam analisis. Penulis menggunakan berbagai teknik dan alat software untuk mendeteksi dan mengeliminasi duplikat serta melakukan normalisasi data jika diperlukan, untuk memastikan bahwa semua data dalam dataset berada dalam skala yang seragam. Pembersihan data tidak hanya meningkatkan kualitas analisis tetapi juga mempermudah penulis dalam menginterpretasi hasil. Melalui pembersihan data yang efektif, penulis dapat memastikan bahwa dataset yang digunakan akurat dan representatif terhadap masalah yang akan dipecahkan. 1. Mengatasi data yang hilang (missing values) Mengatasi data yang hilang adalah tantangan signifikan dalam pembersihan data yang harus ditangani oleh penulis dengan hati-hati (Krawczyk & Herrera, 2017). Data yang hilang dapat terjadi karena berbagai alasan, seperti kesalahan entri, kegagalan dalam pengumpulan data, atau ketidaktersediaan informasi pada saat pengumpulan data. Penulis perlu mengevaluasi seberapa signifikan pengaruh kehilangan data terhadap keseluruhan analisis dan memutuskan strategi yang paling tepat untuk mengatasi masalah ini. Beberapa teknik yang sering digunakan antara lain penghapusan baris atau kolom yang mengandung nilai hilang, pengisian nilai hilang
39 dengan nilai tengah, rata-rata, atau modus, dan metode imputasi lebih kompleks seperti imputasi model prediktif atau menggunakan algoritma knearest neighbors. Di sisi lain, penulis juga dapat memilih untuk menggunakan pendekatan modelisasi yang memperkenankan adanya nilai hilang selama fase analisis. Teknik imputasi harus dipilih berdasarkan jenis data serta asumsi yang mendasari data tersebut. Misalnya, imputasi rata-rata cocok untuk data yang terdistribusi normal, sedangkan imputasi median lebih resisten terhadap outlier dalam data yang tidak terdistribusi normal. Penggunaan metode imputasi berbasis model, seperti regresi linear atau penggunaan algoritma machine learning, bisa sangat efektif jika kehilangan data terstruktur dan tidak acak. Penulis harus mempertimbangkan keakuratan, kelengkapan, dan relevansi data setelah imputasi untuk memastikan bahwa data tersebut dapat digunakan dalam analisis selanjutnya tanpa menyebabkan bias yang signifikan. Untuk memberikan contoh pembersihan data menggunakan Python, diasumsikan memiliki dataset sederhana yang mencakup beberapa missing values (nilai yang hilang). Dataset ini akan kita simpan dalam format tabel menggunakan pandas, sebuah pustaka yang populer untuk manipulasi data dalam Python. Berikut adalah langkah-langkah untuk pembersihan data: Membuat Dataset Sample dengan beberapa missing values:
40 import pandas as pd import numpy as np # Membuat DataFrame data = { 'Nama': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'], 'Umur': [25, np.nan, 35, 45, 50], 'Gaji': [50000, 54000, None, np.nan, 60000] } df = pd.DataFrame(data) print("Dataset Sebelum Pembersihan:") print(df) Output dari skrip python sebagai berikut: Dataset Sebelum Pembersihan: Nama Umur Gaji 0 Alice 25.0 50000.0 1 Bob NaN 54000.0 2 Charlie 35.0 NaN 3 David 45.0 NaN 4 Eva 50.0 60000.0 2. Penghapusan record (baris) Metode ini menghapus baris yang mengandung nilai yang hilang.