141 lebih mudah diinterpretasikan dan digunakan untuk pengambilan keputusan, perencanaan strategis, atau peningkatan efisiensi operasional. Dalam konteks komersial, pengelompokan data sering digunakan untuk segmentasi pasar. Dengan mengelompokkan konsumen berdasarkan karakteristik seperti perilaku pembelian, preferensi dan demografi, perusahaan dapat menargetkan strategi pemasaran mereka secara lebih efektif dan meningkatkan layanan pelanggan. Dalam bidang kedokteran, clustering dapat membantu dalam mengidentifikasi pola penyakit yang memungkinkan praktisi kesehatan untuk mengembangkan terapi yang lebih tepat sasaran dan personalisasi. Di sektor keuangan, teknik ini digunakan untuk mendeteksi kegiatan mencurigakan atau fraud dengan mengelompokkan transaksi berdasarkan karakteristik yang serupa. Salah satu tantangan utama dalam pengelompokan data adalah memilih metode yang tepat. Ada banyak teknik yang tersedia, masing-masing dengan kekuatan dan keterbatasan tertentu. Misalnya, K-means clustering adalah teknik yang sangat populer karena relatif mudah untuk dipahami dan diterapkan, namun metode ini mengasumsikan kluster berbentuk sferis dan sering kali tidak efektif jika kluster sebenarnya memiliki bentuk yang tidak teratur. Di sisi lain, hierarchical clustering tidak memerlukan spesifikasi jumlah kluster pada awalnya dan dapat menghasilkan dendrogram yang menunjukkan hubungan multilevel antar objek, namun metode ini
142 cenderung membutuhkan sumber daya komputasi yang lebih besar, terutama untuk dataset yang sangat besar. Dengan kemajuan teknologi dan meningkatnya volume data, pengelompokan data telah berkembang menjadi lebih dari sekedar pembagian kelompok homogen. Teknik modern menggunakan algoritma machine learning yang canggih, termasuk pembelajaran mendalam untuk pengelompokan data tidak terstruktur, seperti teks dan gambar. Inovasi ini memungkinkan pengelompokan yang lebih intuitif dan adaptif, yang bisa mengakomodasi kompleksitas dan variabilitas data yang lebih besar. Selain itu, peningkatan dalam teknik visualisasi data memungkinkan pengelompokan untuk tidak hanya menjadi alat analisis tetapi juga alat komu-nikasi yang memperjelas hasil analisis kestakeholder, membantu dalam menyampaikan wawasan yang kompleks dengan cara yang dapat diakses dan mudah dipahami. B. Definisi pengelompokan data dan perbedaannya dengan klasifikasi Pengelompokan data, atau clustering, adalah teknik analisis yang digunakan untuk mengatur set data menjadi kelompok atau kluster yang homogen, di mana objek dalam kelompok yang sama memiliki karakteristik yang serupa satu sama lain dibandingkan dengan karakteristik objek dalam kelompok lain. Proses ini tidak diawasi, yang berarti tidak memerlukan label atau kategori yang telah ditentukan sebelumnya. Tujuannya adalah untuk mengidentifikasi struktur alami atau pola dalam dataset dengan meminimalkan variasi dalam setiap kluster dan me-
143 maksimalkan variasi antar kluster. Teknik ini sangat bermanfaat dalam berbagai aplikasi, seperti pemasaran untuk segmentasi pelanggan, biologi untuk pengelompokan gen, atau ilmu sosial untuk analisis demografi. Berbeda dengan pengelompokan, klasifikasi adalah proses pembelajaran terawasi yang melibatkan pemberian label ke objek atau data berdasarkan ciri-ciri yang telah diketahui. Klasifikasi menggunakan data latih, di mana setiap elemen sudah diketahui kategori atau labelnya, untuk melatih model yang kemudian dapat mengkategorikan data baru. Tujuannya adalah untuk memetakan input data ke label yang telah ditentukan, menggunakan algoritma yang bisa memprediksi keluaran berdasarkan input yang diberikan. Contoh umum dari penggunaan klasifikasi termasuk sistem email yang memfilter spam, aplikasi perbankan yang mendeteksi transaksi penipuan, atau aplikasi kesehatan yang mengklasifikasikan jenis penyakit berdasarkan gejala. Pengelompokan dan klasifikasi sering kali tampak serupa karena keduanya mengelompokkan data berdasarkan ciri-ciri. Namun, perbedaan mendasar antara keduanya terletak pada apakah output dari algoritma sudah diketahui sebelumnya. Pengelompokan data dilakukan tanpa label yang telah ditentukan, menjadikannya proses yang lebih eksploratif yang berusaha untuk menemukan hubungan tersembunyi atau pola tanpa prasangka awal. Di sisi lain, klasifikasi bekerja dengan data yang labelnya sudah diketahui yang memfokuskan pada pemodelan prediktif dan pengambilan keputusan berdasarkan bukti yang telah ditetapkan.
144 Selain itu, dalam pengelompokan, metode untuk mengevaluasi kualitas atau keberhasilan model tidak selalu jelas atau mudah karena tidak adanya label yang benar sebagai pembanding. Ini membuat penilaian subjektif dan berdasarkan metric seperti koefisien siluet, gap statistic, atau inertia menjadi penting untuk menilai seberapa baik kluster dipisahkan dan seberapa kompak kluster tersebut. Sementara pada klasifikasi, keberhasilan model dapat diukur lebih langsung menggunakan metrik seperti akurasi, presisi, recall, dan F1-score, yang semua mengukur seberapa baik klasifikasi data sesuai dengan label sebenarnya. Perbedaan pendekatan ini mencerminkan perbedaan dalam aplikasi praktis antara kedua metode tersebut dengan masing-masing memiliki kekuatan dan keterbatasan yang membuatnya cocok untuk jenis tugas tertentu dalam analisis data. C. Konsep dasar statistik variabel, distribusi, ukuran tendensi sentral, dan dispersi Dalam statistik, variabel adalah entitas yang dapat mengambil berbagai nilai yang berbeda. Variabel dapat diklasifikasikan sebagai diskrit atau kontinu, tergantung pada jenis nilai yang mereka ambil. Variabel diskrit memiliki nilai yang dapat dihitung dan terpisah, seperti jumlah anak dalam keluarga atau jumlah transaksi penjualan per hari. Sebaliknya, variabel kontinu mewakili nilai yang dapat diukur dan memiliki jangkauan tak terbatas atau kontinu, seperti berat atau tinggi badan. Memahami jenis variabel yang ada dalam data adalah
145 kunci untuk memilih metode statistik yang tepat untuk analisis data. Distribusi data menunjukkan seberapa sering setiap nilai yang berbeda muncul, yang sangat penting dalam memahami bentuk dan struktur data yang dianalisis. Ukuran tendensi sentral, seperti rata-rata, median, dan modus, adalah metode statistik yang digunakan untuk menentukan nilai pusat dalam sebuah dataset. Rata-rata dihitung dengan membagi jumlah total semua nilai dengan jumlah nilai, sementara median adalah nilai tengah dari dataset yang diurutkan, dan modus adalah nilai yang muncul paling sering. Selain itu, ukuran dispersi seperti rentang, varians, dan deviasi standar penting untuk menilai seberapa lebar nilai data menyebar atau bervariasi dari rata-rata. Dispersi yang tinggi menunjukkan variabilitas yang besar dalam data, sementara dispersi yang rendah menunjukkan bahwa data lebih seragam atau konsisten. Kedua konsep, tendensi sentral dan dispersi, secara kolektif membantu dalam menggambarkan distribusi data secara keseluruhan yang sangat berguna dalam analisis statistik lanjutan. 1. Konsep Dasar Variabel Statistik Dalam statistik, konsep variabel adalah fundamental dan merujuk pada ciri atau karakteristik yang dapat diukur atau dihitung dan yang nilai atau kualitasnya bervariasi antara subjek atau objek yang diamati. Variabel memungkinkan peneliti untuk mengumpulkan dan menganalisis data secara sistematis. Ada beberapa jenis variabel utama yang digunakan dalam analisis statistik:
146 a. Variabel Kuantitatif: Variabel ini mengukur jumlah dan dapat dibagi lagi menjadi dua subkategori: 1) Variabel Diskrit: Nilai dari variabel diskrit adalah bilangan bulat yang dapat dihitung. Contohnya termasuk jumlah anak dalam sebuah keluarga atau jumlah mobil yang terjual oleh dealer dalam sebulan. Setiap nilai mewakili hasil penghitungan yang jelas dan terpisah. 2) Variabel Kontinu: Variabel ini dapat mengambil nilai dalam rentang yang kontinu. Contoh dari variabel kontinu termasuk tinggi badan, berat, atau suhu. Nilai variabel ini sering kali diukur dan tidak hanya dihitung, memberikan spektrum nilai yang tak terbatas dalam batas tertentu. b. Variabel Kualitatif (atau Kategorikal): Variabel ini menggambarkan kualitas atau kategori dan tidak memiliki nilai numerik intrinsik. 1) Variabel Nominal: Ini adalah jenis variabel kategorikal yang tidak memiliki urutan atau peringkat tertentu. Contohnya termasuk jenis kelamin (pria atau wanita), warna mobil, atau jenis makanan. 2) Variabel Ordinal: Berbeda dengan nominal, variabel ordinal menunjukkan beberapa urutan atau peringkat. Contoh dari variabel ini termasuk tingkat pendidikan (SD, SMP, SMA, S1), peringkat kepuasan (puas, netral,
147 tidak puas), atau tingkat keparahan penyakit (ringan, sedang, parah). Pemahaman tentang jenis variabel ini penting karena menentukan jenis analisis statistik yang harus dilakukan. Misalnya, analisis data yang melibatkan variabel kuantitatif mungkin memerlukan penggunaan statistik deskriptif seperti rata-rata dan deviasi standar, sedangkan data kualitatif mungkin lebih sering dianalisis menggunakan frekuensi atau mode. Juga, pemilihan uji statistik, seperti uji t atau chisquare, sangat bergantung pada jenis variabel yang terlibat dalam penelitian. 2. Distribusi, ukuran tendensi sentral, dan dispersi Distribusi data adalah konsep statistik yang menggambarkan seberapa sering setiap nilai muncul dalam kumpulan data. Distribusi ini bisa visualisasikan dengan berbagai cara, termasuk histogram atau grafik frekuensi, yang membantu dalam melihat pola seperti simetri, kemencengan (skewness) atau keberadaan outlier. Sebagai contoh, distribusi umur dalam sebuah survei populasi mungkin menunjukkan kecenderungan konsentrasi pada kelompok usia tertentu, atau distribusi pendapatan dalam sebuah studi mungkin mengungkapkan bahwa sebagian besar responden berada dalam kisaran pendapatan menengah dengan beberapa outlier pada pendapatan sangat tinggi. Ukuran tendensi sentral merupakan nilai yang mencoba mendeskripsikan set data dengan mengidentifikasi posisi pusat dari distribusi tersebut. Tiga
148 ukuran tendensi sentral yang paling umum adalah mean, median, dan modus. **Mean** adalah rata-rata aritmatika dari semua nilai dalam kumpulan data, dihitung dengan menjumlahkan semua nilai dan membaginya dengan jumlah nilai. Misalnya, mean dari nilai tes 5 siswa yang skornya adalah 90, 82, 88, 94, dan 85 adalah (90+82+88+94+85)/5 = 87.8. **Median** adalah nilai tengah dalam kumpulan data yang telah diurutkan dan adalah ukuran yang berguna khususnya ketika distribusi data tidak simetris, karena kurang dipengaruhi oleh nilai-nilai ekstrem atau outlier. Jika ada lima rumah yang dijual dengan harga 100,000, 150,000, 200,000, 250,000, dan 900,000; median harganya adalah 200,000. **Modus** adalah nilai yang muncul paling sering dalam kumpulan data; misalnya, dalam data nilai siswa: 82, 88, 90, 90, 94, 94, 94, modusnya adalah 94 karena nilai tersebut muncul paling sering. Dispersi, atau variasi, mengacu pada seberapa luas nilai data menyebar di sekitar nilai tengah. **Rentang** adalah perbedaan antara nilai maksimum dan minimum dalam dataset; misalnya, jika skor tertinggi dalam tes adalah 94 dan terendah adalah 82, maka rentangnya adalah 94 - 82 = 12. **Variansi** mengukur seberapa jauh setiap nilai dalam dataset berada dari mean, secara rata-rata. Sebagai contoh, jika dataset skor tes di atas memiliki mean 87.8, variansinya akan mengukur seberapa jauh secara ratarata setiap skor berada dari 87.8. **Deviasi standar** adalah akar kuadrat dari variansi dan memberikan ukuran yang berguna tentang seberapa besar nilai-
149 nilai tersebut berada dari mean dalam unit yang sama dengan data asli, yang membantu dalam membandingkan dispersi antar dataset yang berbeda. Dalam konteks skor tes, deviasi standar yang rendah berarti kebanyakan siswa mendapatkan skor yang tidak jauh dari mean, sementara deviasi standar yang tinggi menunjukkan bahwa skor-skor siswa lebih tersebar luas. Pemahaman menyeluruh tentang distribusi, ukuran tendensi sentral, dan dispersi sangat penting untuk menganalisis dan menginterpretasikan data secara efektif, memberikan wawasan mendalam tentang karakteristik dan pola dalam kumpulan data tersebut. Dalam statistik, rumus-rumus untuk distribusi, ukuran tendensi sentral, dan dispersi digunakan untuk mengkarakterisasi dan menganalisis kumpulan data. Berikut ini adalah rumus dasar untuk setiap konsep tersebut: a. Ukuran Tendensi Sentral 1) Mean (Rata-rata) di mana xi adalah nilai ke-i dalam dataset, dan n adalah jumlah total nilai dalam dataset. 2) Median Median tidak memiliki rumus matematis sederhana karena ini adalah nilai tengah dataset ketika diurutkan. Jika jumlah data (n) ganjil, median
150 adalah nilai yang berada tepat di tengah setelah diurutkan. Jika n genap, median adalah rata-rata dari dua nilai tengah. 3) Modus Modus adalah nilai atau nilai yang paling sering muncul dalam dataset. Tidak ada rumus matematis untuk modus; ini adalah observasi yang paling umum dalam dataset. b. Ukuran Dispersi 1) Rentang (Range) Range = Nilai Maksimum − Nilai Minimum 2) Variansi ∑ di mana adalah nilai ke-i dalam dataset, μ adalah mean dari dataset, dan n adalah jumlah elemen dalam dataset. 3) Deviasi Standar Deviasi Standar(s) = √ ∑ Deviasi standar adalah akar kuadrat dari variansi, memberikan ukuran seberapa jauh rata-rata nilai data berbeda dari mean. c. Distribusi Distribusi data tidak dijelaskan dengan satu rumus tertentu, tetapi sering digambarkan menggunakan grafik seperti histogram atau kurva
151 distribusi probabilitas. Untuk distribusi data teoretis seperti distribusi normal, rumusnya melibatkan fungsi kepadatan probabilitas (probability density function, PDF): Distribusi Normal f(x∣μ, σ2 ) = √ exp ( ) Dimana x adalah variabel, μ adalah mean, dan σ adalah variansi dari distribusi. Penggunaan rumus-rumus ini memungkinkan peneliti dan analis untuk melakukan analisis data yang mendalam, memahami karakteristik dasar dataset, dan melakukan inferensi statistik yang relevan. D. Metodologi Pengelompokan Data Metodologi pengelompokan data melibatkan berbagai teknik yang digunakan untuk mengelompokkan sekumpulan objek atau data berdasarkan kesamaan atau pola yang ditemukan dalam data tersebut. Salah satu metode yang paling sering digunakan adalah K-means clustering yang bertujuan untuk mempartisi data menjadi K kelompok berbeda (atau kluster) dengan cara meminimalkan variasi dalam kluster dan memaksimalkan variasi antar kluster. Dalam metode ini, titik data diklasifikasikan ke dalam kluster yang terdekat berdasarkan jarak Euclidean ke centroid, yaitu titik pusat dari kluster
152 tersebut. Proses ini diulang secara iteratif hingga posisi centroid tidak berubah lagi, menunjukkan konvergensi kluster. Metode lain yang banyak digunakan adalah hierarchical clustering yang tidak memerlukan penentuan jumlah kluster sebelumnya dan menghasilkan dendrogram yang memvisualisasikan pengelompokan data secara hierarkis dari yang paling umum hingga yang paling spesifik. Pemilihan metode pengelompokan yang tepat bergantung pada jenis data dan tujuan analisis yang diinginkan. Misalnya, jika dataset memiliki ukuran yang relatif kecil dan struktur kluster yang tidak terlalu kompleks, hierarchical clustering bisa sangat efektif. Namun, untuk dataset besar dengan dimensi yang tinggi, K-means atau metode berbasis partisi lainnya lebih disukai karena lebih efisien dari segi komputasi. Selain itu, sangat penting untuk melakukan analisis awal untuk memahami distribusi dan karakteristik data sebelum memilih metodologi pengelompokan, agar hasil yang diperoleh dapat valid dan dapat diinterpretasikan dengan baik dalam konteks penelitian atau pengambilan keputusan. 1. Metode pengelompokan data (K-means clustering dan hierarchical clustering) K-means clustering adalah salah satu metode pengelompokan yang paling populer dan sering digunakan dalam analisis data untuk mengelompokkan data menjadi beberapa kelompok atau kluster berdasarkan kesamaan karakteristik antara anggota di dalam kelompok tersebut. Metode ini merupakan teknik pengelompokan berbasis partisi yang membagi
153 data ke dalam K kluster dimana K adalah jumlah kluster yang ditentukan sebelumnya oleh pengguna. Proses ini dimulai dengan pemilihan sembarang titik centroid untuk masing-masing kluster, kemudian algoritma mengalokasikan setiap titik data ke centroid terdekat berdasarkan jarak Euclidean. Setelah semua titik data dialokasikan, centroid dihitung ulang berdasarkan rata-rata posisi semua titik dalam kluster tersebut. Langkah ini diulang secara iteratif hingga posisi centroid tidak lagi berubah, yang menandakan bahwa kluster telah stabil. Hierarchical clustering, di sisi lain, adalah metode pengelompokan yang tidak memerlukan penentuan jumlah kluster di awal proses. Teknik ini membangun hierarki kluster yang diwakili dalam bentuk pohon, yang dikenal sebagai dendrogram, menunjukkan bagaimana setiap kluster berkaitan satu sama lain. Hierarchical clustering terbagi menjadi dua jenis utama: agglomerative (bottom-up) dan divisive (topdown). Pendekatan agglomerative dimulai dengan menganggap setiap titik data sebagai kluster terpisah dan secara bertahap menggabungkannya berdasarkan kesamaan hingga semua titik menjadi satu kluster. Sebaliknya, pendekatan divisive memulai dengan semua titik data dalam satu kluster besar yang kemudian dibagi menjadi kluster yang lebih kecil. K-means clustering sangat efektif untuk dataset besar dan sering menjadi pilihan utama karena kecepatan dan efisiensinya. Namun, metode ini memiliki beberapa keterbatasan, termasuk sensitivitas terhadap pemilihan centroid awal dan ketidak-
154 mampuannya untuk menangani kluster dengan bentuk non-globular atau ukuran yang sangat berbeda. Selain itu, K-means juga rentan terhadap noise dan outlier. Oleh karena itu, sangat penting untuk melakukan preprocessing data secara efektif sebelum menerapkan K-means untuk meminimalkan dampak negatif dari anomali dan memastikan konvergensi yang efisien. Di sisi lain, hierarchical clustering memberikan keuntungan yang unik dalam hal visualisasi dan kemampuan untuk melihat struktur data pada berbagai level resolusi. Hal ini sangat bermanfaat untuk aplikasi yang membutuhkan pemahaman mendalam tentang hubungan antar data, seperti dalam analisis genetika atau studi ekologi. Namun, hierarchical clustering kurang efisien secara komputasi, terutama untuk dataset yang sangat besar, karena kompleksitas waktu dan ruang yang tinggi. Pemilihan metode antara K-means dan hierarchical clustering harus didasarkan pada karakteristik data yang spesifik serta tujuan analitis, di mana pemahaman mendalam tentang kelebihan dan keterbatasan masing-masing metode menjadi kunci dalam menghasilkan pengelompokan yang informatif dan bermakna. 2. Metode pengelompokan berdasarkan karakteristik data dan tujuan analisis Dalam analisis data, pemilihan metode pengelompokan yang tepat sangat bergantung pada karakteristik data dan tujuan analisis. Kualitas data,
155 termasuk tipe, ukuran, distribusi dan kompleksitasnya, memainkan peran krusial dalam menentukan teknik pengelompokan yang paling efektif. Selain itu, tujuan analisis—apakah untuk eksplorasi data, prediksi atau segmentasi—juga menentukan pendekatan yang dipilih. Oleh karena itu, pemahaman yang mendalam tentang kedua aspek ini adalah kunci untuk memaksimalkan kegunaan hasil pengelompokan. Untuk data yang besar dan homogen, di mana tujuannya adalah untuk menemukan kelompokkelompok yang sering terjadi dalam kumpulan data besar, metode seperti K-means atau DBSCAN (DensityBased Spatial Clustering of Applications with Noise) sering digunakan. K-means cocok untuk data dengan kluster yang kira-kira berbentuk bola dan tidak memiliki banyak outlier, karena metode ini meminimalkan varians dalam kluster dan cepat dalam hal komputasi. Namun, untuk data yang mengandung banyak noise atau outlier, atau jika kluster berbentuk tidak teratur, DBSCAN menjadi pilihan yang lebih baik karena mampu menangani kepadatan kluster yang berbeda dan memiliki fleksibilitas dalam menangani bentuk kluster. Di sisi lain, jika data lebih heterogen atau jika analisis memerlukan pemahaman yang lebih detil mengenai struktur hierarkis antar objek, hierarchical clustering menjadi pilihan yang tepat. Metode ini memungkinkan pengguna untuk melihat dendrogram—diagram yang menunjukkan bagaimana kluster dibentuk yang berguna dalam penentuan
156 jumlah kluster yang optimal. Pendekatan ini sangat bermanfaat dalam aplikasi seperti biologi dan analisis literatur, di mana pemahaman tentang hubungan evolusi atau tematik penting. Namun, metode ini memiliki keterbatasan dalam skala dan efisiensi, terutama dengan dataset besar. Selain itu, ada situasi di mana kombinasi dari beberapa metode mungkin diperlukan. Misalnya, dalam kasus data dengan dimensi sangat tinggi, seperti teks atau data genetika, reduksi dimensi sering kali dilakukan terlebih dahulu menggunakan teknik seperti PCA (Principal Component Analysis) atau tSNE (t-Distributed Stochastic Neighbor Embedding) sebelum diterapkan pengelompokan. Ini memungkinkan untuk mengurangi kebisingan dan kompleksitas data, membuat pengelompokan lebih efektif. Tujuan analisis di sini bisa beragam, dari visualisasi data untuk menemukan pola tersembunyi hingga segmentasi yang lebih presisi dalam pemasaran atau studi kesehatan. Mengatasi masalah data yang hilang dan outlier adalah langkah penting dalam proses pengelompokan karena keduanya dapat secara signifikan mempengaruhi hasil analisis. Berikut adalah pen-dekatan umum untuk menangani masalah ini serta contoh praktis menggunakan Python. 3. Menangani Data yang Hilang Data yang hilang bisa diatasi dengan beberapa teknik:
157 a. Penghapusan: Menghapus baris yang mengandung data hilang. b. Imputasi: Mengganti data yang hilang dengan substitusi yang logis seperti mean, median, atau modus, atau menggunakan metode yang lebih kompleks seperti imputasi multivariat atau interpolasi. Contoh Data dan Python Script: import pandas as pd import numpy as np # Membuat DataFrame contoh data = { 'Nama': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'], 'Skor': [88, np.nan, 90, 87, 85] } df = pd.DataFrame(data) # Menampilkan data sebelum imputasi print("Data sebelum imputasi:\n", df) # Imputasi menggunakan median median_value = df['Skor'].median() df['Skor'].fillna(median_value, inplace=True) # Menampilkan data setelah imputasi print("\nData setelah imputasi:\n", df) Menangani Outlier
158 Outlier dapat ditangani dengan berbagai cara, tergantung pada konteks data dan analisis: a. Clipping: Memotong nilai yang melebihi batas tertentu. b. Transformasi: Menggunakan transformasi logaritmik atau Box-Cox untuk mengurangi efek outlier. c. Z-score: Menghapus atau memflagi data yang zscorenya melebihi ambang batas tertentu (misalnya 3 atau -3). Contoh Data dan Python Script: import pandas as pd # Membuat DataFrame contoh data = { 'Nama': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'], 'Skor': [88, 150, 90, 87, 85] # Nilai 150 adalah outlier } df = pd.DataFrame(data) # Menampilkan data sebelum penanganan outlier print("Data sebelum penanganan outlier:\n", df) # Menggunakan Z-score untuk mengidentifikasi outlier from scipy.stats import zscore df['Z-Score'] = zscore(df['Skor'])
159 df_outlier_removed = df[df['Z-Score'].abs() <= 3] # Ambang batas |Z-Score| <= 3 # Menampilkan data setelah menghapus outlier print("\nData setelah menghapus outlier:\n", df_outlier_removed[['Nama', 'Skor']]) Dalam kedua contoh di atas, skrip Python digunakan untuk memperlihatkan cara sederhana mengatasi masalah umum dalam data yang bisa mempengaruhi kualitas pengelompokan. Penghapusan baris bisa mengurangi jumlah data yang tersedia, sementara imputasi mempertahankan ukuran dataset tetapi bisa mempengaruhi distribusi data. Untuk outlier, penghapusan berdasarkan z-score adalah metode yang efektif namun harus digunakan dengan hati-hati untuk menghindari penghapusan data yang sebenarnya penting untuk analisis.
160 Penggunaan Statistik dalam Klasifikasi Data Dr. Fauziah, S.Kom., MMSI A. Data dalam Statistik 1. Pengertian Data Data merupakan gabungan dari karakter, angka, dapat juga berupa gambar yang kemudian dikumpulkan dan diolah sehingga menghasilkan informasi bagi pengguna (Rosalina et al., 2023). Pada Statistik, data dapat dipelajari, kemudian dianalisis dan disajikan kepada pengguna sehingga memiliki arti dan lebih bermanfaat.
161 2. Jenis Data dalam Statistik Jenis data Statistik terbagi atas : a. Data Kualitatif, merupakan jenis data dalam bentuk non numerik yaitu berupa kategori (atribut, label). Misalnya saja jenis kelamin dapat dikategorikan Perempuan, Laki-Laki. Data nominal dan data ordinal, merupakan jenis data kualitatif. Data Nominal merupakan jenis data berupa kategori/label dan data ordinal merupakan jenis data yang dapat diurutkan/dapat diberikan peringkat. b. Data Kuantitatif, merupakan jenis data numerik, data numerik yang dihasilkan melalui perhitungan dan pengukuran. Dikategorikan menjadi data diskrit misalnya nilai siswa, berat badan, tinggi badan dan lainnya yang memiliki nilai. Data Kontinyu berkaitan dengan jenis data
162 kuantitatif dengan rentang kontinyu, misalnya berkaitan dengan kisaran suhu, kisaran gaji dan lainnya. (Rosalina et al., 2023) Secara garis besar perbedaan data kualitatif dan kuantitatif dapat dijelaskan pada tabel 1 berikut 3. Skala Pengukuran dalam bidang Statistik Skala pengukuran dalam bidang Statistik terdiri dari: a. Skala pengukuran Nominal, merupakan skala pengukuran dengan tipe data kualitatif, pengelompokkan/pengaktegorian berdasarkan label /kualitas, tidak dapat dilakukan untuk proses operasi matermatika. Contoh Merk Mobil, Nama Mahasiswa, Jenis Kelamin, Nama Hari, NIM, Kota Kelahiran digunakan untuk mengelompokkan objek berdasarkan ciri-cirinya saja. b. Skala Pengukuran Ordinal, merupakan skala pengukuran dengan data kualitatif, data yang ada dapat dikelompokkan, disusun berdasarkan urutan, peringkat ataupun ranking, tidak dapat dilakukan untuk proses operasi aritmatika.
163 Contoh skala pengukuran Ordinal antar lain adalah: Peringkat Siswa, temperatur udara (panas, sejuk, dingin), tingkat kepuasan pelanggan terhadap produk tertentu (puas, cukup puas, kurang puas, tidak puas). c. Skala pengukuran Interval, merupakan skala pengukuran data secara kuantitatif, data dapat dikelompokkan, disusun berdasarkan peringkat. Pada data interval proses operasi aritmatika berkaitan dengan penjumlahan dan pengurangan, namun data interval tidak dapat dilakukan operasi pembagian maupun perkalian. d. Skala Pengukuran Rasio, merupakan skala pengukuran data secara kuantitatif, data yang ada dapat dikelompokkan, disusun berdasarkan peringkat, rangking, urutan, dapat dilakukan operasi aritmatika berkaitan dengan perkalian. (Nuryadi et al., 2017) Perbedaan dengan data interval, pada skala pengukuran rasio tidak memiliki nilai negatif dan tidak memiliki nilai 0, jika ada maka data tersebut dianggap tidak ada. Contoh data pengukuran rasio adalah data pengukuran yang beraitan dengan tinggi badan, berat badan dan tidak mungkin ada tinggi badan maupun berat badan yang memiliki nilai negatif maupun nilai 0. 4. Klasifikasi Data dalam Statistik a. Klasifikasi Data Ketika akan melakukan analisis Statistik, maka data yang dikumpulkan masih belum dilakukan
164 pengolahan, sehingga sulit untuk melakukan analisis. Untuk itu, maka data yang ada dapat diklasifikasi sesuai dengan karakteristiknya, maka dibutuhkan proses pengelompokkan, proses pengelompokkan yang disesuaikan dengan kategori atau kelas-kelas yang berbeda namun memiliki ciri yang sama dapat kita namakan sebagai proses Klasifikasi. (Rosalina et al., 2023). 5. Tujuan Melakukan Klasifikasi Data Melakukan klasifikasi data memiliki tujuan: a. Dapat mengetahui perbedaan dan persamaan dari data yang ada serta mempelajari hubungan antara data yang didapatkan b. Data yang ada lebih mudah digunakan dianalisis, meningkatkan pemahaman, keamanan dan privasi dari data yang dimiliki serta meningkatkan efesiensi dan kualitas data. B. Dasar Klasifikasi Data Statistik Klasifikasi data statistik umumnya terdiri dari 4 dasar klasifikasi, yaitu:.
165 1. Klasifikasi Data Geografis dalam Statistik Merupakan jenis pengelompokkan data statistik berdasarkan letak wilayah/geografis. Cara penyajian klasifikasi data statistik berdasarkan: Wilayah (negara, propinsi, kota), Koordinat geografis (lintang, bujur), Fitur geografis (pedesaan, perkotaan, dataran tinggi, dataran rendah, pesisir, daratan) Contoh penerapan klasifikasi data statistik secara geografis dapat digunakan pada: Perencanaan pembangunan infrastruktur dan layanan publik, penelitian, yaitu dengan mempelajari aspek (demografi, lingkungan dan ekonomi), bisnis, dapat menentukan lokasi usaha berdasarkan pemilihan lokasi yang sesuai dan terbaik. 2. Klasifikasi Data Kronologis dalam Statistik Merupakan pengelompokkan data sesuai dengan waktu kejadian dan dikumpulkan dalam bentuk deret waktu pada interval waktu yang teratur. Metode klasifikasi data kronologis dapat dibedakan berdasarkan: Waktu (Tahunan, triwulan, bulanan, harian), Tren (naik, turun, fluktuatif) dan Musim (kemarau, hujan). Contoh penerapan klasifikasi data kronologis antara lain: a. Analisis Pasar saham yaitu dapat melakukan prediksi pergerakan pasar saham di masa yang akan datang dan mengetahui tren harga saham
166 b. Analisis cuaca, yaitu melakukan prediksi cuaca dimasa yang akan datang dan dapat melakukan analisis pola cuaca c. Analisis ekonomi, mengetahui pertumbuhan inflasi, tingkat pengangguran dan lainnya. 3. Klasifikasi Data Kualitatif dalam Statistik. Merupakan jenis klasifikasi pada Statistik berdasarkan karakteristik data secara deskriptif, yaitu jenis kelamin, gender, pendidikan dan lainnya. Contoh penerapan klasifikasi data kualitatif antara lain: a. Klasifikasi data kualitatif dapat diambil dari hasil survey responden b. Penelitian kualitatif c. Analisis yang dilakukan pada media sosial tentang sentimen publik terhadap suatu produk. 4. Klasifikasi Data Berjenis dalam Statistik Merupakan jenis klasifikasi yang memiliki lebih dari satu buah atribut dan diklasifikasikan pada kelas berbeda, dan dibagi menjadi beberapa sub kelas. Misalnya Pelanggan sebuah produk dilakukan klasifikasi Pelanggan Potensial dan Non Potensial, kemudian dikelaskan lagi menjadi Laki-Laki, Perempuan, merupakan contoh sederhana klasifikasi data berjenis
167 C. Metode Klasifikasi 1. Tujuan Metode Klasifikasi Setelah memahami hal-hal yang berkaitan dengan data, jenis data statistik, skala pengukuran statistik, klasifikasi data dalam statistik, tujuan melakukan klasifikasi, dasar klasifikasi data statisitik dan jenisnya, maka pada sub pokok bahasan ini mempelajari materi metode klasifikasi data. Tugas utama dari klasifikasi adalah membangun sebuah model sebagai penyajian dari data yang ada dan akan disimpan, kemudian menggunakan model tersebut untuk mengenali atau mengklasifikasikan objek data lain sehingga dapat ditempatkan dalam salah satu kelas yang dibuat pada model dan tersimpan (Prastyadi Wibawa Rahayu, S.Kom. et al., 2024). Tujuan metode klasifikasi yaitu memahami dataset sehingga dapat membuat model yang mampu mengklasifikasikan data baru. Klasifikasi dapat dijelaskan sebagai proses untuk mengidentifikasi suatu objek data sebagai anggota dari salah satu kategori yang telah didefinisikan sebelumnya dapat digunakan untuk prediksi kelulusan, prediksi penjualan, melakukan identifikasi pelanggan yag membeli produk tertentu, dan lainnya (Ni Luh Wiwik Sri Rahayu Ginantra et al., 2021) Cara membangun sebuah model klasifikasi adalah dengan menggunakan proses pembelajaran pada mesin(machine learning). Proses pembelajaran yang dilakukan akan menghasilkan model klasifikasi(sebagai target), mampu menghubungkan data yang di-input ke dalam salah
168 satu kelas yang sudah diberikan label/sudah ditentukan sebelumnya. (Much Aziz Muslim et al., 2019). Maka proses pembelajaran memerlukan dataset pelatihan yang telah diberikan kelas(label), sehingga dapat menghasilkan klasifikasi sebagai ouput. Data yang digunakan dalam klasifikasi adalah data nominal, ordinal maupun kontinyu namun disesuaikan dengan tujuan analisis yang akan dilakukan, jenis data yang disebutkan telah dipelajari pada sub pokok bahasan sebelumnya. 2. Jenis Metode Klasifikasi Jenis Metode klasifikasi yang umum digunakan pada Teknik Data Mining antara lain adalah: a. Support Vector Machine, merupakan metode yang dapat terawasi/supervised learning dan digunakan pada klasifikasi. Merupakan proses yang dilakukan untuk melatih metode dengan data yang dimiliki telah diberikan label (Masruriyah et al., 2024). b. Naïve Bayes, metode klasifikasi yang dapat digunakan dengan pola pembelajaran mesin/machine learning, karena sederhana umumnya menghasilkan akurasi tinggi. Naïve bayes juga merupakan metode klasifikasi probabilistik yang sederhana (Mustika et al., 2021) Cara kerja yang ada pada metode ini adalah dengan : 1) Membangun model, yaitu dengan mempelajari setiap data training yang digunakan dan memiliki label dari setiap fitur
169 dan kelas, kemudian menghitung probabilitas kemunculan dari setiap fitur dan kelas tersebut. 2) Melakukan klasifikasi data baru, yaitu dengan data yang tidak memiliki label, maka akan dihitung nilai probabilitasnya dan setiap kelas tidak akan mempengaruhi kemunculan fitur lain pada kelas tersebut, dan probabilitas tertinggi dapat digunakan sebagai data yang baru. Contoh sederhana dalam proses klasifikasi data yang ada pada email misalnya sudah diberikan 2 label yaitu email berlabel spam dan email berlabel bukan spam, maka secara otomatis jika ada data baru yang masuk, maka akan dilakukan proses perhitungan probabilitas apakah email tesebut masuk kategori spam atau bukan spam, jika email yang masuk memiliki probabilitas tertinggi bukan spam, maka dapat diklasifikasikan sebagai data email bukan spam. Kelebihan dari naïve bayes adalah mudah dipahami dan diimpelemtasikan, data training yang dibutuhkan tidak terlalu banyak, proses komputasi lebih cepat. Namun kelemahan dari naïve bayes adalah fitur yang bersifat independen tidak selalu tepat dan benar, jika muncul data baru maka metode ini akan sulit mengenali sehingga kemungkinan menghasilkan prediksi yang kurang sesuai. c. K-Nearest Neighbor(KNN), merupakan metode klasifikasi yang banyak digunakan. Cara kerja metode ini adalah:
170 1) Melakukan representasi data yang disajikan sebagai atribut/fitur yang ada, yaitu pada email fitur yag disajikan dalam bentuk kata spam atau bukan spam. 2) Melakukan pengukuran jarak, berfungsi untuk mengukur similaritas dari data yang ada, semakin kecil jarak yang dihasilkan, maka semakin similar/sesuai. 3) Pemilihan nilai K dan melakukan proses klasifikasi dari data yang telah diberikan label. Kelebihan dari KNN adalah mudah untuk diimplementasikan dan dipahami, efektif untuk jenis data yang beragam (numerik, kategorik, dan campuran), tidak memiliki asumsi distribusi data. Namun kelemahan dari metode KNN adalah apabila ada penambahan fitur, maka proses perhitungan nilai K semakin sulit, dan akan mempengaruhi hasil similaritasnya, pemilihan nilai K akan mempengaruhi kinerja model, komputasi yang dilakukan cukup mahal. Contoh sederhana yaitu terdapat sekumpulan email (spam dan bukan spam), kemudian ada data baru muncul, maka akan dilakukan nilai K yang mirip dalam proses traning dan akan menghasilkan nilai similaritas yang sesuai. Masih ada metode klasifikasi lainnya yang dapat digunakan selain SVM, Naïve Bayes dan KNN. Namun penggunaan metode disesuaikan dengan kasus dan karakteristik data yang diolah dan disesuaikan dengan apa yang akan dihasilkan.
171 3. Evaluasi Metode Klasifikasi Dalam melakukan evaluasi metode klasifikasi, confusion matrix memiliki peran yang penting, yaitu untuk melakukan pengukuran kinerja dari model supervised learning, yaitu data-data yang telah diberikan label pada proses klasifikasi. Terdapat 4 buah nilai yaitu True Positive (TP), True Negative (TN), False Positive (FP), dan False Negative (FN). Empat nilai evaluasi metode klasifikasi. TP dan TN adalah klasifikasi yang diharapkan sedangkan FP dan FN adalah error yang kemungkinan terjadi. Pada proses klasifikasi juga terdapat akurasi, presisi dan recall yang dapat digunakan untuk menentukan performa dari model klasifikasi yang dihasilkan. a. Akurasi dapat digunakan untuk mengukur sejumlah kelas yang benar dari kasus yang dilakukan evaluasi. Rumus yang digunakan umumnya jumlah data yang benar/total jumlah data secara keseluruhan. b. Presisi dapat digunakan untuk prediksi positif dari model dan masuk pada kelas yang sesuai. Rumus yang digunakan: Jumlah prediksi positif yang benar/total prediksi positif, dengan adanya presisi, maka dapat diberikan gambaran tingkat keakuratan prediksi dari model yang dihasilkan. c. Recall, digunakan mengukur model yang dihasilkan dan mampu megidentifikasi dari kelas yang dihasilkan. Rumus yang digunakan Jumlah prediksi positif benar/jumlah total keseluruhan prediksi. Namun pengukuran dari akurasi, presisi
172 dan recall disesuaikan dengan jenis metode klasifikasi dan karakteristik data digunakan. 4. Implementasi Metode Naïve Bayes Untuk Klasifikasi penyakit Secara Sederhana Misalnya akan melakukan diagnosis penyakit berdasarkan gejala yang dialami oleh pasien baru yaitu demam, batuk dan pilek. Langkah yang dilakukan adalah : a. Data yang ada terdiri dari data training, fitur dan kelas. Data training: kumpulan data-data yang dimiliki oleh pasien, gejala serta penyakit yang sudah dilakukan diagnosis. Fitur terdiri dari gejala yang ada (demam, batuk, pilek, sakit kepala, bintik merah dan lainnya). Kelas penyakit, terdiri dari demam berdarah, batuk pilek dan flu b. Proses klasifikasi, melakukan pelatihan model (terdiri dari data training dan data testing), melakukan pelatihan dan mempelajari hubungan antara gejala yang ada dan penyakit berdasarkan data training. c. Melakukan diagnosis kepada pasien baru berdasarkan gejala yang ada (gejala/fitur dimasukkan ke dalam model naïve bayes, kemudian dihitung probabilitasnya berdasarkan data training dan jika mendapatkan probabilitas tertinggi maka pasien menderita penyakit tertentu dilihat dari data training yang ada, sehingga dapat menjadi diagnosis untuk pasien baru tersebut).
173 Evaluasi Model dalam Data Mining Panca Dewi Pamungkasari, S.T., M.T., Ph.D ata mining adalah ilmu yang menggunakan teknik komputasi yang terdiri dari ilmu statistik, pembelajaran mesin/machine learning dan pengenalan pola untuk menganalisis kumpulan data atau database yang besar. Jenis analisis ini memiliki dua tujuan yaitu prediktif dan deskriptif. Metode prediksi menggunakan beberapa variabel untuk memprediksi satu atau lebih variabel seperti klasifikasi, regresi, deteksi anomali. Metode deskriptif mengidentifikasi pola-pola yang menggambarkan data seperti pengelompokan, penemuan aturan asosiasi, dan penemuan pola sekuensial. Setiap kali suatu pola ditemukan dalam data mining, pola tersebut harus dievaluasi untuk menentukan keandalannya dimana desain dapat dipertimbangkan menggunakan berbagai metrik, bergantung pada konteksnya. Algoritma untuk metode evaluasi pola dalam data mining dapat diuji dengan beberapa cara: D
174 A. Kualitas Data Sebelum melakukan evaluasi model data mining, perlu dipastikan bahwa data yang dipakai memiliki kualitas yang tinggi. Kualitas data mengacu pada kesesuaian, kelengkapan, konsistensi, dan validitas data untuk tujuan penggalian data. Kualitas data yang buruk dapat menyebabkan hasil yang menyesatkan atau tidak akurat, dan membuang waktu. Oleh karena itu, perlu dilakukan beberapa langkah pembersihan data dan preprocessing, seperti menghapus outlier, penanganan nilai yang hilang, format standardisasi, dan menyelesaikan masalah, sebelum menerapkan model data mining. 1. Testing dan Training Salah satu cara paling umum untuk mengevaluasi model data mining adalah dengan membagi data menjadi dua himpunan bagian: satu set training data dan satu set testing data. Training data digunakan untuk membangun dan melatih model data mining, sementara testing data digunakan untuk menguji dan memvalidasi model data mining. Dengan cara ini, dapat menghindari overfitting, saat itulah model data mining bekerja baik pada set pelatihan tetapi buruk pada data baru. Dapat digunakan metode yang berbeda untuk membagi data, seperti pengambilan sampel acak, pengambilan sampel bertingkat, atau validasi silang. 2. Mengevaluasi Matrix Kinerja matrik yang akurat dapat menjadi penentu ketika berkenaan dengan data yang tidak
175 seimbang serta digunakan untuk mengukur efektivitas model data mining. Pemilihan metrik evaluasi yang tepat sangat penting untuk menilai kinerja model dan mengidentifikasi area yang perlu ditingkatkan. Di sisi lain, penggunaan matrik yang salah dapat mengakibatkan hasil yang tidak akurat atau menyesatkan. Berikut ini evaluasi model data mining sesuai dengan peran utama: B. Model Evaluasi pada Klasifikas 1. Confusion Matrix Confusion matrix digunakan untuk mengukur kebenaran dan keakuratan model dalam bentuk klasifikasi biner atau multi-class. Meskipun bukan merupakannukuran kinerja secara langsung, banyak matrik yang diukur menggunakan confusion matrix. Confusion matrix merupakan metode yang digunakan untuk menghitung akurasi pada konsep data mining dimana terdiri dari tabel dengan 4 kombinasi nilai prediksi dan aktual yang berbeda. Beberapa hal yang bisa diukur dengan menggunakan confussion matrix antara lain kurva Recall, Presisi, Akurasi, dan yang terpenting kurva AUC-ROC [1]. Gambar 1. Tabel Confussion Matrix
176 Pada Gambar 1, untuk menghitung confussion matrix diperlukan kumpulan data testing dan kumpulan data validasi dimana setiap kolom tabel mewakili kelas yang diprediksi oleh algoritma, dan baris mewakili kelas sebenarnya. Hasil diklasifikasikan menjadi empat kategori: a. True Positive (TP): Prediksi dan nilai sebenarnya keduanya positif. b. True Negative (TN): Prediksi dan nilai sebenarnya keduanya negatif. c. False Positive (FP): Prediksinya positif, namun nilai sebenarnya negatif. d. False Negative (FN): Prediksinya negatif, tetapi nilai sebenarnya positif. Matrik evaluasi tambahan terkait dengan confusion matrix meliputi: a. Akurasi Akurasi merupakan salah satu matrik yang paling sering digunakan dalam mengevaluasi kehandalam model klasifikasi, yang ditentukan dengan membagi jumlah total prediksi benar dengan semua hasil. Rumus akurasi dapat dilihat di bawah ini: b. Recall/ Sensitifity Recall adalah matrik yang digunakan untuk menentukan berapa banyak hasil positif dari seluruh
177 hasil positif yang diprediksi dengan tepat. Confusion matrix untuk rumus Recall adalah: c. Precision Precision adalah rasio prediksi positif yang benar terhadap total prediksi positif. Presisi yang ideal untuk model klasifikasi adalah 1 (tinggi) pada saat FP bernilai nol. Ketika FP meningkat, nilai penyebut menjadi lebih besar dari pembilangnya dan nilai presisi menjadi turun dimana hal ini sangat tidak diinginkan karena mempengaruhi performance model. Persamaan Precision dapat dilihat sbb: 2. Kurva Kurva Receiver Operating Characteristic (ROC) ROC dibuat berdasarkan nilai telah didapatkan pada perhitungan dengan confusion matrix, yaitu antara False Positive Rate (FPR) dengan True Positive Rate (TPR); ROC merupakan representasi grafis tentang bagaimana model dapat membedakan kelas-kelas pada ambang batas keputusan yang berbeda, dimana
178 akan memberikan gambaran yang baik tentang kinerja model di berbagai ambang batas, membantu memahami trade-off antara TPR dan FPR. ROC terdiri dari dua garis dengan bentuk yaitu true positif sebagai garis vertical dan false positive sebagai garis horiozontal. Kurva ROC dibagi dalam dua dimensi, dimana tingkat TP di plot pada sumbu Y dan tingkat FP di plot pada sumbu X. Namun demikian untuk menggambarkan grafis dalam menentukan klasifikasi mana yang lebih baik, diperlukan perhitungan luas daerah dibawah kurva ROC yang disebut sebagai Area Under the ROC Curve (AUC) yang mengidentifikasikan sebagai probabilitas [2,3]. Gambar 2. Kurva ROC dengan AUC Area [2] AUC mewakili area di bawah kurva ROC terlihat pada Gambar 2, AUC mengukur kinerja diskriminatif dengan memperkirakan probabilitas output dari sampel yang dipilih secara acak dari populasi positif atau negative. Karena TPR dan FPR berkisar antara 0
179 hingga 1, maka area tersebut akan selalu berada di antara 0 dan 1, dan nilai AUC yang lebih besar menunjukkan performa model yang lebih baik. Pada saat nilai AUC besar maka klasifikasi yang digunakan semakin kuat karena AUC merupakan bagian dari daerah unit persegi, nilainya diantara 0.0 dan 1.0. Tabel kontingensi yang digunakan untuk menganalisis ROC yaitu tabel confusion matrix dua kelas. AUC sering digunakan untuk mengukur kualitas classifier ROC dilihat berdasarkan akurasi dengan rentang yang diperlihatkan pada Tabel 1 berikut ini [4]: Tabel 1. Batasan Area kerja AOC Area Under the ROC (AOC) Interpretasi Excellent Good Fair Poor Fail 3. Model Evaluasi Estimasi (Estimation) Evaluasi stimasi dalam data mining digunakan untuk mengukur tingkat eror. a. Mean Absolute Error (MAE) Mean Absolute Error atau MAE adalah metrik evaluasi yang digunakan untuk menghitung performa model regresi dalam data mining, dimana merujuk
180 pada rata-rata absolut error nilai rill dengan hasil prediksi sbb: ∑| | = jumlah data = nilai hasil prediksi = nilai sebenarnya MAE menawarkan pendekatan alternatif untuk mengatasi masalah regresi, MAE mengambil nilai absolut dari selisih antara nilai prediksi dan nilai aktual. Atribut ini membuat MAE secara inheren kuat terhadap outlier. MAE memperlakukan semua kesalahan secara setara, meminimalkan dampak outlier pada fungsi kerugian. Ketahanan MAE terhadap outlier membuat proses training data yang lebih seimbang, sehingga akan menghasilkan model yang dapat digeneralisasikan dengan lebih baik. b. Root Mean Square Error (RMSE) RMSE adalah salah satu dari dua indikator kinerja utama model regresi yang mengukur perbedaan varian antara nilai yang diprediksi oleh model dan nilai sebenarnya. RMSE memberikan estimasi seberapa baik model mampu memprediksi nilai target (akurasi). Pada dasarnya RMSE adalah rumus deviasi standar yang merupakan akar rata-rata kesalahan
181 kuadrat, dimana sering digunakan dalam bidang statistik. Berikut rumus RMSE: √ ∑ ̂ RMSE berguna dalam banyak bidang, khususnya dalam analisis regresi atau ketika mengevaluasi model yang membuat prediksi numerik. Berikut beberapa alasan mengapa RMSE umum digunakan: 1) Sensitivitas terhadap outlier: RMSE rentan terhadap data outlier. Kesalahan yang besar mempunyai efek yang sangat negatif pada nilai total karena adanya pengkuadratan kesalahan, sehingga sensitivitas dalam mengenali dan memahami dampak perkiraan ekstrim atau outlier terhadap performa model sangat berguna. 2) Interpretabilitas: RMSE dinyatakan dalam satuan yang sama dengan variabel yang diprediksi, sehingga memudahkan interpretasi dan perbandingan antar model atau kumpulan data yang berbeda. Misalnya, pada saat memperkirakan harga rumah dalam dolar, RMSE juga akan memiliki nilai dolar, sehingga dapat menilai rata-rata kesalahan prediksi dengan cara yang bermakna dan intuitif. 3) Perbandingan antar model: Ini memberikan ukuran standar untuk membandingkan kinerja
182 model yang berbeda. Saat mengevaluasi beberapa model atau algoritma, dapat menggunakan RMSE untuk menilai mana yang memiliki kesalahan prediksi lebih rendah dan lebih akurat dalam membuat prediksi pada data yang tidak terlihat. c. Mean Absolute Percentage Error (MAPE) MAPE adalah matrik yang menentukan keakuratan metode prediksi yang mewakili rata-rata persentase kesalahan absolut setiap entri dalam kumpulan data untuk menghitung seberapa akurat jumlah yang diperkirakan dibandingkan dengan jumlah sebenarnya. MAPE sering kali efektif untuk menganalisis kumpulan data yang besar dan memerlukan penggunaan nilai kumpulan data selain nol. Penggunaan MAPE mengindikasi seberapa besar kesalahan dalam prediksi yang membandingkan nilai riil dalam deret. ∑| ̂ ̂ | Seperti halnya matrik lainnya MAPE juga memiliki keterbatasan yang perlu dipertimbangkan, antara lain: 1) Ketidakakuratan dengan Nilai Aktual Rendah: Saat nilai aktual mendekati nol, persentase kesalahan bisa menjadi sangat besar meskipun nilai perkiraan mendekati nilai sebenarnya. Hal ini dapat mendistorsi MAPE.
183 2) Tidak Dapat Menangani Nilai Aktual Nol: MAPE tidak terdefinisi ketika nilai aktual adalah nol, karena hal ini menyebabkan pembagian dengan nol dalam rumus. 3) Ketergantungan Skala: Karena kesalahan persentase, MAPE terkadang sulit diinterpretasikan saat membandingkan skala atau unit yang berbeda. 4) Tidak Ideal untuk Membandingkan Berbagai Kumpulan Data: Karena ketergantungan skalanya, sehingga bukan merupakan matrik terbaik untuk membandingkan keakuratan perkiraan di seluruh kumpulan data yang memiliki skala atau unit berbeda. d. R2 Score R2 Score merupakan koefisien determinasi dimana statistik yang digunakan diukur untuk menilai kesesuaian model regresi. Hal ini menunjukkan proporsi varians variabel dependen yang dapat diprediksi dari variabel independen. Dengan kata lain, mengukur seberapa cocok model regresi dengan data observasi. R2 Score berkisar antara 0 sampai 1, dimana 0 menunjukkan bahwa model tidak menjelaskan variabilitas apa pun pada variabel terikat, dan 1 menunjukkan bahwa model memprediksi secara sempurna variabel terikat. Persamaan R2 Score dapat ditulis sbb:
184 dimana ̅ ̅ ̅adalah nolai rata-rata Untuk menghitung skor R2, kita memerlukan dua parameter: yang pertama Sum of Squared Error by by regression line ), dan yang kedua adalah Sum of Squared Error by mean line ( ) disini terlihat adanya perbandingan garis regresi terhadap garis mean. Nilai R2 Score akan bervariasi dari 0 hingga 1 dimana bernilai nol jika jumlah kesalahan kuadrat menurut garis rata-rata sama dengan jumlah kesalahan kuadrat menurut garis regresi, dan 1 jika jumlah kesalahan kuadrat menurut garis regresi adalah nol. Beberapa hal yang perlu diingat: 1) R2 = 0 : Apabila sama dengan , maka R2 = 0. Artinya model regresi tidak memanfaatkan data masukan dan bertindak sebagai mean garis. Jadi performa model regresi dalam kasus ini adalah yang terburuk. 2) R2 = 1 : Bila adalah nol, maka R2 = 1. Artinya garis regresi tidak melakukan error apapun (kasus overfitting) sehingga error garis regresi diminimalkan maka skor R2 model akan mendekati 1. 3) R2<0 :
185 Ketika jumlah lebih besar dari . Hal imi merupakan kasus yang sangat jarang terjadi dan menggambarkan model terburuk yang umumnya terjadi ketika menerapkan regresi linier pada data yang sangat nonlinier. C. Model Evaluasi Cluster Davies-Bouldin Index (DBI) adalah matrik untuk mengevaluasi algoritma pengelompokan (cluster) [5]. DBI merupakan skema evaluasi internal, di mana validasi seberapa baik pengelompokan dilakukan menggunakan kuantitas dan fitur yang melekat pada kumpulan data. Semakin rendah nilai DBI maka kualitas clusteringnya semakin baik, dengan skor minimal 0 menunjukkan clustering yang optimal. Perhitungan DBI melalui beberapa tahap sebagai berikut: 1. Sum of Square eithin Cluster (SSW) digunakan untuk menghitung kohesi dalam cluster ke-I, dimana kohesi merupakan kedekatan data terhadap titik pusat cluster yang diikuti. ∑ ( ) 2. Sum of Square between Cluster (SSB) dihitung agar dapat diketahui jarak antar cluster ( ) 3. Rasio menggambarkan nilai perbandingan antara cluster ke-i dan cluster ke-j
186 4. Davies Bouldin Indeks DBI diperoleh dengan menggunakan nilai rasio seperti terlihat pada persamaan di bawah ini: ∑ ( ) Dimana = jumlah yang berada di dalam cluster ke-i ( )= maksimal jarak antara data ke-j dengan centroid cluster ke-i . ( )= jarak antara cluster dan = maksimal jarak antara titik cluster dan = minimal jarak antara titik cluster ke-i = minimal jarak antara titik cluster ke-j = maksimal jarak antara titik cluster dan = rasio cluster ke-I dan cluster ke-j k = jumlah cluster
187 Teknik Sampling dalam Data Mining Raden Muhamad Firzatullah, M.Kom ata Mining merupakan proses kolektifitas dan pemrosesan data yang berfokus dalam mengekstrak informasi yang dapat diungkap pada koleksi data tersebut. Dalam prosesnya daata direkap dan diproses dalam ukuran yang besar, dimana dalam pengolahannya diperlukan suatu metode untuk menggali informasi sehingga diperoleh pengetahuan dari koleksi data. Skalabilitas algoritma data mining dibatasi dalam beberapa aspek salah satunya adalah ukuran data. Dimana peningkatan ukuran data berimbas pada waktu komputasi dan kebutuhan sumber daya yang diperlukan, hal tersebut dikenal dengan istilah Curse of Dimensionality, sementara sebagian algoritma data mining memerlukan koleksi data yang besar untuk menghasilkan akurasi model yang baik. Berdasarkan hal tersebut maka diperlukan suatu metode yang dapat mentukan struktur kompleks dan estimasi data secara akurat yang dinamakan metode sampling. D
188 Sampling merupakan proses dalam menentukan perwakilan data (sampel) yang dapat menggambarkan sebagian besar data dalam himpunan data dengan menguji suatu bagian data. Sampling diperlukan dalam menentukan abstraksi dari suatu pemodelan kompleks dengan tujuan memperoleh himpunan / rangkuman keselurahan data. Sampling dapat diterima bila jumlah data sampel dirasa cukup dalam merepresentasikan karakteristik dari populasi data yang utuh. Beberapa alasan mengapa sampling harus digunakan dalam menangani ukuran data, diantaranya: 1. Memfokuskan proses data mining pada konstrain tertentu. 2. Merepresentasikan populasi data serta memiliki tujuan kehilangan informasi yang lebih kecil. 3. Menjangkau data yang lebih luas, dimana sampling mampu beradaptasi dan memiliki flesibelitas. 4. Sampling dapat mengurangi biaya baik dari sisi ekonomis, sumber daya maupun waktu. 5. Time-lag yang lebih singkat karena proses observasi jauh lebih minim dibandingkan dengan populasi. Terdapat beberapa motode sampling yang banyak digunakan diantaranya Simple Random Sampling, Stratified Sampling, Cluster Sampling, Multistage Sampling dan Systematic Sampling. 1. Simple Random Sampling
189 Simple Random Sampling merupakan metode dalam menentukan sampel dari populasi secara acak tanpa memperhatikan karakteristik tingkatan data yang ada pada populasi dimana setiap anggota populasi memiliki kesempatan yang sama untuk dijadikan sampel. Simple Random Sampling memberikan probabilitas yang sama untuk setiap subjek pada populasi untuk menjadi sampel data dengan memafaatkan number generator atau bilangan acak. Langkah dalam melakukan proses Simple Random Sampling sebagai berikut: a. Menentukan target populasi data. b. Mengidentifikasi kerangka sampling yang sudah ada pada target populasi atau menentukan kerangka yang baru. c. Mengevaluasi kerangka sampling, dimana dilakukan perubahan bila diperlukan. d. Memilih bilangan unik untuk setiap subjek pada kerangka data. e. Menentukan ukuran sampel yang akan digunakan. f. Memilih target sampel dari populasi dengan memanfaatkan random number generator. Terdapat dua cara yang dapat dimanfaatkan dalam Simple Random Sampling, diantaranya: a. Sistem Mecocokan, dimana data ditentukan secara acak dengan metode yang sederhana. b. Tabel Acak, memilih sampel dengan memanfaatkan tabel tertentu. Proses sampling terlebih dahulu menentukan titik awal atau starting point. Proses pada
190 Simple Random Sampling dengna memanfaatkan tabel acak sebagai berikut: 1) Menentukan kerangka sampling yang beranggotakan nomor urut dari unit sampling yang akan ditentukan. Dimana pemberian nomor urut bergantung pada banyaknya unit populasi. Semisal, ukuran populasi (N) merupakan 300, maka nomor unit data ditentukan dari 000 sampai dengan 299. 2) Menentukan ukuran sampel (n) yang akan diamati. 3) Menentukan angka acak awal pada tabel secara sembarang. 4) Membaca angka acak, dimana angka terakhir meruakan satuan, sementara puluhan, ratusan, dan seterusnya merupakan angka setelahnya. Apabila N merupakan 300 berarti angka yang dibaca merupakan 3 angka terakhir, dimana melibatkan satuan, puluhan dan satuan. Sehingga angka yang ditentukan mulai dari 000 sampai dengan 299, selain dari angka tersebut tidak digunakan dalam sampling. 5) Menentukan pemilihan angka dengan berjalan zig-zag dari arah atas menuju bawah atau dari arah kanan menuju kiri sampai jumlah n terpehu keselurhan. Simpel Random Sampling memiliki beberapa keunggulan diantaranya yakni tidak memerlukan informasi tambahan mengenai subjek dalam populasi. Keunggulan lain setiap pemilihan sampel tidak ber-gantung pada pilihan lainnya sehingga setiap kombinasi memiliki