The words you are searching are inside this book. To get more targeted content, please make full-text search by clicking here.

Home Explore Data Mining

View in Fullscreen

Data mining adalah proses mengekstrak pola atau pengetahuan yang berguna dari kumpulan data yang besar. Teknik ini digunakan untuk menganalisis data secara mendalam, mengidentifikasi hubungan yang tersembunyi, dan membuat prediksi berdasarkan informasi yang ter- ungkap. Dengan menggunakan berbagai metode statistik, matematika, dan kecerdasan buatan, data mining membantu organisasi dalam mengambil keputusan yang lebih cerdas dan strategis.

Tujuan utama dari data mining adalah mengubah data mentah menjadi informasi yang berguna dan bermakna. Dengan menerapkan teknik seperti clustering, klasifikasi, regresi, dan asosiasi, data mining dapat mengungkap pola-pola yang membantu dalam pemahaman perilaku pelanggan, analisis pasar, deteksi penipuan, prediksi tren, dan banyak lagi.

Data mining digunakan di berbagai industri seperti perbankan, ritel, kesehatan, dan telekomunikasi untuk meningkatkan efisiensi opera- sional, memahami kebutuhan pelanggan, dan mengoptimalkan strategi bisnis. Dengan pertumbuhan volume data yang cepat, data mining menjadi semakin penting dalam mengubah data menjadi wawasan berharga yang mendukung pengambilan keputusan yang lebih baik.

Like this book? You can publish your book online for free in a few minutes!

Related Publications

Discover the best professional documents and content resources in AnyFlip Document Base.

Published by penamudamedia, 2024-03-22 13:36:21

Data Mining

Pages:

Data mining adalah proses mengekstrak pola atau pengetahuan yang berguna dari kumpulan data yang besar. Teknik ini digunakan untuk menganalisis data secara mendalam, mengidentifikasi hubungan yang tersembunyi, dan membuat prediksi berdasarkan informasi yang ter- ungkap. Dengan menggunakan berbagai metode statistik, matematika, dan kecerdasan buatan, data mining membantu organisasi dalam mengambil keputusan yang lebih cerdas dan strategis.

Tujuan utama dari data mining adalah mengubah data mentah menjadi informasi yang berguna dan bermakna. Dengan menerapkan teknik seperti clustering, klasifikasi, regresi, dan asosiasi, data mining dapat mengungkap pola-pola yang membantu dalam pemahaman perilaku pelanggan, analisis pasar, deteksi penipuan, prediksi tren, dan banyak lagi.

Data mining digunakan di berbagai industri seperti perbankan, ritel, kesehatan, dan telekomunikasi untuk meningkatkan efisiensi opera- sional, memahami kebutuhan pelanggan, dan mengoptimalkan strategi bisnis. Dengan pertumbuhan volume data yang cepat, data mining menjadi semakin penting dalam mengubah data menjadi wawasan berharga yang mendukung pengambilan keputusan yang lebih baik.

39 1. Evaluasi Model: Setelah model data mining dilatih dan divalidasi, langkah pertama adalah mengevaluasi kinerja-nya. Ini melibatkan penggunaan metrik evaluasi yang sesuai tergantung pada jenis masalah yang dihadapi, seperti akurasi, presisi, recall, F1-score untuk klasifikasi, atau RMSE, R-squared untuk regresi. 2. Analisis Performa: Hasil evaluasi memberikan wawasan tentang seberapa baik model berkinerja dalam memecahkan masalah yang ditargetkan. Perlu untuk memahami apakah kinerja model sudah memenuhi standar yang diinginkan atau apakah ada area yang perlu diperbaiki. 3. Validasi Kualitas: Validasi kualitas model melibatkan pemeriksaan apakah model mampu menggeneralisasi dengan baik ke data yang belum pernah dilihat sebelumnya. Hal ini penting untuk memastikan bahwa model tidak hanya sesuai dengan data pelatihan tetapi juga memiliki kinerja yang baik pada data baru. 4. Interpretasi Hasil: Interpretasi hasil data mining melibatkan mengidentifikasi dan memahami pola, tren, atau wawasan yang ditemukan dari analisis data. Ini dapat melibatkan penggunaan teknik visualisasi data untuk menggambarkan hasil dengan lebih jelas. 5. Pengambilan Keputusan: Wawasan yang diperoleh dari interpretasi hasil digunakan untuk mendukung pengambil-an keputusan yang lebih baik. Ini dapat mencakup identifikasi peluang bisnis baru, perbaikan proses operasional, atau pengembangan strategi pemasaran yang lebih efektif. 6. Umpan Balik dan Pembaruan: Evaluasi dan interpretasi juga membantu dalam menyediakan umpan balik untuk

40 proses data mining berikutnya. Jika hasilnya tidak sesuai dengan harapan atau tidak memenuhi kebutuhan bisnis, model dapat diperbarui atau teknik yang berbeda dapat diuji untuk meningkatkan kinerja. 7. Keterlibatan Pemangku Kepentingan: Selain itu, hasil evaluasi dan interpretasi juga harus dikomunikasikan dengan pemangku kepentingan yang relevan dalam organisasi. Ini membantu memastikan bahwa wawasan yang ditemukan dari data mining dapat diintegrasikan ke dalam keputusan bisnis dan strategi yang lebih luas. 8. Evaluasi dan interpretasi adalah tahap krusial dalam arsitektur data mining karena membantu memastikan bahwa hasil analisis data memberikan nilai tambah yang signifikan bagi organisasi dan mendukung pengambilan keputusan yang lebih baik. Dengan memahami dan menginterpretasikan hasil dengan cermat, organisasi dapat memanfaatkan potensi penuh dari data mereka dan mencapai keunggulan kompetitif. 9. Visualisasi dan Pelaporan: Hasil dari analisis data mining sering kali disajikan melalui visualisasi dan laporan. Visualisasi membantu memahami pola dan tren yang ditemukan dalam data, sementara laporan memberikan gambaran menyeluruh tentang hasil analisis serta rekomendasi bisnis yang relevan. 10. Tindak Lanjut: Berdasarkan hasil analisis data mining, tindakan lanjut dapat diambil untuk mengimplementasikan wawasan yang ditemukan ke dalam strategi bisnis. Hal ini dapat meliputi perubahan proses bisnis, pengembangan produk baru, segmentasi pelanggan yang lebih baik, atau strategi pemasaran yang disesuaikan.

42 Klasifikasi dalam data mining merujuk pada proses menemukan kesamaan karakteristik dalam suatu kelompok atau kelas. Metode klasifikasi ini digunakan untuk memprediksi kelas dari objek yang labelnya belum diketahui berdasarkan karakteristik yang ditemukan dalam data. Proses ini melibatkan pembelajaran dari data yang ada, pembentukan model, dan penggunaan model tersebut untuk klasifikasi data baru. Beberapa teknik klasifikasi yang umum digunakan meliputi algoritma C4.5, Logistic Regression, Naïve Bayes, Decision Tree, Random Forest, KNearest Neighbour, dan Artificial Neural Network(Budiman and Ramadina, 2015; Fransiska, 2021; Amrullah, 2022; Acer, 2023; Dian, 2023). Proses klasifikasi ini penting dalam mengidentifikasi pola-pola dalam data dan dapat diterapkan dalam berbagai bidang, misalnya prediksi masa studi mahasiswa, deteksi transaksi palsu, dan analisis pasar saham(Budiman and Ramadina, 2015; Fransiska, 2021; Amrullah, 2022). Tujuan utama klasifikasi dalam data mining adalah untuk memprediksi kelas atau label dari objek berdasarkan fitur-fitur yang diamati. Dengan kata lain, klasifikasi digunakan untuk mengidentifikasi ke mana data baru akan dimasukkan ke dalam kumpulan kelas yang telah ditentukan sebelumnya. Ini sangat berguna dalam berbagai aplikasi, seperti deteksi penipuan, analisis sentimen, pengenalan pola, dan prediksi berbagai kejadian di berbagai

43 bidang seperti pendidikan, kesehatan, dan bisnis. Misalnya, dalam konteks pendidikan, klasifikasi dapat digunakan untuk memprediksi apakah seorang siswa akan lulus atau gagal berdasarkan fitur seperti absensi, nilai ujian, dan partisipasi kelas(Leidiyana, 2011; Fadma Ristianti and Suparman, 2019; Susanto, 2020; Budiman and Niqotaini, 2021; Ginantra et al., 2021). Manfaat dari klasifikasi dalam data mining (Leidiyana, 2011; Fadma Ristianti and Suparman, 2019; Susanto, 2020; Budiman and Niqotaini, 2021; Ginantra et al., 2021)antara lain: 1. Prediksi: Klasifikasi memungkinkan untuk memprediksi kelas atau label dari objek berdasarkan fitur-fitur yang diamati. Hal ini berguna dalam berbagai aplikasi, seperti deteksi penipuan, analisis sentimen, dan prediksi kejadian di berbagai bidang. 2. Pengelompokan Data: Klasifikasi memungkinkan untuk mengelompokkan data ke dalam kelas-kelas yang telah ditentukan sebelumnya. Ini membantu dalam pemahaman pola-pola yang ada dalam data. 3. Pengambilan Keputusan: Klasifikasi dapat membantu dalam pengambilan keputusan dengan menyediakan informasi yang diperlukan untuk mengklasifikasikan data ke dalam kelas-kelas yang telah ditentukan sebelumnya. 4. Analisis Prediktif: Klasifikasi memungkinkan untuk melakukan analisis prediktif, yang berguna dalam memahami perilaku data di masa depan.

44 Dengan demikian, klasifikasi memiliki manfaat yang signifikan dalam memahami dan memprediksi pola-pola dalam data. Klasifikasi dapat membantu dalam memahami data yang dihasilkan melalui beberapa cara(Leidiyana, 2011; Fadma Ristianti and Suparman, 2019; Susanto, 2020; Budiman and Niqotaini, 2021; Suripto, Rahmanita and Kirana, 2022), seperti berikut: 1. Identifikasi Pola: Klasifikasi memungkinkan untuk mengidentifikasi pola-pola yang ada dalam data, sehingga memungkinkan untuk memahami hubungan antara fitur-fitur yang diamati. 2. Prediksi dan Analisis Prediktif: Dengan menggunakan klasifikasi, data dapat diprediksi dan dianalisis secara prediktif, sehingga memungkinkan untuk memahami perilaku data di masa depan. 3. Pengelompokan Data: Klasifikasi memungkinkan untuk mengelompokkan data ke dalam kelas-kelas yang telah ditentukan sebelumnya, sehingga memudahkan untuk memahami karakteristik dari masing-masing kelompok data. Asumsi dan prasyarat dalam proses klasifikasi di data mining dapat mencakup beberapa hal(Leidiyana, 2011; Fadma Ristianti and Suparman, 2019; Susanto, 2020; Budiman and Niqotaini, 2021; Ginantra et al., 2021), seperti:

45 1. Ketersediaan Data yang Berkualitas: Asumsi bahwa data yang digunakan untuk klasifikasi adalah lengkap, akurat, dan representatif. 2. Kemampuan Algoritma untuk Menangani Tipe Data Tertentu: Beberapa algoritma klasifikasi mungkin lebih cocok untuk tipe data tertentu, seperti data kategorikal atau kontinu. 3. Kemampuan Algoritma untuk Menangani Ketidakseimbangan Kelas: Beberapa algoritma mungkin memerlukan penanganan khusus untuk menangani ketidakseimbangan kelas dalam data. 4. Kemampuan Algoritma untuk Menangani Outlier: Beberapa algoritma mungkin sensitif terhadap outlier, sehingga perlu dilakukan pre-processing khusus untuk menanganinya. 5. Kemampuan Algoritma untuk Menangani Multikolinearitas: Beberapa algoritma mungkin tidak dapat menangani multikolinearitas di antara variabel input. Asumsi dan prasyarat ini perlu dipertimbangkan dalam pemilihan dan penerapan algoritma klasifikasi dalam data mining. Asumsi dalam klasifikasi data mining dapat mempengaruhi hasilnya melalui beberapa cara. Misalnya, asumsi akan kualitas data yang baik dapat memastikan bahwa model klasifikasi yang dihasilkan akan lebih akurat dan dapat diandalkan. Sebaliknya, jika asumsi ini tidak terpenuhi, maka model klasifikasi yang dihasilkan mungkin tidak akurat atau bahkan bias. Selain itu, asumsi tentang tipe data dan karakteristiknya juga dapat mempengaruhi

46 pemilihan algoritma klasifikasi yang paling sesuai. Sebagai contoh, jika asumsi bahwa data memiliki banyak fitur yang saling berkorelasi, maka pemilihan algoritma klasifikasi yang sensitif terhadap multikolinearitas dapat menghasilkan model yang kurang akurat. Oleh karena itu, penting untuk mempertimbangkan asumsi-asumsi ini dengan cermat dalam proses klasifikasi data mining(Leidiyana, 2011; Salsabila, 2018; Budiman and Niqotaini, 2021; Ginantra et al., 2021). Beberapa contoh asumsi yang dapat mempengaruhi hasil klasifikasi data mining meliputi: 1. Kualitas Data: Asumsi akan kualitas data yang baik dapat memastikan bahwa model klasifikasi yang dihasilkan akan lebih akurat dan dapat diandalkan. 2. Tipe Data dan Karakteristiknya: Asumsi tentang tipe data dan karakteristiknya juga dapat mempengaruhi pemilihan algoritma klasifikasi yang paling sesuai. Sebagai contoh, jika asumsi bahwa data memiliki banyak fitur yang saling berkorelasi, maka pemilihan algoritma klasifikasi yang sensitif terhadap multikolinearitas dapat menghasilkan model yang kurang akurat. 3. Ketersediaan Data yang Berkualitas: Asumsi bahwa data yang digunakan untuk klasifikasi adalah lengkap, akurat, dan representatif. 4. Kemampuan Algoritma untuk Menangani Ketidakseimbangan Kelas: Beberapa algoritma mungkin memerlukan penanganan khusus untuk menangani ketidakseimbangan kelas dalam data.

47 Sistem klasifikasi yang paling sering digunakan dalam konteks data mining adalah algoritma klasifikasi. Algoritma klasifikasi merupakan seperangkat aturan yang digunakan untuk mengelompokkan data ke dalam kategori atau kelas berdasarkan fitur-fitur yang diamati. Beberapa contoh algoritma klasifikasi yang umum digunakan meliputi Naive Bayes, Decision Tree, Random Forest, K-Nearest Neighbour, dan Artificial Neural Network. Algoritma-algoritma ini sering digunakan dalam berbagai aplikasi data mining untuk memprediksi kelas atau label dari objek berdasarkan fitur-fitur yang diamati(Leidiyana, 2011; Fadma Ristianti and Suparman, 2019). Selain algoritma klasifikasi, terdapat beberapa teknik klasifikasi lain yang umum digunakan dalam data mining(Muslim et al., 2019; Susanto, 2020; Ginantra et al., 2021), antara lain: 1. Regresi: Metode statistik yang digunakan untuk memodelkan hubungan antara variabel dependen dan independen. 2. Klasterisasi (Clustering): Teknik yang digunakan untuk mengelompokkan data ke dalam kelompok-kelompok berdasarkan kesamaan karakteristik. 3. Asosiasi: Digunakan untuk menemukan hubungan atau pola-pola tersembunyi di antara item-item dalam basis data transaksi. 4. Neural Network (Jaringan Saraf Tiruan): Metode yang meniru cara kerja sel saraf manusia untuk mengenali pola dalam data dan membuat prediksi. Setiap teknik klasifikasi memiliki kegunaan dan karakteristiknya masing-masing, dan pemilihan teknik yang

48 sesuai perlu mempertimbangkan tujuan analisis, kompleksitas model, ketersediaan data, serta kemampuan interpretasi dan kinerja model. Metode klasifikasi dan asosiasi dalam data mining memiliki perbedaan yang mendasar. Berikut adalah perbedaannya: 1. Tujuan Utama: Metode klasifikasi digunakan untuk memprediksi kelas dari objek berdasarkan karakteristik yang ditemukan dalam data. Tujuannya adalah untuk mengelompokkan data ke dalam kelas-kelas yang telah ditentukan sebelumnya(Nauval, 2022). Sementara itu, metode asosiasi digunakan untuk menemukan hubungan atau pola-pola tersembunyi di antara itemitem dalam basis data transaksi. Tujuannya adalah untuk menemukan aturan asosiasi yang mengungkapkan hubungan-hubungan antara variabel-variabel (Fransiska, 2021). 2. Penerapan: Metode klasifikasi sering digunakan dalam prediksi, seperti prediksi masa studi mahasiswa atau segmentasi pelanggan(Budiman and Ramadina, 2015; Fransiska, 2021). Di sisi lain, metode asosiasi umumnya digunakan dalam analisis keranjang belanja (market basket analysis) atau rekomendasi produk(Fransiska, 2021). 3. Algoritma yang Digunakan: Metode klasifikasi menggunakan algoritma seperti C4.5, Logistic Regression, Naïve Bayes, Decision Tree,

49 Random Forest, K-Nearest Neighbour, dan Artificial Neural Network(Budiman and Ramadina, 2015; Nauval, 2022). Sedangkan metode asosiasi menggunakan algoritma seperti Apriori dan Eclat. Perbedaan utama antara algoritma klasifikasi dan algoritma regresi dalam data mining terletak pada tujuan dan jenis variabel dependen yang diprediksi(Saleh, 2014; Fadma Ristianti and Suparman, 2019; Muslim et al., 2019; Susanto, 2020; Ginantra et al., 2021). 1. Tujuan: Algoritma klasifikasi digunakan untuk memprediksi kelas atau label dari objek berdasarkan fitur-fitur yang diamati. Contohnya, memprediksi apakah seorang pelanggan akan membeli produk atau tidak. Algoritma regresi, di sisi lain, digunakan untuk memprediksi nilai kontinu dari variabel dependen berdasarkan variabel independen. Misalnya, memprediksi harga rumah berdasarkan luas tanah dan lokasi. 2. Jenis Variabel Dependennya: Algoritma klasifikasi cocok untuk variabel dependen kategorikal atau biner, seperti ya/tidak, spam/bukan spam. Algoritma regresi digunakan ketika variabel dependen bersifat kontinu, seperti harga, suhu, atau tingkat penjualan. Metode klasifikasi dalam data mining digunakan untuk memprediksi kelas dari objek berdasarkan karakteristik

50 yang ditemukan dalam data, sementara metode segmentasi (clustering) digunakan untuk mengelompokkan data ke dalam kelompok-kelompok berdasarkan kesamaan karakteristik. Perbedaan utamanya terletak pada tujuan penggunaan. Metode klasifikasi digunakan untuk memprediksi kelas, sementara metode segmentasi digunakan untuk mengelompokkan data ke dalam kelompok-kelompok yang memiliki kesamaan karakteristik(Budiman and Ramadina, 2015; Susanto, 2020; Fransiska, 2021; NEXDataCenter, 2021; Populix, 2023). Beberapa algoritma klasifikasi yang umum digunakan dalam data mining(Muslim et al., 2019; Susanto, 2020; Fransiska, 2021; Ginantra et al., 2021) meliputi: 1. Logistic Regression: Digunakan untuk memodelkan hubungan antara variabel dependen kategorikal dengan satu atau lebih variabel independen. 2. Naive Bayes: Metode klasifikasi probabilistik yang berakar pada teorema Bayes dengan asumsi independensi yang kuat antara fitur-fitur. 3. Decision Tree: Algoritma yang membagi data menjadi subset berdasarkan atribut untuk memprediksi nilai variabel target. 4. Random Forest: Menggabungkan keluaran dari beberapa decision tree untuk mencapai hasil yang lebih akurat. 5. K-Nearest Neighbour (KNN): Metode sederhana yang mengklasifikasikan objek berdasarkan "suara mayoritas" dari K tetangga terdekatnya.

51 6. Artificial Neural Network (ANN): Algoritma yang meniru cara kerja sel saraf manusia untuk mengenali pola dalam data dan membuat prediksi. Algoritma-algoritma ini memiliki karakteristik dan kegunaan masing-masing, dan pemilihan algoritma yang sesuai perlu mempertimbangkan tujuan analisis, kompleksitas model, ketersediaan data, serta kemampuan interpretasi dan kinerja model. Dalam membandingkan kelebihan dan kekurangan masing-masing algoritma klasifikasi dalam data mining, beberapa faktor yang perlu diperhatikan(Saleh, 2014; Fadma Ristianti and Suparman, 2019; Susanto, 2020; Fransiska, 2021; Ginantra et al., 2021) meliputi: 1. Kemampuan Klasifikasi: Evaluasi kemampuan masingmasing algoritma dalam mengklasifikasikan data, termasuk akurasi, presisi, recall, dan metrik klasifikasi lainnya. 2. Ketersediaan Data: Pertimbangkan ketersediaan data yang cukup untuk melatih model, karena beberapa algoritma mungkin memerlukan volume data yang lebih besar. 3. Kompleksitas Model: Pertimbangkan tingkat kompleksitas model yang dibutuhkan untuk menggambarkan hubungan antara variabel dependen dan independen.

52 4. Kemampuan Interpretasi: Jika kemampuan interpretasi model penting, pertimbangkan metode yang mudah diinterpretasikan seperti Decision Tree. 5. Kinerja Model: Evaluasi kinerja masing-masing metode klasifikasi dengan menggunakan metrik yang sesuai dengan tujuan analisis, seperti akurasi, presisi, recall, atau metrik lainnya. Dengan mempertimbangkan faktor-faktor di atas, pembandingan kelebihan dan kekurangan masing-masing algoritma klasifikasi dapat dilakukan sesuai dengan kebutuhan dan karakteristik data yang dimiliki. Logistic Regression merupakan metode statistik yang digunakan dalam data mining untuk memprediksi kelas dari objek berdasarkan karakteristik yang ditemukan dalam data. Algoritma ini bekerja dengan memodelkan hubungan antara variabel dependen kategorikal dengan satu atau lebih variabel independen. Logistic Regression cocok digunakan ketika variabel dependen bersifat biner, artinya hanya memiliki dua nilai seperti 0 dan 1. Algoritma ini telah terbukti memiliki kinerja yang tinggi dalam beberapa implementasi data mining(Rianto and Wahono, 2015; Amrullah, 2022; Simanjuntak et al., 2023). 1. Cara Kerja Algoritma Logistic Regression Algoritma Logistic Regression bekerja dengan menggunakan fungsi logit atau sigmoid untuk mengubah nilai linier (hasil dari kombinasi linier

53 variabel independen) menjadi probabilitas. Proses ini melibatkan: a. Menghitung kombinasi linier dari variabel independen dengan bobot tertentu. b. Menggunakan fungsi logit atau sigmoid untuk mengonversi nilai linier menjadi nilai probabilitas (antara 0 dan 1). c. Mengklasifikasikan objek ke dalam kelas berdasarkan nilai probabilitas yang dihasilkan, dengan threshold tertentu (umumnya 0.5) (Rohman, 2023). 2. Kelebihan Algoritma Logistic Regression: a. Efektif untuk klasifikasi data biner dan mudah diimplementasikan, b. Dapat digunakan pada dataset yang memiliki banyak variabel input, c. Berguna dalam penilaian risiko dan deteksi fenomena khas, seperti penipuan(Amrullah, 2022). 3. Kekurangan Algoritma Logistic Regression: a. Tidak efektif jika hubungan antara variabel independen dan variabel dependen bukan linear, b. Rentan terhadap overfitting jika digunakan pada dataset yang tidak seimbang, c. Tidak dapat mengatasi masalah multikolinearitas di antara variabel input(Rohman, 2023). Naive Bayes adalah sebuah metode klasifikasi probabilistik yang berakar pada teorema Bayes. Metode ini digunakan untuk memprediksi probabilitas kelas atau label

54 yang mungkin dari suatu objek berdasarkan sekumpulan fitur yang terkait dengannya. Naive Bayes mengasumsikan bahwa setiap fitur saling independen, sehingga dapat menghitung probabilitas kelas dari suatu objek tanpa harus memperhatikan interaksi antar fitur. Metode ini telah banyak digunakan dalam berbagai aplikasi, termasuk klasifikasi teks, analisis sentimen, dan sistem rekomendasi(Amrullah, 2022; Heliyanti Susana, 2022). 1. Cara Kerja Algoritma Naive Bayes Algoritma ini bekerja dengan menghitung probabilitas kelas dari objek berdasarkan karakteristik yang ditemukan dalam data. Proses ini melibatkan perhitungan probabilitas kelas dari masing-masing kelompok atribut yang ada, dan menentukan kelas mana yang paling optimal(Lorena., 2016; Susanto, 2020; Heliyanti Susana, 2022). 2. Kelebihan Algoritma Naive Bayes: a. Mudah diimplementasikan dan efisien dalam waktu komputasi, b. Berkinerja baik dalam memprediksi kelas dalam dataset besar, c. Cocok untuk klasifikasi multikelas, d. Meskipun asumsi naifnya tentang independensi fitur, dalam banyak kasus, Naive Bayes dapat memberikan hasil prediksi yang baik(Lorena., 2016; Heliyanti Susana, 2022)

55 3. Kekurangan Algoritma Naive Bayes: a. Asumsi akan independensi fitur seringkali tidak terpenuhi dalam dunia nyata, yang dapat mempengaruhi akurasi prediksi, b. Rentan terhadap "zero frequency", di mana model tidak dapat membuat prediksi jika menemui fitur dalam data uji yang tidak pernah ditemui dalam data latih, c. Meskipun umumnya baik dalam memprediksi kelas, Naive Bayes cenderung kurang akurat daripada model klasifikasi yang lebih kompleks dalam beberapa kasus (Lorena., 2016; Susanto, 2020; Heliyanti Susana, 2022). Decision Tree adalah algoritma klasifikasi yang strukturnya mirip sebuah pohon untuk memprediksi nilai variabel target berdasarkan aturan yang dibentuk dari fiturfitur dalam data. Algoritma ini merupakan metode supervised learning yang dapat digunakan untuk masalah klasifikasi dan regresi(Susanto, 2020; Trivusi, 2023). 1. Cara Kerja Algoritma Decision Tree Algoritma Decision Tree bekerja dengan membagi data menjadi subset berdasarkan atribut. Proses ini dilakukan secara rekursif dengan cara memecah data ke dalam himpunan bagian yang lebih kecil. Hasil akhir dari proses tersebut adalah pohon dengan node keputusan dan node daun. Sebuah node keputusan memiliki dua atau lebih cabang yang mewakili pilihan

56 keputusan, sementara node daun mewakili hasil keputusan(Ramadhan, 2022; Trivusi, 2023). 2. Kelebihan Algoritma Decision Tree: a. Mudah dibaca dan ditafsirkan tanpa perlu pengetahuan statistik, b. Mudah disiapkan tanpa harus menghitung dengan perhitungan yang rumit, c. Proses Data Cleaning cenderung lebih sedikit, kasus nilai yang hilang dan outlier kurang signifikan pada data decision tree, d. Decision Tree juga berguna untuk dieksplorasi data, menemukan hubungan antara sejumlah calon variabel input dengan sebuah variabel target (Ramadhan, 2022; Tineges, 2023). 3. Kekurangan Algoritma Decision Tree: a. Rentan terhadap overfitting, b. Rentan terhadap kesalahan dalam masalah klasifikasi karena ada banyak pilihan, c. Penghitungan bisa menjadi sangat kompleks, terutama jika banyak nilai tidak pasti(Ramadhan, 2022; Trivusi, 2023). Random Forest adalah algoritma machine learning yang menggabungkan keluaran dari beberapa decision tree untuk mencapai hasil yang lebih akurat. Algoritma ini merupakan salah satu metode klasifikasi yang umum digunakan dalam data mining, baik untuk masalah klasifikasi maupun regresi(Trivusi, 2022).

57 1. Cara Kerja Algoritma Random Forest a. Langkah pertama adalah memilih titik data secara acak dari training set. b. Selanjutnya decision tree dibuat untuk setiap sampel dengan titik data yang dipilih. c. Kemudian, dipilih berapa banyak jawaban decision tree yang ingin dilibatkan untuk membangun random forest. d. Hasil akhir didasarkan pada suara mayoritas atau rata-rata dari hasil decision tree yang terlibat(Susanto, 2020). 2. Kelebihan Algoritma Random Forest: a. Kuat (robust) terhadap data outlier (pencilan data), b. Bekerja dengan baik dengan data non-linear, c. Risiko overfitting lebih rendah, d. Berjalan secara efisien pada kumpulan data yang besar(Susanto, 2020; Trivusi, 2022). 3. Kekurangan Algoritma Random Forest: a. Cenderung bias saat berhadapan dengan variabel kategorikal, b. Waktu komputasi pada dataset berskala besar relatif lambat, c. Tidak cocok untuk metode linier dengan banyak fitur sparse(Susanto, 2020; Trivusi, 2022). KNN adalah salah satu metode klasifikasi sederhana yang digunakan dalam data mining. Metode ini mengasumsikan bahwa objek yang serupa cenderung berada dalam jarak yang berdekatan. KNN menggunakan

58 seluruh data yang tersedia dan mengklasifikasikan data baru berdasarkan "suara mayoritas" dari K tetangga terdekatnya, di mana K merupakan jumlah tetangga yang akan diambil untuk melakukan klasifikasi. Algoritma KNN sering digunakan dalam berbagai aplikasi, seperti peringkat kredit dan sistem rekomendasi(Mardeni and Susanti, 2020; Susanto, 2020). 1. Cara Kerja Algoritma KNN: Proses klasifikasi KNN melibatkan langkah-langkah berikut: a. Menghitung jarak antara data baru dan setiap contoh dalam dataset. b. Mengidentifikasi K contoh terdekat dari data baru. c. Menentukan kelas mayoritas dari K contoh terdekat tersebut, dan menetapkan data baru ke kelas tersebut(Muliono, 2023). 2. Kelebihan Algoritma K-Nearest Neighbour: a. Sederhana dan mudah diimplementasikan, b. Tidak memerlukan pembentukan model yang kompleks, c. Cocok untuk digunakan dalam klasifikasi pola dan model(Susanto, 2020; Muliono, 2023). 3. Kekurangan Algoritma K-Nearest Neighbour: a. Rentan terhadap data pencilan (outlier), b. Memerlukan perhitungan jarak antara setiap contoh data, sehingga dapat menjadi komputasi yang intensif, c. Sensitif terhadap atribut yang tidak relevan atau memiliki bobot yang tidak seimbang terhadap klasifikasi(Susanto, 2020; Muliono, 2023).

59 Artificial Neural Network (ANN) adalah sekumpulan algoritma yang terinspirasi dari otak syaraf manusia dan meniru cara kerja sel saraf (neuron) dalam memproses informasi. ANN digunakan dalam data mining untuk mengenali pola dalam data dan membuat prediksi berdasarkan pola tersebut[3](Hidayatullah, Asroni and Riyadi, 2015). 1. Cara Kerja Algoritma Artificial Neural Network ANN bekerja dengan cara meniru bagaimana neuron dalam otak manusia memproses dan menyimpan informasi. ANN terdiri dari lapisan input, lapisan tersembunyi, dan lapisan output. Setiap lapisan terdiri dari sejumlah neuron yang saling terhubung. Ketika data masuk ke dalam ANN, data tersebut diproses melalui lapisan tersembunyi dan menghasilkan output berdasarkan bobot dan fungsi aktivasi yang telah ditentukan(Hidayatullah, Asroni and Riyadi, 2015; Anisa, 2022). 2. Kelebihan Algoritma Artificial Neural Network: a. Mampu menghasilkan tingkat akurasi yang tinggi, b. Fleksibel dengan data yang mengandung noise, c. Mudah dikelola dan dinamis, d. Menggunakan pola yang parallel, e. Independensi dari asumsi a priori(Hidayatullah, Asroni and Riyadi, 2015; Anisa, 2022). 3. Kekurangan Artificial Neural Network: a. Memerlukan banyak data untuk pelatihan,

60 b. Proses pelatihan bisa memakan waktu yang relatif lebih lama, c. Sulit untuk memahami dan memberikan interpretasi dari model yang dihasilkan, d. Rentan terhadap overfitting jika model terlalu kompleks(Anisa, 2022).

62 ata mining jika diartikan secara harfiah kedalam bahasa indonesia merupakan penambangan data. makna dari penambangan adalah menemukan sesuatu yang berharga dari permukaan yang tampak, seperti makna tersebut penambangan data dapat dimaknai sebagai penemuan sesuatu yang berharga dari data yang ada dipermukaan. Sesuatu yang berharga tersebut merupakan pengetahuan atau informasi yang diperoleh dari mempelajari atau mengolah data. Singkatnya dalam data mining yang menjadi output adalah pengetahuan, yang menjadi input adalah kumpulan dari data. Pengetahuan pada data mining dapat dibagi menjadi 4 kategori analisis: analisis pengelompokan, analisis klasifikasi, analisa prediksi, dan analisis asosiasi data. Selain pembagian dari pendekatan analisis, ilmu pada data mining juga dapat digunakan untuk mencari pencilan (outlier) data, mencari fitur-fitur yang berpengaruh, atau dapat digunakan sebagai generate data sintetis. prinsip utama data mining adalah membuat analisis dari sekumpulan data besar yang mungkin jika dilihat sekilas tidak mempunyai arti apapun dengan bantuan model/algoritma serta komputasi menghasilkan analisis yang berharga. Dari narasi yang disampaikan sebelumnya, kata kunci yang tidak terdapat pada ilmu statistika adalah komputasi. Komputasi merupakan pembeda ilmu statistika dan ilmu data mining, sehingga ketika komputasi dibutuhkan maka data yang digunakan haruslah yang besar atau algoritma yang digunakan membutuhkan banyak komputasi. Ilmu data mining dan statistika tidak dapat dipisahkan, seharusnya ilmu statistika merupakan pondasi utama dari ilmu data mining, sebelum ilmu data mining hadir ilmu statistika D

63 adalah ilmu pertama yang mempelajari data. Ketika komputer semakin mudah untuk diakses, data dengan ukuran besar yang tidak mampu dihitung oleh manusia dapat digantikan oleh komputer, dan pendekatan ilmu data dari deskriptif menjadi ilmu pendekatan. Teknik-teknik statistik masih sering dijumpai pada teknik-teknik data mining, seperti yang paling umum adalah regresi linear, teknik tersebut merupakan teknik peramalan/prediksi yang dari dulu digunakan oleh para statistika tetapi sekarang teknik tersebut juga termasuk teknik wajib yang harus dimasukkan dalam materi-materi buku data mining atau silabus perkuliahan. Manusia sejak zaman purba kala telah mempelajari data, sebagai contoh sederhana manusia purba telah mempelajari tentang data iklim sehingga mereka memilih tempat dengan cuaca yang sesuai atau mereka akan memperkirakan pada waktu kapan cuaca buruk ada sehingga mereka menyiapkan persediaan makanan lebih banyak. Hal ini dapat kita ketahui dengan melihat tradisi-tradisi kuno dalam pengawetan bahan makanan mereka, baik dengan es ataupun garam. Contoh diatas menggambarkan kemampuan manusia purba telah mempelajari data iklim, dari pengalaman yang telah diturunkan oleh orangorang sebelumnya akhirnya mereka mencari cara untuk bertahan hidup dari pengetahuan akan data. Contoh yang lain bisa kita lihat dari manusia purba yang tidak menetap (nomaden), mereka mempelajari perpindahan hewan buruan mereka. Dengan pengetahuan mereka mampu untuk memprediksi dimana letak hewan-hewan yang menjadi bahan makanan utama mereka. Contoh manusia purba nomaden telah mempelajari data tentang perpindahan hewan, dan mereka telah mempelajari juga bagaimana cara untuk membunuh

64 hewan-hewan buruan mereka, baik dari cara mereka berburu atau membuat alat untuk memburu. Akhir abad 19, ketika revolusi industri telah memasuki era 3.0 orang-orang semakin massive mempelajari tentang data, terlebih lagi ilmu statistika telah ada waktu itu. Industri otomotif, manufakturing, dan industri-industri lainnya telah mempelajari data pelanggan untuk meningkatkan penjualan perusahaan-j_lom[b[[h. M]Dih[f^’m [^[f[b m_\o[n ]ihnib sempurna bagaimana pemilik perusahaan itu merubah konsep perusahaan dari restoran kecil menjadi restoran multinasional dengan mempelajari tentang data. Pendiri McDonald's yang awalnya adalah sebagai marketing alat elektronik melihat penduduk-penduduk Amerika membutuhkan restoran yang menyajikan makanan secara cepat dan tidak perlu turun dari kendaraan (drive thru). Dari data-data yang telah dikumpulkan pada pengalaman pribadi pemilik tersebut, akhirnya berhasil ohnoe g_g[m[le[h M]Dih[f^’m g_hd[^c j_lom[b[[h g[e[h[h seperti sekarang. Cerita serupa datang dari pabrikan otomotif Ford. perusahaan tersebut mendesain mobil-mobil yang banyak dibutuhkan oleh masyarakat umum Amerika, sehingga produkproduk yang dikeluarkan dapat diminati. Desain mobil Ford tentu tidak datang begitu saja melainkan datang dari perisetperiset perusahaan yang berbasiskan dari data orang-orang Amerika. Cerita tentang Ford diteruskan oleh Toyota dan Honda Motor, tetapi dengan target data pelanggan Asia. Dari data-data yang telah dikumpulkan sebelumnya akhirnya melahirkan mobil-mobil yang selalu diminati oleh orang-orang Asia pada khususnya. Dari hanya sedikit cerita diatas adalah bukti bahwa pengetahuan tentang data telah sangat bermanfaat untuk untuk membuat produk yang dapat diminati oleh pelanggan.

65 Dari zaman purba sampai dengan abad ke-19, orang-orang telah mengenal data dan telah mempelajari tentang data. B[be[h j[^[ q[eno z[g[h jol\[ e[n[ ‚^[n[‛ gohaech \_fog ada, tetapi konsep tentang data telah mereka ketahui. Secara naluriah atau natural, manusia secara otomatis akan akan mendapatkan banyak sekali data-data semasa hidupnya, dan dengan kemampuan pikiran manusia mampu merubah datadata tersebut menjadi pengetahuan yang digunakan pada kehidupan sehari-hari. Pengetahuan tersebut tanpa sadar manusia secara otomatis akan mempelajari dari data-data yang mereka dapatkan sebelumnya. Konsep tentang pelajaran tentang data bukan menjadi hal yang baru bagi manusia, konsep tersebut datang secara naluriah melalui pikiran manusia. Akhir abad 19, 1940 an akhir perang dunia ke-2 komputer diciptakan oleh Insinyur Matematika Inggris. Komputer yang awalnya diciptakan oleh manusia digunakan untuk membantu mereka dikarenakan keterbatasan otak manusia dalam kecepatan berhitung. Semenjak ditemukan komputer maka lahirlah ilmu-ilmu pendukung komputer yang kita kenal dengan Ilmu Komputer. Komputer yang awalnya diciptakan untuk membantu manusia dalam proses perhitungan telah dikembangkan sehingga mampu untuk menyimpan data-data yang cukup besar. ilmu Komputer yang awalnya digunakan untuk mengembangkan Hardware, dan software telah berkembang ada ilmu yang mempelajari tentang kecerdasan buatan. Dari Cabang ilmu Komputer ini akhirnya lahirlah ilmu tentang data dengan bantuan komputer yang dikenal sebagai Data mining. Data Mining ini datang dikarenakan kemampuan komputer untuk menyimpan informasi tentang data juga telah berkembang, serta kemampuan komputer untuk komputasi

66 telah juga berkembang sehingga ilmu data mining dapat dengan sempurna diterapkan. Konsep tentang pelajaran tentang data, mempelajari tentang data atau mendapatkan pengetahuan dari data sudah manusia miliki tanpa perlu ilmu khusus. Orang-orang yang bekerja sebagai marketing tentunya akan mempunyai pengetahuan lebih bagaimana cara menghadapi pelanggan atau menarik pelanggan dari pengalaman (data) yang telah mereka kumpulkan di pikiran mereka. Pekerja di swalayan mereka mempunyai pengetahuan lebih tentang produk-produk apa yang akan lagi pada periode tertentu. pekerja-pekerja tersebut secara tidak sadar telah memasukkan data pelanggan ke dalam pikiran mereka, dan secara tidak sadar mengolah data tersebut akhirnya menjadi pengalaman yang berharga. Para peramalan cuaca tradisional dari jaman lama telah mempelajari data alam sehingga mereka dapat meramalkan cuaca yang akan terjadi kedepannya. Pekerja bidang Pendidikan tentu juga akan mempunyai pengetahuan lebih pada bidang pengajaran ketimbang pekerja yang ada di perbankan, hal tersebut karena pada pendidik menyimpan data-data yang lampau dan mengolah data yang lampau menjadi informasi penting. Pengetahuan tentang data yang awalnya secara naluriah dimiliki oleh manusia, dijabarkan oleh para ilmuwan menjadi ilmu yang dapat dipelajari oleh mesin. pertemuan ilmu tentang data dengan ilmu komputer akhirnya menjadi Data Mining. Prinsip data mining adalah memberikan pengetahuan kepada mesin untuk dapat berfikir atau mendapatkan pengalaman dari data yang diinputkan. Dari prinsip tersebut maka secara keilmuan data mining masuk dalam sub ilmu pada ilmu komputer, dan kecerdasan buatan.

67 Dari pengalaman ilmuwan data atau pengetahuan yang dapat diperoleh dari data untuk mengolah informasi lahirlah analisis prediksi, pengelompokkan, dan asosiasi. Pada beberapa sumber textbook, klasifikasi merupakan salah satu analisis yang pada ilmu data mining, tetapi secara prinsip klasifikasi akan sama dengan prediksi sehingga akan lebih sesuai jika ditulis prediksi, sebuah kata yang lebih general daripada klasifikasi. Apakah itu analisis prediksi? apa itu prediksi? dari kata prediksi ini tentu yang ada pada pikiran kita adalah mampu meramalkan sesuatu yang belum terjadi, atau mungkin kata meramal bisa digantikan dengan menebak. Poin utama dalam prediksi adalah mengetahui sesuatu untuk kejadian mendatang atau yang belum pasti. Memprediksi menghasilkan kemungkinan salah atau benar, atau boleh dibilang memprediksi adalah kegiatan yang menghasilkan ketidakpastian. Dari contoh-contoh yang ada sebelumnya, memprediksi membutuhkan pengetahuan, pengalaman atau dapat kita bilang membutuhkan data lampau (history). Montir tentu akan mempunyai kesulitan dalam memprediksi kapan istrinya akan melahirkan, dokter kandungan yang bukan menjadi suami dari istri montir akan mudah memprediksi kapan bayi dikandungan ibu itu melahirkan. Andaikata montir dapat memprediksi kemungkinan besar tebakanya akan mempunyai error yang besar dibandingkan dokter kandungan. suami akan lebih sering berinteraksi dengan seorang istri, tetapi dokter kandungan berinteraksi lebih kecil, mungkin hanya satu kali dalam satu bulan, bahkan dokter kandungan akan dapat memprediksi dari pertama kali interaksi dengan seorang ibu hamil. Tetapi jika terjadi kasus yang terbalik, seorang dokter mempunyai tiga mobil sekaligus, tetapi ketika ada kendala dengan mobilnya akan dibawa ke montir,

68 yang mungkin montir tidak mempunyai mobil. Montir akan lebih fasih dalam memprediksi apa yang tidak sesuai dengan mobil dokter tersebut. kenapa hal ini dapat terjadi? secara formal kita dapat menjawab karena dokter mempunyai pendidikan khusus pada bidang tersebut. Jika jawaban seperti itu, bagaimana cara dokter yang menuliskan atau membuat ilmu tersebut menemukan teknik prediksi hari lahir? Tentu saja dokter pendahulu mencari ilmu tersebut dari pengumpulan data-data lampau yang akhirnya mendapatkan pola tertentu. pola tersebut yang dijadikan ilmu untuk memprediksi. Pola tersebut yang dari awal bab ini disebut sebagai pengetahuan. Tidak jauh dari montir, montir semakin lama menggeluti pekerjaannya maka akan semakin piawai dalam menangani keadaan mobil, tanpa perlu menempuh pendidikan formal. semakin banyak data yang kita ketahui maka semakin ahli seseorang tersebut dalam pekerjaannya. Prinsip ini sama dengan ilmu data mining, semakin kita mempunyai banyak data maka semakin bagus komputer dalam memprediksi. Prediksi dalam data mining dapat dibagi menjadi dua bagian, prediksi untuk data time series dan prediksi untuk data data categorical atau klasifikasi. Prinsip utama prediksi data time series adalah menebak nilai untuk waktu yang belum terjadi, sedangkan untuk klasifikasi adalah kegiatan memberikan label, target atau hasil yang data yang belum diketahui labelnya. Contoh nyata untuk prediksi data time series adalah memprediksi harga saham dari nilai saham

69 yang lampau, atau memprediksi harga emas bulan kedepan dari harga emas selama 10 tahun yang lalu. Hasil prediksi yang lain bukan hanya berasal dari data time series tetapi juga ada dari data categorical. Data categorical merupakan data yang mempunyai label atau target atau hasil dalam bentuk kategori. Seperti contoh data penyakit jantung, pada data pasien penderita penyakit jantung akan terdapat fitur data penyakit jantung dan akan terdapat label bahwa data tersebut adalah pasien positif penyakit jantung. Contoh yang lain adalah data musim, yang menjadi fitur data tersebut mungkin kecepatan angin, suhu udara dan kelembaban udara. Dari setiap data tersebut akan terdapat musim apa yang pada waktu itu terjadi apakah musim hujan, panas, gugur atau musim dingin. Analisis dengan tipe data seperti ini sering disebut dengan analisis klasifikasi. Prinsip yang digunakan untuk analisis klasifikasi tentunya sama dengan prinsip prediksi, yaitu membuat tebakan dari data baru yang belum mempunyai target. Ketika data lampau tentang pasien penyakit jantung telah dimodelkan oleh mesin, maka mesin akan dapat memprediksi tentang apakah data baru yang diinputkan mempunyai penyakit jantung atau tidak. Implementasi analisis ini yang sudah kita pakai sehari-hari adalah sistem pengenalan suara atau wajah pada smartphone. Dari data wajah kita yang telah direkam sebelumnya, mesin akan mampu membedakan apakah wajah kita atau wajah orang lain. Prinsip atau konsep apa yang digunakan? Sejak kecil manusia telah melihat manusia yang lainya dengan jumlah sangat banyak, termasuk juga bayi. Tanpa

70 ada yang mengajari, bayi mampu mengenali ibu, ayah atau orang-orang yang mengasuh bayi tersebut. Orang berusia empat puluh tahunan ternyata masih banyak sekali yang mengenali guru sekolah dasar. Secara tidak sadar kita mampu mengenali orang-orang apakah ini yang sudah saya kenal atau belum saya kenal. Bagaimana otak kita bisa mengenali orang? Prinsip kerja klasifikasi sama dengan prinsip pikiran kita bekerja dalam mengenali orang. Pikiran manusia memerlukan mengenali orang tersebut dari wajah, ciri fisik tubuh, atau ciri-ciri lainya. Secara tidak sadar kita telah merekam ciri-ciri dari seseorang dalam pikiran kita, dan kemudian ketika melihat orang kita akan langsung membedakan mana yang dikenali maka yang tidak dikenali. semakin sering melihat orang tertentu, akan semakin cepat dan semakin akurat dalam mengenali orang tersebut pada kerumunan orang lain. Prinsip tersebut diimplementasikan dan dirumuskan dalam ilmu data mining atau klasifikasi. Faktor utama dalam analisis ini adalah data lampau. Dari data lampau yang diperoleh oleh mesin akan dibuatkan sebuah model / pola datanya, dan setelah pola tersebut jadi maka dapat memprediksi data baru yang belum mempunyai label. Model yang terbentuk tentunya beragam, seperti setiap individu akan memodelkan orang dikenalin dengan berbagai macam. Model yang terbentuk oleh mesin tergantung dari metode atau algoritma yang digunakan. Metode-metode seperti k-Nearest Neighbor, Support Vector Machine, Logistic Regression, Neural Network, dan Naive Bayes Classification merupakan metode-metode umum

71 yang digunakan untuk mendapatkan analisis klasifikasi. Setiap metode akan mempunyai karakteristik yang berbeda, sangat penting untuk menempatkan menyesuaikan metode dengan karakteristik data yang akan diolah. Kasir swalayan yang berpengalaman akan mempunyai pengetahuan lebih dalam membuat pola pembelian barang pada swalayan. Kasir tersebut dapat memberikan rekomendasi terhadap manajer tentang apa yang lagi menjadi trending atau penyusunan barang-barang di swalayan, selain itu kasik tersebut juga dapat memberikan saran kepada pelanggan barang apa yang seharusnya dibeli juga. Analogi sebelumnya merupakan sebuah analisis seorang kasir dari pengamatan dia tentang produk-produk yang dibeli oleh pelanggan. Pengamatan tersebut hadir secara spontan dengan melihat banyaknya pelanggan dengan pola pembelian yang serupa. Pola yang diamati adalah pola barang yang beli, atau lebih dikenal dengan hubungan antara data. pengamatan inilah yang dinamakan sebagai analisis asosiasi. Hubungan antara data ini dapat dipelajari juga oleh mesin. Data yang diolah adalah data produk-produk yang berada pada satu data yang sama, bahasa ilmiah yang sering ^cj[e[c [^[f[b ‚\[me_n [h[fymcm‛. S_nc[j ^[n[ \_lcmc kumpulan produk-produk yang telah menjadi transaksi sebelumnya. Dari kumpulan semua transaksi dan diolah oleh metode akhirnya menjadi sebuah analisis. Frequency

72 Pattern Growth, Apriori, Elcal Algorithm merupakan metode-metode yang digunakan untuk menghasilkan analisis asosiasi. Pada suatu waktu dan wilayah terdapat bencana alam. Seluruh fasilitas umum, tempat makanan, ataupun apotik tidak dapat diakses seperti biasanya. orang-orang di wilayah tersebut sangat membutuhkan makanan, obat, dan bahkan perawatan. Raja wilayah tersebut harus segera bertindak untuk membuat posko-posko darurat untuk menolong orang-orang di wilayah tersebut. Setelah mengumpulkan para penasihat-penasihatnya akhirnya Raja hanya mampu membuatkan tujuh posko pada wilayah itu. Pertanyaan lanjutan yang ada pikiran raja adalah bagaimana menempatkan posko-posko tersebut, sehingga penempatannya efektif. Dari cerita fiktif sebelumnya raja punya beberapa solusi alternatif. Solusi yang pertama adalah dengan membagi wilayah tersebut menjadi tujuh bagian, dan disetiap bagian wilayah mendapatkan satu posko. solusi kedua adalah ditempatkan pada daerah yang paling padat orangnya. dan solusi terakhir adalah mencari tujuh lokasi yang menjadi pusat dari orang-orang dalam wilayah tersebut. Semua solusi yang ada merupakan analisis pengelompokan yang hadir. Solusi pertama adalah pengelompokan wilayah berdasarkan luasan area tersebut, tidak berfokus pada orang yang menjadi prioritasnya. solusi pertama dapat menyebabkan tempat posko sangat jauh dari kerumunan orang. Solusi yang kedua adalah pengelompokan yang

73 berfokus kepada orang, tetapi pengelompokan tersebut mengabaikan orang-orang yang tidak ada ada pada kepadatan. Solusi yang ketiga adalah mengelompokan seluruh orang-orang tersebut dan mencari lokasi yang berada di titik tengah mereka, sehingga orang yang ada di kepadatan dan orang yang berada tidak dipedatan dapat mudah mengakses posko tersebut. Prinsip dari solusi nomor tiga inilah yang menjadi prinsip pengelompokan, yaitu menemukan titik tengah dan mengelompokan data dari kesamaan fitur data. Dari contoh sebelumnya data yang dimaksut adalah orang-orang pada wilayah tersebut, fitur data yang dimaksut adalah lokasi dari setiap orang. Analisis pengelompokan menghasilkan titik tengah (centroid) dan memberikan label dari kelompok data. Prinsip pengelompokan ini terasa berbeda dengan dua analisis sebelumnya, analisis asosiasi dan prediksi adalah menemukan model yang digunakan untuk waktu kedepan, sedangkan analisis pengelompokan membuat model yang digunakan pada waktu tersebut.

76 i era big data, industri dan lembaga akademis sangat bergantung pada informasi penting yang dapat diperoleh dari kumpulan data yang sangat besar dan kompleks. Data mining adalah proses eksplorasi dan analisis data yang sangat besar untuk menemukan aturan dan pola penting untuk pengambilan keputusan. Beberapa software yang digunakan untuk data mining akan dibahas dalam bab ini, serta bagaimana mereka bekerja dan memberi pengguna data yang dapat ditindaklanjuti untuk berbagai aplikasi praktis. Data mining adalah proses pengumpulan dan pengolahan data yang bertujuan untuk mengekstrak informasi penting pada data. Proses pengumpulan dan ekstraksi informasi tersebut dapat dilakukan menggunakan perangkat lunak dengan bantuan perhitungan statistika, matematika, ataupun teknologi Artificial Intelligence (AI). (Setiawan, 2021) Software data mining adalah perangkat lunak yang digunakan untuk melakukan proses data mining. Software ini menyediakan alat dan fungsi yang diperlukan untuk mengumpulkan data, membersihkan data, menganalisis data, dan menyajikan hasil analisis. Dalam bab ini akan membahas tentang software yang dapat digunakan untuk melakukan proses data mining. Software data mining mencakup berbagai aplikasi yang menganalisis data dan menemukan pola yang tersembunyi di dalam dataset besar. Software ini memanfaatkan metode dari statistik, machine learning, dan kecerdasan buatan D

77 untuk menyaring data mentah dan mengekstrak informasi bermanfaat. Dalam memilih software data mining, ada beberapa faktor penting yang harus dipertimbangkan. Pertama, software harus dapat menangani ukuran, kompleksitas, dan kemudahan penggunaan data. Kedua, harus mudah digunakan dan divisualisasikan, dan ketiga, harus dapat mengotomatiskan alur tugas dan fleksibel untuk mengintegrasikan berbagai jenis data. Keempat, penting untuk mendukung algoritma dan teknik analisis kompleks, serta kemampuan untuk memperluas fungsi melalui plugin atau ekstensi. Seusai dengan pengertian dari software data mining diatas, software harus memiliki fitur untuk mengumpulkan, membersihkan, menganalisis dan menyajikan hasil analisis data. Berikut adalah penjelasan lebih detail tentang tiga kategori software data mining: 1. Open Source: Software open source menawarkan fleksibilitas dan opsi kustomisasi dengan biaya rendah. Software ini biasanya gratis untuk digunakan dan didistribusikan, dan kode sumbernya tersedia untuk umum. Pada kategori open source ini memiliki kekurang sepeti tidak memiliki dukungan teknis resmi, lebih sulit digunakan

78 dibandingkan software komersial, tidak se-stabil software komersial. 2. Komersial Software komersial menyediakan solusi lengkap dengan dukungan teknis yang kuat. Software ini biasanya memiliki biaya lisensi dan mungkin memerlukan biaya tambahan untuk pemeliharaan dan pembaruan. software komersial biasanya memiliki dukungan teknis resmi dari vendor, lebih mudah digunakan, dan biasanya lebih stabil dibandingkan software open source. 3. Cloud-based Platform cloud-based menawarkan akses ke sumber daya komputasi tinggi tanpa perlu infrastruktur fisik. Pengguna dapat mengakses software data mining melalui internet dan membayar sesuai dengan penggunaan. Pengguna memiliki kontrol yang lebih sedikit atas platform cloud-based dibandingkan dengan software yang diinstal di komputer lokal. Berikut ini merupaka software data mining yang sedang populer pada tahun buku ini diterbitkan.

79 1. WEKA (Waikato Environment for Knowledge) Gambar 1. Tampilan Software Weka WEKA adalah sebuah aplikasi yang bisa digunakan untuk melakukan proses data mining. Aplikasi ini menggunakan algoritma machine learning untuk menyelesaikan yang berkaitan dengan sistem temu kembali informasi (Feby, 2022). WEKA memiliki beberapa fitur unggulan. Diantaranya adalah sebagai berikut. a. Classification. Berbagai algoritma tersedia di WEKA untuk membantu proses klasifikasi objek. Menariknya, fitur ini hanya dapat digunakan oleh pengguna jika diperlukan. Jadi WEKA secara otomatis mengeluarkan hasil klasifikasi dari algoritma yang dipilih pengguna. Caranya mudah: pertama-tama, pengguna harus mengisi dataset, kemudian memilih algoritma yang dibutuhkan, dan setelah beberapa saat, WEKA akan memberikan representasi data yang menunjukkan tingkat akurasi, kesalahan, dan visualisasi klasifikasi.

80 b. Regression. Sama seperti proses klasifikasi, WEKA menyediakan berbagai algoritma regression. Regression adalah proses membuat prediksi dari pola yang digunakan sebagai model data, dengan tujuan membuat variabel baru yang akan mewakili atau menunjukkan data di masa mendatang jika data sejenis masuk. c. Clustering. Clustering bertujuan untuk melakukan pengelompokan data dan menjelaskan hubungan di antara masing-masing data menjadi satu klaster yang sama. Beberapa algoritma untuk masalah pengelompokan juga tersedia di WEKA. d. Visualization. WEKA memiliki fitur yang memungkinkan pengguna melihat data yang telah diproses data mining. Ini membuat data lebih mudah dipahami dengan menampilkannya dalam bentuk grafik atau gambar. 2. Rapid Miner Gambar 2. Tampilan Software Rapid Miner

81 Salah satu program yang digunakan untuk data mining adalah Rapid Miner. Dengan program ini, orang dapat menganalisis teks, mengekstrak pola, dan menggabungkannya dengan teknik statistika, database, dan kecerdasan buatan. Selain itu, analisis prediktif, deep learning, dan machine learning juga dipelajari dengan Rapid Miner. Alat ini dapat digunakan untuk berbagai tujuan, seperti bisnis, komersial, pelatihan, pendidikan, dan penelitian. Rapid Miner melakukan proses ETL (extraction, transformation, loading), preprocessing data, visualisasi, modeling, dan evaluasi. XML menggambarkan proses, GUI (graphical user interface) digunakan, dan Java adalah bahasa pemograman. Penjelasan dan cara penggunaan software Rapid Miner dapat dilihat pada Bab selanjutnya (Bab 8) 3. Rattle Gambar 3 Tampilan Software Rattle

82 Rattle adalah aplikasi tambahan yang dapat digunakan untuk data mining. Jika Rapid Miner dapat digunakan dengan Java, maka Rattle adalah yang paling penting. Rattle juga sangat ramah bagi pemula karena dapat digunakan untuk mempelajari bahasa R lebih dalam. Ini karena bahasa R sangat populer untuk analisis statistik. Dibandingkan dengan aplikasi sebelumnya yang berfokus pada penggunaan algoritma pembelajaran mesin, Rattle memungkinkan file input seperti CSV, Excel, TXT, R Dataset, Scripts, atau Corpus. Mampu memvisualisasikan data ke dalam berbagai bentuk chart, seperti cumulative, dendogram, box plot, histogram, dan lainnya, adalah keuntungan dari fungsi Rattle yang berfokus pada analisis statistik. Untuk proses pengelompokan, Rattle menyediakan berbagai jenis pengelompokan, seperti KMeans, Clara, Bicluster, dan Hierarchical. 4. Orange Gambar 4. Tampilan Software Orange

83 Orange adalah program yang sangat baik untuk melakukan data mining dan machine learning. Keunggulannya adalah menampilkan tampilan data yang luar biasa. Python adalah bahasa pemograman yang digunakan untuk membuat program ini. Semua komponen Orange disebut widgets. Widget memiliki fungsi utama menampilkan tabel data dan memilih fitur, membaca data, menampilkan elemen data, dan banyak lagi. Aplikasi Orange sangat interaktif dan menarik. Sangat mudah untuk mengoperasikannya juga. 5. KNIME Gambar 5. Tampilan Software KNIME KNIME adalah platform integrasi terbaik untuk kebutuhan laporan dan analisis data; biasanya digunakan dalam riset farmasi, dan memungkinkan analisis data pelanggan dan finansial. Salah satu fitur menarik dari software KNIME adalah kecepatan penyebaran dan efektivitas skala.

84 Karena KNIME mudah digunakan dan itu adalah pilihan terbaik untuk pengguna. Software data mining memungkinkan organisasi memanfaatkan sepenuhnya data besar yang mereka kumpulkan. Dengan aplikasi yang sesuai, dari alat sumber terbuka hingga solusi perusahaan, data yang awalnya tampak rawan dan tidak terstruktur kini dapat ditransformasikan menjadi wawasan yang dapat memberikan keuntungan kompetitif yang signifikan. Kesuksesan dalam penambangan data tidak hanya tergantung pada pemilihan software yang tepat namun juga pada pemahaman mendalam tentang teknik dan algoritma yang mendasarinya. Masa depan data mining diproyeksikan untuk menjadi lebih otomatis, dengan peningkatan pembelajaran mesin dan kecerdasan buatan. Integrasi antara berbagai sumber data, adaptasi real-time, dan pendekatan immersive seperti realitas virtual, akan mengubah cara kita mengekstrak dan visualisasi informasi.

86 Rapidminer merupakan perangkat lunak yang bersifat terbuka yang digunakan untuk melakukan analisis terhadap data mining, Text mining dan prediksi. Software ini dikenal untuk pengembangan ilmuwan data. Dengan RapidMiner, ilmuwan tidak perlu belajar pemrograman untuk belajar berbagai teknik penambangan data dan menggunakannya untuk analisis data. Seluruh proses kerja di bidang ilmu data didukung oleh RapidMiner. Dengan memuat dataset ke dalam RapidMiner, pengguna dapat langsung melakukan eksplorasi data melalui visualisasi. Selama tahap persiapan data, ilmuwan dapat menggunakan model yang tersedia di RapidMiner untuk mengolah data mereka sehingga siap untuk digunakan dalam berbagai teknik penambangan data. Selain itu, ilmuwan dapat menggunakan dataset contoh RapidMiner untuk melakukan eksperimen data pelatihan RapidMiner sebagai alat analitik pembelajaran mesin memiliki beberapa kelebihan, yaitu: 1. Antamuka yang mudah digunakan RapidMiner menawarkan antarmuka yang mudah digunakan yang memungkinkan pengguna menyusun dan menjalankan proses analitik dengan mudah tanpa harus belajar kode yang rumit. Ini tidak hanya membuat platform ini mudah digunakan oleh pemula, tetapi juga membantu orang yang lebih berpengalaman berkembang.

87 2. Fitur Analitik yang komprehensif RapidMiner mendukung berbagai teknik analisis dan algoritma pembelajaran mesin yang luas, yang memungkinkan pengguna melakukan berbagai proyek analisis data dan pembelajaran mesin, seperti pengelompokan dan regresi, antara lain. 3. Dukungan Penuh Siklus Data Science RapidMiner menyediakan alat lengkap yang mendukung semua tahap kerja ilmu data, mulai dari pembersihan data, pembuatan dan evaluasi model, hingga implementasi, memastikan dukungan proyek yang lengkap. 4. Didukung oleh komunitas banyak RapidMiner memiliki komunitas pengguna yang besar dan dinamis, dan berbagai sumber daya seperti forum diskusi, panduan, ekstensi, dan bantuan antar pengguna meningkatkan pengalaman pengguna. 5. Fleksibel dan Kemampuan Skalabilitas RapidMiner dirancang untuk proyek dari skala kecil hingga besar dan dapat diintegrasikan dengan berbagai sumber data dan sistem lain. Ini membuatnya fleksibel dan dapat disesuaikan untuk kebutuhan organisasi apa pun. Untuk melakukan instalasi RapidMiner, pertama kali dapat mengunjungi situs resmi RapidMiner yaitu www.rapidminer.com.

88 Gambar 6 Software RapidMiner Seperti yang terlihat pada gambar 1, selanjutnya yang dipilih adalah Educational Program, selanjutnya akan diminta untuk mengisi data untuk verifikasi identitas. Rapid Miner akan mengirim ke email untuk konfirmasi software yang akan didownload. Gambar 7 Verifikasi email

Pages:

Click to View FlipBook Version