85 4. Mean Shift: Konsep: Pembaruan pusat massa data berdasarkan kepadatan. Kelebihan: Tidak memerlukan jumlah kelompok sebelumnya, dapat menangani bentuk kelompok yang berbeda. Keterbatasan: Sensitif terhadap parameter bandwidth. 5. Agglomerative Clustering: Konsep: Dimulai dengan setiap titik sebagai kelompok terpisah, kemudian menggabungkan kelompok terdekat. Kelebihan: Tidak memerlukan jumlah kelompok sebelumnya, hasil dapat divisualisasikan. Keterbatasan: Membutuhkan waktu komputasi yang lebih tinggi pada dataset besar. Setiap algoritma memiliki kelebihan dan keterbatasan, pemilihan tergantung pada karakteristik data dan tujuan analisis clustering yang diinginkan. 1. Inertia (K-Means): Konsep: Mengukur seberapa jauh titik-titik dalam suatu kelompok berdekatan dengan centroidnya. Tujuan: Minimalkan nilai inertia untuk mencapai kelompok yang padat dan kompak. 2. Silhouette Score: Konsep: Menilai seberapa baik suatu objek data cocok dengan kelompoknya dibandingkan dengan kelompok lain.
86 Rentang Nilai: -1 (buruk) hingga 1 (baik), dengan nilai positif menunjukkan clustering yang baik. 3. Davies-Bouldin Index: Konsep: Mengukur seberapa baik kelompok terbentuk, memperhitungkan sejauh mana kelompok saling terpisah dan homogen. Tujuan: Minimalkan nilai Davies-Bouldin Index untuk clustering yang lebih baik. Pemilihan metrik evaluasi tergantung pada jenis clustering dan karakteristik data. Inertia cocok untuk KMeans, Silhouette Score dapat digunakan secara umum, sementara Davies-Bouldin Index memberikan wawasan pada clustering hierarkis. Kombinasi metrik ini membantu mengukur berbagai aspek kualitas hasil clustering, memandu interpretasi dan pengambilan keputusan lebih lanjut. 1. Ketidakpastian pada Ground Truth: Tantangan: Pada banyak kasus, tidak ada "ground truth" atau label kelas yang jelas untuk menilai hasil clustering. Strategi: Penggunaan metrik yang tidak memerlukan ground truth, seperti Silhouette Score, atau eksplorasi visual untuk memahami struktur hasil clustering. 2. Sensitivitas terhadap Parameter: Tantangan: Banyak algoritma clustering memiliki parameter yang memengaruhi hasil clustering, dan pemilihan yang tidak tepat dapat merugikan evaluasi.
87 Strategi: Melibatkan eksperimen sensitivitas dengan variasi parameter untuk memahami stabilitas dan performa algoritma. 3. Perubahan Bentuk dan Ukuran Kelompok: Tantangan: Clustering dapat dipengaruhi oleh bentuk dan ukuran kelompok yang berbeda, dan evaluasi yang tepat dapat bervariasi tergantung pada karakteristik ini. Strategi: Penggunaan metrik yang tangguh terhadap variasi bentuk dan ukuran kelompok, seperti Silhouette Score atau Davies-Bouldin Index. 4. Interpretasi Subyektif: Tantangan: Interpretasi hasil clustering dapat bersifat subyektif dan tergantung pada pemahaman pengguna. Strategi: Kombinasi evaluasi kuantitatif dan visualisasi untuk memberikan pemahaman yang lebih lengkap dan mendalam. 5. Kompleksitas Hirarki: Tantangan: Dalam hierarchical clustering, struktur hirarkis dapat sangat kompleks, membuat evaluasi dan interpretasi menjadi lebih sulit. Strategi: Penggunaan dendrogram dan pemahaman yang mendalam tentang hierarki untuk membantu interpretasi. 6. Scalability pada Dataset Besar: Tantangan: Evaluasi pada dataset besar dapat memakan waktu dan sumber daya komputasi yang signifikan.
88 Strategi: Pemilihan subset representatif untuk evaluasi awal, dan eksperimen pada skala penuh hanya jika diperlukan. Studi Kasus: Analisis Sentimen pada Ulasan Produk Tujuan: Mengevaluasi efektivitas clustering untuk menganalisis sentimen dalam ulasan produk. Metode: Menggunakan algoritma K-Means untuk mengelompokkan ulasan produk berdasarkan sentimennya. Metrik evaluasi: Silhouette Score dan analisis visual dendrogram. Tantangan yang Diatasi: Ketidakpastian pada Ground Truth: Tanpa label sentimen yang jelas pada ulasan, menggunakan metrik seperti Silhouette Score yang tidak memerlukan ground truth. Sensitivitas terhadap Parameter: Melakukan eksperimen untuk menemukan jumlah kelompok (K) optimal. Interpretasi Subyektif: Kombinasi metrik kuantitatif dan visualisasi untuk memberikan pemahaman yang holistik. Hasil: Silhouette Score memberikan nilai positif, menunjukkan bahwa kelompok-kelompok memiliki sentimen yang baik terpisah. Analisis dendrogram membantu memahami struktur hierarkis dalam kelompok sentimen.
89 Dampak dan Kesimpulan: Hasil clustering memberikan wawasan yang berharga dalam pola sentimen di antara ulasan produk. Evaluasi membantu pemahaman yang lebih baik tentang keberagaman sentimen dan memandu langkah-langkah berikutnya dalam analisis. Studi kasus ini mencerminkan bagaimana evaluasi clustering dapat diaplikasikan dalam konteks analisis sentimen. Kombinasi metrik evaluasi kuantitatif dan visualisasi membantu mengatasi tantangan, memberikan wawasan yang relevan dan mendalam bagi pengambil keputusan. Pada bagian ini, akan dibahas berbagai aplikasi clustering dalam konteks machine learning untuk berbagai tujuan analisis data. 1. Segmentasi Pelanggan: Deskripsi: Clustering digunakan untuk mengelompokkan pelanggan berdasarkan perilaku pembelian, preferensi produk, dan karakteristik demografis. Tujuan: Personalisasi pemasaran, penyesuaian layanan, dan peningkatan retensi pelanggan.
90 2. Analisis Sentimen: Deskripsi: Clustering membantu mengelompokkan dokumen atau ulasan berdasarkan sentimen positif, negatif, atau netral. Tujuan: Pemahaman lebih baik tentang persepsi pelanggan, pemantauan reputasi merek, dan penyesuaian strategi pemasaran. 3. Pengelompokan Dokumen: Deskripsi: Menggunakan clustering untuk mengelompokkan dokumen berdasarkan topik atau tema tertentu. Tujuan: Eksplorasi konten informasi, pengindeksan dokumen, dan peningkatan aksesibilitas informasi. 4. Pengelompokan Genetika: Deskripsi: Aplikasi clustering dalam analisis data genomik untuk mengidentifikasi pola genetik dan hubungan antar sampel. Tujuan: Pemahaman tentang keragaman genetik, identifikasi penyakit genetik, dan penelitian di bidang kedokteran personal.
91 5. Pengelompokan Pola Anomali: Deskripsi: Clustering digunakan untuk mengidentifikasi pola anomali dalam data keamanan jaringan atau deteksi intrusi. Tujuan: Peningkatan keamanan sistem, identifikasi perilaku mencurigakan, dan respons cepat terhadap ancaman. 6. Segmentasi Pasar untuk Bisnis E-commerce: Deskripsi: Menggunakan clustering untuk mengelompokkan pelanggan berdasarkan preferensi produk, perilaku pembelian, dan sejarah transaksi. Tujuan: Personalisasi pengalaman belanja online, strategi harga yang disesuaikan, dan peningkatan konversi. 7. Pemeliharaan IoT: Deskripsi: Clustering diterapkan pada data sensor IoT untuk memantau dan memelihara sistem secara proaktif. Tujuan: Deteksi kegagalan perangkat, pemeliharaan preventif, dan pengoptimalkan kinerja.
92 8. Pengelompokan Lokasi untuk Logistik dan Pengiriman: Deskripsi: Clustering digunakan untuk mengelompokkan lokasi pengiriman berdasarkan kepadatan pesanan dan frekuensi pengantaran. Tujuan: Peningkatan efisiensi rute pengiriman, pengurangan waktu perjalanan, dan penghematan biaya logistik. Aplikasi clustering dalam machine learning memberikan solusi yang beragam untuk analisis data yang lebih efektif dan pengambilan keputusan yang lebih cerdas di berbagai industri. Dengan mengelompokkan data, kita dapat mendapatkan wawasan yang lebih mendalam, mendukung strategi bisnis yang lebih baik, dan meningkatkan pemanfaatan informasi. 1. Tantangan Utama: Ketidakpastian Data: Tantangan: Data yang tidak terstruktur atau kurang label dapat mempersulit proses clustering, terutama dalam aplikasi di bidang kesehatan atau penelitian medis. Strategi: Pengembangan teknik clustering yang lebih adaptif terhadap ketidakpastian data dan pemanfaatan teknologi transfer learning. Inovasi Terkini: Clustering Berbasis Representasi:
93 Inovasi: Penggunaan representasi fitur tingkat tinggi atau embedding untuk clustering, meningkatkan kemampuan model dalam menemukan pola tersembunyi. Dampak: Peningkatan performa clustering pada data dengan dimensi tinggi atau kompleksitas tinggi. 2. Tantangan Utama: Scalability: Tantangan: Pada data besar, khususnya di lingkungan Big Data, performa algoritma clustering dapat menurun. Strategi: Pengembangan algoritma clustering yang lebih efisien secara komputasional dan dapat didistribute untuk penanganan data berskala besar. Inovasi Terkini: Clustering dengan Pendekatan Multi-View: Inovasi: Menggabungkan informasi dari multiple views atau sumber data untuk meningkatkan akurasi dan stabilitas clustering. Dampak: Peningkatan kualitas clustering, terutama dalam situasi di mana satu sumber data mungkin tidak cukup untuk mencerminkan kompleksitas sebenarnya dari data. 3. Tantangan Utama: Interpretabilitas: Tantangan: Kesulitan dalam memberikan interpretasi yang bermakna terhadap hasil clustering, terutama pada algoritma yang kompleks.
94 Strategi: Pengembangan teknik interpretasi clustering dan pemberian label yang lebih baik untuk membantu pengguna memahami dan menerapkan temuan. Inovasi Terkini: Clustering Dengan Supervisi Terbatas: Inovasi: Mengintegrasikan elemen supervisi terbatas ke dalam proses clustering untuk meningkatkan interpretabilitas dan arah clustering. Dampak: Membuka jalan untuk aplikasi clustering di mana pengetahuan pengawas atau domain dapat diintegrasikan dengan hasil clustering. Tantangan dan inovasi terkini dalam clustering mencerminkan upaya untuk mengatasi keterbatasan dan meningkatkan performa algoritma clustering. Dengan memahami tantangan ini, para peneliti dan praktisi dapat mengembangkan solusi yang lebih adaptif dan efektif dalam menghadapi kompleksitas data modern.
95 konteks clustering analysis adalah sekumpulan data yang akan dikelompokkan berdasarkan karakteristik kemiripannya. Peran data set dalam clustering analysis adalah untuk menyediakan data yang akan menjadi obyek penerapan algoritma clustering. Algoritma ini kan mengidentifikasi pola-pola dan hubungan-hbungan di dalam data set, menggabungkan titiktitik data yang memiliki kemiripan untuk membentuk cluster tertentu. Proses ini dapat mengungkapkan struktur yang melandasi dan hubungan-hubungan di dalam data yang sebelumnya tidak terlihat nyata sehingga akan lebih memudahkan untuk dianalisis dan diinterpretasikan lebih lanjut.
96 Ditinjau dari jenis peubahnya, terdapat beberapa jenis data set dalam clustering analysis, yang masing-masing jenis data memerlukan algoritma clustering yang sesuai, yaitu: 1. Peubah skala interval: Jenis ini pada dasarnya merupakan hasil pengukuran kontinu pada skala linear, misalnya data berat badan, tinggi badan, atau temperature. Pada data jenis ini, satuan pengukuran adalah sangat penting karena perbedaan satuan pengukuran dapat mempengaruhi hasil clustering analysis. 2. Peubah Biner: Peubah ini hanya dapat memiliki nilai salah satu dari dua nilai saja, misalnya 0 dan 1. Lazimnya digunakan untuk merepresentasikan keberadaan atau ketiadaan suatu karakteristik tertentu 3. Peubah Berskala Nominal, Ordinal, dan Rasio: Peubah nominal adalah peubah yang merupakan kategori tanpa memiliki makna atau prioritas pada urutan nilai-nilainya. Misalnya adalah kategori jenis kelamin : laki-laki atau perempuan yang masing-masing direpresentasikan dengan angka 0 dan 1. Peubah ordinal adalah peubah yang merupakan kategori yang memiliki makna terkait urutan nilainya. Misalnya adalah kategori tingkat Pendidikan yaitu SD, SMP, SMA, Perrguruan Tinggi yang masing-masing direpresentasikan dengan angka 1,2,3,dan 4. Peubah rasio adalah peubah yang sudah memiliki makna yang berkaitan dengan selisih atau perbandingan nilai-nilainya. Misalnya adalah ukuran baju S, M, L, XL, XXL, dan XXXL. 4. Peubah Campuran: Adalah fakta bahwa banyak data set yang di dalamnya terdapat kombinasi dari peubahpeubah nominal, ordinal, rasio, atau interval. Ada
97 algoritma clustering yang dapat menangani data set dengan kombinsi peubah, namun ada pula algoritma clustering yang menghaaruskan dilakukannya transformasi peubah untuk menjadikan berskala yang relative sama untuk dapat dianalisis. Jenis data set sangat tergantung dari karakteristik alami data yang dianalisis dan juga persyaratan spesifik algoritma tertentu jika ada. Algoritma clustering yang tertentu sesuai untuk jenis data set tertentu pula dan pilihan algoritma clustering dapat secara signifikan mempengaruhi hasil analisis clustering. Oleh karena itu kesesuian antara jenis data set dan algoritma clustering yang digunakan adalah sangat kritikal. Pemilihan algoritma clustering yang sesuai untuk data set tertentu memerlukan pertimbangan(Kim, Kim and Yi, 2017; Crase and Thennadil, 2022; Ntekouli et al., 2023) sebagai berikut: 1. Pemahaman terhadap Data Set: Langkah utama adalah memahami karakteristik data set itu sendiri. Titik-titik data merepresentasikan apa? Bagaimana skala peubahnya? Apakah secara konseptual terdapat hubungan di dalamnya? Apakah pengelompokan di dalamnya akan memiliki makna tertentu yang diharapkan? Apabila sudah diperoleh pemahaman mendasar tentang data set, dapat mulai dipertimbangkan beberapa pilihan algoritma clustering yang mungkin sesuai untuk melakukan pengelompokan atas data set tersebut dan persyaratan untuk pengolahannya.
98 2. Jenis dan Struktur Data: Algoritma clustering tertentu dirancang untuk dapat mengolah jenis data set tertentu dan bisa jadi tidak optimal atau tidak sesuai apabila digunakan untuk jenis data set yang lain. Jenis dan struktur data set akan sangat mempengaruhi pilihan algoritma clustering. 3. Tujuan dan Kriteria Clustering: Masing-masing algoritma clustering juga dirancang untuk memenuhi tujuan dan dengan kriteria clustering yang tertentu pula. Misalnya bagaimana mengukur kualitas dan relevansi kelompok yang terbentuk akan mempengaruhi pilihan algoritma clustering, misalnya apakah akan menggunakan algoritma yang meminimalkan jarak di dalam kelompok, atau yang memaksimalkan jarak antar kelompok, atau melakukan optimalisasi atas kriteria fungsi tertentu yang didefinisikan di awal analisis. 4. Algoritma dan Parameter: Masing-masing metode clustering menggunakan algoritma yang berbeda untuk membentuk kelompok-kelompok, misalnya dengan melakukan partitioning, hierarchical, density-based, atau model-based. Masing-masing algoritma memiliki kelebihan dan kekurangan masing-masing termasuk dalam hal kecepatan pengolahan, skalabilitas, kestabilan hasil kelompok-kelompok, atau fleksibilitas. 5. Metrik Evaluasi: Penggunaan metrik evaluasi seperti Silhouette coefficient, metode Elbow, atau metode Dunn index untuk menentukan kualitas pengelompokan yang terbentuk dapat digunakan untuk membandingkan pengelompokan yang dihasilkan oleh berbagai algoritma yang berbeda. 6. Konteks Penerapan Clustering: Akurasi algoritma clustering bukanlah merupakan konsep yang
99 sepenuhnya absolut atau objektif, tetapi memiliki unsur subjektif juga. Hal tersebut akan sangat tergantung pada tujuan dan harapan dari proses clustering sebagaimana halnya tergantung pada karacteristik dand kendalakendala yang ada pada ranah masalahnya. 7. Trial and Error: Setelah terdapat beberapa pilihan algoritma yang mungkin diterapkan pada data set yang ada, untuk memastikan yang sesuai dapat pula digunakan pendekatan trial and error. Dengan membandingkan hasil dari berbagai algoritma yang relevan terhadap data set, misalnya dengan memperhatikan aspek kebermaknaan kelompokkelompok yang terbentuk sesuai landasan konseptualnya, maka dapat ditentukan hasil dari algoritma tertentu yang dapat dinilai paling relevan sesuai dengan tujuan analisis. Patut dipahami bahwa tidak ada suatu algoritma clustering yang dianggap paling baik secara universal. Pilihan algoritma clustering yang terbaik adalah yang sesuai dengan karakteristik dan spesifikasi data set dan tujuan analisis. Hal ini dapat berbeda dari suatu analisis dengan analisis lainnya(Wang et al., 2023). Pra-pengolahan data merupakan langkah krusial terutama dalam partitioning-based clustering karena mempunyai beberapa tujuan dengan teknik utama(Kononenko and Kukar, 2007; Abels, 2021; Fan et al., 2021) sebagai berikut: 1. Memperbaiki Kualitas Data dengan Data Cleaning: Tahap pra-pengolahan data menangani masalah yang berkaitan dengan missing data, noisy data, dan data yang tidak
100 relevan, sehingga secara umum memperbaiki kualitas data set. Teknik untuk menangani missing data antara lain imputasi, penghapusan record, dan penggantian dengan estimasi. Noisy data dapat ditangani dengan menggunakan teknik smoothing. 2. Reduksi Data: Tahap pra-pengolahan dan menghasilkan ukuran dimensi data set yang tereduksi dengan tetap mempertahankan karakteristik yang utama. Reduksi dimensi data set akan membuat proses clustering menjadi lebih efisien, terutama apabila berkenaan dengan data set yang bedimensi sangat besar. Walaupun sejatinya clustering sendiri sebenarnya dapat dianggap sebagai proses reduksi data denggan menggabungkan titik-titik data yang mirip ke dalam satu kelompok yang sama dan selanjutnya direpresentasikan dengan centroid pada masing-masing kelompok. 3. Data Scaling (Normalization): Tahap pra-pengolahan juga mencakup proses scaling yaitu teknik untuk menangani data set yang memiliki beerbagai satuan pengukuran yang berbeda-beda dan dengan skala yang berbeda-beda pula. Proses ini memastikan bahwa semua peubah mempunyai kontribusi yang sama dalam proses clustering dan mencegah peubah dengan skala yang besar mendominasi proses pembentukan kelompok. Teknik normalisasi yang lazim digunakan antara lain normalisasi min-max, z-score, atau penggunaan skala desimal. 4. Transformasi Data: Pada tahap pra-pengolahan dapat dilakukan transformasi data supaya lebih memungkinkan untuk dianalisis Proses ini mencakup antara lain agregasi data, sampling, reduksi dimensi, pemilihan peubah tertentu, pembentukan peubah baru,
101 proses dikretisasi atau binerisasi, dan juga transformasi peubah. Transformasi ini diharapkan dapat lebih membantu mengungkapkan struktur yang melandasi data set dan memperbaiki kinerja algoritma clustering. 5. Partisi Data: Tahap pra-pengolahan data juga meliputi proses partisi data menjadi beberapa kelompok untuk indepth analysis. Hal ini menjadikan proses clustering menjadi lebih terkelola dan efisien terutama apabila berkenaan dengan data yang berukuran sangat besar. Dengan melaksanakan langkah-langkah pra-pengolahan data sesuai dengan karakteristik data set data dan selaras dengan tujuan analisis seperti di atas, diharapkan proses partition-based clustering menjadi lebih efisien dan hasilnya lebih akurat serta pengelompokan yang terbentuk lebih bermakna. Secara umum dalam analisis clustering terdapat dua jenis analisis berdasarkan jenis algoritma yang digunakan, yaitu supervised (pre-defined labels) dan unsupervised(no pre-defined labels) learning algorithm. Masing-masing memiliki kebutuhan penanganan data set yang berbeda. Dalam unsupervised learning algorithm, tujuan utama adalah untuk menemukan pengelompokan inheren di dalam data set, sedangkan dalam supervised learning algorithm,tujuan utamanya adalah untuk menguji apakah algoritma yang digunakan dapat menghasilkan pengelompokan yang akurat sesuai dengan pre-defined labels(PennStateUniversity, 2022).
102 Dalam konteks ini, dalam unsupervised learning algorithm keseluruhan data set merupakan "training data" dan tidak menggunakan ‚testing data‛ karena memang tujuan utamanya adalah menemukan kelompok-kelompok yang memaksimalkan kesamaan titik-titik data pada kelompok yang sama dan memaksimalkan ketidaksamaan titik-titik data pada kelompok yang berbeda dari keseluruhan data set tanpa terkecuali(Williamson et al., 2020). Sebaliknya dalam jenis supervised learning algorithm, data set dibagi menjadi sekurang-kurangnya training data dan testing data karena maemang bertujuan untuk melatih model pengelompokan pada training data yang sudah diketahui kelompoknya dan kemudian melakukan pengujian kinerja hasilnya pada testing data yang terpisah untuk melihat kemampuan prediktif modelnya (Williamson et al., 2020). Metode yang paling baik untuk memilah data set menjadi training dan test data set adalah melalui proses acak (random sampling). Hal ini untuk memastikan bahwa proses pemilahan dilakukan secara tidak berbias dan baik training maupun test data sets benar-benar masih merepresentasikan data aslinya. Apabila menggunakan bahasa Python, proses pemilahan tersebut bisa dilakukan dengan menggunakan fungsi `train_test_split()` dari scikit-learn library, atau fungsi `randn()` dari numpy, atau `sample()` dari panda (Myrianthous, 2021). Proporsi optimal dalam pemilahan antara training data dan testing data dapat bervariasi tergantung pada kebutuhan spesifik dari model yang digunakan dan juga pada ukuran data set itu sendiri. Namun demikian secara umum
103 digunakan rasio 80:20, 70:30, atau 60:40 masing-masing untuk training dan testing data. Untuk data set yang berukuran sangat besar, proporsi 80:20 hingga 90:10 dapat diterapkan dengan baik; namun demikian untuk data set yang berukuran kecil, proporsi 60:40 atau 70:30 mungkin akan lebih sesuai(Joseph, 2022). Disarankan proporsi optimal untuk training data berada pada kisaran 40% sampai 80% dari data set aslinya disesuaikan dengan ukuran data set aslinya sebagaimana penjelasan sebelumnya. Di samping pemilahan menjadi training dan test data sets, lazim juga disiapkan validation data set yang akan digunakan untuk melakukan fine tuning terhadap parameter model. Proporsi pemilahan yang sering digunakan dalam konteks ini adalah 80% untuk training, 10% untuk validation, dan 10% untuk testing data set. Perlu dipahami bahwa proporsi pemilahan tersebut hanyalah merupakan panduan umum dan pemilaan yang optimal akan sangat tergantung pada berbagai faktor seperti ukuran data set, kompleksitas model, dan sejauh mana kebutuhan untuk mendapatkan hasil yang presisi menjadi sangat penting. Oleh karena itu sangat disarankan untuk melakukan eksperimen dengan berbagai proporsi pemilahan untuk mendapatkan proprosi pemilahan yang menghasilkan pengelompokan yang paling bermakna dan paling sesuai dengan kebutuhan dan tujuan analisis(Joseph, 2022). Dalam pemilihan proporsi training dan test data sets, terdapat beberapa faktor yang perlu menjadi pertimbangan sebagai berikut: 1. Ukuran Data Set: Apabila ukuran data set cukup besar, proporsi alokasi untuk test data bisa cukup kecil, sehingga misalnya proporsi pemilahan menjadi 80:20
104 atau 70:30 masing-maasing untuk training dan testing data set. Untuk data set yang berukuran kecil, mau tidak mau dibutuhkan proporsi test data yang lebih besar misalnya 30% atau 40% sehingga ukuran test data memungkinkan proses evaluasi model yang dapat diandalkan. 2. Kompleksitas Model: Model dengan banyak parameter atau hyperparameters atau yang membutuhkan data yang besar tentunya membutuhkan proporsi training data set yang relatif lebih besar. Sebaliknya, model dengan lebih sedikit parameter atau yang lebih mudah divalidasi memerlukan proporsi training data yang lebih kecil. 3. Distribusi Data: Apabila dalam data set terdapat ketidakseimbangan ukuran kelas/kelompok atau terdapat beberapa karakteristik yang khusus, teknik stratified sampling atau clustered sampling sebaiknya digunakan untuk memastikan bahwa baik training data maupun test data sets keduanya masih merepresentasikan distribusi data aslinya. 4. Validation Data Set: Di samping training dan test data sets, adalah lazim untuk membentuk validation data set dalam rangka fine tuning parameter model. Data tambahan ini tentunya akan mempengaruhi proporsi yang sudah dialokasikan untuk training dan test data sets. Praktik yang lazim dalam pemilahan adalah 80% untuk training, 10% untuk validation, dan 10% untuk testing data set. 5. Eksperimen untuk Pemilahan Optimal: Karena tidak ada formula baku untuk menetapkan proporsi yang dinilai terbaik, adalah sangat direkomendasikan untuk melakukan eksperimen terhadap beberapa proporsi
105 pemilahan dan kemudian menilai kinerja algoritmanya untuk memilih proporsi pemilahan yang paling sesuai untuk data set yang digunakan. Kompleksitas machine learning model dapat secara signifikan mempengaruhi proporsi training dan test data sets karena pertimbangan sebagai berikut(Rácz, Bajusz and Héberger, 2021): 1. Model Overfitting: Model-model yang lebih kompleks dengan banyak parameter lebih berisiko mengalami model overfitting pada training data set. Overfitting terjadi manakala model belajar untuk menyesuaikan dengan training data terlalu berlebihan sehingga terlalu banyak memasukkan noise ke dalam pola yang melandasinya.. Akibatnya model ini akan berkinerja rendah apabila diterapkan pada test data set. Untuk mengatasi overfitting, perlu training set berukuran lebih besar untuk memungkinkan representasi yang lebih baik terhadap keragaman data sebenarnya. 2. Model Underfitting: Sebaliknya apabila model terlalu sederhana, hal tersebut akan menyebabkan terjadinya kondisi underfitting yang berarti bahwa model tersebut tidak dapat menangkap pola yang melandasi data set sehingga menghasilkan kinerja yang rendah pada training data set dan juga pada test data set. Dalam hal ini peningkatan ukuran training data set tidak akan dapat memperbaiki kinerja model secara signifikan. 3. Performance Evaluation: Ketika kompleksitas model semakin meningkat, kinerja model pada training data pada umumnya juga semakin baik. Namun demikian hal ini tidak sepenuhnya berlaku pada test data set. Terdapat trade-off antara kompleksitas model and kinerja model pada test data set. Pada awalnya peningkatan
106 kompleksitas model memperbaiki kinerja model pada test data set dengan mengurangi bias., Namun demikian setelah titik tertentu, peningkatan kompleksitas model justru akan menurunkan kinerja model pada test data set karena kenaikan keragaman yang terjadi. Secara umum dapat disimpulkan bahwa kompleksitas model dan ukuran data set merupakan faktor-faktor utama yang harus dipertimbangkan dalam menentukan proporsi antara training dan test data set. Adalah sangat bermanfaat apabila melakukan eksperimen dengan berbagai proporsi pemilahan dan mengevaluasi kinerja model yang dihasilkan masing-masing proporsi untuk menentukan proporsi yang dianggap paling sesuai (Dobbin and Simon, 2011; Rácz, Bajusz and Héberger, 2021). Beberapa teknik yang dapat dicoba untuk menentukan kinerja model dalam konteks penentuan proporsi antara training data dan test data set pada suatu algoritma tertentu antara lain adalah sebagai berikut (Dobbin and Simon, 2011; Rácz, Bajusz and Héberger, 2021): 1. Trial and Error: Apabila tidak terdapat pertimbangan lain yang dianggap menentukan, proses trial and error dapat diterapkan dengan menguji berbagai proporsi misalnya 80:20, 70:30, 65:35, 60:40 dan kemudian memilih proporsi dengan melihat kinerja model yang dianggap paling baik. 2. Cross-Validation: Validasi silang adalah metode yang tegar yang dapat membantu menentukan proporsi yang optimal. Dalam k-fold cross-validation, data set dibagi menjadi sebanyak 'k' sub- data set. Model yang dibangun dilatih pada 'k-1' sub-data set, dan sub data set lainnya digunakan untuk testing data set. Proses ini diulang-
107 ulang sebanyak 'k' kali dengan masing-masing sub-data set digunakan sebanyak satu kali sebagai test data set. Rata-rata kinerja sepanjang pengulangan 'k' kali kemudian digunakan sebagai basis untuk pengukuran kinerja model. 3. Hold-out Method: Teknik ini adalah yang paling sederhana dan yang paling sering digunakan apabila data set dibagi menjadi dua bagian yaitu training data set dan test data set. Biasanya proporsi 80:20 digunakan hanya sebagai rule of thumb, namun demikian sebagaimana dijelaskan sebelumnya proporsi yang optimal perlu diketahui lebih lanjut dengan berbagai teknik pengujian yang lainnya. 4. Repeated k-Fold Technique: Pada teknik ini proporsi tertentu dari data set dipilih secara acak sebagai test data set, sedangkan selebihnya menjadi training data set. Proses ini diulang-ulang sebanyak 'k' kali dan kinerja rata-rata dari keseluruhan pengujian digunakan sebagai kinerja model. 5. Optimal Split Algorithm: Beberapa kajian telah mengembangkan teknik algoritma statistika nonparametrik untuk menentukan proporsi pemilahan yang dapat diterapkan dengan data set tertentu dan algoritma klasifikasi yang tertentu pula. 6. Pertimbangan Ukuran Data Set dan Kompleksitas Model: Sebagaimana telah dijelaskan pada bagian sebelumnya, ukuran data set dan kompleksitas model merupakan faktor-faktor kunci yang harus dipertimbangkan. Untuk data set yang berukuran besar, proporsi yang lebih kecil dapat dialokasikan untuk membentuk test data set, misalnya dengan proporsi pemilahan 80:20 masingmasing untuk training data set dan testing data set.
108 Sebaliknya untuk data set yang berukuran lebih kecil, proporsi yang lebih besar untuk test data set diperlukan supaya test data set masih dapat dipastikan merepresentasikan data set yang sesungguhnya untuk mendapatkan evaluasi yang dapat diandalkan atas model yang diujikan pada test data set. Patut menjadi perhatian dan catatan bahwa tujuan utamanya adalah untuk memastikan bahwa model berkinerja baik pada data yang akan diuji atau pada data yang tidak digunakan dalam pengembangan model, sehingga test data set seharusnya dapat merepresentaikan data yang akan dihadapi oleh model dalam melakukan prediksi klasifikasi pengelompokan pada saat penggunaan model pada praktiknya di waktu yang akan datang (Dobbin and Simon, 2011).
109 yang dimaksud dengan clustering pada bab sebelumnya, bab ini akan mengajarkan tentang implementasi dari clustering. Yang sudah kita ketahui clustering sangat berguna untuk mengelompokkan data unsupervised. Data ini dapat bermacam-macam, mulai dari data keuangan, kesehatan, suhu suatu kota, dan data lainnya. Selama data tersebut membutuhkan pengelompokkan maka clustering dapat digunakan. Data yang digunakan untuk melakukan clustering pada percobaan ini adalah data acak dengan menggunakan make_blobs yang merupakan salah satu fungsi dalam library sklearn. Fungsi dari make_blobs yakni membuat data secara acak dengan berkelompok/cluster bergantung pada parameter yang
110 ada pada fungsinya, memudahkan kita untuk dapat melihat cluster atau pengelompokan yang ada lebih jelas dalam percobaan ini.
111 Potongan program di atas diawali dengan menambahkan library yang dibutuhkan. Dilanjutkan dengan membuat data ‚x‛ dan ‚y‛ melalui make_blobs. Data yang dibentuk sejumlah 100 data dengan 4 centroids (diketahui melalui jumlah parameter centers). Data yang dibentuk memiliki dua fitur (2 dimensi list) dan kelas yang dibentuk sesuai dengan jumlah parameter centers. Luaran data yang dihasilkan akan sama setiap dijalankan, hal ini dikarenakan terdapat parameter dari fungsi make_blobs yakni random_state. Jika ingin mencoba dengan bentuk/data yang berbeda maka nilai dari random_state dapat dirubah sesuka hati. Kemudian jika ingin penyebaran data yang ada lebih luas pada masing-masing cluster-nya maka dapat merubah nilai list pada parameter cluster_std. Setelah data dibentuk kemudian dicetak lalu dijadikan sebuah dataframe. Dataframe yang ada kemudian akan divisualisasikan, memudahkan kita melihat kondisi penyebaran serta cluster yang terbentuk.
112 Potongan program di atas merupakan program visualisasi dari data make_blobs sebelumnya. Dari potongan program yang ada, memvisualisasikan data dengan tipe scatter dan memberikan marker pada masing-masing data yang ada sesuai dengan kelasnya masing-masing. Dari visual terlihat jelas cluster yang terbentuk terdapat 4 buah. Masing-masing cluster yang terbentuk mengelompok pada centroid masing-masing. Kita tahu karena kita menginisialisasikannya pada awal pembuatan data menggunakan make_blobs. Namun jika kita bekerja menggunakan data unsupervised maka data yang ada pastinya tidak akan memiliki label sebagaimana percobaan yang telah dilakukan. Percobaan selanjutnya kita anggap data yang sudah dibentuk tidak memiliki label dan proses selanjutnya yakni memberikan label cluster pada data yang ada menggunakan algoritma K-Means.
113 Potongan program di atas digunakan untuk membentuk 2 buah cluster, ditunjukkan melalui jumlah parameter n_clusters. Sekali lagi ketika kita berhubungan dengan label atau cluster yang ada, kita tidak dapat mengetahui cluster yang terbentuk baik ataupun buruk hanya dengan melihat pada data saja. Dalam menentukan baik atau tidaknya cluster, dibutuhkan visualisasi untuk menilai cluster yang terbentuk secara umum. Maka dari itu proses selanjutnya yakni memvisualisasikan cluster-cluster yang ada.
114 Potongan program di atas digunakan untuk menampilkan hasil sebelum dikelompokkan menggunakan K-Means dan sesudah. Dari sini dapat dilihat pada grafik pengelompokan di mana ketika dibentuk menggunakan make_blob dan setelah dicluster menggunakan K-Means. Kita ketahui jumlah dari cluster yang
115 dibentuk dalam data-data kita tentukan semau kita, lalu muncul pertanyaan ‚Berapa kluster seharusnya yang dibutuhkan dalam data tersebut?‛. Untuk dapat mengetahui berapa jumlah cluster yang optimal kita dapat menggunakan silhouette score. Silhouette score adalah ukuran seberapa mirip suatu sampel dengan clusternya sendiri dibandingkan dengan sampel di cluster lain lainnya . Untuk setiap sampel, akan dihitung jarak rata-rata antara sampel dan semua sampel lain dalam cluster yang sama, di mana disebut dengan ‚A‛. Kemudian, kita menghitung jarak ratarata antara sampel yang sama dan semua sampel lainnya dalam cluster terdekat, di mana disebut sebagai ‚B‛. Kemudian selanjutnya nilai dari silhouette score dapat dicari dengan menggunakan rumus berikut : Kemudian dari rumus di atas akan dibentuk program untuk mengecek nilai masing-masing silhouette score dengan jumlah cluster yang berbeda melaui iterasi.
116 Program di atas dimulai dengan melakukan inisialisasi library yang dibutuhkan. Kemudian menginisialisasi jumlah cluster yang ada dalam sebuah list. List n_clusters_options merupakan cluster yang akan dibentuk menggunakan K-Means yang kemudian akan dicari nilai silhouette score pada masingmasing cluster. Jika ingin membandingkan nilai silhouette score dengan jumlah cluster yang berbeda, maka nilai dari n_clusters_options dapat diganti sesuai dengan keinginan. Kemudian setelah itu dilakukan pembentukan cluster dengan KMean melalui iterasi dengan jumlah cluster yang telah ditentukan
117 sebelumnya. Lalu setelah itu hasil dari silhouette score masingmasing cluster dipetakan dalam sebuah grafik batang agar lebih mudah untuk dibandingkan. Dari hasil graifk batang yang ada, diketahui jumlah cluster bernilai 4 memiliki nilai silhouette score yang paling tinggi. Maka dapat disimpulkan bahwa jumlah cluster yang ideal yakni berjumlah 4. Tentu saja dengan pola data yang berbeda akan memberikan hasil yang berbeda, namun untuk data yang sederhana kita dapat melakukan penentuan cluster dengan menggunakan silhouette score.
118 Clustering atau klasterisasi adalah metode pengelompokan data yang semulanya tidak dikenal dalam data dari jenis, bentuk, warna dan lainnya. Menurut Tan, 2006 clustering adalah sebuah proses untuk mengelompokan data ke dalam beberapa cluster atau kelompok sehingga data dalam satu cluster memiliki tingkat kemiripan yang maksimum dan data antar cluster memiliki kemiripan yang minimum. Clustering atau klasterisasi adalah metode pengelompokan data. Menurut Tan, 2006 clustering adalah sebuah proses untuk mengelompokan data ke dalam
119 beberapa cluster atau kelompok sehingga data dalam satu cluster memiliki tingkat kemiripan yang maksimum dan data antar cluster memiliki kemiripan yang minimum. Gambar 1. Tahapan pengelompokan data Algoritma yang sering digunakan dalam knowledge combination with clustering antara lain: 1. K-Means: Algoritma ini digunakan untuk membagi data menjadi kelompok berdasarkan atribut yang serupa. Algoritma ini sering digunakan dalam proses data mining dan dapat dikombinasikan dengan pengetahuan domain khusus. Gambar 2. Alur algoritma K-Means
120 2. Fuzzy C-Means: Algoritma ini merupakan variasi dari KMeans yang memperhitungkan ketidakpastian dalam pengelompokkan data. Algoritma ini juga dapat digunakan dalam knowledge combination with clustering. Gambar 3. Alur algoritma Fuzzy- C-Means 3. K-Prototype: Algoritma ini efisien untuk dataset berukuran besar dan dapat digunakan pada data campuran. Algoritma ini juga dapat dikombinasikan dengan algoritma genetika untuk optimasi pusat cluster.
121 Gambar 4. Alur Algoritma K-Prototype Dengan menggabungkan algoritma-algoritma clustering tersebut dengan pengetahuan domain khusus, dapat diperoleh hasil analisis data yang lebih mendalam dan relevan. Perbedaan antara algoritma K-Means dan K-Prototype dalam knowledge combination with clustering adalah sebagai berikut: 1. K-Means: Algoritma K-Means adalah metode iteratif yang membagi data menjadi kelompok berdasarkan atribut yang serupa. Algoritma ini berfungsi dengan mengalokasikan data ke pusat cluster yang ditentukan secara acak setiap iterasi. Hasilnya sangat tergantung
122 pada pusat cluster awal yang diberikan. K-Means cenderung efisien untuk mengelompokkan data numerik, tetapi kesulitan menangani data bertipe campuran. 2. K-Prototype: Algoritma K-Prototype merupakan variasi dari K-Means yang dirancang khusus untuk mengelompokkan data bertipe campuran, seperti data numerik dan kategorik. Algoritma ini mengoptimalkan pusat cluster dengan menggunakan algoritma genetika, yang membantu menemukan solusi yang lebih akurat dan efisien. K-Prototype lebih ramah lingkungan untuk menangani data bertipe campuran daripada K-Means Dalam knowledge combination with clustering, keduanya dapat digunakan tergantung pada kebutuhan dan karakteristik data yang akan dianalisis. K-Means lebih cocok untuk mengelompokkan data numerik, sementara KPrototype lebih cocok untuk mengelompokkan data bertipe campuran. Dengan menggabungkan kedua algoritma ini, dapat diperoleh hasil analisis data yang lebih mendalam dan relevan. Untuk mengaplikasikan knowledge combination with clustering dalam analisis data, langkah-langkah yang dapat dilakukan antara lain: 1. Menentukan tujuan analisis data dan jenis data yang akan digunakan. 2. Mempelajari domain pengetahuan yang relevan dengan data yang akan dianalisis.
123 3. Menentukan teknik clustering yang akan digunakan, seperti k-means atau C4.5. 4. Menerapkan teknik clustering pada data dan menghasilkan kelompok-kelompok data yang serupa. 5. Menggabungkan pengetahuan domain khusus ke dalam proses clustering, seperti menggunakan kamus sinonim dan hiponim untuk menambahkan pengetahuan linguistik dalam proses clustering teks pendek dalam Bahasa Indonesia. 6. Menganalisis hasil clustering dan pengetahuan domain khusus yang digunakan untuk mengidentifikasi pola, struktur, dan hubungan dalam dataset. 7. Mengambil kesimpulan dari hasil analisis dan membuat rekomendasi berdasarkan pengetahuan yang ditemukan. Contoh penerapan knowledge combination with clustering dalam analisis data adalah pada penelitian yang mengelompokkan dan mengklasifikasikan data tentang buta huruf anak di Indonesia dengan menggunakan kombinasi metode k-means dan C4.5 serta pengetahuan domain tentang pendidikan dan bahasa Indonesia 1. Algoritma K-Means: Kelebihan: a. Cocok untuk mengelompokkan data numerik b. Algoritma yang mudah diimplementasikan dan dapat disesuaikan c. Tidak lambat dalam pengelompokan data besar
124 Kekurangan: a. Hasil tergantung pada pusat cluster awal yang diberikan. b. Cenderung efisien untuk mengelompokkan data numerik, tetapi kesulitan menangani data bertipe campuran. 2. Algoritma K-Prototype Kelebihan: a. Merupakan variasi dari K-Means yang dirancang khusus untuk mengelompokkan data bertipe campuran, seperti data numerik dan kategorik b. Mengoptimalkan pusat cluster dengan menggunakan algoritma genetika, yang membantu menemukan solusi yang lebih akurat dan efisien. c. Lebih ramah lingkungan untuk menangani data bertipe campuran daripada K-Means Kekurangan: a. Mungkin lebih lambat dalam pengelompokan data berukuran besar Dalam knowledge combination with clustering, keduanya dapat digunakan tergantung pada kebutuhan dan karakteristik data yang akan dianalisis. K-Means lebih cocok untuk mengelompokkan data numerik, sementara KPrototype lebih cocok untuk mengelompokkan data bertipe campuran. Dengan menggabungkan kedua algoritma ini, dapat diperoleh hasil analisis data yang lebih mendalam dan relevan.
125 Untuk menentukan parameter yang tepat untuk algoritma K-Prototype dalam knowledge combination with clustering, dapat dilakukan dengan cara sebagai berikut: 1. Menentukan jumlah cluster yang diinginkan berdasarkan tujuan analisis data. 2. Menentukan jenis data yang akan digunakan, apakah data numerik, kategorik, atau campuran. 3. Menentukan nilai K (jumlah pusat cluster) yang optimal dengan menggunakan teknik elbow method atau silhouette method. 4. Menentukan nilai parameter lainnya, seperti nilai toleransi dan jumlah iterasi, yang dapat mempengaruhi hasil clustering. 5. Mengoptimalkan pusat cluster dengan menggunakan algoritma genetika untuk menemukan solusi yang lebih akurat dan efisien. Dalam knowledge combination with clustering, parameter-parameter tersebut dapat disesuaikan dengan karakteristik data yang akan dianalisis dan pengetahuan domain khusus yang digunakan. Dengan menentukan parameter yang tepat, dapat diperoleh hasil analisis data yang lebih akurat dan relevan. 1. Jumlah Cluster (K): Menentukan jumlah cluster yang diinginkan berdasarkan tujuan analisis data.
126 2. Jenis Data: Menentukan jenis data yang akan digunakan, apakah data numerik, kategorik, atau campuran. 3. Nilai Toleransi: Menentukan nilai toleransi yang mengontrol konvergensi algoritma, yaitu seberapa besar perubahan pusat cluster sebelum iterasi dihentikan. 4. Jumlah Iterasi: Menentukan jumlah iterasi maksimum yang diperlukan untuk mencapai konvergensi. 5. Parameter Algoritma Genetika: Jika menggunakan algoritma genetika untuk mengoptimalkan pusat cluster, perlu memperhatikan parameter-parameter algoritma genetika seperti ukuran populasi, probabilitas crossover, dan probabilitas mutasi. 1. Menentukan Jumlah Cluster (K): Pemilihan jumlah cluster yang sesuai berdasarkan pemahaman domain dan tujuan analisis data. 2. Inisialisasi Pusat Cluster: Menentukan metode inisialisasi pusat cluster, seperti secara acak atau berdasarkan pengetahuan domain, yang dapat memengaruhi hasil clustering. 3. Kriteria Konvergensi: Menentukan kriteria konvergensi, misalnya perubahan minimum pusat cluster antara iterasi, untuk menghentikan iterasi algoritma. 4. Metode Evaluasi: Memilih metode evaluasi yang sesuai, seperti Elbow Method atau Silhouette Method, untuk menentukan jumlah cluster yang optimal. 5. Penyesuaian Parameter: Melakukan penyesuaian parameter algoritma, seperti ukuran batch atau metode
127 inisialisasi, berdasarkan karakteristik data dan pengetahuan domain yang relevan. Terdapat beberapa teknik yang dapat digunakan untuk menentukan jumlah kluster yang tepat dalam algoritma KMeans dalam knowledge combination with clustering, antara lain: 1. Elbow Method: Metode ini melibatkan plot jumlah kluster terhadap variansi dalam kelompok. Jumlah kluster yang optimal adalah titik di mana penurunan variansi mulai menurun secara signifikan, membentuk siku pada grafik seperti siku tangan manusia. 2. Silhouette Method: Metode ini melibatkan plot koefisien siluet terhadap jumlah kluster. Koefisien siluet mengukur seberapa baik objek berada dalam kelompok tertentu dibandingkan dengan kelompok lain. Jumlah kluster yang optimal adalah jumlah kluster dengan nilai koefisien siluet tertinggi. 3. Gap Statistic: Metode ini membandingkan variansi dalam kelompok aktual dengan variansi yang diharapkan jika data acak dihasilkan. Jumlah kluster yang optimal adalah jumlah kluster dengan nilai gap statistic tertinggi. 4. Average Silhouette Width: Metode ini menghitung ratarata koefisien siluet untuk setiap objek dalam kelompok dan menghitung rata-rata koefisien siluet untuk semua kelompok. Jumlah kluster yang optimal adalah jumlah kluster dengan rata-rata koefisien siluet tertinggi.
128 Dengan menggunakan teknik-teknik tersebut, Anda dapat menentukan jumlah kluster yang optimal dalam algoritma K-Means dalam knowledge combination with clustering. Berikut merupakan beberapa penelitian yang mengkombinasikan clustering dengan metode yang lain. 1. Optimasi K-Means Clustering Menggunakan Particle Swarm Optimization pada Sistem Identifikasi Tumbuhan Obat Berbasis Citra Teknologi identifikasi pada penelitian ini diperlukan untuk mempercepat proses identifikasi spesies tumbuhan obat berupa data citra digital. Penelitian ini membangun sistem identifikasi tumbuhan obat menggunakan teknik clustering. Teknik clustering digunakan untuk mengelompokkan data citra sesuai dengan spesies tumbuhan obat. Penelitian ini bertujuan melakukan optimasi k-means clustering menggunakan metode particle swarm optimization (PSO). Metode PSO digunakan untuk mengatasi kelemahan pada metode clustering tradisional yaitu pemilihan pusat cluster awal dan solusi lokal. Proses ekstraksi fitur menggunakan fuzzy local binary pattern (FLBP) untuk merepresentasikan tekstur dari citra. Implementasi program menggunakan bahasa pemrograman C++. Analisis clustering dilakukan untuk 30 spesies tumbuhan obat yang ada di Indonesia dengan jumlah 48 citra masing-masing spesies. Pengukuran kualitas clustering menggunakan nilai quantization
129 errordan akurasi. Hasil yang diperoleh menunjukkan metode PSO mampu meningkatkan kinerja dari metode k-means clusteringdalam proses identifikasi tumbuhan obat. 2. Clustering Bidang Keilmuan Menggunakan Kombinasi Metode Topsis dan Algoritma K-Means Banyak orang tua dan guru saat ini semakin tanggap terhadap permasalahan belajar anak. Setiap anak memiliki keistimewaan dan perangai yang berbeda. Sehingga menyebabkan pola belajar dan pola asuh diterapkan berbeda pada setiap anak. Sebagian besar anak-anak memiliki kelemahan di suatu bidang. Namun, anak juga memiliki kelebihan di bidang yang lain. Oleh karena itu, pengelompokan bidang keilmuan dengan penerapan metode TOPSIS dan algoritma K-Means penting dilakukan guna menentukan pola belajar yang cocok bagi anak berdasarkan bidang keilmuan yang dikuasai. Penelitian ini melakukan pengelompokan atau clustering bidang keilmuan berdasarkan mata pelajaran menggunakan kombinasi metode TOPSIS dan algoritma K-Means. Kemudian, pengukuran kinerja atau performa dilakukan terhadap model yang menerapkan kombinasi antara metode TOPSIS dengan algoritma K-Means. Tabel 1. Perbandingan NILAI ERROR PADA DATA SETELAH CLUSTERING Metode Error Terendah Error Tertinggi Rata-rata Error TOPSISKmeans 0.0 0.10583354 0.0088622843 Kmeans 1.4446295631 e+19 1.74426552 e+32 2.78629632 78e+30
130 Hasil penelitian menunjukkan bahwa a. Penjumlahan terbobot dengan menggunakan metode TOPSIS memiliki performa yang baik dalam kombinasi dengan algoritma K-means untuk menentukan cluster berdasarkan mata pelajaran yang dikuasai oleh siswa TAPAS Al Manshuroh Jombang. b. Kinerja algoritma K-means dalam clustering bidang keilmuan yang berkombinasi dengan metode TOPSIS dinilai cukup optimal. Hal itu diindikasikan dengan nilai error pada kombinasi metode TOPSIS dan algoritma Kmeans memiliki rata-rata error lebih rendah dari nilai error pada K-means. c. Sehingga metode TOPSIS sebagai metode dalam penjumlahan terbobot mampu mempegaruhi kinerja clustering bidang keilmuan berdasarkan mata pelajaran dengan algoritma K-Means menjadi lebih tinggi. Sehingga kombinasi metode TOPSIS dan algoritma K-Means terbukti lebih optimal dalam pengelompokan bidang keilmuan berdasarkan mata pelajaran dan dapat digunakan sebagai acuan dalam menentukan metode pembelajaran yang tepat berdasarkan bidang keilmuan yang dikuasai siswa. 3. Kombinasi Metode K-Means Dan Decision Tree Dengan Perbandingan Kriteria Dan Split Data Data mining merupakan suatu proses mencari pola atau menarik informasi data besar dan terpilih menggunakan teknik atau metode tertentu. Metode KMeans dan Decision Tree merupakan bagian dari teknik Data Mining. Penelitian ini akan mengkombinasikan metode K-Means untuk melakukan clustering data
131 menjadi tiga cluster kemudian hasil dari clustering akan di klasifikasi menggunakan Metode Decision Tree dengan perbandingan kriteria Gain Ratio, Information Gain dan Gini Index. Data yang diolah di bagi (split) menjadi dua yaitu data training dan data testing dengan prosentase 70:30, 80:20 dan 90:10. Hasil dari penelitian untuk menemukan kriteria mana yang menghasilkan pohon keputusan dan performa terbaik berdasarkan nilai akurasi tertinggi dari masing-masing kelompok data. Data diambil dari Repository UCI dengan jumlah 811 record dan 52 atribut. Dari pengolahan data yang dilakukan diketahui untuk split data 70:30, nilai akurasi dengan kriteria Gain Ratio, Information Gain dan Gini Index mendapatkan nilai sama yaitu 97,53. Kriteria Gain Ratio dan Gini Index menghasilkan nilai akurasi tertinggi yaitu 98,15% untuk split data 80:20. Sedangkan Information Gain mendapat nilai akurasi tertinggi 98,77% untuk split data 90:10.
132 1. Definisi Big Data dan Karakteristik Utamanya Big Data merujuk pada kumpulan data yang besar dan kompleks, terutama dari sumber data baru. Datadata tersebut berjumlah begitu besar sehingga perangkat lunak pemrosesan data tradisional tidak mampu mengelolanya. Analisis big data adalah proses ekstraksi, transformasi, dan interpretasi informasi berharga dari kumpulan data yang sangat besar, kompleks, dan beragam. Tujuan utama dari analisis big data adalah untuk mengungkap pola, tren, dan wawasan yang tidak dapat ditemukan melalui metode analisis tradisional. Dengan menggunakan teknik analisis yang canggih, organisasi dapat mengoptimalkan pengambilan
133 keputusan, mengidentifikasi peluang bisnis, dan mengatasi tantangan operasional. Proses analisis big data melibatkan beberapa tahapan. Pertama, data dikumpulkan dari berbagai sumber seperti sensor IoT, media sosial, dan transaksi bisnis. Selanjutnya, data diolah dan disiapkan untuk analisis, termasuk pembersihan data, penggabungan, dan transformasi. Setelah itu, berbagai metode analisis statistik dan algoritma machine learning diterapkan untuk mengidentifikasi pola dan tren yang signifikan. Analisis big data dapat bersifat deskriptif, di mana data diuraikan menjadi bentuk yang lebih mudah dimengerti, prediktif, yang melibatkan penggunaan model statistik untuk meramalkan peristiwa masa depan, atau preskriptif, yang memberikan rekomendasi tindakan berdasarkan hasil analisis. Dalam konteks bisnis, analisis big data membantu perusahaan memahami perilaku pelanggan, mengoptimalkan rantai pasokan, dan meningkatkan efisiensi operasional. Secara keseluruhan, analisis big data memegang peran kunci dalam membuka potensi besar dari data untuk membuat keputusan yang lebih baik dan mendapatkan wawasan berharga untuk inovasi dan pertumbuhan. Karakteristik utama Big Data dikenal sebagai " 5 V," yaitu volume (besarnya data), velocity (kecepatan di mana data dibuat dan dikumpulkan), variety (keragaman atau cakupan titik data, veracity (kebenaran data) dan value (nilai data) (Kitchin and McArdle, 2016) a. Volume (Besarnya Data): Volume data merujuk pada besarnya kumpulan data yang dikumpulkan oleh sebuah organisasi untuk
134 dianalisis dan diproses. Dalam konteks teknologi saat ini, kumpulan data ini seringkali memiliki ukuran yang sangat besar, seperti terabyte dan petabyte. Besarnya volume data memerlukan teknologi pengolahan data yang berbeda dibandingkan dengan kapabilitas penyimpanan dan pemrosesan data tradisional. Semakin besar volume data, semakin banyak wawasan yang dapat diekstrak, memungkinkan perusahaan untuk membuat keputusan yang lebih baik terkait hubungan dengan pengguna/pelanggan (Onay and Öztürk, 2018). b. Velocity (Kecepatan Data): Velocity mengacu pada kecepatan di mana data dibuat, dikumpulkan, dan harus ditangani. Dengan pertumbuhan Internet of Things (IoT), data mengalir ke bisnis dengan kecepatan yang belum pernah terjadi sebelumnya dan harus ditangani secara real-time. Hal ini menuntut penggunaan alat analitik dan algoritma yang canggih untuk mengungkap informasi mendalam guna pengambilan Keputusan (Onay and Öztürk, 2018) c. Variety (Keragaman Data): Variety menggambarkan keragaman atau cakupan titik data. Data Big Data seringkali berasal dari berbagai sumber dan dalam berbagai format, baik terstruktur maupun tidak terstruktur. Hal ini menantang, namun penting bagi bisnis untuk dapat mengelola berbagai jenis data ini guna memahami tren, mengelola beban data, dan mengambil keputusan yang cerdas (Onay and Öztürk, 2018)