The words you are searching are inside this book. To get more targeted content, please make full-text search by clicking here.

Clustering adalah teknik dalam analisis data yang digunakan untuk mengelompokkan objek-objek data menjadi kelompok-kelompok yang serupa berdasarkan kesamaan karakteristik atau atribut mereka. Tujuan utama clustering adalah menemukan pola atau struktur tersembunyi dalam data tanpa menggunakan label kelas sebelumnya.

Dalam buku ini, pembaca akan diperkenalkan pada konsep dasar clustering, metode-metode yang umum digunakan, dan algoritma-algoritma yang efektif untuk melakukan clustering. Buku ini juga membahas berbagai masalah dan tantangan yang dihadapi dalam clustering, seperti pemilihan jumlah kelompok yang optimal, menangani data yang tidak lengkap atau noisy, serta memilih metrik jarak yang sesuai.

Pembaca akan mempelajari tentang teknik-teknik clustering yang populer, seperti k-means, hierarchical clustering, DBSCAN, dan masih banyak lagi. Buku ini juga akan membahas strategi evaluasi clustering yang dapat digu- nakan untuk mengukur kualitas dan keefektifan hasil clustering.

Dengan pemahaman yang mendalam tentang clustering, pembaca akan dapat mengaplikasikan teknik ini dalam berbagai bidang, seperti analisis data bisnis, pengelompokan konsumen, pengenalan pola dalam citra atau teks, dan banyak lagi. Buku ini juga akan memberikan contoh nyata dan studi kasus yang mengilustrasikan penggunaan clustering dalam berbagai konteks.

Penulis buku ini berharap bahwa pembaca akan mendapatkan pemahaman yang kuat tentang clustering dan mampu mengaplikasikan teknik ini dengan baik dalam analisis data mereka. Diharapkan buku ini akan menjadi panduan yang berharga dan bermanfaat bagi para peneliti, praktisi, dan mahasiswa yang tertarik dalam analisis data dan pengelompokan objek data.

Discover the best professional documents and content resources in AnyFlip Document Base.
Search
Published by penamudamedia, 2024-06-02 22:06:10

CLUSTERING

Clustering adalah teknik dalam analisis data yang digunakan untuk mengelompokkan objek-objek data menjadi kelompok-kelompok yang serupa berdasarkan kesamaan karakteristik atau atribut mereka. Tujuan utama clustering adalah menemukan pola atau struktur tersembunyi dalam data tanpa menggunakan label kelas sebelumnya.

Dalam buku ini, pembaca akan diperkenalkan pada konsep dasar clustering, metode-metode yang umum digunakan, dan algoritma-algoritma yang efektif untuk melakukan clustering. Buku ini juga membahas berbagai masalah dan tantangan yang dihadapi dalam clustering, seperti pemilihan jumlah kelompok yang optimal, menangani data yang tidak lengkap atau noisy, serta memilih metrik jarak yang sesuai.

Pembaca akan mempelajari tentang teknik-teknik clustering yang populer, seperti k-means, hierarchical clustering, DBSCAN, dan masih banyak lagi. Buku ini juga akan membahas strategi evaluasi clustering yang dapat digu- nakan untuk mengukur kualitas dan keefektifan hasil clustering.

Dengan pemahaman yang mendalam tentang clustering, pembaca akan dapat mengaplikasikan teknik ini dalam berbagai bidang, seperti analisis data bisnis, pengelompokan konsumen, pengenalan pola dalam citra atau teks, dan banyak lagi. Buku ini juga akan memberikan contoh nyata dan studi kasus yang mengilustrasikan penggunaan clustering dalam berbagai konteks.

Penulis buku ini berharap bahwa pembaca akan mendapatkan pemahaman yang kuat tentang clustering dan mampu mengaplikasikan teknik ini dengan baik dalam analisis data mereka. Diharapkan buku ini akan menjadi panduan yang berharga dan bermanfaat bagi para peneliti, praktisi, dan mahasiswa yang tertarik dalam analisis data dan pengelompokan objek data.

CLUSTERING Copyright© PT Penamudamedia, 2024 Penulis: Agung Triayudi, Ph.D., I Wayan Rangga Pinastawa, M.Kom., Jovian Dian Pratama, S.Mat., M.Mat., Sari Ningsih.,S.Si.,MM., Dr. Ilham, S.Kom, M.Kom., Ari Wibowo, S.E., M.Sc., Loso Judijanto, SSi., MM., MStats., Iqbal Sabilirrasyad, S.S.T., M.Tr.Kom., Nurhafifah Matondang, S.Kom., M.T.I., Hasnita, M.Si., Dr. Yenny Desnelita, M.Kom., Gustientiedina, M.Kom ISBN: 978-623-88927-0-9 Desain Sampul: Tim PT Penamuda Media Tata Letak: Enbookdesign Diterbitkan Oleh PT Penamuda Media Casa Sidoarium RT 03 Ngentak, Sidoarium Dodeam Sleman Yogyakarta HP/Whatsapp : +6285700592256 Email : [email protected] Web : www.penamuda.com Instagram : @penamudamedia Cetakan Pertama, Januari 2024 x+187, 15x23 cm Hak cipta dilindungi oleh undang-undang Dilarang memperbanyak sebagian atau seluruh isi buku tanpa izin Penerbit


v ECARA umum, pengantar buku tentang clustering akan memberikan penjelasan tentang konsep dasar dan prinsip clustering. Clustering adalah teknik dalam analisis data yang bertujuan untuk mengelompokkan objek-objek serupa menjadi kelompok-kelompok yang saling berbeda. Pengantar buku mungkin akan membahas berbagai metode clustering, seperti k-means, hierarchical clustering, dan metode clustering lainnya. Selain itu, pengantar buku juga mungkin akan menjelaskan tentang aplikasi clustering dalam berbagai bidang, seperti pengelompokan dokumen, analisis citra, analisis biologi, dan lain-lain. Pembaca akan diperkenalkan dengan konsep-konsep penting, seperti ukuran jarak antara objek, evaluasi kualitas clustering, dan teknik pemrosesan data yang relevan. Pengantar buku clustering juga dapat memberikan gambaran tentang perkembangan terbaru dalam domain ini, seperti clustering dengan metode pembelajaran mesin, penggabungan clustering dengan teknik lain seperti penggalian data, dan aplikasi clustering dalam big data dan analisis data real-time. S


vi Namun, harap diingat bahwa ini adalah deskripsi umum dan dapat bervariasi tergantung pada buku yang spesifik. Jika Anda mencari pengantar khusus dalam buku tertentu, disarankan untuk merujuk pada pengantar yang disediakan di dalam buku tersebut.


vii ............................................................ v ....................................................................... vii BAB 1. DEFINISI DAN ISTILAH CLUSTERING ........................... 1 A. Manfaat Clustering..........................................................................2 B. Konsep dasar Clustering..................................................................2 C. Jenis – jenis Algoritma Clustering....................................................4 D. Cara Kerja Clustering .......................................................................8 E. Pengaplikasian Clustering................................................................9 F. Tantangan dan Keterbatasan Clustering.......................................10 BAB 2. METODE CLUSTERING .............................................. 12 A. Dasar-dasar Metode Clustering ....................................................12 B. Jenis-jenis Metode Clustering .......................................................14 BAB 3. HIERARCHICAL CLUSTERING .................................... 22 A. Metode Agglomerative .................................................................24 B. Metode Divisive.............................................................................27 C. Kriteria Penggabungan (Linkage Criteria)......................................29 D. Representasi Visual dan Interpretasi Hierarki...............................30


viii BAB 4. DENSITY-BASED CLUSTERING ................................... 33 A. Klastering Berbasis Sel kotak (Grid-Based Clustering : GBC).........35 B. Kekuatan dan Batasan...................................................................37 C. Contoh penerapan Density-Based Clustering (DBSCAN)...............38 D. Implementasi Density-Based Clustering........................................39 BAB 5. CLUSTERING IN UNSUPERVISED LEARNING ............... 43 A. Jaringan saraf ................................................................................43 B. Jaringan Tertentu ..........................................................................49 C. Perbandingan jaringan ..................................................................53 D. Hebbian , SENI, SOM .....................................................................57 E. Metode Probabilistik.....................................................................57 F. Pendekatan....................................................................................58 G. Metode momen ............................................................................59 H. Pengelompokan dalam Pembelajaran Mesin Tanpa Pengawasan60 I. Analisis pengelompokan................................................................67 BAB 6. CLUSTERING IN MACHINE LEARNING ....................... 77 A. Definisi clustering ..........................................................................77 B. Algoritma clustering yang umum digunakan ................................79 C. Metrik evaluasi clustering .............................................................85 D. Tantangan dalam mengevaluasi hasil clustering...........................86 E. Contoh studi kasus evaluasi clustering..........................................88 F. Aplikasi Clustering dalam Machine Learning ................................89


ix G. Tantangan dan Inovasi Terkini ......................................................92 BAB 7. DATA SETS DALAM CLUSTERING ANALYSIS ............... 95 A. Kesesuaian Data Set dengan Pilihan Algoritma Clustering ...........97 B. Pra-Pengolahan Data Set ..............................................................99 C. Pemilahan Data Training,Testing, dan Validasi..........................101 D. Proporsi Training Data Dan Testing Data ....................................102 BAB 8. IMPLEMENTASI CLUSTERING KNOWLEDGE KOMBINATION WITH CLUSTERING ................................ 118 A. Clustering ....................................................................................118 B. Algoritma Yang Digunakan Dalam Knowledge Combination With Clustering ....................................................................................119 C. Perbedaan Antara Algoritma K-Means Dan Algoritma Prototype Dalam Knowledge Combination With Clustering........................121 D. Cara Mengaplikasikan Knowledge Combination With Clustering Dalam Analisis Data.....................................................................122 E. Kelebihan Dan Kekurangan Dari Algoritma K-Means Dan Algoritma Prototype Dalam Knowledge Combination With Clustering.......123 F. Cara Menentukan Parameter Yang Tepat Untuk Algoritma Prototype Dalam Knowledge Combination With Clustering.......125 G. Parameter Yang Perlu Diperhatikan Dalam Algoritma Prototype Dalam Knowledge Combination With Clustering........................125 H. Cara Menentukan Parameter Yang Tepat Untuk Algoritma KMeans Dalam Knowledge Combination With Clustering............126 I. Teknik Yang Dapat Digunakan Untuk Menentukan Jumlah Kluster Yang Tepat Dalam Algoritma K-Means Dalam Knowledge Combination With Clustering......................................................127


x J. Terdapat Beberapa Hasil Penelitian Yang Dapat Di Kombinasikan Dengan Clustering. ......................................................................128 BAB 9. BIG DATA ................................................................ 132 A. Pengenalan Big Data....................................................................132 B. Sistem Penyimpanan Skala Besar................................................136 C. Teknologi Pengolahan Data.........................................................136 D. Teknik Analisis Data.....................................................................137 E. Visualisasi Big Data pada metode Clustering ..............................140 BAB 10. PARTITIONAL CLUSTERING .................................... 147 A. MacQueen’s Method...................................................................153 B. Forgy’s Method ...........................................................................153 C. Jancey’s Method..........................................................................154 BAB 11. MODEL BASED CLUSTERING ................................... 159 A. Model Finite Mixture...................................................................161 B. Model Finite Mixture Normal Multivariat...................................163 C. Model Finite Mixture t Multivariat............................................164 D. COBWEB : Pendekatan Statistik dan AI.......................................165 .......................................................... 172 .......................................................... 182


xi


1 sebagai clustering, adalah teknik pengelompokan data. Menurut Tan (2006), mengelompokkan sebuah set objek data ke dalam himpunan bagian yang dikenal sebagai cluster, memungkinkan data dalam satu cluster memiliki tingkat kemiripan yang paling tinggi dan data di antara cluster memiliki tingkat kemiripan yang paling rendah. Clustering merupakan proses partisi satu set objek data ke dalam himpunan bagian yang disebut dengan cluster. Melalui penggunaan algoritma clustering, partisipasi dilakukan secara otomatis. Clustering sangat bermanfaat karena dapat menemukan kelompok atau kelompok yang tidak dikenal dalam data. Berbagai aplikasi, seperti business intelligence, pengenalan pola citra, pencarian web, ilmu biologi, dan keamanan, menggunakan clustering. Clustering dapat mengatur banyak pelanggan ke


2 dalam banyak kelompok dalam business intelligence. Untuk ilustrasi, masukkan pelanggan ke dalam beberapa kelompok yang memiliki karakteristik yang sangat mirip. Clustering mempartisi banyak data set ke dalam banyak group berdasarkan kesamaannya. Teknik ini juga dikenal sebagai data segmentasi. Selain itu, clustering juga dapat digunakan untuk mendeteksi outlier. 1. Clustering adalah metode segmentasi data yang sangat berguna untuk memprediksi dan menganalisis masalah tertentu dalam bisnis. Misalnya, pemetaan zonasi wilayah, segmentasi pasar, dan marketing. 2. Identifikasi objek dalam bidang yang berbeda, seperti pengolahan gambar dan komputer vision. Dalam satu kelas, tingkat kesamaan yang tinggi akan dihasilkan dari hasil clustering yang baik. Nilai kesamaan yang dimaksud adalah pengukuran numerik terhadap dua buah objek. Jika kedua objek yang dibandingkan memiliki tingkat kemiripan yang tinggi, nilai kesamaan antara kedua objek tersebut akan meningkat. Itu juga berlaku untuk sebaliknya. Kualitas hasil clustering sangat dipengaruhi oleh metode yang digunakan. Keempat jenis data yang dikenal dalam clustering adalah sebagai berikut: 1. Variabel berskala interval 2. Variabel biner 3. Variabel nominal, ordinal, dan rasio 4. Variabel dengan tipe lainnya.


3 Selain itu, metode clustering harus dapat mengevaluasi kapasitasnya untuk menemukan pola tersembunyi dalam data yang sedang diteliti. Nilai kesamaan antara dua objek yang sebanding dapat dihitung dengan berbagai cara. Salah satunya adalah jarak geometri yang ditimbang. Metode ini digunakan untuk menghitung jarak antara dua poin dengan mengetahui nilai masing-masing atribut dari kedua poin tersebut. Formula yang digunakan untuk menghitung jarak geometri yang ditimbang adalah sebagai berikut: Keterangan: N = Jumlah record data K= Urutan field data r= 2 µk= Bobot field yang diberikan user Jarak adalah pendekatan yang umum dipakai untuk menentukan kesamaan atau ketidaksamaan dua vektor fitur yang dinyatakan dengan ranking. Apabila nilai ranking yang dihasilkan semakin kecil nilainya maka semakin dekat/tinggi kesamaan antara kedua vektor tersebut. Teknik pengukuran jarak dengan metode Euclidean menjadi salah satu metode yang paling umum digunakan. Pengukuran jarak dengan metode euclidean dapat dituliskan dengan persamaan berikut:


4 Di mana v1 dan v2 adalah dua vektor yang jaraknya akan dihitung dan N menyatakan panjang vektor. Klasifikasi terjadi ketika mesin belajar mengelompokkan data dengan keterangan kelas, alias, jenis, atau nama kelompok yang telah ditentukan sebelumnya. Oleh karena itu, clustering berusaha mengelompokkan data dengan mempertimbangkan kemiripan antar data daripada menentukan kelas atau label sebelum mengklasifikasikan setiap data. Clustering memiliki kemampuan untuk mengambil dataset yang sangat besar tanpa instruksi dan mengubahnya menjadi sesuatu yang bermanfaat, yang membuatnya paling cocok untuk digunakan dalam kondisi ini. Saat kita tidak tahu berapa banyak kelas yang akan dibagi. Menggunakan algoritma clustering adalah pilihan yang tepat jika ingin mengidentifikasi anomali pada dataset. Ini dapat membantu mengoptimalkan hasil dalam jangka panjang. Meskipun ketiga kondisi tersebut adalah yang terbaik untuk menggunakan algoritma clustering, seringkali terjadi ketika algoritma clustering tidak dapat menyelesaikan masalah. Kondisi ini muncul saat data perlu dianalisis lebih lanjut. 1. K-Means Clustering K-Means adalah jenis clustering yang paling umum. Untuk memisahkan titik data menjadi k Cluster, algoritma K-Means menggunakan centroid, yaitu jarak rata-rata pusat titik data, dan membuatnya mudah


5 digunakan dan efektif dalam menemukan Cluster dengan bentuk elips atau bola. Namun, algoritma ini juga tidak efektif dalam menangani Cluster dengan ukuran atau bentuk yang tidak jelas. Meskipun demikian, karena kepraktisannya, algoritma ini masih menjadi pilihan utama dalam banyak kasus clustering. Karakteristik KMeans: a. Mereka sangat cepat dalam proses clustering; b. Mereka sangat peka terhadap pembangkitan centroid awal secara tidak sengaja; dan c. Mereka memungkinkan suatu cluster tidak memiliki anggota. d. Hasil clustering dengan K-means unik selalu berubah-ubah, terkadang baik, terkadang buruk. K-Means telah berkembang, termasuk beberapa masalah yang perlu dipertimbangkan saat menggunakan metode ini untuk pengelompokan data, ulasan tentang keberadaan K-Means di antara metode pengklasifikasian dengan arahan (diawasi) dan tanpa arahan, ulasan singkat tentang metode K-Means untuk dataset dengan bentuk khusus dan model campuran, dan algoritma dari metode pengelompokan yang masih digolongkan. 2. Hierarchical Clustering Metode pengelompokan data hierarkis menciptakan struktur hierarkis yang dapat digambarkan dalam diagram. Ini memungkinkan data yang serupa ditempatkan dekat satu sama lain daripada terpisah hanya karena ukuran kesamaannya. Salah satu keuntungan algoritma ini adalah kemampuan untuk mengenali grup dengan berbagai ukuran dan bentuk dan membuat dendrogram yang menunjukkan pengelompokan secara visual.


6 Namun, metode ini juga memiliki kekurangan, seperti membutuhkan daya komputer yang besar untuk data yang besar, menghasilkan hasil yang tidak akurat jika terdapat noise atau outlier, dan sulit diterapkan pada data dengan dimensi atau fitur yang kompleks.Clustering hierarchical terbagi menjadi dua kategori: agglomeratif dan divisif3. Kedua jenis clustering ini dibedakan berdasarkan bagaimana data dikelompokkan untuk membentuk dendrogram dengan cara bottom-up atau top-down. 3. Density—Based Clustering Clustering yang disebut Density (kepadatan) mengelompokkan titik data berdasarkan seberapa padat mereka didistribusikan ke seluruh ruang data, yang memungkinkan divisualisasikan data di masa depan. Karena metode ini efektif dalam menemukan Cluster dalam berbagai bentuk atau ukuran, pendekatan ini sering digunakan dalam bidang seperti pemrosesan gambar dan visi komputer. Kelebihan algoritma ini termasuk kemampuan untuk mengenali kelompok dengan berbagai bentuk dan ukuran, kemampuan untuk mengontrol kebisingan dan outlier, dan kemampuan untuk tidak menetapkan jumlah cluster (k) sebelumnya. Kekurangannya, selain kelebihan, adalah bahwa membutuhkan banyak daya komputer, terutama untuk kumpulan data besar, dan tidak cocok untuk dataset dengan banyak dimensi dan fitur. Algoritma Density-based Spatial Clustering of Application with Noise (DBSCAN) adalah metode clustering yang berbasis kepadatan (density-based) dari posisi amatan data dengan prinsip mengelompokkan


7 data yang relatif berdekatan. DBSCAN sering digunakan pada data dengan banyak suara karena tidak memasukkan data yang dianggap suara ke dalam cluster mana pun.Sebelum memulai proses clustering, DBSCAN memerlukan dua parameter input: epsilon (eps) dan minimum points (minPts). Epsilon adalah jarak terpanjang antara dua data dalam satu cluster yang diizinkan, dan minimum points adalah jumlah data minimal yang ada dalam jarak epsilon yang diperlukan untuk membentuk cluster. DBSCAN menggunakan jarak Euclidian. Selain epsilon dan MinPts ada beberapa terminologi lain dalam metode DBSCAN yaitu : a. directly density-reachable, b. density-reachable, c. core point, d. border point, e. outlier/noise point. 4. Partitioning Around Medoids (PAM) Clustering K-Medoids, juga dikenal sebagai Partitioning Around Method (PAM), adalah metode cluster non-hierarki yang dirancang untuk mengatasi kelemahan metode K-Means yang sensitif terhadap outlier, yaitu fakta bahwa suatu objek dengan nilai yang besar dapat secara signifikan menyimpang dari distribusi data. Metode ini bergantung pada penggunaan medoids daripada mengamati nilai mean setiap cluster, sehingga sensitivitas partisi secara signifikan dikurangi. Algoritma ini menggunakan kumpulan objek yang berfungsi sebagai representasi cluster. Medoids adalah barang-barang yang membentuk kelompok. Medoid merupakan objek yang letaknya


8 terpusat di dalam suatu cluster sehingga robust terhadap outlier. Cluster dibangun dengan menghitung kedekatan yang dimiliki antara medoids dengan objek non medoids. Sama halnya dengan K-Means, metode K-Medoid lebih menguntungkan diterapkan pada data yang sangat besar. Bagaimana Clustering Berfungsi? Algorithm Clustering membagi atau mengelompokkan titik data ke dalam kelompok berdasarkan kemiripan atau kedekatan, tanpa mengetahui alias data apa yang belum diberi label. 1. Preprocessing Data Preprocessing adalah proses sebelum memproses data untuk mempersiapkan data untuk clustering. Contoh proses preprocessing termasuk menurunkan dimensi alias, menyederhanakan data ketika terlalu kompleks, penskalaan atau normalisasi data, membuang atau mengisi nilai yang hilang, dan sebagainya. 2. Memilih Jumlah Cluster (k) Salah satu langkah clustering yang paling penting adalah memilih berapa banyak cluster untuk digunakan atau membagi data menjadi berapa banyak kelompok. Jumlah kuadrat dalam Cluster k, juga dikenal sebagai jumlah kuadrat dalam Cluster (WSS), memberikan pertimbangan grafis antara jumlah Cluster dan jarak antara setiap observasi. Semakin dekat jarak antar setiap observasi, proses clustering menjadi lebih baik. Namun, semakin banyak Cluster, semakin sulit untuk diinterpretasikan karena banyaknya kelompoknya.


9 3. Memilih Teknik Clustering Langkah selanjutnya adalah memilih metode pengelompokan yang paling sesuai dengan data dan masalah yang dihadapi. Metode pengelompokan kmeans, pengelompokan hierarki, dan pengelompokan berbasis densitas adalah yang paling umum digunakan. 4. Menjalankan Algoritma Clustering Clustering algoritma digunakan pada data untuk mengalokasikan setiap titik data ke Cluster setelah algoritma dan jumlah Cluster ditetapkan. Proses ini dilakukan hingga mencapai konvergensi, atau proses optimum. Untuk mencapai konvergensi ini, algoritma biasanya secara iteratif (berulang) mengalokasikan titik data ke Cluster dan memperbarui pusat Cluster. 5. Evaluasi Hasil Hasil algoritma pengelompokan dievaluasi untuk menentukan apakah klaster masuk akal dan dapat memberikan wawasan yang bermanfaat bagi pemangku kepentingan. Umumnya, algoritma pengelompokan dapat memanfaatkan proses visualisasi seperti plot dispersi atau peta panas untuk mempermudah pencarian wawasan dan menilai kinerja pengelompokan. 1. Pemasaran Clustering biasanya digunakan untuk membagi pelanggan menjadi beberapa kelompok berdasarkan preferensi, tindakan, dan demografi mereka.


10 2. Kesehatan Data medis dapat dikelompokkan untuk menemukan kelompok penyakit dan tren dalam industri perawatan kesehatan 3. Keuangan Di sektor keuangan, clustering dapat digunakan untuk menemukan kecurangan dalam transaksi keuangan dengan melihat pola atau outlier dalam data. 4. Media Sosial Menggunakan clustering, pengguna media sosial dapat dikelompokkan menurut minat dan aktivitas mereka. 5. Analisis Gambar dan Video Dalam analisis gambar dan video, clustering dapat digunakan untuk mengelompokkan gambar atau video yang serupa. 1. Memilih Algoritma yang Tepat Memilih algoritma yang tepat untuk data dan masalah yang sedang dipecahkan adalah salah satu tantangan utama dalam clustering. Memilih algoritma yang salah dapat menghasilkan hasil pengelompokan yang tidak sesuai dengan standar dan informasi yang salah. 2. Menangani Data Noisy Data noisy relatif akan mendistorsi hasil Clustering dan menghasilkan wawasan yang keliru. Masalah ini dapat dikurangi dengan penggunaan teknik preprocess-


11 ing termasuk pembersihan data, identifikasi outlier dan pemilihan fitur. 3. Menangani Data Dimensi Tinggi Clustering data yang dimensi tinggi (memiliki fitur atau kolom yang banyak) dapat menjadi masalah karena sulit untuk mengenali pola yang signifikan ketika jumlah karakteristik atau dimensi melebihi jumlah titik data. 4. Menemukan Jumlah Cluster yang Tepat Menemukan jumlah Cluster yang tepat merupakan kesulitan dalam Clustering. Pemilihan jumlah Cluster yang salah akan menimbulkan ketidak-akuratan dan hasil pengelompokan di bawah standar sehingga berpotensi memberikan wawasan yang keliru. 5. Evaluasi Clustering dapat mengungkap pola dan keterkaitan data, tetapi memahami pola dan memastikan relevansinya dapat menjadi tantangan. Visualisasi dan pengetahuan tentang domain seperti bisnis atau terkait dapat membantu menyelesaikan masalah evaluasi.


12 salah satu teknik kunci dalam analisis data yang bertujuan untuk mengelompokkan data ke dalam kelompok atau klaster berdasarkan karakteristik yang serupa. Dengan semakin meningkatnya kompleksitas data yang dihasilkan oleh berbagai bidang seperti ilmu pengetahuan, teknologi, dan bisnis. metode clustering menjadi instrumen penting dalam mengeksplorasi dan memahami pola tersembunyi dalam dataset yang besar dan kompleks. Sebelum memahami berbagai metode clustering, penting untuk memahami prinsip dasar yang mendasari teknik ini. Dasar-dasar metode clustering membentuk landasan konseptual yang diperlukan untuk memahami prinsip dasar di balik teknik-teknik ini. Pada dasarnya, clustering adalah


13 pendekatan analisis data yang bertujuan untuk mengelompokkan data menjadi kelompok atau klaster berdasarkan tingkat kesamaan antarindividu. Berikut adalah penjelasan mendalam tentang dasar-dasar metode clustering: 1. Kesamaan Data Pada intinya, clustering melibatkan identifikasi dan pengelompokan data yang memiliki tingkat kesamaan tertentu. Kesamaan ini dapat diukur menggunakan metrik jarak, seperti Euclidean distance atau cosine similarity, tergantung pada jenis data yang sedang diolah. 2. Tujuan Pemisahan Data Tujuan utama dari metode clustering adalah memisahkan data ke dalam kelompok-kelompok yang memiliki karakteristik serupa. Dengan memisahkan data, analisis lebih mudah dilakukan karena setiap kelompok memiliki pola atau sifat yang relatif serupa. 3. Ketidakseragaman antar-Klaster Klaster yang baik harus memiliki tingkat ketidakseragaman yang tinggi antar-klaster dan tingkat kesamaan yang tinggi di dalam klaster. Ini berarti bahwa data dalam satu klaster seharusnya memiliki karakteristik yang lebih mirip satu sama lain daripada dengan data di klaster lain. 4. Fleksibilitas Metode Metode clustering dapat bersifat parametrik atau non-parametrik. Metode parametrik, seperti K-Means, memiliki parameter yang perlu diatur, seperti jumlah klaster (k). Sementara itu, metode non-parametrik, seperti DBSCAN, dapat lebih fleksibel dalam menangani distribusi data yang tidak diketahui.


14 5. Tujuan Umum Metode Clustering Pada dasarnya, metode clustering bertujuan untuk menemukan struktur tersembunyi dalam data. Ini dapat mencakup pengelompokan geografis, pemisahan berdasarkan preferensi konsumen, atau identifikasi pola dalam data yang kompleks. 6. Representasi Visual Hasil dari metode clustering seringkali dapat diwakili secara visual melalui grafik atau visualisasi klaster. Dendrogram (untuk hierarchical clustering) atau scatter plot (untuk K-Means) adalah contoh representasi visual yang umum digunakan. 7. Pengaruh Inisialisasi Awal Beberapa metode clustering, seperti K-Means, dapat sangat dipengaruhi oleh inisialisasi awal pusat klaster. Oleh karena itu, pemilihan inisialisasi yang baik menjadi penting untuk mendapatkan hasil yang konsisten. Metode clustering menawarkan berbagai pendekatan untuk mengelompokkan data dalam analisis statistik. Setiap jenis metode memiliki keunikannya sendiri, cocok untuk situasi tertentu dan berbagai jenis data. Berikut adalah beberapa jenis metode clustering yang umum digunakan. (Laraswati, 2023) 1. Hierarchical Clustering Hierarchical Clustering adalah suatu metode dalam analisis data yang bertujuan untuk mengelompokkan data ke dalam kelompok atau klaster berdasarkan tingkat kesamaan antarindividu. Metode ini membangun


15 struktur hierarki klaster, yang dapat divisualisasikan dalam bentuk dendrogram (pohon klaster). Terdapat dua pendekatan utama dalam hierarchical clustering: agglomerative (pengelompokan dari bawah ke atas) dan divisive (pengelompokan dari atas ke bawah). Gambar 1. Hierarchical Clustering Metode Hierarchical Clustering memiliki sejumlah kelebihan yang membuatnya menjadi pilihan yang kuat dalam analisis data. Salah satu kelebihan utamanya adalah kemampuannya untuk memberikan struktur hierarki yang dapat divisualisasikan melalui dendrogram. Hal ini memungkinkan pemahaman yang mendalam tentang hubungan hierarkis antar data. Selain itu, Hierarchical Clustering tidak memerlukan penentuan jumlah klaster sebelumnya, yang memberikan fleksibilitas dalam menangani data tanpa informasi sebelumnya tentang struktur klaster yang diharapkan. Metode ini juga cocok untuk data dengan struktur hierarkis yang kompleks, memungkinkan analisis yang lebih rinci tentang hierarki dalam data.


16 Namun, seperti halnya dengan banyak metode analisis, Hierarchical Clustering juga memiliki beberapa kekurangan. Kompleksitas waktu dapat menjadi isu, terutama pada dataset yang besar, karena memerlukan pembaruan matriks jarak pada setiap iterasi, yang dapat mengakibatkan kinerja yang kurang efisien. Selain itu, metode ini cenderung sensitif terhadap outlier dan noise, yang dapat memengaruhi pembentukan klaster secara signifikan. Terakhir, interpretasi dendrogram memerlukan pemahaman yang cermat, karena struktur hierarki yang kompleks dapat memerlukan analisis yang teliti untuk mendapatkan wawasan yang akurat dari data. 2. Partitional clustering Partitional Clustering adalah salah satu jenis metode clustering yang tujuan utamanya adalah memisahkan data menjadi sejumlah klaster tanpa membangun struktur hierarki. Dalam partitional clustering, setiap objek atau data hanya dapat menjadi bagian dari satu klaster pada saat yang bersamaan. Metode ini berbeda dengan hierarchical clustering yang membangun struktur klaster dalam bentuk pohon atau dendrogram. Gambar 2. Partitional clustering Metode partitional clustering memiliki sejumlah kelebihan yang membuatnya menjadi pilihan yang efisien dalam beberapa kasus. Salah satu kelebihannya adalah komputasinya yang relatif lebih cepat disbanding-


17 kan dengan hierarchical clustering. Ini membuatnya lebih cocok untuk data dengan ukuran besar atau kompleksitas tinggi, di mana perhitungan iterative dapat dilakukan secara lebih efisien. Selain itu, partitional clustering memberikan hasil yang lebih baik untuk data yang terdistribusi secara merata atau memiliki bentuk geometris tertentu, karena metode ini tidak mempertimbangkan struktur hierarki dalam pembentukan klaster. Meskipun demikian, partitional clustering juga memiliki kekurangan yang perlu diperhatikan. Salah satu kekurangannya adalah sensitivitas terhadap inisialisasi awal, terutama pada metode seperti K-Means. Pilihan titik awal yang buruk dapat menghasilkan solusi yang konvergen ke minimum lokal yang suboptimal. Selain itu, partitional clustering tidak memberikan gambaran struktur hierarki antar klaster. Ini berarti bahwa dalam konteks partitional clustering, informasi tentang hubungan hierarkis antar klaster tidak dapat diperoleh secara langsung dari hasil analisis, yang dapat menjadi keterbatasan terutama jika struktur hierarkis penting untuk pemahaman data secara keseluruhan. Partitional clustering cocok untuk kasus di mana tujuan utama adalah memisahkan data ke dalam kelompok yang saling eksklusif tanpa mempertimbangkan hierarki. Pemilihan metode partitional clustering harus disesuaikan dengan karakteristik data dan tujuan analisis yang diinginkan. 3. Density-based clustering Density-based clustering adalah suatu metode clustering yang berfokus pada identifikasi klaster berdasarkan kerapatan data. Metode ini mengasumsikan


18 bahwa klaster dapat diidentifikasi oleh kepadatan data yang tinggi, dan daerah yang memiliki kerapatan yang lebih tinggi dibandingkan dengan sekitarnya dianggap sebagai klaster. Salah satu algoritma density-based clustering yang paling terkenal adalah DBSCAN (DensityBased Spatial Clustering of Applications with Noise). Gambar 3. Density-based clustering Density-Based Clustering, seperti yang diimplementasikan dalam algoritma seperti DBSCAN, menawarkan beberapa kelebihan yang membuatnya menjadi pilihan yang efektif dalam mengatasi beberapa tantangan dalam analisis klaster. Pertama, metode ini tahan terhadap bentuk klaster yang beragam, mampu mengidentifikasi dan memisahkan klaster dengan bentuk yang kompleks atau tidak teratur. Kelebihan lainnya adalah ketahanannya terhadap outlier; dengan mampu mengidentifikasi dan mengabaikan noise, pembentukan klaster tidak terpengaruh oleh data yang tidak representatif. Selain itu, Density-Based Clustering tidak memerlukan penentuan jumlah klaster sebelumnya, memberikan fleksibilitas yang berguna terutama ketika struktur data tidak diketahui. Meskipun memiliki kelebihan, Density-Based Clustering juga memiliki beberapa kekurangan. Pertama,


19 metode ini sensitif terhadap parameter seperti nilai ε dan MinPts. Hasil clustering dapat dipengaruhi oleh pemilihan parameter ini, dan menemukan nilai yang optimal bisa menjadi tantangan. Kedua, Density-Based Clustering kesulitan pada data dengan kepadatan yang bervariasi. Pada data yang memiliki variasi tingkat kepadatan yang signifikan, menentukan parameter yang cocok dapat menjadi tugas yang kompleks. Oleh karena itu, pemilihan parameter yang tepat menjadi kunci dalam memaksimalkan keefektifan Density-Based Clustering pada dataset tertentu. Density-based clustering cocok untuk data dengan distribusi kepadatan yang kompleks atau tidak teratur, dan sangat efektif untuk mengidentifikasi klaster dengan bentuk yang beragam. DBSCAN merupakan salah satu algoritma density-based clustering yang sering digunakan dalam praktek. 4. Metode Clustering Lainnya Selain hierarchical clustering, partitional clustering, dan density-based clustering, terdapat berbagai metode clustering lainnya yang dapat digunakan tergantung pada karakteristik data dan tujuan analisis. Beberapa metode clustering lainnya meliputi: a. K-Means Metode K-Means adalah sebuah algoritma clustering dalam machine learning yang cukup populer dan banyak di gunakan. Bertujuan membagi data menjadi k klaster, di mana setiap data termasuk ke dalam klaster yang memiliki pusatnya sendiri.


20 b. K-Medoids Clustering Mirip dengan K-Means, tetapi menggunakan medoids (data yang merupakan pusat klaster sejati) sebagai representasi klaster daripada rata-rata. KMedoids lebih robust terhadap outlier karena medoid lebih tidak sensitif terhadap nilai ekstrem. c. Fuzzy C-Means (FCM) Clustering Memperkenalkan tingkat keanggotaan fuzzy, memungkinkan data untuk termasuk dalam beberapa klaster dengan tingkat keanggotaan yang berbeda. Masing-masing data memiliki bobot keanggotaan untuk setiap klaster, mencerminkan sejauh mana data termasuk dalam klaster tersebut. d. Affinity Propagation Mencari titik-titik yang berfungsi sebagai "exemplars" yang mewakili klaster dan menghitung kemungkinan setiap titik data menjadi exemplar. Memanfaatkan iterasi pesan antara titik-titik untuk menentukan exemplars dan data yang termasuk dalam klaster. e. Spectral Clustering Menggunakan representasi spektral graf untuk membagi data menjadi klaster. Memanfaatkan nilai-nilai eigen dari matriks laplacian graf untuk mengidentifikasi struktur klaster. f. Model-Based Clustering Menggunakan model probabilitas untuk mendeskripsikan distribusi data dalam klaster. Algoritma seperti Expectation-Maximization (EM) digunakan untuk me-


21 nemukan parameter model yang paling cocok dengan data. g. Agglomerative Information Bottleneck (AIB) Menggabungkan konsep agglomerative hierarchical clustering dengan teori informasi untuk mengidentifikasi klaster yang menyimpan sejumlah maksimum informasi. h. Self-Organizing Maps (SOM) Jenis artificial neural network yang digunakan untuk clustering dan visualisasi data dalam bentuk peta dua dimensi. SOM dapat digunakan untuk menemukan struktur yang tersembunyi dalam data. i. Birch (Balanced Iterative Reducing and Clustering using Hierarchies) Metode partitional yang dapat menangani data dalam format streaming. Menggunakan struktur pohon untuk mengurangi jumlah data yang perlu diakses saat proses clustering. Setiap metode clustering memiliki kelebihan dan kekurangan masing-masing, serta cocok untuk jenis data dan skenario analisis tertentu. Pemilihan metode clustering yang tepat tergantung pada karakteristik data, distribusi klaster yang diharapkan, dan tujuan analisis yang ingin dicapai.


22 , adalah suatu teknik analisis data yang bertujuan untuk mengelompokkan objek atau data menjadi kumpulan-kumpulan yang memiliki kesamaan tertentu (Adeline Vinda Septiani et al., 2023). Dalam dunia analisis data dan pembelajaran mesin, clustering memainkan peran penting untuk menemukan pola-pola tersembunyi dalam data yang dapat memberikan wawasan berharga. Tujuan utama dari clustering adalah mengidentifikasi struktur internal dalam data, di mana objek-objek dalam kelompok yang sama memiliki kemiripan yang tinggi, sedangkan objek-objek di kelompok yang berbeda memiliki perbedaan yang signifikan. Salah satu pendekatan yang diterapkan untuk mencapai tujuan ini adalah hierarchical clustering, sebuah metode yang membangun hierarki kelompok dari tingkat paling rendah hingga tingkat tertinggi. Hierarchical clustering memungkinkan pemahaman yang mendalam terhadap


23 hubungan hierarkis antar kelompok, memberikan gambaran yang lebih lengkap tentang struktur dan pola yang ada dalam dataset. Tujuan utama dari hierarchical clustering adalah menyusun data ke dalam suatu hierarki berstruktur pohon, di mana setiap tingkat hierarki merepresentasikan tingkat kesamaan atau perbedaan antara kelompok-kelompok data (Jumadi et al., 2021). Dengan menggunakan metode ini, kita dapat mengidentifikasi hubungan antara kelompok secara bertahap, dari level terendah di mana setiap data merupakan kelompok sendiri, hingga level tertinggi di mana semua data tergabung dalam satu kelompok besar. Hierarchical clustering juga memungkinkan pemilihan tingkat granularitas yang sesuai dengan kebutuhan analisis, memberikan fleksibilitas dalam eksplorasi dan interpretasi struktur data. Dengan cara ini, hierarchical clustering tidak hanya memberikan insight tentang pola kelompok dalam dataset, tetapi juga membantu pengguna memahami hierarki hubungan antara kelompok-kelompok tersebut, memfasilitasi pemahaman yang lebih mendalam tentang kompleksitas data yang dihadapi. Konsep dasar dalam hierarchical clustering melibatkan pembentukan kelompok berdasarkan tingkat kemiripan atau kedekatan antara data (Sartika & Murniati, 2022). Sentral dalam konsep ini adalah pengukuran jarak antara dua data atau kelompok, yang digunakan untuk menentukan cara kelompokkelompok tersebut digabungkan. Jarak antara data dapat diukur dengan berbagai metode, seperti Euclidean distance, Manhattan distance, atau metode-metode lainnya, tergantung pada karakteristik data dan kebutuhan analisis. Sebagai contoh, dalam metode agglomerative clustering, dua data atau kelompok dengan jarak terpendek akan digabungkan pada setiap iterasi, membentuk kelompok yang lebih besar. Konsep dasar ini menciptakan struktur hierarki di mana kelompok-kelompok lebih kecil


24 berkumpul untuk membentuk kelompok yang lebih besar, membentuk pohon atau dendrogram yang merepresentasikan hierarki tersebut. Representasi visual dari hasil hierarchical clustering sering kali menggunakan dendrogram. Dendrogram adalah diagram pohon yang menunjukkan hierarki kelompok dan hubungan antar mereka (Supardi & Kanedi, 2020). Pada dendrogram, setiap simpul mewakili satu kelompok atau satu data, sedangkan cabang-cabangnya menunjukkan cara kelompok-kelompok tersebut digabungkan sepanjang proses clustering. Tinggi cabang pada dendrogram mencerminkan tingkat kesamaan antara kelompok yang digabungkan. Semakin rendah cabangnya, semakin mirip dua kelompok atau data tersebut. Dengan menggunakan dendrogram, pengguna dapat dengan jelas melihat struktur hierarki dan mengidentifikasi tingkat kemiripan antar kelompok-kelompok. Representasi visual ini memudahkan pemahaman dan interpretasi hasil clustering, memungkinkan analis untuk memilih tingkat granularitas yang sesuai dengan kebutuhan analisisnya. Dengan demikian, konsep dasar hierarchical clustering mencakup pengukuran jarak dan representasi visual hierarki untuk menyajikan informasi yang bermakna dari data yang kompleks. Metode agglomerative clustering adalah salah satu pendekatan utama dalam hierarchical clustering yang diterapkan sebagai proses bottom-up (Mahmuda et al., 2017). Pendekatan ini dimulai dengan setiap data dianggap sebagai kelompok terpisah dan secara iteratif menggabungkan kelompok-kelompok yang paling mirip hingga seluruh data tergabung dalam satu kelompok besar. Proses ini berlangsung dalam beberapa tahapan, dan pada setiap tahap,


25 dua kelompok yang memiliki jarak terpendek diukur dengan menggunakan suatu metrik seperti Euclidean distance. Pertama, setiap data dianggap sebagai kelompok terpisah, membentuk N kelompok awal di mana N adalah jumlah data. Selanjutnya, pada setiap iterasi, dua kelompok yang memiliki jarak terpendek diukur dan digabungkan menjadi satu kelompok baru. Proses ini berlanjut hingga hanya ada satu kelompok besar yang mencakup seluruh data (Sidik et al., 2020). Proses penggabungan ini menciptakan suatu dendrogram, yang merepresentasikan hierarki kelompok dan tingkat kemiripan antar mereka. Dalam metode agglomerative clustering, pemilihan metode pengukuran jarak antar kelompok atau data (linkage criteria) memainkan peran kunci. Jenis-jenis linkage criteria, seperti single linkage, complete linkage, dan average linkage, akan mempengaruhi struktur hierarki yang dihasilkan. Single linkage mengukur jarak terpendek antara satu elemen di satu kelompok dengan elemen di kelompok lain, sementara complete linkage mengukur jarak terjauh antara dua kelompok. Average linkage, di sisi lain, mengukur rata-rata jarak antara elemen-elemen dari dua kelompok (Nur et al., 2023). Metode agglomerative clustering sebagai pendekatan bottom-up memberikan fleksibilitas dan dapat diimplementasikan dalam berbagai konteks analisis data untuk mengungkap struktur internal dan hubungan antar kelompok. Proses agglomerative clustering melibatkan beberapa tahapan yang dilakukan secara berurutan untuk membentuk hierarki kelompok dari data. Berikut adalah tahapan-tahapan utama dalam metode ini: 1. Inisialisasi


26 Proses dimulai dengan menganggap setiap data sebagai kelompok terpisah. Setiap kelompok ini diidentifikasi sebagai suatu cluster awal. Dengan demikian, pada awalnya, jumlah cluster sama dengan jumlah data yang ada. 2. Perhitungan Jarak Langkah ini melibatkan pengukuran jarak antara kelompok-kelompok yang ada. Metrik jarak yang digunakan dapat bervariasi tergantung pada jenis clustering dan karakteristik data. Euclidean distance, Manhattan distance, atau metode lain dapat digunakan untuk menghitung seberapa mirip atau berbeda antara dua kelompok. 3. Penggabungan Kelompok Pada tahap ini, dua kelompok yang memiliki jarak terpendek diidentifikasi. Proses ini bisa menggunakan berbagai metode penggabungan (linkage criteria), seperti single linkage, complete linkage, atau average linkage. Dua kelompok tersebut kemudian digabungkan menjadi satu kelompok baru. Sebagai hasilnya, jumlah kelompok berkurang satu setiap kali proses penggabungan dilakukan. 4. Iterasi Tahapan perhitungan jarak dan penggabungan kelompok diulang secara iteratif. Iterasi berlanjut hingga hanya ada satu kelompok besar yang mencakup seluruh data. Pada setiap iterasi, dendrogram yang merepresentasikan hierarki kelompok terus diperbarui. 5. Representasi Visual dan Interpretasi Setelah proses agglomerative clustering selesai, hasilnya dapat direpresentasikan secara visual, terutama melalui dendrogram. Dendrogram memberikan gambar-


27 an hierarki kelompok dan tingkat kemiripan antar mereka. Representasi visual ini membantu analis untuk memahami struktur data dan dapat membimbing interpretasi yang lebih baik terhadap hubungan antar kelompok. Tahapan-tahapan ini memungkinkan agglomerative cluster-ing untuk menghasilkan hierarki kelompok dengan mempertim-bangkan tingkat kesamaan antara kelompokkelompok, sehingga memberikan pemahaman yang lebih mendalam tentang struktur internal data (Jumadi et al., 2021). Metode divisive clustering adalah suatu pendekatan dalam hierarchical clustering yang menerapkan strategi topdown (Kasoqi et al., 2021). Berbeda dengan agglomerative clustering, metode ini dimulai dengan satu kelompok besar yang mencakup seluruh dataset, dan secara iteratif membaginya menjadi kelompok-kelompok yang lebih kecil. Proses ini berlangsung hingga setiap elemen data menjadi satu kelompok terpisah. Pada setiap tahap, kelompok besar dibagi berdasarkan kriteria tertentu, seperti jarak atau atribut yang relevan. Metode ini menghasilkan dendrogram yang merepresentasikan hierarki dari satu kelompok besar hingga kelompok-kelompok terkecil. Perbedaan utama antara metode agglomerative dan divisive clustering terletak pada arah proses pengelompokannya (Afira & Wijayanto, 2021). Metode agglomerative memulai dengan setiap elemen data dianggap sebagai kelompok terpisah, kemudian secara iteratif menggabungkan kelompok-kelompok yang paling mirip. Sementara itu, metode divisive memulai dengan satu kelompok besar yang mencakup seluruh dataset dan secara iteratif membaginya


28 menjadi kelompok-kelompok yang lebih kecil. Dengan kata lain, agglomerative clustering membangun hierarki dari bawah ke atas, sedangkan divisive clustering melakukan sebaliknya, dari atas ke bawah. Kelebihan dan Kelemahan Metode Divisive Clustering, antara lain sebagai berikut (Hutagalung & Sonata, 2021): 1. Kelebihan a. Kontrol Granularitas: Metode divisive clustering memberikan kontrol yang tinggi terhadap tingkat granularitas atau detail hierarki yang dihasilkan. Analis dapat memilih sejauh mana kelompok dibagi menjadi subkelompok, sesuai dengan kebutuhan analisis. b. Pemahaman Hierarki Global: Divisive clustering dapat memberikan pemahaman yang lebih baik tentang struktur hierarki global dalam dataset, terutama ketika terdapat variasi besar dalam karakteristik kelompok. 2. Kelemahan a. Komputasi yang Intensif: Proses pembagian topdown bisa menjadi komputasi yang intensif, terutama pada dataset besar. Ini dapat mengakibatkan kinerja komputasi yang lebih lambat dibandingkan dengan agglomerative clustering. b. Sensitif terhadap Pemilihan Kriteria: Hasil divisive clustering dapat sangat tergantung pada pemilihan kriteria pembagian kelompok. Pemilihan yang tidak tepat dapat menghasilkan hierarki yang kurang informatif atau kurang sesuai dengan struktur data sebenarnya.


29 Pada hierarchical clustering, kriteria yang digunakan untuk menentukan jarak antara dua kelompok yang akan digabungkan sangat mempengaruhi hasil akhir (Sachrrial & Iskandar, 2023). Kriteria ini mencerminkan cara mengukur kesamaan atau perbedaan antara dua kelompok tersebut. Beberapa kriteria umum melibatkan perhitungan jarak antara elemen-elemen individu di dua kelompok, dan pilihan kriteria ini akan memandu proses penggabungan. Jenis-jenis kriteria tersebut melibatkan perbandingan atribut atau hubungan antar elemen dalam kelompok, seperti Euclidean distance atau korelasi antara elemen-elemen. Jenis-jenis Kriteria Penggabungan, seperti Single Linkage, Complete Linkage, dan Average Linkage: 1. Single Linkage: Mengukur jarak antara dua kelompok dengan menggunakan jarak terpendek antara elemenelemen yang berbeda kelompok. Dalam konteks ini, kesamaan antara dua kelompok ditentukan oleh elemen terdekat di antara keduanya. 2. Complete Linkage: Mengukur jarak antara dua kelompok dengan menggunakan jarak terjauh antara elemenelemen yang berbeda kelompok. Dengan kata lain, kesamaan antara dua kelompok ini diukur oleh elemen terjauh di antara keduanya. 3. Average Linkage: Mengukur jarak antara dua kelompok dengan menggunakan rata-rata jarak antara semua pasangan elemen yang berbeda kelompok. Ini memberikan gambaran keseluruhan tentang seberapa mirip dua kelompok secara umum. Pemilihan kriteria penggabungan memiliki dampak langsung pada struktur hierarki yang dihasilkan oleh


30 hierarchical clustering, antara lain sebagai berikut (Thamrin & Wijayanto, 2021): 1. Single Linkage: Cenderung membentuk kelompokkelompok yang longgar terkait dan dapat menghasilkan struktur hierarki yang panjang dan seragam. 2. Complete Linkage: Cenderung membentuk kelompok yang lebih padat dan homogen, menghasilkan struktur hierarki yang kompak dan lebih terfokus. 3. Average Linkage: Memberikan keseimbangan antara single dan complete linkage, menghasilkan hierarki yang relatif seimbang dan mewakili baik kesamaan lokal maupun global. Pemilihan kriteria yang sesuai harus mempertimbangkan karakteristik data dan tujuan analisis, karena masingmasing dapat memberikan hasil clustering yang berbeda dan memberikan wawasan yang berbeda tentang struktur data. Dendrogram adalah salah satu metode yang paling umum digunakan untuk merepresentasikan hierarki clustering secara visual. Dendrogram adalah diagram pohon yang menunjukkan cara kelompok-kelompok atau data terbagi dan digabungkan selama proses clustering. Setiap simpul pada dendrogram mewakili satu kelompok atau data, sementara cabang-cabangnya menunjukkan cara kelompok-kelompok tersebut digabungkan. Tinggi dari cabang mencerminkan tingkat kesamaan atau perbedaan antar kelompok. Dengan menggunakan warna, garis, atau variasi lainnya, dendrogram memberikan representasi visual yang intuitif tentang hierarki


31 dan struktur internal dari data. Berikut contoh bentuk dendogram: Gambar 1. Dendogram Hasil Analisis Cluster (Puspita & Angella, 2014) Interpretasi dendrogram melibatkan analisis struktur pohon untuk memahami hubungan hierarkis antar kelompok. Titik persimpangan antara cabang-cabang pada dendrogram mencerminkan titik di mana kelompokkelompok tersebut digabungkan. Tinggi dari titik persimpangan tersebut menunjukkan tingkat kesamaan antar kelompok. Kelompok yang memiliki titik persimpangan yang lebih rendah memiliki kesamaan yang lebih tinggi. Dengan membaca dendrogram dari atas ke bawah, analis dapat mengidentifikasi kelompok-kelompok yang memiliki kemiripan dan memahami sejauh mana tingkat kemiripan tersebut. Representasi visual, seperti dendrogram, memberikan alat yang sangat berguna untuk membantu pemahaman dan pengambilan keputusan dalam analisis data clustering. Visualisasi hierarki memungkinkan analis untuk dengan cepat mengidentifikasi kelompok-kelompok yang memiliki tingkat kesamaan tertentu. Selain itu, representasi visual ini juga dapat membantu dalam penentuan tingkat granularitas


32 yang sesuai untuk analisis lebih lanjut. Pemahaman visual tentang hubungan hierarkis antar kelompok memungkinkan pengguna untuk membuat keputusan yang lebih baik terkait dengan struktur data, seperti pengidentifikasian kelompok yang paling relevan atau pengenalan pola-pola khusus yang mungkin terlewatkan dalam analisis lainnya. Dengan demikian, visualisasi hierarki clustering memberikan wawasan yang kuat dan dapat membimbing proses pengambilan keputusan.


33 (Klustering berbasis kepadatan) adalah tipe algoritma pengelompokan yang mengelompokkan titik-titik data berdasarkan tingkat kepadatan mereka di dalam ruang fitur. Berbeda dengan pendekatan konvensional yang mengasumsikan adanya batas yang jelas untuk kelompok, metode pengelompokan berbasis kepadatan mengenali daerah-daerah di ruang data di mana titik-titik data cenderung lebih terkonsentrasi. Salah satu algoritma pengelompokan berbasis kepadatan yang terkenal adalah DBSCAN (Density-Based Spatial Clustering of Applications with Noise). DBSCAN mendefinisikan kelompok sebagai wilayah kontinu kepadatan titik data tinggi yang terpisah oleh area kepadatan yang lebih rendah. Ini bekerja dengan


34 mengidentifikasi "titik inti" yang memiliki jumlah tetangga yang cukup dalam radius yang ditentukan. Titik-titik yang bukan titik inti tetapi berada dalam radius titik inti dianggap bagian dari kelompok yang sama. Selain itu, titik-titik yang bukan titik inti dan tidak memiliki jumlah tetangga yang cukup dianggap sebagai noise. Density-Based Clustering (Klastering berbasis kepadatan ) bermanfaat untuk data set yang memiliki pola yang tidak teratur dan variasi kepadatan yang berbeda-beda. Metode ini dapat mengatasi data yang berbeda kepadatannya dan mampu menemukan kelompok dengan bentuk yang beragam tanpa memerlukan asumsi jumlah kelompok sebelumnya. Teknik tambahan dalam klastering berbasis kepadatan akan dibahas tentang efisiensi, penemuan klasters pada subruangsubruang, dan permodelan kepadatan yang lebih akurat. Pertama-tama, kita pertimbangkan klastering berbasis sel kotak (grid), yang memecah kelompok data ke dalam bentuk sel kotak-sel kotak dan membentuk klaster-klaster dari sel-sel tersebut sehingga menjadi cukup padat. Pendekatan ini dapat menjadi efisien dan sekaligus efektif, sekurang-kurangnya untuk data yang tersusun pada dimensi rendah (low- dimensional). Selanjutnya, kita pertimbangkan klastering subruang, yang mencari dan menemukan klaster-klaster (wliayah padat) pada semua tingkat dimensi subhimpunan. Untuk satu ruang data dengan n-dimensi, akan terdapat peluang sebanyak 2n -1 subruang yang harus dicari, dengan demikian dibutuhkan teknik efisien untuk melakukannya. CLIQUE adalah algoritma klastering berbasis sel kotak (grid) yang menyediakan pendekatan efisien bagi klastering subruang berbasis pada observasi bahwa wilayah-wilayah padat pada ruang


35 berdimensi tinggi berimplikasi pada adanya wilayah-wilayah padat pada ruang berdimensi rendah. DENCLUE, suatu teknik klastering yang memanfaatkan fungsi kernel padat untuk menyusun model kepadatan sebagai jumlahan pengaruh (influences) objek data masing-masing. Kendati DENCLUE bukanlah teknik berbasis sel kotak, ia melibatkan pendekatan berbasis sel kotak untuk meningkatkan efisiensi. Kotak (grid) adalah suatu cara efisien membangun organisasi himpunan data, sekurang-kurangnya pada dimensidimensi rendah. Gagasannya adalah memecah nilai-nilai masing-masing atribut yang mungkin ke dalam sejumlah interval-interval tetangga, sehingga menghasilkan himpunan sel kotak-sel kotak. (kita mengasumsikan dalam diskusi tentang hal ini dan selanjutnya bahwa atribut-atribut ini ordinal (berurutan), merupakan interval atau kontinu). Masing-masing objek berada pada sel kotak yang interval atribut yang bersesuaiannya mengandung nilai objek tersebut. Objek-objek dapat dirujuk pada sel kotak-sel kotak dalam satu laluan (pass) melalui data, dan informasi masingmasing sel, seperti banyaknya poin dalam sel, dapat dikumpulkan bersamaan pada saat yang sama. Terdapat banyak cara menjalankan klastering menggunakan sel kotak, tetapi kebanyakan pendekatan didasarkan pada kepadatan, sekurang-kurangnya dalam bentuk bagian, dengan demikian pada subbab ini, kita akan gunakan GBC sebagai klastering berbasis kepadatan (DBC) menggunakan suatu sel kotak. Algoritma 5.1 menggambarkan pendekatan


36 dasar untuk klastering berbasis sel kotak (GBC). Berbagai aspek dari pendekatan ini akan dipelajari. Algoritma klastering berbasis sel kotak (GBC) 1. Definisikan sebuah himpunan sel kotak-sel kotak. 2. Tempatkan objek-objek ke sel-sel yang bersesuaian dan hitung masing-masing kepadatannya. 3. Hilangkan sel-sel yang memiliki kepadatan di bawah ambang, . 4. Bentuk klaster dari grup-grup sel-sel padat tetangga yang berdekatan. Density-Based Clustering (DBSCAN) dan algoritma klastering berbasis sel kotak (Grid-Based Clustering/GBC) adalah dua pendekatan yang berbeda dalam klastering berdasarkan kepadatan, tetapi keduanya berusaha menangani tantangan yang sama. 1. DBSCAN (Density-Based Spatial Clustering of Applications with Noise) a. Prinsip: DBSCAN mengidentifikasi klaster berdasarkan kepadatan di sekitar titik-titik data. Ia mengenali wilayah-wilayah yang padat dengan memisahkan titik-titik yang cukup rapat dan menangani area kepadatan rendah sebagai noise. b. Kelebihan: Tahan terhadap bentuk dan ukuran yang beragam, serta mampu menangani outlier. 2. Klastering Berbasis Sel Kotak (GBC): a. Prinsip: GBC membagi ruang data menjadi sel-sel kotak dan membentuk klaster-klaster dari sel-sel tersebut. Pendekatan ini dapat efisien untuk menangani klaster dalam ruang berdimensi tinggi dengan memecahnya menjadi dimensi yang lebih rendah.


37 b. Kelebihan: Efisien terutama untuk data berdimensi tinggi, mengurangi kompleksitas pencarian klaster dengan membagi ruang data menjadi sel kotak. Hubungan Antara Kedua Metode Tersebut: Meskipun DBSCAN dan GBC adalah pendekatan yang berbeda, keduanya dapat saling melengkapi atau digunakan bersama untuk mencapai hasil yang lebih baik. Sebagai contoh, beberapa penelitian mengintegrasikan prinsip-prinsip GBC ke dalam algoritma DBSCAN atau menggunakan konsep ruang berdimensi rendah dari GBC untuk meningkatkan efisiensi DBSCAN pada data berdimensi tinggi. Dengan demikian, sementara keduanya memiliki fokus yang berbeda, yaitu DBSCAN pada identifikasi kepadatan titik-titik data dan GBC pada pembagian ruang menjadi sel kotak, ada potensi untuk mengkombinasikan elemen-elemen dari keduanya untuk meningkatkan kinerja klastering berbasis kepadatan. Sisi baiknya, klustering berbasis sel kotak dapat menjadi efisien dan efektif. Dengan adanya perlakuan partisi setiap atribut, suatu akses tunggal ke data dapat menentukan selkotak setiap objek dan banyaknya kotak-kotak. Demikian pula, kendati banyaknya sel-kotak sel-kotak yang potensial tinggi, sel-kotak sel-kotak perlu diciptakan hanya jika merupakan sel tidak kosong. Oleh karena itu, kompleksitas waktu dan ruang ketika mendefinisikan kotak, menetapkan masing-masing objek ke masing-masing sel, dan menghitung kepadatan tiap sel hanyalah , di mana adalah banyaknya titik. Jika sel-sel terisi bertetangga, dapat diakses secara efisien, contohnya, dengan menggunakan pohon


38 pencarian , maka seluruh proses klastering menjadi sangat efisien, misalnya dengan kompleksitas waktu . Untuk alasan inilah, pendekatan sel-kotak untuk klastering kepadatan membentuk landasan bagi algoritmaalgoritma seperti STING, GRIDCLUS, WaveCluster, Bang_Clustering, CLIQUE dan MAFIA. Sisi buruknya, klustering sel-kotak, seperti kebanyakan skema-skema klastering berbasis kepadatan sangat tergantung kepada pilihan ambang laluan , yang bekerja. Dapat ditemukan dalam berbagai bidang, terutama ketika kita memiliki dataset dengan kepadatan yang beragam dan kelompok yang tidak beraturan. Berikut adalah contoh kasus aplikasi DBSCAN: Kasus Aplikasi: Pemantauan Aktivitas Pengguna di Aplikasi Mobile Deskripsi Kasus: Sebuah perusahaan mengelola aplikasi mobile yang digunakan oleh pengguna untuk berbagai aktivitas, seperti berbelanja online, membaca berita, dan menonton video. Perusahaan ingin memahami pola perilaku pengguna dan mengidentifikasi kelompok pengguna dengan perilaku serupa. Cara Penerapan DBSCAN: 1. Data Pengguna: Mengumpulkan data terkait aktivitas pengguna, seperti waktu sesi, frekuensi penggunaan, dan jenis aktivitas yang dilakukan. 2. Representasi Data: Mengkonversi data aktivitas pengguna ke dalam representasi spasial di ruang fitur,


Click to View FlipBook Version