The words you are searching are inside this book. To get more targeted content, please make full-text search by clicking here.

Clustering adalah teknik dalam analisis data yang digunakan untuk mengelompokkan objek-objek data menjadi kelompok-kelompok yang serupa berdasarkan kesamaan karakteristik atau atribut mereka. Tujuan utama clustering adalah menemukan pola atau struktur tersembunyi dalam data tanpa menggunakan label kelas sebelumnya.

Dalam buku ini, pembaca akan diperkenalkan pada konsep dasar clustering, metode-metode yang umum digunakan, dan algoritma-algoritma yang efektif untuk melakukan clustering. Buku ini juga membahas berbagai masalah dan tantangan yang dihadapi dalam clustering, seperti pemilihan jumlah kelompok yang optimal, menangani data yang tidak lengkap atau noisy, serta memilih metrik jarak yang sesuai.

Pembaca akan mempelajari tentang teknik-teknik clustering yang populer, seperti k-means, hierarchical clustering, DBSCAN, dan masih banyak lagi. Buku ini juga akan membahas strategi evaluasi clustering yang dapat digu- nakan untuk mengukur kualitas dan keefektifan hasil clustering.

Dengan pemahaman yang mendalam tentang clustering, pembaca akan dapat mengaplikasikan teknik ini dalam berbagai bidang, seperti analisis data bisnis, pengelompokan konsumen, pengenalan pola dalam citra atau teks, dan banyak lagi. Buku ini juga akan memberikan contoh nyata dan studi kasus yang mengilustrasikan penggunaan clustering dalam berbagai konteks.

Penulis buku ini berharap bahwa pembaca akan mendapatkan pemahaman yang kuat tentang clustering dan mampu mengaplikasikan teknik ini dengan baik dalam analisis data mereka. Diharapkan buku ini akan menjadi panduan yang berharga dan bermanfaat bagi para peneliti, praktisi, dan mahasiswa yang tertarik dalam analisis data dan pengelompokan objek data.

Discover the best professional documents and content resources in AnyFlip Document Base.
Search
Published by penamudamedia, 2024-06-02 22:06:10

CLUSTERING

Clustering adalah teknik dalam analisis data yang digunakan untuk mengelompokkan objek-objek data menjadi kelompok-kelompok yang serupa berdasarkan kesamaan karakteristik atau atribut mereka. Tujuan utama clustering adalah menemukan pola atau struktur tersembunyi dalam data tanpa menggunakan label kelas sebelumnya.

Dalam buku ini, pembaca akan diperkenalkan pada konsep dasar clustering, metode-metode yang umum digunakan, dan algoritma-algoritma yang efektif untuk melakukan clustering. Buku ini juga membahas berbagai masalah dan tantangan yang dihadapi dalam clustering, seperti pemilihan jumlah kelompok yang optimal, menangani data yang tidak lengkap atau noisy, serta memilih metrik jarak yang sesuai.

Pembaca akan mempelajari tentang teknik-teknik clustering yang populer, seperti k-means, hierarchical clustering, DBSCAN, dan masih banyak lagi. Buku ini juga akan membahas strategi evaluasi clustering yang dapat digu- nakan untuk mengukur kualitas dan keefektifan hasil clustering.

Dengan pemahaman yang mendalam tentang clustering, pembaca akan dapat mengaplikasikan teknik ini dalam berbagai bidang, seperti analisis data bisnis, pengelompokan konsumen, pengenalan pola dalam citra atau teks, dan banyak lagi. Buku ini juga akan memberikan contoh nyata dan studi kasus yang mengilustrasikan penggunaan clustering dalam berbagai konteks.

Penulis buku ini berharap bahwa pembaca akan mendapatkan pemahaman yang kuat tentang clustering dan mampu mengaplikasikan teknik ini dengan baik dalam analisis data mereka. Diharapkan buku ini akan menjadi panduan yang berharga dan bermanfaat bagi para peneliti, praktisi, dan mahasiswa yang tertarik dalam analisis data dan pengelompokan objek data.

39 misalnya, dengan menggunakan metode vektorisasi seperti Word2Vec untuk mewakili pola aktivitas. 3. Penerapan DBSCAN: Menggunakan algoritma DBSCAN untuk mengelompokkan pengguna berdasarkan kepadatan aktivitas mereka. DBSCAN akan menemukan kelompok pengguna yang sering melakukan aktivitas bersama atau berdekatan dalam ruang fitur. 4. Identifikasi Kelompok: a. Kelompok Utama: DBSCAN dapat mengidentifikasi kelompok pengguna yang memiliki pola aktivitas yang serupa, seperti sering berbelanja online dan menonton video hiburan. b. Kelompok Minor: DBSCAN juga dapat menemukan kelompok-kelompok kecil yang mungkin memiliki perilaku unik, seperti pengguna yang lebih fokus pada membaca berita. 5. Analisis Hasil: Analisis hasil klastering untuk mendapatkan wawasan tentang preferensi dan kebiasaan pengguna. Perusahaan dapat menggunakan informasi ini untuk menyusun strategi pemasaran yang lebih terarah atau meningkatkan pengalaman pengguna. Melalui penerapan DBSCAN pada data aktivitas pengguna, perusahaan dapat memahami lebih baik bagaimana kelompok pengguna berinteraksi dengan aplikasi, mempersonalisasi layanan, dan meningkatkan retensi pengguna dengan menyesuaikan strategi berdasarkan perilaku kelompok. Pada segmentasi citra adalah aplikasi yang umumnya digunakan untuk mengelompokkan piksel-piksel dalam citra berdasarkan tingkat kepadatan mereka. Berikut adalah


40 langkah-langkah umum dalam implementasi Density-Based Clustering pada segmentasi citra: 1. Pemilihan Citra: Memilih citra yang akan di-segmentasi. Citra ini dapat berupa citra berwarna atau citra keabuan, tergantung pada tujuan segmentasi. 2. Representasi Data: Mengonversi citra menjadi format yang sesuai untuk analisis kepadatan. Pada umumnya, setiap piksel citra direpresentasikan sebagai vektor dalam ruang fitur berdasarkan nilai intensitas warna atau atribut lainnya. 3. Penerapan DBSCAN: Menggunakan algoritma Density-Based Clustering, seperti DBSCAN, untuk mengelompokkan piksel-piksel citra berdasarkan kepadatan mereka. DBSCAN akan mengidentifikasi wilayah-wilayah dengan kepadatan piksel yang tinggi. 4. Penentuan Parameter: Menentukan parameter seperti radius (eps) dan jumlah minimum piksel dalam sekelompok (minPts) untuk DBSCAN. Nilai-nilai ini akan memengaruhi bagaimana kepadatan diukur dan seberapa besar sebuah kelompok. 5. Segmentasi Citra: Hasil dari DBSCAN dapat diinterpretasikan sebagai segmen atau kelompok piksel yang memiliki tingkat kepadatan yang tinggi. Setiap segmen mewakili objek atau fitur dalam citra. 6. Post-Processing (Jika Diperlukan): Melakukan langkah-langkah post-processing, seperti penggabungan segmen kecil atau penghapusan segmen yang terlalu kecil, untuk memperbaiki hasil segmentasi.


41 7. Analisis Hasil: Menganalisis hasil segmentasi untuk mendapatkan informasi yang berguna, tergantung pada tujuan aplikasi. Misalnya, jika citra medis, hasil segmentasi dapat digunakan untuk mendeteksi tumor atau organ-organ tertentu. 8. Visualisasi Hasil: Menampilkan hasil segmentasi secara visual pada citra asli untuk evaluasi dan pemahaman yang lebih baik. Implementasi Density-Based Clustering pada segmentasi citra memberikan keuntungan dalam menangani kelompokkelompok dengan kepadatan yang berbeda-beda, serta kemampuan untuk menangani bentuk kelompok yang tidak teratur. Hal ini membuatnya efektif dalam banyak aplikasi, termasuk pengolahan citra medis, analisis citra satelit, dan visi komputer. Berikut contoh hasil penelitian dari Jurnal tentang Density-Based Clustering : Gambar 1. Hasil Segmentasi Desnsity-Based Clustering (Heningtyas,2022)


42 Dari Gambar 1. Segmentasy Density-Based Clustering dari spesies Betta Fish dibandingkan dengan segmentasi manual akurasi tertinggi mendekati 100%, yaitu 99,5581%


43 adalah paradigma dalam pembelajaran mesin yang, berbeda dengan pembelajaran yang diawasi dan pembelajaran semi-supervisi , algoritme mempelajari pola secara eksklusif dari data yang tidak berlabel. Tugas jaringan saraf sering dikategorikan sebagai diskriminatif (pengenalan) atau generatif (imajinasi). Seringkali tetapi tidak selalu, tugas-tugas diskriminatif menggunakan metode yang diawasi dan tugas generatif menggunakan metode yang tidak diawasi (lihat diagram Venn ); Namun, pemisahannya sangat kabur. Misalnya,


44 pengenalan objek mendukung pembelajaran yang diawasi tetapi pembelajaran tanpa pengawasan juga dapat mengelompokkan objek ke dalam kelompok. Selain itu, seiring dengan kemajuan yang terjadi, beberapa tugas menggunakan kedua metode tersebut, dan beberapa tugas berpindah dari satu metode ke metode lainnya. Misalnya, pengenalan gambar dimulai dengan pengawasan ketat, namun menjadi hibrid dengan menerapkan pra-pelatihan tanpa pengawasan, dan kemudian beralih ke pengawasan lagi dengan munculnya dropout , ReLU , dan kecepatan pembelajaran adaptif . 1. Tugas vs Metode Kecenderungan suatu tugas menggunakan metode yang diawasi vs. tidak diawasi. Nama tugas yang mengangkangi batas lingkaran memang disengaja. Hal ini menunjukkan bahwa pembagian tugas imajinatif klasik (kiri) yang menggunakan metode tanpa pengawasan tidak jelas dalam skema pembelajaran saat ini. 2. Pelatihan Selama fase pembelajaran, jaringan tanpa pengawasan mencoba meniru data yang diberikan dan mengguna-


45 kan kesalahan dalam keluaran yang ditirunya untuk mengoreksi dirinya sendiri (yaitu memperbaiki bobot dan biasnya). Kadang-kadang kesalahan dinyatakan sebagai kemungkinan rendah terjadinya kesalahan keluaran, atau dapat dinyatakan sebagai keadaan energi tinggi yang tidak stabil dalam jaringan. Berbeda dengan metode terawasi yang dominan menggunakan propagasi mundur , pembelajaran tanpa pengawasan juga menggunakan metode lain termasuk: aturan pembelajaran Hopfield, aturan pembelajaran Boltzmann, Divergensi Kontrasif , Tidur Bangun , Inferensi Variasi , Kemungkinan Maksimum , A Posteriori Maksimum , Pengambilan Sampel Gibbs , dan kesalahan rekonstruksi propagasi mundur atau reparameterisasi keadaan tersembunyi . Lihat tabel di bawah untuk lebih jelasnya. 3. Energi Fungsi energi adalah ukuran makroskopis dari keadaan aktivasi jaringan. Di mesin Boltzmann, ini memainkan peran fungsi Biaya. Analogi fisika ini terinspirasi oleh analisis Ludwig Boltzmann tentang energi makroskopis gas dari probabilitas mikroskopis gerak partikel , dengan k adalah konstanta Boltzmann dan T adalah suhu. Dalam jaringan RBM relasinya adalah [1] di mana bervariasi pada setiap kemungkinan pola aktivasi dan Lebih tepatnya, dimana pola aktivasi semua neuron (terlihat dan tersembunyi). Oleh karena itu, jaringan saraf awal diberi nama Mesin Boltzmann. Paul Smolensky menyebut Sebuah jaringan mencari energi rendah yang merupakan Harmoni tinggi.


46 4. Jaringan Tabel ini menunjukkan diagram koneksi berbagai jaringan tanpa pengawasan, yang rinciannya akan diberikan di bagian Perbandingan Jaringan. Lingkaran adalah neuron dan tepi di antara keduanya adalah bobot koneksi. Seiring perubahan desain jaringan, fitur ditambahkan untuk mengaktifkan kemampuan baru atau dihapus untuk membuat pembelajaran lebih cepat. Misalnya, neuron berubah antara deterministik (Hopfield) dan stokastik (Boltzmann) untuk menghasilkan keluaran yang kuat, bobot dihilangkan dalam satu lapisan (RBM) untuk mempercepat pembelajaran, atau koneksi dibiarkan menjadi asimetris (Helmholtz). Jaringan berdasarkan domain magnetik pada besi dengan satu lapisan yang terhubung sendiri. Ini dapat digunakan sebagai memori beralamat konten.


47 Jaringan dipisahkan menjadi 2 lapisan (tersembunyi vs terlihat), namun tetap menggunakan bobot 2 arah simetris. Mengikuti termodinamika Boltzmann, probabilitas individu menimbulkan energi makroskopis. Mesin Boltzmann Terbatas. Ini adalah mesin Boltzmann di mana koneksi lateral dalam suatu lapisan dilarang untuk membuat analisis dapat dilakukan. Jaringan ini memiliki beberapa RBM untuk menyandikan hierarki fitur tersembunyi. Setelah satu RBM dilatih, lapisan tersembunyi biru lainnya (lihat RBM kiri) ditambahkan, dan 2 lapisan teratas dilatih sebagai RBM merah & biru. Oleh karena itu, lapisan tengah RBM


48 bertindak sebagai tersembunyi atau terlihat, bergantung pada fase pelatihan yang dilakukannya. Dari jaringan yang memuat nama orang, hanya Hopfield yang bekerja secara langsung dengan jaringan saraf. Boltzmann dan Helmholtz muncul sebelum jaringan saraf tiruan, namun karya mereka di bidang fisika dan fisiologi menginspirasi metode analisis yang digunakan. 5. Sejarah 1969 Perceptrons oleh Minsky & Papert menunjukkan perceptron tanpa lapisan tersembunyi gagal pada XOR tahun 1970- an (perkiraan tanggal) Musim dingin AI pertama 1974 Ising diusulkan oleh WA Little [ de ] untuk kognisi 1980 Fukushima memperkenalkan neocognitron , yang kemudian disebut jaringan saraf konvolusional . Ini sebagian besar digunakan di SL, tetapi patut disebutkan di sini. 1982 Ising Jaring Hopfield digambarkan sebagai CAM dan pengklasifikasi oleh John Hopfield. 1983 Ising dengan neuron probabilistik yang dijelaskan oleh Hinton & Sejnowski mengikuti karya Sherington & Kirkpatrick tahun 1975.


49 1986 Paul Smolensky menerbitkan Harmony Theory, yaitu RBM dengan fungsi energi Boltzmann yang praktis sama. Smolensky tidak memberikan skema pelatihan praktis. Hinton melakukannya pada pertengahan tahun 2000- an. 1995 Schmidthuber memperkenalkan neuron LSTM untuk bahasa. 1995 Dayan & Hinton memperkenalkan mesin Helmholtz 1995- 2005 _ (perkiraan tanggal) Musim dingin AI kedua 2013 Kingma , Rezende , & rekan. memperkenalkan Variasi Autoencoder sebagai jaringan probabilitas grafis Bayesian, dengan jaringan saraf sebagai komponennya. Di sini, kami menyoroti beberapa karakteristik jaringan terpilih. Rincian masing-masing diberikan dalam tabel perbandingan di bawah ini. 1. Jaringan Hopfield Ferromagnetisme menginspirasi jaringan Hopfield. Sebuah neuron berhubungan dengan domain besi dengan momen magnet biner Atas dan Bawah, dan koneksi saraf berhubungan dengan pengaruh domain satu sama lain. Koneksi simetris memungkinkan


50 formulasi energi global. Selama inferensi, jaringan memperbarui setiap status menggunakan fungsi langkah aktivasi standar. Bobot simetris dan fungsi energi yang tepat menjamin konvergensi ke pola aktivasi yang stabil. Bobot asimetris sulit untuk dianalisis. Jaring Hopfield digunakan sebagai Content Addressable Memories (CAM). 2. Mesin Boltzmann Ini adalah jaring Hopfield stokastik. Nilai statusnya diambil sampelnya dari pdf ini sebagai berikut: misalkan sebuah neuron biner menyala dengan probabilitas Bernoulli p( 1) = 1/3 dan berhenti di p(0) = 2/3. Salah satu sampelnya adalah dengan mengambil bilangan acak y yang terdistribusi seragam , dan memasukkannya ke dalam fungsi distribusi kumulatif terbalik , yang dalam hal ini adalah fungsi langkah yang dibatasi pada 2/3. Fungsi invers = { 0 jika x <= 2/3, 1 jika x > 2/3 }. 3. Jaring Sigmoid Diperkenalkan oleh Radford Neal pada tahun 1992, jaringan ini menerapkan ide-ide dari model grafis probabilistik ke jaringan saraf. Perbedaan utamanya adalah bahwa node dalam model grafis memiliki makna yang telah ditetapkan sebelumnya, sedangkan fitur neuron Believe Net ditentukan setelah pelatihan. Jaringan adalah grafik asiklik berarah yang terhubung jarang dan terdiri dari neuron stokastik biner. Aturan pembelajaran berasal dari Kemungkinan Maksimum pada p(X): Δw ij s j * ( s i - pi ) , dimana pi = 1 / ( 1 + e input berbobot ke dalam neuron i ). s j adalah aktivasi dari sampel distribusi posterior yang tidak bias dan ini menjadi


51 masalah karena masalah Menjelaskan Jauh yang diangkat oleh Judea Perl . Metode Variasi Bayesian menggunakan posterior pengganti dan secara terangterangan mengabaikan kerumitan ini. 4. Deep Belief Network Diperkenalkan oleh Hinton, jaringan ini merupakan gabungan dari RBM dan Sigmoid Belief Network. 2 lapisan teratas adalah RBM dan lapisan kedua di bawah membentuk jaringan kepercayaan sigmoid. Seseorang melatihnya dengan metode RBM bertumpuk dan kemudian membuang bobot pengenalan di bawah RBM teratas. Pada tahun 2009, 3-4 lapisan tampaknya merupakan kedalaman optimal. [2] 5. Mesin Helmholtz Ini adalah inspirasi awal untuk Variational Auto Encoder. Ini adalah 2 jaringan yang digabungkan menjadi satu—bobot ke depan mengoperasikan pengenalan dan bobot ke belakang mengimplementasikan imajinasi. Ini mungkin jaringan pertama yang melakukan keduanya. Helmholtz tidak bekerja dalam pembelajaran mesin tetapi dia mengilhami pandangan "mesin inferensi statistik yang fungsinya untuk menyimpulkan kemungkinan penyebab masukan sensorik". [3] neuron biner stokastik mengeluarkan probabilitas bahwa statusnya adalah 0 atau 1. Masukan data biasanya tidak dianggap sebagai lapisan, tetapi dalam mode pembangkitan mesin Helmholtz, lapisan data menerima masukan dari lapisan tengah dan memiliki bobot terpisah untuk tujuan ini, jadi itu dianggap lapisan. Oleh karena itu jaringan ini memiliki 3 lapisan.


52 6. Variasi autoencoder Ini terinspirasi oleh mesin Helmholtz dan menggabungkan jaringan probabilitas dengan jaringan saraf. Autoencoder adalah jaringan CAM 3 lapis, di mana lapisan tengah seharusnya merupakan representasi internal dari pola masukan . Jaringan saraf encoder adalah distribusi probabilitas q φ ( z diberikan x) dan jaringan decoder adalah p θ (x diberikan z). Anak timbangan diberi nama phi & theta, bukan W dan V seperti di Helmholtz—sebuah perbedaan kosmetik. 2 jaringan disini bisa terkoneksi penuh, atau menggunakan skema NN lain.


lapangan hop Boltzmann RBM RbPenggunaa n & tokoh terkemuka CAM, masalah penjual keliling kamera. Kebebasan koneksi membuat jaringan ini sulit untuk dianalisis. pola . digunakan dalam digit dan ucapan MNIST. pimdptpdpnsaraf keadaan biner deterministik . Aktivasi = { 0 (atau -1) jika x negatif, 1 jika tidak } neuron Hopfield biner stokastik ← sama . (diperluas menjadi nilai riil pada pertengahan tahun 2000an) ←


53 RBM bertumpuk Helmholtz Pembuat enkode otomatis VAE pengakuan & majinasi. dilatih dengan pra-pelatihan anpa pengawasan dan/atau penyempurnaa n yang diawasi. imajinasi, mimikri bahasa : penulisan kreatif, terjemahan. visi: meningkatka n gambar buram menghasilkan data yang realistis ← sama ← sama bahasa : LSTM. visi : bidang reseptif lokal. biasanya aktivasi relu tengah mengkodekan mean & varians untuk Gaussian. Dalam mode run


54 Koneksi 1 lapis dengan bobot simetris. Tidak ada koneksi mandiri. 2 lapisan. 1- tersembunyi & 1-terlihat. bobot simetris . ← sama . tidak ada koneksi lateral di dalam lapisan. absl2a


bernilai nyata . (inferensi), output dari lapisan tengah adalah nilai sampel dari Gaussians. atas tidak berarah, simetris. apisan lainnya 2 arah, asimetris. 3 lapis: beban asimetris. 2 jaringan digabungkan menjadi 1. 3 lapisan. Masukan dianggap sebagai lapisan meskipun tidak memiliki bobot masuk. lapisan berulang untuk NLP. konvolusi umpan maju untuk visi. input & 3 lapisan: input, encoder, decoder sampler distribusi. sampler tidak dianggap sebagai lapisan


Inferensi & energi Energi diberikan oleh ukuran probabilitas Gibbs : ← sama ← sama Pelatihan Δw ij = s i * s j , untuk +1/-1 neuron Δw ij = e*( p ij - p' ij ). Hal ini didapat dari meminimalis ir KLD. e = kecepatan pembelajaran , p' = prediksi dan p = distribusi Δw ij = e* ( < v i h j > data - < vi h j > keseimbangan ). Ini adalah bentuk divergensi kontrastif dengan Gibbs Sampling. "<>" adalah ←1spksdlisa


55 output memiliki jumlah neuron yang sama. meminimalka n divergensi KL inferensi hanyalah umpan maju. jaringan UL sebelumnya berjalan maju DAN mundur meminimalka n kesalahan = kesalahan rekonstruksi - KLD ← serupa . latih 1 lapis sekaligus. perkiraan keadaan setimbang dengan intasan 3 segmen. tidak ada propagasi pelatihan bangun-tidur 2 fase kembali menyebarka n kesalahan rekonstruksi parameterisas i ulang keadaan tersembunyi untuk backprop


56 aktual. ekspektasi. bKekuatan menyerupai sistem fisik sehingga mewarisi persamaanny a ← sama . neuron tersembunyi bertindak sebagai representasi internal dari dunia luar skema pelatihan yang lebih cepat dan lebih praktis daripada mesin Boltzmann bdmlhKelemaha n sulit untuk dilatih karena koneksi lateral keseimbang an membutuhka n terlalu banyak iterasi &nr


balik. berlatih dengan cepat. memberikan apisan fitur hierarkis sedikit anatomis. dapat dianalisis dengan teori informasi & mekanisme statistik bilangan bulat & bernilai nyata lebih rumit.


57 Contoh klasik pembelajaran tanpa pengawasan dalam studi jaringan saraf adalah prinsip Donald Hebb , yaitu neuron yang menyala bersama-sama. [4] Dalam pembelajaran Hebbian , koneksi diperkuat terlepas dari kesalahan, tetapi secara eksklusif merupakan fungsi dari kebetulan antara potensial aksi antara dua neuron. [5] Versi serupa yang memodifikasi bobot sinaptik memperhitungkan waktu antara potensial aksi ( plastisitas yang bergantung pada waktu lonjakan atau STDP). Pembelajaran Hebbian telah dihipotesiskan mendasari berbagai fungsi kognitif, seperti pengenalan pola dan pembelajaran berdasarkan pengalaman. Di antara model jaringan saraf , peta pengorganisasian mandiri (SOM) dan teori resonansi adaptif (ART) biasanya digunakan dalam algoritma pembelajaran tanpa pengawasan. SOM adalah organisasi topografi di mana lokasi terdekat di peta mewakili masukan dengan properti serupa. Model ART memungkinkan jumlah cluster bervariasi sesuai ukuran masalah dan memungkinkan pengguna mengontrol tingkat kesamaan antara anggota cluster yang sama melalui konstanta yang ditentukan pengguna yang disebut parameter kewaspadaan. Jaringan ART digunakan untuk banyak tugas pengenalan pola, seperti pengenalan target otomatis dan pemrosesan sinyal seismik. [6] Dua metode utama yang digunakan dalam pembelajaran tanpa pengawasan adalah komponen utama dan analisis cluster . Analisis cluster digunakan dalam pembelajaran tanpa pengawasan untuk mengelompokkan, atau menseg-


58 mentasi, kumpulan data dengan atribut bersama untuk mengekstrapolasi hubungan algoritmik. [7] Analisis cluster adalah cabang pembelajaran mesin yang mengelompokkan data yang belum diberi label , diklasifikasikan, atau dikategorikan. Alih-alih merespons umpan balik, analisis klaster mengidentifikasi kesamaan dalam data dan bereaksi berdasarkan ada atau tidaknya kesamaan tersebut di setiap bagian data baru. Pendekatan ini membantu mendeteksi titik data anomali yang tidak sesuai dengan kelompok mana pun. Penerapan utama pembelajaran tanpa pengawasan adalah di bidang estimasi kepadatan dalam statistik , [8] meskipun pembelajaran tanpa pengawasan mencakup banyak domain lain yang melibatkan peringkasan dan penjelasan fitur data. Hal ini dapat dibandingkan dengan pembelajaran yang diawasi dengan mengatakan bahwa pembelajaran yang diawasi bermaksud untuk menyimpulkan distribusi probabilitas bersyarat yang dikondisikan pada label data masukan; pembelajaran tanpa pengawasan bermaksud untuk menyimpulkan probabilitas apriori distribusi. Beberapa algoritme yang paling umum digunakan dalam pembelajaran tanpa pengawasan meliputi: (1) Pengelompokan, (2) Deteksi anomali, (3) Pendekatan untuk mempelajari model variabel laten. Masing-masing pendekatan menggunakan beberapa metode sebagai berikut: 1. Pengelompokan meliputi: pengelompokan hierarki, [9] kberarti , [10] model campuran , DBSCAN, dan algoritma OPTICS 2. Deteksi anomali antara lain: Local Outlier Factor , dan Isolation Forest


59 3. Pendekatan pembelajaran model variabel laten seperti Algoritma Expectation-maximization (EM), Metode momen , dan Teknik pemisahan sinyal buta (Analisis komponen utama, Analisis komponen independen , Faktorisasi matriks non-negatif, Dekomposisi nilai tunggal) Salah satu pendekatan statistik untuk pembelajaran tanpa pengawasan adalah metode momen . Dalam metode momen, parameter yang tidak diketahui (yang menjadi perhatian) dalam model dihubungkan dengan momen dari satu atau lebih variabel acak, dan dengan demikian, parameter yang tidak diketahui ini dapat diperkirakan dengan mempertimbangkan momen tersebut. Momen biasanya diperkirakan dari sampel secara empiris. Momen dasar adalah momen orde pertama dan kedua. Untuk vektor acak, momen orde pertama adalah vektor mean , dan momen orde kedua adalah matriks kovarians (bila meannya nol). Momen orde tinggi biasanya direpresentasikan menggunakan tensor yang merupakan generalisasi matriks ke orde lebih tinggi sebagai array multidimensi. Secara khusus, metode momen terbukti efektif dalam mempelajari parameter model variabel laten . Model variabel laten adalah model statistik dimana selain variabel yang diamati, juga terdapat sekumpulan variabel laten yang tidak diamati. Contoh praktis model variabel laten dalam pembelajaran mesin adalah pemodelan topik yang merupakan model statistik untuk menghasilkan kata-kata (variabel yang diamati) dalam dokumen berdasarkan topik (variabel laten) dokumen. Dalam pemodelan topik, kata-kata dalam dokumen dihasilkan berdasarkan parameter statistik yang


60 berbeda ketika topik dokumen diubah. Terlihat bahwa metode momen (teknik dekomposisi tensor) secara konsisten memulihkan parameter kelas besar model variabel laten berdasarkan beberapa asumsi. [11] Algoritme Ekspektasi-maksimalisasi (EM) juga merupakan salah satu metode paling praktis untuk mempelajari model variabel laten. Namun, hal ini dapat terjebak dalam local optima, dan tidak ada jaminan bahwa algoritme akan menyatu dengan parameter model yang sebenarnya tidak diketahui. Sebaliknya, untuk metode momen, konvergensi global dijamin dalam kondisi tertentu. Pembelajaran tanpa pengawasan adalah teknik pembelajaran mesin (ML) yang tidak memerlukan pengawasan model oleh pengguna. Ini adalah salah satu kategori pembelajaran mesin. Dua kategori lainnya mencakup penguatan dan pembelajaran yang diawasi . Dalam pembelajaran mesin tanpa pengawasan, kami menggunakan algoritme pembelajaran untuk menemukan pola yang tidak diketahui dalam kumpulan data yang tidak berlabel. Hal ini bertentangan dengan pembelajaran mesin yang diawasi yang menggunakan data berlabel manusia. Algoritme pembelajaran tanpa pengawasan menggunakan data tidak terstruktur yang dikelompokkan berdasarkan kesamaan dan pola. Pembelajaran tanpa pengawasan adalah konsep penting dalam pembelajaran mesin. Ini menghemat waktu analis data dengan menyediakan algoritma yang meningkatkan pengelompokan dan penyelidikan data. Ini juga penting


61 dalam model jaringan yang terdefinisi dengan baik. Banyak analis lebih suka menggunakan pembelajaran tanpa pengawasan dalam analisis lalu lintas jaringan (NTA) karena seringnya perubahan data dan kelangkaan label. Hal ini diperlukan ketika membuat perkiraan yang lebih baik, terutama di bidang deteksi ancaman. Hal ini dapat dicapai dengan mengembangkan log jaringan yang meningkatkan visibilitas ancaman. Kategori pembelajaran mesin ini juga berguna dalam pengurangan dimensi data. Kita memerlukan reduksi dimensi pada dataset yang memiliki banyak fitur. Pembelajaran tanpa pengawasan dapat menganalisis data yang kompleks untuk menetapkan fitur yang kurang relevan. Model tersebut kemudian dapat disederhanakan dengan menghilangkan fitur-fitur ini yang memiliki pengaruh tidak signifikan terhadap wawasan yang berharga. Misalnya, bisnis e-commerce mungkin menggunakan data pelanggan untuk membangun kebiasaan bersama. Dengan menggunakan algoritme yang meningkatkan reduksi dimensi, kami dapat menghilangkan fitur data yang tidak relevan seperti alamat rumah untuk menyederhanakan analisis. Pembelajaran tanpa pengawasan, dalam bidang pembelajaran mesin, mengacu pada pembelajaran tanpa kebenaran dasar seperti label untuk memperbaiki kesalahan yang dibuat model Anda saat menebak. Suatu algoritme dapat belajar tanpa pengawasan, misalnya dengan membuat perkiraan distribusi data berdasarkan sampel, lalu membandingkan tebakannya terhadap distribusi sebenarnya. Berbeda dengan pembelajaran yang diawasi , dengan pembelajaran tanpa pengawasan, kami bekerja tanpa


62 kumpulan data berlabel. Apa yang umumnya kita pelajari, jika tidak ada label, adalah bagaimana merekonstruksi data masukan menggunakan representasi, atau penyematan. Mengingat kelangkaan data berlabel di dunia, konsekuensi dari pembelajaran yang diawasi tidak dapat diterapkan pada sebagian besar data, dan fakta bahwa model dapat belajar paling baik ketika dilatih pada lebih banyak data – potensi pembelajaran tanpa pengawasan pada kumpulan data tanpa label sangatlah besar. Masa depan AI sebagian besar bergantung pada peningkatan pembelajaran tanpa pengawasan. 1. Visualisasi 2. Pengelompokan K-Means 3. Pembelajaran Transfer 4. K-Tetangga Terdekat 5. Metode lain Fitur yang dipelajari oleh jaringan saraf dalam dapat digunakan untuk tujuan klasifikasi, pengelompokan, dan regresi. Jaringan saraf hanyalah perkiraan universal yang menggunakan non- linearitas . Mereka menghasilkan fitur yang ‚baik‛ dengan belajar merekonstruksi data melalui prapelatihan atau propagasi mundur. Dalam kasus terakhir, jaringan saraf dihubungkan ke fungsi kerugian sewenangwenang untuk memetakan masukan ke keluaran. Fitur yang dipelajari oleh jaringan saraf dapat dimasukkan ke dalam berbagai algoritme lainnya, termasuk algoritme pembelajaran mesin tradisional yang mengelompokkan masukan, softmax /regresi logistik yang meng-


63 klasifikasikannya, atau regresi sederhana yang memprediksi suatu nilai. Jadi, Anda dapat menganggap jaringan saraf sebagai produsen fitur yang terhubung secara modular ke fungsi lain. Misalnya, Anda dapat membuat jaringan saraf konvolusional mempelajari fitur gambar di ImageNet dengan pelatihan yang diawasi, lalu Anda dapat mengambil aktivasi/fitur yang dipelajari oleh jaringan saraf tersebut dan memasukkannya ke dalam algoritme kedua yang akan belajar mengelompokkan gambar. Berikut adalah daftar kasus penggunaan fitur yang dihasilkan oleh jaringan neural: 1. Visualisasi t-distributed stochastic neighbourding (T-SNE) adalah algoritma yang digunakan untuk mereduksi data berdimensi tinggi menjadi dua atau tiga dimensi, yang kemudian dapat direpresentasikan dalam scatterplot. TSNE digunakan untuk menemukan tren laten dalam data. Untuk informasi lebih lanjut dan unduhan, lihat halaman ini di T-SNE . 2. Pengelompokan K-Means K-Means adalah algoritme yang digunakan untuk memberi label aktivasi secara otomatis berdasarkan jarak mentahnya dari masukan lain dalam ruang vektor. Tidak ada fungsi target atau kerugian; k-means memilih apa yang disebut centroids . K-means membuat pusat massa melalui rata-rata berulang pada semua titik data. K-means mengklasifikasikan data baru berdasarkan kedekatannya dengan pusat massa tertentu. Setiap centroid dikaitkan dengan label. Ini adalah contoh


64 pembelajaran tanpa pengawasan (pembelajaran yang tidak memiliki fungsi kerugian) yang menerapkan label. 3. Pembelajaran Transfer Pembelajaran transfer mengambil aktivasi satu jaringan saraf dan menggunakannya sebagai fitur untuk algoritma atau pengklasifikasi lain. Misalnya, Anda dapat mengambil model ConvNet yang dilatih di ImageNet, dan meneruskan gambar baru melalui model tersebut ke algoritme lain, seperti K-Nearest Neighbor. Definisi ketat dari pembelajaran transfer adalah: mengambil model yang dilatih pada satu kumpulan data, dan memasukkannya ke dalam masalah lain. 4. K-Tetangga Terdekat Algoritme ini melayani tujuan klasifikasi dan regresi, dan bergantung pada pohon kd . Kd -tree adalah struktur data untuk menyimpan sekumpulan titik berhingga dari ruang berdimensi k . Ini mempartisi ruang dengan dimensi sembarang menjadi sebuah pohon, yang juga dapat disebut pohon titik pandang . kd -trees membagi ruang dengan struktur pohon, dan Anda menavigasi pohon untuk menemukan titik terdekat. Label yang terkait dengan titik terdekat diterapkan pada masukan. Biarkan masukan dan contoh pelatihan Anda menjadi vektor. Vektor pelatihan dapat disusun dalam pohon biner seperti ini:


65 Jika Anda memvisualisasikan node tersebut dalam dua dimensi, mempartisi ruang di setiap cabang, maka kd -tree akan terlihat seperti ini: Sekarang, mari kita lihat Anda menempatkan input baru, X, di ruang yang dipartisi pohon. Hal ini memungkinkan Anda mengidentifikasi induk dan anak dari ruang tersebut di dalam pohon. X kemudian merupakan pusat lingkaran yang jari-jarinya adalah jarak ke simpul anak dari ruang tersebut. Berdasarkan definisinya, hanya titik-titik lain dalam keliling lingkaran yang dapat lebih dekat.


66 Dan terakhir, jika Anda ingin membuat karya seni dengan kd -trees, Anda dapat melakukan hal yang lebih buruk dari ini: (Tips untuk Andrew Moore dari CMU atas diagramnya yang luar biasa.) 5. Metode lain Dalam pemrosesan bahasa alami, menggunakan kata-kata untuk memprediksi konteksnya, dengan


67 algoritma seperti word2vec, adalah bentuk pembelajaran tanpa pengawasan. Clustering adalah proses membagi data yang tidak dikategorikan menjadi kelompok atau cluster serupa. Proses ini memastikan bahwa titik data serupa diidentifikasi dan dikelompokkan. Algoritma clustering merupakan kunci dalam pengolahan data dan identifikasi kelompok (natural cluster). Gambar berikut menunjukkan contoh cara kerja pengelompokan. Sumber Gambar: Guru 99 Sisi kiri gambar menunjukkan data yang tidak dikategorikan. Di sisi kanan, data telah dikelompokkan ke dalam cluster yang terdiri dari atribut serupa. Mengapa pengelompokan itu penting? Pengelompokan penting karena alasan berikut yang tercantum di bawah ini: a. Melalui penggunaan cluster, atribut entitas unik dapat diprofilkan dengan lebih mudah. Hal ini selanjutnya memungkinkan pengguna untuk


68 mengurutkan data dan menganalisis kelompok tertentu. b. Clustering memungkinkan bisnis untuk mendekati segmen pelanggan secara berbeda berdasarkan atribut dan kesamaannya. Ini membantu dalam memaksimalkan keuntungan. c. Ini dapat membantu dalam pengurangan dimensi jika kumpulan data terdiri dari terlalu banyak variabel. Cluster yang tidak relevan dapat diidentifikasi dengan lebih mudah dan dihapus dari dataset. Jenis pengelompokan dalam pembelajaran mesin tanpa pengawasan Jenis pengelompokan utama dalam pembelajaran mesin tanpa pengawasan meliputi K-means , pengelompokan hierarki, Pengelompokan Spasial Berbasis Kepadatan Aplikasi dengan Kebisingan (DBSCAN), dan Model Campuran Gaussian (GMM). 1. Pengelompokan K-Means Dalam pengelompokan K-means , data dikelompokkan berdasarkan karakteristik dan persamaannya. K adalah huruf yang mewakili jumlah cluster. Misal jika K=5 maka jumlah cluster yang diinginkan adalah 5. Jika K=10 maka jumlah cluster yang diinginkan adalah 10. Konsep-konsep kunci Jarak Euclidean kuadrat dan inersia klaster adalah dua konsep utama dalam pengelompokan K-means. Mempelajari konsep-konsep ini akan membantu memahami langkah-langkah algoritma pengelompokan K-means.


69 a. Kuadrat jarak Euclidean: Jika kita mempunyai dua titik x dan y, dan ruang dimensi diberikan oleh m, kuadrat jarak Euclidean akan diberikan sebagai: b. Inersia cluster: Ini mengacu pada Jumlah Kesalahan Kuadrat dalam cluster. Kami memberikan inersia cluster sebagai: Pada persamaan di atas, μ( j) merepresentasikan pusat cluster j. Jika x( i ) ada di cluster ini(j), maka w( i,j )=1. Jika tidak, maka w( i,j )=0. Berdasarkan informasi ini, kita harus mencatat bahwa algoritma K-means bertujuan untuk menjaga inersia cluster pada tingkat minimum. Langkah-langkah algoritma a. Pilih nilai K (jumlah cluster yang diinginkan). Kita dapat memilih nilai K yang optimal melalui tiga metode utama: pengetahuan lapangan, keputusan bisnis, dan metode siku. Metode siku adalah yang paling umum digunakan. Kami dapat menemukan informasi lebih lanjut tentang metode ini di sini . b. Pilih sejumlah K pusat klaster secara acak. c. Gunakan jarak Euclidean (antara centroid dan titik data) untuk menetapkan setiap titik data ke cluster terdekat.


70 d. Hitung ulang pusat semua klaster (karena rata-rata titik data telah ditetapkan ke masing-masing klaster). e. Langkah 3-4 harus diulang sampai tidak ada perubahan lebih lanjut. Sumber Gambar: Tutorial Berkendara Keuntungan a. Ini sangat efisien dalam hal perhitungan b. Algoritma K-Means dapat diimplementasikan dengan mudah Kekurangan a. Algoritma K-Means tidak efektif dalam mengidentifikasi kelas dalam kelompok yang terdistribusi secara sferis. b. Pemilihan centroid awal secara acak mungkin membuat beberapa keluaran (set pelatihan tetap)


71 menjadi berbeda. Ini mungkin mempengaruhi keseluruhan proses algoritma. 2. Pengelompokan Hierarki Dalam jenis pengelompokan ini, suatu algoritma digunakan ketika membangun hierarki (klaster). Algoritma ini hanya akan berakhir jika hanya tersisa satu cluster. Berbeda dengan pengelompokan K-means, pengelompokkan hierarki tidak dimulai dengan mengidentifikasi jumlah klaster. Sebaliknya, ia memulai dengan mengalokasikan setiap titik data ke clusternya. Dendrogram adalah contoh sederhana cara kerja pengelompokan hierarki . Sumber Gambar: Scikit -Belajar Pada diagram di atas, observasi terbawah yang telah digabungkan serupa, sedangkan observasi atas berbeda. Langkah-langkah algoritma a. Alokasikan setiap titik data ke clusternya.


72 b. Gunakan jarak Euclidean untuk menemukan dua cluster terdekat. Kita harus menggabungkan clustercluster ini menjadi satu cluster. c. Tentukan jarak antar cluster yang berdekatan satu sama lain. Kita harus menggabungkan cluster terdekat sampai kita mengelompokkan semua item data untuk membentuk satu cluster. Keuntungan a. Representasi dalam hierarki memberikan informasi yang bermakna. b. Jumlah cluster tidak perlu ditentukan. c. Ini berguna untuk pembuatan dendrogram . Kekurangan a. Model hierarki memiliki sensitivitas yang tinggi terhadap outlier. Jika terdapat outlier, kinerja model tidak akan baik. b. Kebutuhan komputasi untuk pengelompokan Hierarki mahal. 3. Pengelompokan Spasial Berbasis Kepadatan Aplikasi dengan Kebisingan (DBSCAN) Ini adalah pengelompokan berbasis kepadatan yang melibatkan pengelompokan titik data yang berdekatan satu sama lain. Kami menandai titik data yang berjauhan sebagai outlier. Kemudian mengurutkan data berdasarkan kesamaan. Konsep-konsep kunci MinPts : Ini adalah sejumlah tetangga atau titik tetangga


73 Lingkungan Epsilon : Ini adalah sekumpulan titik yang memiliki jarak tertentu dari suatu titik yang diidentifikasi. Jarak antara titik-titik ini harus kurang dari angka tertentu (epsilon). Titik Inti: Ini adalah titik dalam klaster berbasis kepadatan dengan setidaknya MinPt dalam lingkungan epsilon. Titik perbatasan: Ini adalah titik dalam klaster berbasis kepadatan yang memiliki jumlah MinPt lebih sedikit dari lingkungan epsilon. Titik kebisingan: Ini adalah outlier yang tidak termasuk dalam kategori titik inti atau titik batas. Itu bukan bagian dari cluster mana pun. Langkah-langkah algoritma a. Pada langkah pertama, titik inti harus diidentifikasi. Jari-jari titik inti diberikan sebagai ε. Buat grup untuk setiap poin inti. b. Identifikasi titik-titik perbatasan dan tetapkan titiktitik tersebut ke titik-titik inti yang telah ditentukan. c. Titik lain yang tidak termasuk dalam kelompok titik perbatasan atau titik inti akan dianggap sebagai titik kebisingan. Sumber Gambar: Buku Git


74 Keuntungan a. Itu tidak memerlukan jumlah cluster tertentu. b. Ini sangat cerdik dalam mengidentifikasi outlier. c. Ini menawarkan fleksibilitas dalam hal ukuran dan bentuk cluster. Kekurangan a. Ini tidak efektif dalam mengelompokkan kumpulan data yang memiliki kepadatan berbeda-beda. b. Kegagalan memahami data dengan baik dapat menyebabkan kesulitan dalam memilih radius titik inti ambang batas. c. Dalam beberapa kasus yang jarang terjadi, kita dapat mencapai titik perbatasan dengan dua cluster, yang dapat menimbulkan kesulitan dalam menentukan cluster yang tepat untuk titik perbatasan tersebut. 4. Model Campuran Gaussian (GMM) Ini adalah teknik pengelompokan tingkat lanjut yang menggunakan campuran distribusi Gaussian untuk memodelkan kumpulan data. Model campuran ini bersifat probabilistik. Model pengelompokan GMM digunakan untuk menghasilkan sampel data. Dalam model ini, setiap titik data merupakan anggota dari semua cluster dalam kumpulan data, namun dengan tingkat keanggotaan yang berbeda-beda. Peluang menjadi anggota cluster tertentu adalah antara 0 dan 1. Dalam model campuran Gaussian, informasi kuncinya mencakup pusat Gaussian laten dan kovarians


75 data. Hal ini membuatnya mirip dengan pengelompokan K-means. Diagram berikut menunjukkan representasi grafis dari model-model ini. Sumber Gambar: Daum Langkah-langkah algoritma a. Memulai sejumlah K distribusi Gaussian. Hal ini dilakukan dengan menggunakan nilai standar deviasi dan mean. b. Fase Ekspektasi-Tetapkan titik data ke semua cluster dengan tingkat keanggotaan tertentu. c. Fase Maksimalisasi-Parameter Gaussian (rata-rata dan deviasi standar) harus dihitung ulang menggunakan 'ekspektasi'. d. Evaluasi apakah terdapat konvergensi dengan memeriksa log-likelihood dari data yang ada. e. Ulangi langkah 2-4 hingga terjadi konvergensi. Keuntungan a. Ini menawarkan fleksibilitas dalam hal ukuran dan bentuk cluster.


76 b. Keanggotaan dapat ditetapkan ke beberapa cluster, yang menjadikannya algoritma yang cepat untuk model campuran. Kekurangan a. Jika suatu campuran terdiri dari titik-titik yang tidak mencukupi, algoritme mungkin menyimpang dan menghasilkan solusi yang mengandung kemungkinan tak terhingga. Hal ini mungkin memerlukan perbaikan kovarians antar titik (secara artifisial). b. Solusi sub-optimal dapat dicapai jika terdapat konvergensi GMM ke minimum lokal.


77 Clustering merupakan teknik analisis data yang bertujuan untuk mengelompokkan objek atau data ke dalam kelompok-kelompok homogen berdasarkan kesamaan karakteristik tertentu. Dengan kata lain, clustering membantu mengidentifikasi pola-pola inherent dalam data tanpa memerlukan label kelas sebelumnya. Pada konteks machine learning, clustering menjadi kritis karena memungkinkan pemahaman lebih dalam terhadap struktur data, memberikan wawasan tentang pola-pola yang mungkin sulit terlihat secara manual. Dalam bab ini, akan dijelaskan lebih lanjut mengenai pentingnya clustering dalam analisis data


78 dan bagaimana teknik-teknik ini menjadi fondasi bagi berbagai aplikasi di berbagai industry. B. Relevansi clustering dalam machine learning Pengantar yang kuat ke relevansi clustering dalam machine learning akan membahas bagaimana teknik ini memainkan peran penting dalam analisis data tanpa pengawasan. Poinpoin ini melibatkan kemampuan clustering untuk mengidentifikasi pola tersembunyi, menge-lompokkan data tanpa informasi kelas sebelumnya, dan memberikan wawasan yang berharga untuk pengambilan keputusan. Dalam konteks machine learning, clustering membuka pintu untuk berbagai aplikasi, termasuk segmentasi pelanggan, klasifikasi data biomedis, dan pengolahan gambar serta teks. Relevansi clustering dalam machine learning sangat signifikan, mengingat peran kunci clustering dalam analisis data tanpa pengawasan. Dalam konteks machine learning, clustering memungkinkan identifikasi pola atau struktur dalam dataset yang tidak memerlukan label kelas sebelumnya. Berikut adalah beberapa aspek relevansi clustering dalam machine learning: 1. Segmentasi Data: Clustering memungkinkan pemisahan data menjadi kelompok-kelompok homogen berdasarkan kesamaan karakteristik tertentu. Hal ini sangat berguna dalam segmentasi pelanggan, pengelompokan produk, atau identifikasi pola-pola dalam data bisnis. 2. Pra-Pemrosesan Data: Sebagai langkah pra-pemrosesan data, clustering dapat membantu mengidentifikasi outlier dan menye-


79 derhanakan kompleksitas dataset, memfasilitasi proses pembelajaran mesin dan meningkatkan kinerja model. 3. Pemahaman Struktur Data: Dengan mengelompokkan data, clustering memberikan wawasan mendalam tentang struktur internal dataset. Ini membantu peneliti atau praktisi dalam memahami karakteristik intrinsik dari data, yang dapat membimbing pemilihan model dan fitur yang sesuai. 4. Klasifikasi Tanpa Pengawasan: Clustering dapat digunakan sebagai langkah awal untuk membuat label pada data tanpa pengawasan, yang selanjutnya dapat digunakan dalam pembelajaran terawasi. Ini memungkinkan eksplorasi awal sebelum penerapan model klasifikasi yang lebih kompleks. 5. Optimasi Proses Bisnis: Dalam bisnis, clustering dapat membantu dalam mengoptimalkan proses seperti rantai pasokan, manajemen stok, dan pemahaman perilaku pelanggan. Ini membuka peluang untuk meningkatkan efisiensi dan mengidentifikasi area potensial untuk perbaikan. Relevansi clustering dalam machine learning tidak hanya terletak pada kemampuannya untuk mengelompokkan data, tetapi juga pada dampaknya dalam memberikan wawasan yang berharga untuk pengambilan keputusan dan pengembangan model yang lebih baik. Beberapa algoritma clustering yang umum digunakan dalam machine learning meliputi:


80 1. K-Means: Konsep: Memisahkan data menjadi k kelompok berdasarkan pusat massa (centroid) yang dihitung. Kelebihan: Efisien untuk dataset besar, mudah diimplementasikan. Keterbatasan: Sensitif terhadap inisialisasi centroid awal. K-Means adalah algoritma clustering yang bertujuan memisahkan data menjadi k kelompok. Algoritma ini mencapai tujuannya dengan menentukan pusat massa (centroid) untuk setiap kelompok sehingga total jarak kuadrat antara setiap titik data dan centroidnya diminimalkan. Iteratif, algoritma ini menghitung ulang posisi centroid hingga konvergensi. Kelebihan: K-Means efisien dalam menangani dataset besar dan relatif mudah diimplementasikan. Algoritma ini dapat memberikan hasil yang baik untuk dataset dengan kelompok yang berbentuk bulat dan memiliki ukuran yang hampir seragam. Keterbatasan: Sensitivitas terhadap inisialisasi centroid awal dapat menjadi tantangan. Hasil clustering dapat bervariasi tergantung pada posisi awal centroid. Selain itu, K-Means cenderung kurang efektif pada data dengan kelompok yang berbentuk atau ukuran yang berbeda. Penerapan Praktis: K-Means digunakan dalam berbagai aplikasi seperti segmentasi pelanggan, analisis pasar, dan


81 pengelompokan data geospasial. Ini juga sering digunakan sebagai langkah awal dalam analisis data prapemrosesan sebelum menerapkan model machine learning. Strategi Pemilihan Jumlah Kelompok (K): Memilih jumlah kelompok yang optimal (K) adalah langkah kritis. Strategi umum termasuk menggunakan metode seperti elbow method atau silhouette analysis untuk mengevaluasi performa berbagai nilai K dan memilih yang paling sesuai. K-Means menyajikan pendekatan yang sederhana namun kuat untuk clustering, dan pemahaman yang baik tentang karakteristiknya memungkinkan penerapan yang efektif dalam berbagai konteks analisis data dan machine learning. 2. Hierarchical Clustering: Konsep: Membangun hirarki kelompok dengan menggabungkan atau membagi secara berurutan. Kelebihan: Menghasilkan pohon hirarki yang dapat divisualisasikan. Keterbatasan: Membutuhkan komputasi yang lebih intensif. Hierarchical Clustering adalah algoritma yang membangun hirarki kelompok dengan menggabungkan atau membagi kelompok secara bertahap. Dua pendekatan utama dalam hierarchical clustering adalah agglomerative (pemisahan kelompok menjadi kelompok yang lebih kecil) dan divisive (pemisahan kelompok menjadi kelompok yang lebih besar).


82 Kelebihan: Visualisasi Hirarki: Menghasilkan dendrogram yang memberikan representasi visual tentang hubungan hierarkis antar kelompok. Tidak Memerlukan Jumlah Kelompok Awal: Tidak memerlukan penentuan jumlah kelompok sebelumnya, memungkinkan eksplorasi yang lebih bebas. Keterbatasan: Komputasi yang Tinggi: Membutuhkan waktu komputasi yang lebih tinggi, terutama pada dataset besar. Kurang Efisien pada Dataset Besar: Agglomerative clustering menjadi kurang efisien saat dihadapkan pada dataset besar karena memerlukan perhitungan jarak antar semua pasangan data. Penerapan Praktis: Hierarchical Clustering digunakan dalam biologi untuk analisis genetika, dalam ilmu sosial untuk analisis hubungan interpersonal, dan dalam berbagai industri untuk segmentasi pasar. Metode ini memungkinkan pemahaman yang mendalam tentang struktur hirarkis dalam data. Strategi Pemilihan Jumlah Kelompok: Pemilihan jumlah kelompok tidak selalu diperlukan, tetapi untuk aplikasi tertentu, pemilihan kriteria yang sebanding dengan K-Means seperti elbow method dapat digunakan. Hierarchical Clustering memberikan fleksibilitas yang tinggi dalam mengeksplorasi struktur data hierarkis


83 dan dapat memberikan wawasan yang lebih mendalam tentang hubungan antar kelompok. Dalam pemilihan algoritma clustering, keputusan untuk menggunakan hierarchical clustering dapat dipertimbangkan berdasarkan karakteristik dan tujuan analisis data tertentu. 3. DBSCAN (Density-Based Spatial Clustering of Applications with Noise): Konsep: Mengelompokkan data berdasarkan kepadatan area. Kelebihan: Dapat mengatasi bentuk kelompok yang kompleks dan mendeteksi noise. Keterbatasan: Memerlukan parameter kepadatan yang tepat. DBSCAN adalah algoritma clustering yang mengelompokkan data berdasarkan kepadatan area. Algoritma ini mendefinisikan kelompok sebagai area yang memiliki kepadatan data yang cukup tinggi, memisahkan area dengan kepadatan yang lebih rendah. Selain kelompok, DBSCAN juga dapat mengidentifikasi noise, yaitu titik-titik yang berada di luar kelompok yang jelas. Kelebihan: Tangguh terhadap Bentuk dan Ukuran yang Berbeda: DBSCAN mampu mengatasi bentuk dan ukuran kelompok yang berbeda secara efektif. Identifikasi Noise: Algoritma ini dapat mengenali dan mengabaikan titik-titik data yang tidak termasuk dalam kelompok yang jelas.


84 Keterbatasan: Parameter Kepadatan Sensitif: Memerlukan penyesuaian parameter kepadatan yang memadai, yang dapat memengaruhi hasil clustering. Tidak Cocok untuk Dataset dengan Kepadatan Seragam: Kurang efektif pada dataset dengan kepadatan seragam karena cenderung menghasilkan satu kelompok tunggal. Penerapan Praktis: DBSCAN sering digunakan dalam pengolahan gambar, deteksi anomali, dan identifikasi pola dalam dataset geografis. Aplikasi ini memanfaatkan kemampuannya mengelompokkan area dengan kepadatan tinggi dan mengenali noise. Strategi Pemilihan Parameter: Pemilihan parameter, terutama parameter kepadatan (eps) dan jumlah minimum titik dalam suatu kelompok (minPts), memerlukan pemahaman yang cermat tentang sifat dataset. Metode visualisasi dan eksperimen iteratif dapat membantu menentukan nilai yang optimal. DBSCAN menawarkan pendekatan yang kuat untuk mengatasi data dengan kelompok yang kompleks dan dapat memberikan solusi yang baik untuk data dengan distribusi kepadatan yang tidak seragam. Pemilihan DBSCAN sebagai algoritma clustering dapat sangat bermanfaat terutama ketika struktur kelompok atau keberadaan noise menjadi pertimbangan utama.


Click to View FlipBook Version