91 Misalnya, Anda mungkin ingin mengetahui seberapa besar variasi kinerja ujian yang dapat dijelaskan oleh waktu revisi dan kehadiran kuliah "secara keseluruhan", tetapi juga "kontribusi relatif" dari masing-masing variabel independen dalam menjelaskan varians tersebut. Secara matematis, model regresi berganda diwakili oleh persamaan berikut: dimana : Y = variabel bebas. = variabel terikat. n = Jumlah kasus atau individu. = Koefisien regresi dari variabel x1. = Koefisien regresi dari variabel x2. = Titik potong garis regresi dan sumbu y. Dengan menggunakan metode deviasi : ̅ ̅̅ ̅ ̅̅ ̅ ̅ = Rata-rata nilai variabel terikat. ̅̅ ̅ = Rata-rata nilai variabel terikat x1.
92 ̅ ̅̅̅ ̅̅ ̅ = Rata-rata nilai variabel terikat x2. = Jumlah kuadrat x2 ̅ = Jumlah kuadrat x1 = Jumlah kuadrat x2 1. R2 ( Adjusted R Square) Nilai Adjusted R Square disesuaikan dengan banyaknya variabel yang dimasukkan dalam persamaan regresi. Hal ini digunakan untuk memperkirakan perkiraan penyusutan R Square yang tidak dapat digeneralisasikan ke populasi karena solusi kami terlalu disesuaikan dengan kumpulan data dengan memasukkan terlalu banyak variabel independen. Jika nilai R Square yang disesuaikan jauh lebih rendah daripada nilai R Square, ini merupakan indikasi bahwa persamaan regresi kita mungkin terlalu disesuaikan dengan sampel, dan kemampuanmenggeneralisasinya terbatas.
93 B. Korelasi 1. Definisi Korelasi Korelasi adalah ukuran statistik yang menunjukkan sejauh mana dua variabel atau lebih berfluktuasi secara bersamaan. Korelasi positif menunjukkan sejauh mana variabel-variabel tersebut meningkat atau menurun secara paralel; korelasi negatif menunjukkan sejauh mana satu variabel meningkat sementara variabel lainnya menurun. Ketika fluktuasi suatu variabel secara andal memprediksi fluktuasi serupa pada variabel lain, sering kali ada kecenderungan untuk berpikir bahwa perubahan pada satu variabel menyebabkan perubahan pada variabel lainnya. Namun, korelasi tidak berarti sebab akibat. Mungkin ada faktor yang tidak diketahui yang mempengaruhi kedua variabel secara serupa. Korelasi merupakan suatu teknik statistik yang dapat menunjukkan apakah dan seberapa kuat pasangan variabel saling berhubungan. Meskipun korelasi ini cukup jelas, data Anda mungkin mengandung korelasi yang tidak diduga. Anda mungkin juga mencurigai adanya korelasi, namun tidak tahu mana yang paling kuat. Analisis korelasi yang cerdas dapat menghasilkan pemahaman yang lebih baik tentang data Anda. a. Korelasi Positif atau langsung ketika nilai-nilai meningkat secara bersamaan, dan
94 b. Korelasi Negatif ketika satu nilai menurun seiring dengan peningkatan yang lain, dan disebut korelasi terbalik atau berlawanan. b. Korelasi dapat memiliki arti: c. 1 adalah korelasi positif sempurna d. 0 tidak ada korelasi (nilainya sepertinya tidak terkait sama sekali) e. -1 adalah korelasi negatif sempurna. Nilai menunjukkan seberapa baik korelasinya (bukan seberapa curam garisnya), dan apakah korelasinya positif atau negatif. Biasanya dalam statistika terdapat tiga jenis korelasi: korelasi Pearson, korelasi peringkat Kendall, dan korelasi Spearman. 2. Asumsi Korelasi Penggunaan korelasi bergantung pada beberapa asumsi yang mendasarinya. Variabel-variabel tersebut diasumsikan independen, diasumsikan dipilih secara acak dari populasi; kedua variabel berdistribusi normal; asosiasi data bersifat homoskedastis (homogen), data yang bersifat homoskedastik mempunyai simpangan baku yang sama pada kelompok yang berbeda, sedangkan data yang bersifat heteroskedastis mempunyai simpangan baku yang berbeda pada kelompok yang berbeda dan menganggap hubungan kedua variabel bersifat linier. Koefisien korelasinya tidak memuaskan dan sulit untuk menginterpretasikan hubungan antar variabel jika ada data yang outlier.
95 Pemeriksaan scatterplot dapat memberikan gambaran apakah dua variabel berhubungan dan arah hubungannya. Namun hal ini saja tidak cukup untuk menentukan apakah terdapat hubungan antara dua variabel. Hubungan yang digambarkan dalam scatterplot perlu digambarkan secara kualitatif. Statistik deskriptif yang menyatakan derajat hubungan antara dua variabel disebut koefisien korelasi. Koefisien korelasi yang umum digunakan adalah korelasi Pearson, korelasi peringkat Kendall dan korelasi Spearman. Korelasi digunakan untuk menguji adanya hubungan linier antara dua variabel dengan memberikan asumsi tertentu mengenai data yang terpenuhi. Namun, hasil analisis perlu diinterpretasikan dengan hati-hati, terutama ketika mencari hubungan sebab akibat. 3. Korelasi Bivariat Korelasi bivariat merupakan ukuran hubungan antara dua variabel; itu mengukur kekuatan dan arah hubungan mereka, kekuatan dapat berkisar dari nilai absolut 1 hingga 0. Semakin kuat hubungannya maka nilainya semakin mendekati 1. Arah hubungan dapat positif (langsung) atau negatif (berbalik atau sebaliknya); Korelasi umumnya menggambarkan pengaruh dua atau lebih fenomena yang terjadi bersamaan dan oleh karena itu keduanya saling terkait. Misalnya, hubungan positif sebesar 0,71 dapat mewakili korelasi positif antara derajat statistika dan derajat sains. Siswa yang memiliki gelar tinggi di
96 bidang statistika juga memiliki gelar tinggi di bidang sains dan sebaliknya. Koefisien korelasi Pearson diberikan oleh persamaan berikut: ̅ ̅ √ ̅ ̅ Dimana : ̅ adalah mean dari variabel x ̅ adalah mean dari variabel y 4. Korelasi Parsial Prosedur Korelasi Parsial menghitung koefisien korelasi parsial yang menggambarkan hubungan linier antara dua variabel sambil mengendalikan pengaruh satu atau lebih variabel tambahan. Korelasi adalah ukuran hubungan linier. Dua variabel dapat berhubungan sempurna, namun jika hubungannya tidak linier, koefisien korelasi bukanlah statistik yang tepat untuk mengukur hubungan keduanya. Korelasi parsial adalah korelasi antara dua variabel setelah pengaruh satu atau lebih variabel tambahan dihilangkan. Misalkan kita ingin mencari korelasi antara y dan x dikendalikan oleh w. Ini disebut korelasi parsial dan simbolnya adalah . Perintah ini khusus untuk kasus satu variabel tambahan. Dalam hal ini korelasi parsial dapat dihitung berdasarkan korelasi standar antara ketiga variabel sebagai berikut:
97 √ adalah korelasi antara x dan y yang dikendalikan oleh W. Sama halnya dengan koefisien korelasi standar, nilai +1 menunjukkan hubungan linier positif sempurna, nilai -1 menunjukkan hubungan linier negatif sempurna, dan nilai 0 menunjukkan tidak ada hubungan linier. 5. Koefisien Korelasi Pearson, Kendall dan Spearman Korelasi merupakan analisis Bivariat yang mengukur kekuatan hubungan antara dua variabel. Dalam statistik, nilai koefisien korelasi bervariasi antara +1 dan -1. Bila nilai koefisien korelasinya berada pada kisaran ± 1, maka dikatakan derajat hubungan sempurna antara kedua variabel. Semakin nilai koefisien korelasi mendekati 0 maka hubungan kedua variabel akan semakin lemah. Biasanya, dalam statistik, kita mengukur tiga jenis korelasi: korelasi Pearson, korelasi peringkat Kendall, dan korelasi Spearman. Korelasi Pearson: Korelasi Pearson banyak digunakan dalam statistik untuk mengukur derajat hubungan antara variabel-variabel terkait linier. Misalnya, di pasar saham, jika kita ingin mengukur keterkaitan dua komoditas satu sama lain, korelasi Pearson digunakan untuk mengukur derajat hubungan kedua komoditas tersebut.
98 ̅ ̅ √ ̅ ̅ Korelasi peringkat Kendall Tau: Korelasi peringkat Kendall adalah uji non-parametrik yang mengukur kekuatan ketergantungan antara dua variabel. Jika kita mempertimbangkan dua sampel, x dan y, dimana setiap ukuran sampel adalah n, dapat diketahui bahwa jumlah total pasangan dengan x y adalah n (n- 1)/2. Rumus berikut digunakan untuk menghitung nilai korelasi peringkat Kendall: = Koefisien korelasi peringkat Kendall = Jumlah konkordan (Diurutkan dengan cara yang sama). = Jumlah diskordan (Diurutkan berbeda). C. Konsep Dasar Tau Kendall Definisi 1: Misalkan x1, ..., xn menjadi sampel untuk variabel acak x dan misalkan y1, ..., yn menjadi sampel untuk variabel acak y yang berukuran sama n. Ada C(n, 2) cara yang mungkin untuk memilih pasangan yang berbeda (xi , yi) dan (xj , yj). Untuk penetapan pasangan seperti itu,
99 tentukan setiap pasangan sebagai konkordan, sumbang, atau bukan keduanya sebagai berikut: 1. Sesuai © jika (xi > xj dan yi > yj) atau (xi < xj dan yi < yj) 2. Sumbang (D) jika (xi > xj dan yi < yj) atau (xi < xj dan yi > yj) 3. Baik jika xi = xj atau yi = yj (yaitu ikatan tidak dihitung). Pengamatan: Untuk memudahkan perhitungan C – D sebaiknya letakkan semua elemen data x terlebih dahulu dalam urutan menaik. Jika x dan y berkorelasi positif sempurna, maka semua nilai y juga akan berada dalam urutan menaik, jadi jika tidak ada ikatan maka C = C (n, 2) dan = 1. Jika tidak, akan terjadi beberapa inversi. Untuk setiap i, hitung banyaknya j > i yang xj < xi . Jumlahnya adalah D. Jika x dan y berkorelasi negatif sempurna, maka semua nilai y akan berada dalam urutan menurun, jadi jika tidak ada ikatan maka D = C (n, 2) dan = -1. Korelasi peringkat Spearman: Korelasi peringkat Spearman merupakan uji non parametrik yang digunakan untuk mengukur derajat hubungan antara dua variabel. Ini dikembangkan oleh Spearman, sehingga disebut korelasi peringkat Spearman. Uji korelasi peringkat Spearman tidak mengasumsikan asumsi apa pun tentang distribusi data dan merupakan analisis korelasi yang tepat bila variabel diukur pada skala yang setidaknya ordinal. Rumus berikut digunakan untuk menghitung koefisien korelasi peringkat Spearman:
100 = Koefisien korelasi peringkat Spearman = selisih antara barisan nilai Xi dan Yi yang bersesuaian n = jumlah nilai di setiap kumpulan data. Koefisien korelasi Spearman, , dapat mengambil nilai dari +1 hingga -1. A sebesar +1 menunjukkan asosiasi peringkat a yang sempurna, a sebesar nol menunjukkan tidak ada hubungan antar peringkat, dan a sebesar -1 menunjukkan asosiasi peringkat negatif yang sempurna. Semakin mendekati nol, semakin lemah hubungan antar peringkat.
101 Analisis Klaster dalam Data Mining Ratih Titi Komala Sari., S.Si, M.MSI nalisis klaster dalam data mining merupakan teknik esensial yang digunakan untuk mengelompokkan set data menjadi beberapa kelompok atau klaster berdasarkan kesamaan atribut atau karakteristik di antara data. Tujuan utama dari teknik ini adalah untuk memastikan bahwa data dalam satu kluster memiliki karakteristik yang serupa satu sama lain dan berbeda secara signifikan dari data di kluster lain. Dengan demikian, analisis klaster memungkinkan penemuan pola dan hubungan tersembunyi dalam data yang luas dan kompleks, yang sering kali sulit dianalisis menggunakan metode tradisional. Dalam konteks data mining, analisis klaster digunakan untuk berbagai aplikasi, mulai dari segmentasi pasar dalam bidang pemasaran, pengelompokan gen dalam studi biologi, hingga pengorganisasian dokumen atau informasi di internet. Metode ini tidak hanya meningkatkan keefektivitasan dalam pengambilan keputusan tetapi juga memberikan keuntungan signifikan dalam memperbaiki strategi bisnis dan keilmuan A
102 dengan menyediakan pemahaman yang lebih mendalam tentang karakteristik data. Teknik analisis klaster termasuk K-means, hierarchical clustering, dan DBSCAN, masing-masing memiliki kelebihan dan kekurangan serta cocok untuk jenis data dan kebutuhan analisis yang berbeda. Penilaian efektivitas klaster dilakukan melalui metode evaluasi seperti indeks siluet dan analisis gap, yang membantu dalam menentukan jumlah klaster yang optimal dan mengukur kualitas pengelompokan. Secara keseluruhan, analisis klaster merupakan komponen fundamental dari data mining yang meningkatkan kemam-puan analitis dalam menggali informasi berharga dari kumpulan data besar. A. Konsep Dasar Analisis Klaster Dalam konteks praktis, analisis klaster digunakan untuk berbagai tujuan seperti segmentasi pasar, organisasi dokumen, analisis citra, dan banyak lagi. Metode pengelompokan yang digunakan bisa bervariasi, dua dari yang paling umum adalah: 1. K-means Clustering: Metode ini menentukan kluster berdasarkan jarak antara data point dengan centroid (pusat kluster), yang dihitung ulang iteratif sampai posisi centroid stabil. Metode ini efektif untuk data dengan kluster yang berbentuk globular. 2. Hierarchical Clustering: Metode ini membangun hierarki dari kluster yang bisa divisualisasikan sebagai dendrogram. Ini dapat dilakukan melalui pendekatan aglomeratif (menggabungkan kluster dari yang ter-
103 kecil) atau divisive (membagi kluster dari yang terbesar). 3. DBSCAN (Density-Based Spatial Clustering of Applications with Noise) adalah algoritma pengelompokan data yang berfokus pada konsep kepadatan. Berbeda dari metode seperti K-means yang memerlukan penentuan jumlah kluster sebelumnya, DBSCAN mengelompokkan titik-titik data berdasarkan kepadatan area tertentu. Algoritma ini mengidentifikasi 'core points' yang memiliki setidaknya sejumlah minimum titik tetangga dalam radius tertentu dan mengklusterkan titik-titik tersebut bersamasama, sementara titik-titik yang tidak mencukupi kepadatan minimum dikelompokkan sebagai 'noise'. 1. Pengertian Analisis Klaster Analisis klaster adalah metode analisis data yang bertujuan untuk mengelompokkan sejumlah objek ke dalam kelompok-kelompok berdasarkan kesamaan karakteristik atau atribut yang dimiliki. Setiap kluster yang terbentuk diharapkan memiliki anggota-anggota yang homogen atau serupa satu sama lain, dan heterogen atau berbeda dengan anggota dari kluster lain. Teknik ini sangat berguna dalam mengungkap pola dan struktur tersembunyi dalam data, yang mungkin tidak terlihat melalui pengamatan kasual. Analisis klaster sering digunakan dalam berbagai bidang seperti pemasaran untuk segmentasi pelanggan, biologi untuk pengelompokan gen atau spesies, dan ilmu komputer untuk pengorganisasian data.
104 Berbeda dari teknik analisis data lainnya, analisis klaster termasuk dalam kategori pembelajaran tanpa pengawasan (unsupervised learning) karena tidak bergantung pada data yang telah dilabeli sebelumnya. Sebaliknya, teknik ini mencoba untuk membuat sense dari dataset tanpa referensi awal mengenai kelompok atau kategori yang seharusnya. Hal ini membedakannya dari pembelajaran dengan pengawasan (supervised learning), seperti klasifikasi, di mana tujuannya adalah untuk memprediksi label kategori berdasarkan atribut yang telah diketahui. Dalam klasifikasi, model dilatih pada dataset yang labelnya sudah diketahui untuk kemudian memprediksi label dari data baru. Sedangkan dalam klaster, tidak ada label yang diberikan, dan tujuan utamanya adalah eksplorasi data untuk menemukan struktur alami atau kelompok-kelompok berdasarkan kesamaan data. Analisis klaster juga berbeda dari teknik reduksi dimensi seperti Analisis Komponen Utama (PCA) yang bertujuan untuk mereduksi kompleksitas data dengan mengurangi jumlah variabel yang digunakan, sambil tetap mempertahankan sebagian besar informasi yang penting. Meskipun kedua teknik ini bisa digunakan bersamaan untuk memudahkan visualisasi dan interpretasi data, fokus utama klaster adalah pada pengelompokan objek berdasarkan atribut yang serupa tanpa mengurangi dimensi data. Dengan kemampuannya untuk mengidentifikasi kelompok-kelompok data secara efektif tanpa memerlukan input atau label eksternal, analisis klaster menjadi alat yang sangat
105 berharga dalam data mining dan analisis eksplorasi data. 2. Tujuan Analisis Klaster Analisis klaster, dalam konteks data mining, bertujuan untuk mengidentifikasi struktur atau pola yang tersembunyi dalam dataset besar dengan mengelompokkan objek-objek berdasarkan kesamaan karakteristik mereka. Tujuan utama dari teknik ini adalah untuk mempermudah pemahaman tentang data dengan mengurangi kompleksitasnya ke dalam kelompok-kelompok yang lebih kecil dan manajemen yang lebih mudah. Klasterisasi membantu dalam mengungkap hubungan dan tren yang tidak jelas pada pandangan pertama, memungkinkan organisasi dan analisis data menjadi lebih terfokus. Dalam pemasaran, misalnya, analisis klaster digunakan untuk segmentasi pelanggan, memungkinkan perusahaan untuk menargetkan kelompok pelanggan tertentu dengan strategi pemasaran yang disesuaikan sesuai dengan kebutuhan dan preferensi mereka. Lebih lanjut, analisis klaster juga berperan penting dalam identifikasi pola yang membantu dalam pengambilan keputusan strategis dan operasional. Di sektor keuangan, misalnya, klasterisasi dapat digunakan untuk mengidentifikasi kelompok risiko kredit atau pola penipuan, memungkinkan lembaga untuk merespons lebih cepat dan lebih tepat terhadap potensi risiko. Di bidang biomedis, teknik ini digunakan untuk pengelompokan gen atau jenis penyakit, yang membantu dalam penelitian dan
106 pengembangan obat-obatan baru. Secara keseluruhan, analisis klaster menawarkan cara yang kuat untuk menyederhanakan data yang kompleks menjadi wawasan yang actionable, mengarahkan pengambilan keputusan yang lebih tepat berdasarkan karakteristik yang jelas dari sub-kelompok dalam dataset. Dengan demikian, teknik ini tidak hanya berperan penting dalam menyempurnakan strategi bisnis tetapi juga dalam meningkatkan efisiensi operasional dan keakuratan ilmiah dalam berbagai aplikasi industri dan penelitian. 3. Jenis-jenis Klaster Dalam data mining, analisis klaster dibagi menjadi beberapa jenis berdasarkan metode yang digunakan untuk mengelompokkan data, dengan masingmasing jenis memiliki karakteristik dan kegunaan yang unik. Salah satu jenis klaster yang umum adalah klaster partitional, di mana dataset dibagi menjadi beberapa kelompok yang tidak saling tumpang tindih sehingga setiap objek hanya termasuk dalam satu kelompok. Metode yang paling terkenal dari jenis ini adalah K-means clustering, yang sangat efektif untuk data berukuran besar dan sering digunakan dalam aplikasi komersial dan industri untuk segmentasi pelanggan dan analisis pasar. K-means sangat efisien dalam mengelola dataset besar, tetapi mengasumsikan kluster berbentuk sferis dan ukuran kluster yang seimbang, yang mungkin tidak selalu cocok dengan struktur data alami.
107 Klaster hierarkis, di sisi lain, membentuk hierarki kluster yang dapat divisualisasikan dalam dendrogram, memberikan pandangan intuitif tentang bagaimana kluster terkait satu sama lain pada berbagai tingkat granularitas. Metode ini tidak memerlukan spesifikasi jumlah kluster di awal dan cocok untuk aplikasi di mana hubungan antar objek perlu dipahami secara mendalam, seperti dalam analisis filogenetik atau saat mempelajari grup sosial dalam jejaring sosial. Metode hierarkis terbagi menjadi dua pendekatan: agglomerative (bottom-up), dimana setiap objek dimulai sebagai kluster sendiri dan kluster digabungkan secara berurutan, dan divisive (top-down), yang mulai dengan semua objek dalam satu kluster yang kemudian dibagi. Jenis ketiga adalah klaster berbasis kepadatan, seperti DBSCAN (Density-Based Spatial Clustering of Applications with Noise) dan OPTICS (Ordering Points To Identify the Clustering Structure), yang mengidentifikasi kluster sebagai wilayah dengan kepadatan tinggi objek yang dipisahkan oleh wilayah dengan kepadatan rendah. Jenis klaster ini sangat berguna untuk data yang mengandung noise dan outlier serta mampu mendeteksi kluster dengan bentuk yang beragam, tidak terbatas pada bentuk sferis atau linier. Klaster berbasis kepadatan sangat relevan dalam studi geospasial, analisis citra, dan setiap aplikasi di mana kluster mungkin memiliki bentuk yang tidak teratur dan variabel. Masing-masing jenis klaster memiliki keunggulan dan keterbatasan yang membuatnya lebih cocok
108 untuk jenis data dan tujuan analisis tertentu. Pemahaman tentang karakteristik masing-masing dapat membantu dalam memilih metode yang paling tepat untuk setiap situasi analisis data. B. Metodologi Analisis Klaster Metodologi analisis klaster mengacu pada serangkaian teknik yang digunakan untuk mengelompokkan objek atau data yang serupa ke dalam kelompok-kelompok yang disebut kluster. Tujuan utama dari metodologi ini adalah untuk memastikan bahwa objek dalam kluster yang sama memiliki kesamaan yang tinggi satu sama lain, sementara objek di kluster yang berbeda memiliki perbedaan yang signifikan. Berikut adalah beberapa aspek kunci dari metodologi analisis klaster: Gambar 1. Metodologi Analisi Klaster
109 1. Pemilihan Fitur: Langkah awal dalam analisis klaster sering kali melibatkan pemilihan atau ekstraksi fitur yang akan digunakan untuk mengelompokkan data. Fitur yang relevan dan representatif penting untuk hasil klaster yang efektif. 2. Pra-pemrosesan Data: Ini meliputi normalisasi data, penanganan nilai yang hilang, dan penghapusan outlier. Pra-pemrosesan yang tepat esensial untuk memastikan bahwa teknik klaster bekerja dengan baik dan hasil yang diperoleh valid. 3. Pemilihan Model Klaster: Memilih algoritma klaster yang sesuai sangat penting. Beberapa model klaster yang populer termasuk K-means untuk klaster partitional, DBSCAN untuk klaster berbasis kepadatan, dan metode agglomerative untuk klaster hierarkis. Pemilihan model sering kali didasarkan pada karakteristik data dan tujuan analisis. 4. Implementasi Model: Setelah memilih model, langkah selanjutnya adalah mengimplementasikannya untuk mengelompokkan data. Setelah klaster terbentuk, penting untuk memvalidasi hasilnya menggunakan metrik seperti Silhouette Score atau Davies-Bouldin Index untuk menilai kualitas klaster. 5. Evaluasi Kluster: Metrik evaluasi seperti Silhouette Score atau metode lainnya untuk menilai kualitas klaster. Analisis hasil untuk memastikan klaster yang terbentuk sesuai dengan ekspektasi analisis. 6. Interpretasi dan Aplikasi: Akhirnya, hasil dari analisis klaster harus diinterpretasikan dalam konteks pertanyaan penelitian atau masalah bisnis. Pengelompokan yang efektif dapat mengungkapkan wa-
110 wasan yang berharga seperti pola tersembunyi dalam data, yang dapat digunakan untuk membuat keputusan yang lebih informasi. 1. Metode K-means Metode K-means adalah teknik pengelompokan partitional yang populer dalam analisis data karena keefektivitasannya dalam membentuk kluster berdasarkan kesamaan atribut anggotanya. Menurut Syarifudin MK, et al, (2022), K-Means adalah teknik pengelompokan data nonhierarki yang bertujuan untuk membagi data ke dalam dua atau lebih kelompok. Teknik ini mencari untuk meminimalkan variasi dalam kluster dan memaksimalkan variasi antara kluster dengan mengikuti langkah-langkah berikut: Misalkan memiliki dataset sederhana yang terdiri dari skor siswa dalam dua ujian dan ingin mengelompokkannya menjadi dua kluster berdasarkan skor mereka. Berikut adalah skrip Python menggunakan library scikit-learn untuk mengimplementasikan Kmeans pada dataset ini. import numpy as np from sklearn.cluster import KMeans import matplotlib.pyplot as plt # Contoh data: Skor Ujian1 dan Ujian2 data = np.array([ [65, 70], [70, 74], [82, 88], [55, 60], [75, 80], [60, 55], [80, 90], [90, 85], [55, 60], [85, 92] ])
111 # Menginisialisasi KMeans kmeans = KMeans(n_clusters=2, random_state=0) # Melakukan fitting dan memprediksi kluster untuk dataset labels = kmeans.fit_predict(data) # Menggambar hasil klustering plt.scatter(data[:, 0], data[:, 1], c=labels, cmap='viridis', marker='o') centroids = kmeans.cluster_centers_ plt.scatter(centroids[:, 0], centroids[:, 1], s=100, c='red') # Centroid ditandai dengan warna merah plt.xlabel('Skor Ujian 1') plt.ylabel('Skor Ujian 2') plt.title('Pengelompokan Skor Ujian dengan KMeans') plt.show() Gambar 2. Visualisasi dari skrip python.
112 Penjelasan Kode: a. Data: Array numpy berisi skor dua ujian. b. KMeans: Objek KMeans dari scikit-learn diinisialisasi dengan dua kluster dan state acak ditetapkan untuk replikabilitas. c. fit_predict: Metode ini melakukan fitting model Kmeans pada data dan juga mengembalikan label kluster untuk setiap data point. d. Visualisasi: Data divisualisasikan menggunakan matplotlib, dengan titik data berwarna berdasarkan kluster yang mereka miliki dan centroid ditandai dalam warna merah. 2. Hierarchical clustering Hierarchical clustering adalah metode alternatif untuk K-means yang menawarkan pendekatan berbeda dalam pengelompokan data. Berbeda dari Kmeans yang mengharuskan pengguna menentukan jumlah kluster sebelumnya, hierarchical clustering membangun hierarki kluster dan tidak membutuhkan pengguna untuk menetapkan jumlah kluster sebelumnya. Hierarchical clustering dapat dilakukan dalam dua cara: agglomerative (bottom-up) di mana setiap titik data awalnya dianggap sebagai kluster terpisah dan kluster dikombinasikan secara bertahap, atau divisive (top-down), di mana semua data dimulai dalam satu kluster yang kemudian dibagi. Berikut adalah contoh penggunaan hierarchical clustering dengan Python, menggunakan library scikit-learn dan visualisasi dengan matplotlib dan scipy. Misalnya, memiliki data tentang pengukuran
113 pada dua fitur yang berbeda dari beberapa objek, dan kita ingin mengelompokkan objek tersebut menggunakan hierarchical clustering. import matplotlib.pyplot as plt from scipy.cluster.hierarchy import dendrogram, linkage from sklearn.datasets import make_blobs # Membuat data contoh X, labels_true = make_blobs(n_samples=50, centers=3, cluster_std=0.60, random_state=0) # Menggunakan metode linkage 'ward' untuk melakukan hierarchical clustering linked = linkage(X, 'ward') # Membuat dendrogram plt.figure(figsize=(10, 7)) dendrogram(linked, orientation='top', labels=labels_true, distance_sort='descending', show_leaf_counts=True) plt.title('Hierarchical Clustering Dendrogram') plt.xlabel('Sample index') plt.ylabel('Distance') plt.show()
114 Gambar 3. Visualisasi Hierarchical clustering Penjelasan Kode a. Pembuatan Data: Data dibuat menggunakan make_blobs dari sklearn.datasets, yang menghasilkan kumpulan data dengan kluster yang jelas untuk demonstrasi hierarchical clustering. b. Linkage: Fungsi linkage dari scipy.cluster. hierarchy digunakan untuk menentukan cara pengukuran jarak antar kluster. Parameter 'ward' mengindikasikan bahwa algor-itma Ward digunakan, yang meminimalkan varian dalam semua kluster. c. Dendrogram: Dendrogram digunakan untuk memvisualisasikan hasil hierarchical clustering. Ini menunjukkan bagaimana setiap kluster dihubungkan serta jarak di antara kluster pada saat penggabungan.
115 3. DBSCAN (Density-Based Spatial Clustering of Applications with Noise) Algoritma clustering yang sangat efektif untuk data yang memiliki kluster dengan bentuk tidak standar atau data yang mengandung banyak noise. Algoritma ini bekerja berdasarkan kepadatan titik data, mengidentifikasi 'region of high density' yang dipisahkan oleh 'region of low density'. Salah satu kelebihan utama DBSCAN adalah kemampuannya untuk mengecualikan poin outlier dan noise dari kluster, serta tidak memerlukan spesifikasi jumlah kluster sebelumnya. Contoh Penggunaan DBSCAN DBSCAN dapat diterapkan menggunakan Python dengan bantuan library scikit-learn. Contoh ini akan menggunakan dataset sintetis yang dihasilkan dengan make_moons dari sklearn.datasets, yang menghasilkan dua kluster berbentuk bulan sabit yang tumpang tindih. import matplotlib.pyplot as plt from sklearn.datasets import make_moons from sklearn.cluster import DBSCAN import numpy as np # Menghasilkan data sintetis X, y = make_moons(n_samples=200, noise=0.1, random_state=42)
116 # Menerapkan DBSCAN dbscan = DBSCAN(eps=0.2, min_samples=5) clusters = dbscan.fit_predict(X) # Visualisasi hasil plt.scatter(X[:, 0], X[:, 1], c=clusters, cmap='viridis', marker='o') plt.title('DBSCAN Clustering') plt.xlabel('Feature 1') plt.ylabel('Feature 2') plt.colorbar(label='Cluster Label') plt.show() Gambar 4. Visualisasi DBSCAN
117 Penjelasan Kode a. Pembuatan Data: Fungsi make_moons digunakan untuk membuat dua kluster berbentuk bulan sabit dengan sedikit noise. Parameter noise=0.1 menambahkan variabilitas kecil pada data untuk meniru kondisi dunia nyata. b. Penerapan DBSCAN: Objek DBSCAN dari scikitlearn diinisialisasi dengan parameter eps dan min_samples. eps (epsilon) menentukan radius lingkaran untuk mencari tetangga (neighborhood) dan min_samples menentukan jumlah minimum titik dalam sebuah neighborhood agar dianggap sebagai sebuah kluster. c. Visualisasi: Plot scatter digunakan untuk memvisualisasikan kluster yang dihasilkan. Setiap titik data diwarnai berdasarkan kluster yang mereka miliki. C. Aplikasi dan Evaluasi Analisis Klaster Analisis klaster digunakan secara luas dalam berbagai bidang untuk menemukan pola dan mengelompokkan data berdasarkan karakteristik yang serupa. Dalam pemasaran, teknik ini digunakan untuk segmentasi pasar, membantu bisnis mengidentifikasi sub-kelompok pelanggan dengan kebutuhan dan preferensi serupa untuk penargetan iklan dan strategi promosi yang lebih efektif. Di bidang biomedis, klasterisasi membantu dalam pengelompokan pasien berdasarkan gejala atau hasil genetik untuk penelitian dan pengembangan terapi yang lebih tepat sasaran. Di sektor keuangan, analisis klaster diguna-
118 kan untuk mengidentifikasi pola transaksi yang dapat mengindikasikan penipuan atau risiko kredit. Evaluasi efektivitas klaster dilakukan untuk memastikan bahwa kelompok-kelompok yang terbentuk valid dan bermanfaat untuk aplikasi spesifik. Salah satu metode evaluasi yang populer adalah Silhouette Score, yang mengukur seberapa baik objek cocok dengan kluster mereka dibandingkan dengan kluster lain. Metrik ini memberikan wawasan tentang kepadatan dan pemisahan kluster, membantu para analis memverifikasi kualitas klasterisasi sebelum menggunakannya dalam aplikasi lebih lanjut. Dengan evaluasi yang tepat, analisis klaster tidak hanya memperkaya pengertian kita tentang data tetapi juga meningkatkan keputusan dan intervensi yang berbasis data. 1. Aplikasi Analisis Klaster Analisis klaster adalah teknik analisis data yang sangat bermanfaat dan serbaguna yang digunakan di berbagai sektor untuk mengidentifikasi grup atau segmen dalam kumpulan data yang besar berdasarkan kesamaan karakteristik. Dalam dunia bisnis, teknik ini sering digunakan untuk segmentasi pasar, di mana perusahaan dapat mengidentifikasi kelompok pelanggan dengan preferensi, kebiasaan belanja dan respons terhadap strategi pemasaran yang serupa. Hal ini memungkinkan perusahaan untuk merancang kampanye pemasaran yang lebih ditargetkan dan efektif, meningkatkan penjualan dan kepuasan pelanggan. Misalnya, pengecer online mungkin menggunakan analisis klaster untuk mengelompokkan pelanggan
119 berdasarkan frekuensi pembelian dan kategori produk yang dibeli, kemudian menawarkan promosi khusus kepada segmen yang memiliki probabilitas tinggi untuk tertarik pada produk baru atau penawaran khusus. Di sektor kesehatan, analisis klaster digunakan untuk mengelompokkan pasien berdasarkan gejala atau hasil dari tes klinis. Ini membantu dalam pengidentifikasian pola penyakit dan bisa memandu dalam pengembangan strategi pengobatan yang lebih efektif dan personalisasi. Dalam penelitian medis, klasterisasi membantu dalam analisis data genetik, di mana ilmuwan mengelompokkan gen atau protein yang serupa untuk menemukan fungsi atau hubungan yang mungkin tidak jelas melalui metode konvensional. Pendekatan ini juga dapat digunakan untuk mengelompokkan hasil dari percobaan klinis, membantu peneliti mengidentifikasi subkelompok pasien yang mungkin bereaksi berbeda terhadap terapi tertentu. Dalam bidang keuangan, analisis klaster sering digunakan untuk mendeteksi aktivitas mencurigakan dan menilai risiko kredit. Bank dan lembaga keuangan menerapkan klasterisasi untuk mengelompokkan nasabah berdasarkan perilaku transaksi mereka, membantu dalam mendeteksi pola yang menunjukkan penipuan atau pencucian uang. Sebagai contoh, klasterisasi bisa mengidentifikasi kelompok transaksi yang memiliki ciri-ciri serupa yang mungkin mengindikasikan penipuan, seperti transaksi besar yang tidak biasa dilakukan oleh pengguna tersebut atau
120 serangkaian pembayaran ke tujuan yang mencurigakan. Pada sektor teknologi, terutama dalam bidang ilmu data dan kecerdasan buatan, analisis klaster digunakan untuk mengatur dan menyederhanakan data besar serta mengoptimalkan algoritma untuk pencarian dan rekomendasi. Di bidang pendidikan, klasterisasi dapat membantu dalam mengidentifikasi pola belajar siswa dan mengelompokkan siswa dengan kemampuan dan kebutuhan serupa untuk menyesuaikan metode pengajaran atau materi pembelajaran. Aplikasi analisis klaster melintasi berbagai disiplin ilmu dan sektor industri, membuktikan dirinya sebagai alat yang sangat efektif dalam mengungkapkan wawasan tersembunyi yang tidak dapat dengan mudah diperoleh melalui metode analitik lainnya. Evaluasi dari klaster yang dihasilkan sangat penting untuk memastikan integritas dan relevansi kelompok terhadap tujuan analitis. Dengan kemajuan teknologi dan peningkatan ketersediaan data besar, pemanfaatan analisis klaster diharapkan akan terus berkembang dan menjadi lebih canggih, memberikan kontribusi yang lebih besar lagi terhadap kemajuan dalam sains, teknologi, dan pengembangan bisnis. 2. Evaluasi Klaster Evaluasi klaster adalah langkah penting dalam proses analisis klaster yang bertujuan untuk menilai seberapa baik klaster yang dibentuk mewakili data yang sebenarnya. Evaluasi ini penting karena hasil klasterisasi sering kali tidak langsung jelas kebenaran-
121 nya tanpa label yang sudah diketahui, terutama dalam kasus pembelajaran tanpa pengawasan. Evaluasi klaster membantu menentukan efektivitas metode pengelompokan yang digunakan dan memvalidasi keputusan yang dibuat berdasarkan hasil klasterisasi tersebut. Salah satu metode paling populer untuk mengevaluasi kualitas klaster adalah Silhouette Score, yang mengukur seberapa serupa data dalam satu kluster dibandingkan dengan data di kluster lain. Skor Silhouette berkisar antara -1 hingga 1, di mana nilai yang tinggi menunjukkan bahwa kluster tersebut padat dan terpisah dengan baik dari kluster lain, sedangkan nilai yang rendah menunjukkan kluster yang tumpang tindih atau tersebar. Metrik ini sangat berguna untuk menentukan jumlah kluster yang optimal, khususnya saat jumlah kluster tidak diketahui sebelumnya. Metode evaluasi lainnya termasuk Davies-Bouldin Index, yang mengukur rasio jarak dalam kluster terhadap jarak antar kluster. Nilai yang lebih rendah menunjukkan bahwa kluster memiliki separasi yang baik, yaitu kluster yang kompak dan terisolasi dari kluster lain, sehingga lebih diinginkan. Selain itu, metode evaluasi seperti Indeks Dunn dan GAP Statistic juga digunakan untuk menilai aspek lain dari kualitas kluster seperti kepadatan dan jarak. Evaluasi klaster tidak hanya terbatas pada metrik internal. Dalam beberapa kasus, penilaian eksternal juga dilakukan dengan menggunakan data berlabel untuk membandingkan kluster yang ditemukan de-
122 ngan partisi yang sudah diketahui. Ini terutama berguna dalam penelitian dan aplikasi di mana ground truth atau pemisahan sebenarnya dari data diketahui. Contoh dari evaluasi eksternal adalah Adjusted Rand Index (ARI), yang mengukur kesesuaian antara klustering yang ditemukan dan pembagian kelas sebenarnya. Proses evaluasi ini memungkinkan analis untuk memperbaiki dan menyempurnakan proses pengelompokan, memastikan bahwa model yang dihasilkan valid dan dapat diandalkan untuk aplikasi lebih lanjut. Misalnya, dalam konteks bisnis, klaster yang efektif dapat mengarah pada segmentasi pasar yang lebih akurat, yang pada gilirannya meningkatkan efektivitas strategi pemasaran dan penjualan. Di sektor kesehatan, klaster pasien yang akurat sangat penting untuk menyesuaikan perawatan medis yang efisien dan efektif. Davies-Bouldin Index (DBI) adalah salah satu metrik untuk mengevaluasi kualitas kluster dalam analisis klaster. DBI mengukur rasio jarak rata-rata antara setiap kluster dengan kluster terdekatnya, di mana nilai yang lebih rendah menunjukkan pembagian kluster yang lebih baik. Ini karena nilai yang rendah menunjukkan bahwa kluster lebih kompak dan terpisah dengan baik dari kluster lain. 3. Contoh Skrip Python Menggunakan DBI Diasumsikan kita memiliki dataset dan kita ingin menggunakan K-means clustering untuk mengelompokkan data, kemudian mengevaluasi kluster
123 menggunakan Davies-Bouldin Index. Penggunakan dataset sintetis yang dihasilkan dengan make_blobs dari sklearn.datasets untuk demonstrasi. import numpy as np from sklearn.datasets import make_blobs from sklearn.cluster import KMeans from sklearn.metrics import davies_bouldin_score import matplotlib.pyplot as plt # Membuat dataset sintetis X, _ = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0) # Melakukan K-means clustering kmeans = KMeans(n_clusters=4) kmeans.fit(X) cluster_labels = kmeans.predict(X) # Menghitung Davies-Bouldin Index db_index = davies_bouldin_score(X, cluster_labels) # Output DBI print("Davies-Bouldin Index:", db_index) # Visualisasi hasil klaster plt.scatter(X[:, 0], X[:, 1], c=cluster_labels, s=50, cmap='viridis') centers = kmeans.cluster_centers_
124 plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.75) plt.title("Visualization of Clustered Data") plt.xlabel("Feature 1") plt.ylabel("Feature 2") plt.show() Output Davies-Bouldin Index: 0.43756400782378385 Visualisasi Gambar 5. Visualisasi Klaster Data
125 Analisis Asosiasi dan Frekuensi Ira Diana Sholihati, S. Si. , MMSI. ata yang dimiliki oleh suatu organisasi adalah aset berharga yang dimiliki oleh organisasi tersebut. Data diperoleh dari kegiatan sehari- hari organisasi tersebut, sehingga semakin hari jumlah data akan semakin besar. Jika organisasi tersebut tidak dapat memanfaatkan data tersebut, maka data akan menimbulkan masalah bagi organisasi tersebut karena data tersebut tidak akan bermanfaat. Dengan demikian, semakin banyak data, semakin banyak usaha yang harus dilakukan oleh organisasi untuk mengubah data menjadi data bermanfaat. Usaha yang dilakukan adalah mengklasifikasikan data berdasarkan kemungkinan yang muncul secara bersamaan selama satu transaksi. Teknik analisis yang dapat dilakukan adalah Analisis Asosiasi dan Analisis Frekuensi. Analisis asosiasi dan analisis frekuensi adalah dua teknik analisis yang umum digunakan dalam berbagai bidang, termasuk ilmu data, penelitian pasar, dan analisis bisnis. Analisis asosiasi (analisis aturan asosiasi) merupakan metode data miD
126 ning untuk menemukan aturan asosiasi antara gabungan beberapa item. A. Analisis Asosiasi Analisis asosiasi adalah metode untuk menemukan hubungan antara variabel dalam data yang besar. Ini sering digunakan dalam analisis transaksi ritel untuk menemukan pola pembelian yang terkait satu sama lain. Salah satu algoritma yang paling terkenal untuk analisis asosiasi adalah algoritma Apriori. Contoh penerapannya adalah di toko ritel, di mana kita ingin mengetahui pola pembelian yang sering muncul bersama. Misalnya, jika pelanggan membeli roti, mereka juga cenderung membeli mentega. Analisis asosiasi dapat membantu menemukan pola-pola seperti ini. B. Analisis Frekuensi Analisis frekuensi, seperti namanya, berkaitan dengan mencari frekuensi kemunculan suatu kejadian atau nilai dalam kumpulan data. Ini sering digunakan untuk mengidentifikasi pola dan tren dalam data. Contoh penerapannya adalah dalam survei kepuasan pelanggan, di mana kita ingin melihat seberapa sering pelanggan memberikan nilai tertentu untuk produk atau layanan. Dengan menganalisis frekuensi tanggapan yang berbeda, kita dapat mengevaluasi kepuasan pelanggan secara keseluruhan. Dalam praktiknya, kedua teknik analisis ini sering digunakan bersama-sama untuk mendapatkan pemaham-
127 an yang lebih baik tentang data. Misalnya, ana-lisis asosiasi dapat membantu mengidentifikasi pola-pola yang menarik, sementara analisis frekuensi dapat memberikan pemahaman tentang seberapa sering pola-pola tersebut terjadi. Kombinasi dari keduanya dapat memberikan wawasan yang kuat untuk pengambilan keputusan (Kusrini, 2021). C. Aturan Asosiasi Basis data transaksi pembelian pelanggan supermarket dan perusahaan lain, secara otomatis menemukan hubungan produk dikembangkan. Data transaksi supermarket mencatat semua barang yang dibeli pembeli dalam satu transaksi. Manajer tertarik untuk mengetahui apakah produk dibeli secara konsisten secara bersamaan. Informasi ini dapat digunakan untuk mengoptimalkan tata letak supermarket, iklan, katalog produk, segmentasi pelanggan dan kebiasaan pembelian. Aturan asosiasi ingin memberikan hubungan "jika-maka" yang bersifat probabilistik. Tujuannya adalah memilih item yang paling mungkin dijadikan sebagai indikator ketergantungan melibatkan melihat setiap potensi interaksi jika-maka antar item. Istilah ‚jika‛ dan ‚maka‛ dalam analisis ini dinotasikan dengan anteseden dan konsekuen. Metode penambangan data yang dikenal sebagai "aturan asosiasi" digunakan untuk mengidentifikasi hubungan antar komponen dalam kumpulan data yang diberikan. Algoritma aturan asosiasi menggunakan data pelatihan untuk menghasilkan penambangan data.
128 Tahapan yang dilakukan untuk menetapkan aturan asosiasi : 1. Analisis pola frekuensi tinggi. Tahapan ini dilakukan untuk mencari kombinasi item yang memenuhi nilai minimum basis data. Persentase item atau kombinasi database adalah nilai dukungan. Rumus berikut ini menghitung nilai dukungan item: Rumus (1) menunjukkan cara perhitungan nilai support pada 1 buah item misalnya A, dimana nilai support diperoleh dengan membagi jumlah transaksi mengandung A dengan total transaksi. Sedangkan nilai dari support 2 item diperoleh dari rumus berikut : Rumus (2) menunjukkan cara perhitungan nilai support pada 2 buah item misalnya A dan B, dimana nilai support diperoleh dengan membagi jumlah
129 transaksi mengandung A, B dengan total transaksi (Riszky and Sadikin, 2019). 2. Pembentukan aturan asosiatif. Setelah semua pola frekuensi tinggi ditemukan, nilai kepercayaan aturan asosiatif dihitung : ‚Jika A maka B‛ = (A→B) Rumus (3) menunjukkan cara perhitungan nilai confidence diperoleh dengan membagi jumlah transaksi mengandung A dan B dengan transaksi mengandung A kemudian dikalikan 100%. Analisis Afinitas = ‚apa bersama apa‛ Bisa digunakan untuk menentukan kebiasaan ‚suatu produk apa akan dibeli bersama apa‛ (Adinugroho and Arum Sari, 2018) . Contoh: Studi transaksi di supermarket Jika membeli susu bayi maka akan membeli popok bayi Jika membeli mi instan maka akan membeli telur Jika membeli kopi maka akan membeli gula Analis Market Basket bekerja untuk menemukan pola pembelian pada ribuan konsumen dari database transactional, seperti yang ditunjukkan dalam contoh di atas. Dalam hal ini, aturan asosiasi sangat penting
130 untuk menemukan itemset yang sering dan terkait antara berbagai barang. Aturan asosiasi memberikan deklarasi jenis yang jelas (Amalia, Setiawansyah and Darwis, 2021), misalnya, "Jika item X dibeli, maka item Y juga dibeli." D. Algoritma Apriori Algoritma klasik ini sering digunakan untuk melakukan asosiasi, dan memiliki kelemahan karena memakan waktu yang cukup lama. Ini karena algoritma harus melakukan scan ke dalam basis data setiap iterasi, yang berarti jumlah waktu yang dibutuhkan untuk melakukan iterasi meningkat. Banyak penelitian dilakukan untuk mengembangkan algoritma baru FP-Growth. Akhirnya, algoritma FP-Growth memperbaiki kelemahan Apriori (Fahrudin, 2019). Algoritma apriori dalam penggalian data menggunakan aturan asosiasi. Banyak peneliti analisis asosiasi berfokus pada analisis pola frekuensi tinggi (frequent pattern mining) karena sangat penting untuk algoritma yang efisien. Pentingnya sebuah asosiasi dapat diukur dengan support dan confidence. Support adalah persentase kombinasi item database, sedangkan confidence adalah kekuatan hubungan antar item dalam aturan asosiasi. Strategi pemasaran dapat menggunakan algoritma apriori (Badrul, 2016). Aturan asosiasi biasanya dinyatakan dalam bentuk: (susu bayi, popok bayi) {tisu basah} (support = 40%, confidence = 50%). Artinya, ‚50% transaksi di data base yang memuat item susu bayi dan popok bayi, juga memuat
131 item tisu basah. Sementara 40 % dari seluruh transaksi di data base memuat ketiga item tersebut‛. Atau bisa juga diartikan, seorang konsumen yang membeli susu bayi dan popok bayi, memiliki 50% kemungkinan untuk juga membeli tisu basah. Aturan tersebut cukup signifikan karena memuat 40% dari catatan transaksi pada periode tertentu. Langkah-langkah utama dari algoritma Apriori: 1. Generate Itemset Kandidat: Algoritma Apriori pertama-tama menciptakan kandidat-kandidat itemset tunggal yang mungkin terbentuk dari data transaksi. Ini adalah langkah awal dalam menemukan itemset yang sering muncul. 2. Hitungan Dukungan: Dukungan atau support dari suatu itemset adalah jumlah transaksi di mana itemset tersebut muncul. Algoritma menghitung dukungan untuk setiap itemset kandidat yang dihasilkan. 3. Pemotongan (Pruning): Itemset yang memiliki dukungan di bawah ambang batas minimum yang ditentukan sebelumnya dihapus dari daftar itemset kandidat. Ini mengurangi ruang pencarian dan mempercepat proses. 4. Generate Itemset Frekuensi Tinggi: Itemset yang melewati ambang batas dukungan minimum dipertahankan sebagai itemset frekuensi tinggi. Itemsetitemset ini akan membentuk dasar untuk mencari pola-pola yang signifikan dalam data. 5. Generate Aturan Asosiasi: Dari itemset-itemset frekuensi tinggi yang ditemukan, aturan asosiasi dapat dibuat. Aturan asosiasi menggambarkan hubungan
132 antara item-item dalam dataset transaksi, seperti "Jika A dan B dibeli, maka kemungkinan besar C juga akan dibeli." 6. Evaluasi Aturan: Aturan-aturan yang dihasilkan dievaluasi berdasarkan metrik seperti tingkat kepercayaan (confidence) dan nilai support. Ini membantu memastikan bahwa aturan yang dihasilkan bermanfaat dan dapat diandalkan. 7. Iterasi: Proses ini dapat diulangi dengan menaikkan ukuran itemset dan menemukan pola-pola yang lebih kompleks atau spesifik. Contoh transaksi belanja sebuah pasar swalayan : Langkah pertama yang dilakukan adalah membuat data transaksi pada periode tertentu, seperti pada tabel 1. Tabel 1. Data Transaksi Transaksi Item yang dibeli (Itemset) Jumlah Item per Transaksi 1 B, C, E, G, I, K, L 7 2 A, B, F, I, J, K 6 3 B, D, E, F, G, I 6 4 B, C, F, G, H 5 5 A, B, C, D, E, G, J 7 6 A, B, D, E, F, G, H, J 8 7 A, B, D, F, G, H, I 7 8 B, C, D, E, F, G, H 7
133 Langkah kedua setelah terbentuk representasi data transaksi maka akan dibentuk pembuatan format tabular. Pada tabel format tabular, setiap sel diisi dengan nilai 1 atau Y untuk item yang terdapat dalam transaksi tertentu dan nilai 0 atau N untuk item yang tidak ada dalam transaksi tertentu. Tabel 2. Format Tabular 9 C, E, F, G, I 5 10 A, B, E, G, H, L 6 11 D, F, J, K 4 12 C, D, E, F, H, K, L 7 Total Jumlah Item per Transaksi 75
134 Tabel Format Tabular tabel 2, terlihat jumlah nilai Y adalah 75 dan dinotasikan Y = 1. Sedangkan nilai N adalah 69 dan dinotasikan N = 0, sehingga jumlah keseluruhan nilai adalah 144, yang juga dapat dilihat dari 12 transaksi yang masing–masing menghasilkan 12 item. Tahap berikutnya adalah mencari kombinasi item yang memenuhi syarat minimum dari nilai support dalam database. Proses pembentukan C1 atau 1- itemset dan support masing–masing item yang terdapat pada setiap transaksi di table berikutnya. Tabel 3. Jumlah dan Support 1 - Itemset Kode Itemset Nama Itemset Jumlah Jumlah Transaksi Support A Minyak goreng 5 12 42% B Gula pasir 9 12 75% C Terigu 6 12 50% D Biskuit 7 12 58% E Popok bayi 8 12 67% F Isi ulang air mineral 9 12 75% G Teh 9 12 75% H Kopi 6 12 50%
135 I Alat tulis 5 12 42% J Alat listrik 4 12 33% K Es krim 4 12 33% L Deterjen 3 12 25% Total 75 144 Tabel 3 menunjukkan tahap selanjutnya yaitu setelah diketahui candidate itemset-1 maka dilakukan proses prune / eliminasi pada data yang tidak memenuhi syarat minimum support. Kemudian ditentukan frequent itemset dari 1- itemset dengan jumlah minimum support 40 %, dengan cara sebagai berikut : S(A) = = x 100% = 42% Dan seterusnya dilakukan dengan cara yang sama. Diperoleh Frequent 1 - Itemset dengan minimum support 40 % adalah kode itemset : A, B, C, D, E, F, G, H dan I. Selanjutnya akan dilakukan pembentukan C2 atau 2 – Itemset. Kombinasi 2 - Itemset pada setiap transaksi 2 – Itemset dapat dilihat pada tabel 4.
136 Tabel 4. Frequent 2 - Itemset dengan minimum support 40 % dan nilai Support tertinggi Kombinasi Jumlah Jumlah Transaksi Support Gula Pasir, Teh (B, G) 8 12 67% Popok Bayi, Teh (E, G) 7 12 58% … … … … Langkah selanjutnya adalah menentukan kombinasi itemset – 2 untuk setiap transaksi dengan minimum support 40 % dengan menggunakan rumus : S(A) = Contoh : S(A) = x 100% = 33.33% Setelah semua pola frekuensi tinggi ditemukan, dicari aturan asosiasi yang memenuhi syarat minimal confidence = 60%. Contoh cara menghitung adalah : CA = x 100% = 33.33% CB = x 100% = 56 % Dan seterusnya dengan cara yang sama sehingga diperoleh hasil seperti pada tabel 5.
137 Tabel 5. Aturan Asosiasi untuk Frequent 2 - Itemset dengan nilai Confidence tertinggi. Itemset-2 Jumlah Itemset-1 Jumlah Confidence (A, B) Minyak Goreng, Gula Pasir 5 A Minyak goreng 5 5/5 100% B Gula pasir 9 5/9 56% (B, D) Gula Pasir, Biskuit 5 B Gula pasir 9 5/9 56% D Biskuit 7 5/7 71% Selanjutnya dihitung kombinasi itemset – 3 untuk setiap transaksi seperti terlihat pada tabel 6. Tabel 6. Aturan Asosiasi untuk Frequent 3 – Itemset dengan nilai Confidence tertinggi. Itemset - 3 Aturan Support Confidence Gula Pasir, Teh, Kopi (B, G, H) Jika membeli Gula Pasir dan Teh, maka akan membeli Kopi 42% 5/6 83% Gula Pasir, Popok Bayi, Teh (B, E, G) Jika membeli Gula Pasir dan Popok Bayi, maka akan membeli Teh 50% 6/8 75%
138 Terlihat pola pembelian konsumen, contoh: dimana jika membeli minyak goreng maka akan membeli gula pasir dan jika membeli gula pasir dan teh, maka akan membeli kopi.
139 Penggunaan Statistik dalam Pengelompokan Data Ir. Endah Tri Esthi Handayani.,M.MSI engelompokan data, atau yang sering dikenal sebagai clustering dalam bidang statistik dan analisis data, merupakan teknik penting yang digunakan untuk mengelompokkan kumpulan objek atau data points ke dalam beberapa kelompok berdasarkan kesamaan karakteristiknya. Tujuan utama dari pengelompokan ini adalah untuk memastikan bahwa data dalam satu kelompok memiliki kesamaan yang lebih besar dibandingkan dengan data di kelompok lain. Teknik ini sangat berguna dalam berbagai aplikasi, mulai dari segmentasi pasar, analisis sosial, hingga dalam bidang kedokteran dan biologi. Pengelompokan membantu dalam mengidentifikasi struktur yang tersembunyi dalam data yang besar atau kompleks, memungkinkan analis dan peneliti untuk membuat keputusan atau prediksi yang lebih informasi dan berbasis data. P
140 Pendekatan dalam pengelompokan data bisa beragam, tetapi prinsip umumnya adalah mengukur kemiripan atau jarak antar data points. Metode yang populer digunakan antara lain K-means clustering yang mengelompokkan data berdasarkan kedekatan mereka ke centroid yang ditentukan secara iteratif dan hierarchical clustering yang membangun hierarki kelompok dan dapat divisualisasikan melalui dendrogram. Setiap metode memiliki kelebihan dan keterbatasan yang membuatnya cocok untuk jenis data atau masalah tertentu. Misalnya, K-means efektif untuk data dengan bentuk kluster yang sferis, sedangkan hierarchical clustering lebih fleksibel dalam menangani berbagai bentuk kluster. Pemahaman yang mendalam tentang berbagai metode pengelompokan dan kriteria pemilihan mereka sangat krusial untuk menghasilkan insight yang akurat dari data yang dianalisis. A. Pengenalan terhadap pengelompokan data dan signifikansinya dalam statistik dan analisis data Pengelompokan data, atau clustering, adalah salah satu teknik fundamental dalam statistik dan analisis data yang digunakan untuk mengatur kumpulan objek atau titik data menjadi beberapa kelompok berdasarkan kesamaan atribut atau karakteristik. Teknik ini sangat penting karena memungkinkan analis untuk mengidentifikasi pola dan struktur dalam dataset yang besar atau kompleks, yang tidak mungkin diperoleh hanya dengan inspeksi manual. Dengan mengelompokkan data ke dalam kelompokkelompok yang homogen, peneliti dan analis dapat menyederhanakan data kompleks menjadi informasi yang