135 d. Veracity (Kebenaran Data): Veracity mengacu pada kualitas data. Karena data berasal dari berbagai sumber yang berbeda, sulit untuk memastikan kebenaran, keakuratan, dan konsistensi data. Bisnis perlu menghubungkan, mencocokkan, membersihkan, dan mengubah data di seluruh sistem untuk memastikan kualitas data yang baik. Jika tidak, data dapat dengan cepat menjadi tidak dapat diandalkan dan sulit untuk dikelola (Couldry, 2014) e. Value (Nilai Data): Value mengacu pada manfaat yang dapat diperoleh dari data. Dengan menganalisis dan memahami Big Data, perusahaan dapat mengekstrak nilai tambah yang signifikan, seperti wawasan mendalam tentang pengguna/pelanggan, prediksi tren, dan dasar untuk pengambilan keputusan yang lebih baik 2. Perbedaan antara Data Konvensional dan Big Data Perbedaan utama antara data konvensional dan Big Data terletak pada skala, kecepatan, dan keragaman data. Data konvensional cenderung lebih terstruktur dan memiliki skala yang lebih kecil, sementara Big Data cenderung tidak terstruktur, memiliki skala yang sangat besar, dan tumbuh dengan kecepatan yang cepat(Couldry, 2014). Selain itu, Big Data sering kali berasal dari berbagai sumber dan dalam berbagai format, sementara data konvensional cenderung berasal dari sumber yang lebih terbatas dan dalam format yang lebih terstruktur (Bertin-Mahieux et al., n.d.)
136 1. Hadoop: Hadoop adalah ekosistem open-source yang memungkinkan penyimpanan, pemrosesan, dan distribusi data besar pada klaster computer. Hadoop dapat menangani data yang sangat besar dan kompleks, dan memungkinkan pengguna untuk mengolah data secara distribusi. Dalam ekosistem Hadoop, framework SQL apache Hive digunakan untuk mengatur koneksi antara Hadoop dan database relasional. 2. NoSQL Databases NoSQL databases dirancang untuk mengelola data besar dan kompleks yang tidak terstruktur. Beberapa contoh NoSQL database meliputi MongoDB, Apache Cassandra, dan Redis. NoSQL databases memungkinkan pengguna untuk mengelola data secara horisontal dan menangani keterlambatan lebih dari database relasional. 3. NewSQL Databases: NewSQL databases menggabungkan keunggulan NoSQL dan database relasional tradisional, seperti SQL Server dan PostgreSQL. NewSQL databases memungkinkan pengguna untuk mengelola data besar dengan kemampuan tingkat yang lebih baik daripada NoSQL databases, serta menawarkan lebih keamanan dan konsistensi data daripada database relasional tradisional (Bahga and Madisetti, 2013) 1. MapReduce MapReduce adalah algoritma pemrosesan data yang dirancang untuk dijalankan pada Hadoop. Algoritma ini
137 digunakan untuk mengolah data besar dan kompleks dengan efisien, seperti kerasan, agregasi, dan analisis. MapReduce memungkinkan pengguna untuk mengelola data secara distribusi dan mengurangi biaya pemrosesan data 2. Spark Spark adalah framework yang memungkinkan untuk menjalankan pemrosesan data secara efisien, seperti data streaming, proses ETL, komputasi graph, SQL, dan machine learning. Spark dapat bekerja pada data yang sangat besar dan kompleks, dan memungkinkan pengguna untuk mengolah data secara real-time. Alat ini memungkinkan pengguna untuk mengelola data dengan lebih efisien dan fleksibel daripada MapReduce. 3. Flink Flink adalah algoritma pemrosesan data yang dirancang untuk menangani data secara real-time dan berbasis kuantitas. Flink memungkinkan pengguna untuk mengelola data dengan cepat dan efisien, seperti data streaming, proses ETL, komputasi graph, SQL, dan machine learning. Alat ini memungkinkan pengguna untuk mengelola data dengan lebih efisien dan fleksibel daripada MapReduce dan Spark (Mark Devaney, n.d.) 1. Machine Learning Machine learning adalah cabang dari kecerdasan buatan yang fokus pada pengembangan sistem yang dapat belajar dari data, mengidentifikasi pola, dan membuat keputusan dengan minimnya intervensi manusia. Dalam konteks Big Data, machine learning digunakan untuk mengidentifikasi pola yang kompleks
138 dan membuat prediksi berdasarkan volume data yang besar dan beragam (Couldry, 2014). Terdapat dua jenis utama pada machine learning yaitu supervised learning, di mana model dilatih dengan dataset berlabel untuk membuat prediksi dan unsupervised learning, di mana model mengekstraksi pola dari data tanpa label. ML juga mencakup deep learning, menggunakan neural networks untuk memproses data dan menghasilkan hasil yang kompleks. Aplikasi ML melibatkan pengenalan wajah, rekomendasi produk, dan analisis data besar, mengubah cara sistem berinteraksi dengan informasi (Bahga and Madisetti, 2013) 2. Data Mining Data mining melibatkan penemuan pola yang bermanfaat dan informasi yang tersembunyi dalam kumpulan data besar. Teknik ini digunakan untuk mengidentifikasi hubungan dan tren yang tidak terlihat secara manual, sehingga dapat memberikan wawasan berharga untuk pengambilan Keputusan (Bahga and Madisetti, 2013). Tujuan dari data mining adalah mengidentifikasi informasi tersembunyi, tren, atau hubungan yang dapat membantu pengambilan keputusan. Dalam data mining, teknik statistik, matematika, dan kecerdasan buatan digunakan untuk menganalisis data dari berbagai sumber, seperti basis data, gudang data, atau data yang terdistribusi. Alat-alat seperti clustering, association rule mining, dan classification digunakan untuk mengungkap pola yang dapat mendukung perencanaan strategis, prediksi bisnis, dan pengoptimalan proses. Data mining memiliki peran krusial dalam mendukung pengambilan keputusan yang
139 informasional dan efisien di berbagai industry(Buyya et al., 2016) 3. Analisis Prediktif Analisis prediktif merujuk pada proses menggunakan data, statistik, dan algoritma untuk mengidentifikasi pola dan tren guna membuat perkiraan tentang peristiwa masa depan. Dalam konteks big data, analisis prediktif menjadi semakin penting karena kemampuannya untuk mengolah dan menganalisis volume data yang besar, kompleks, dan bervariasi (Bharathi et al., 2008) Dengan memanfaatkan big data, peneliti dapat menggunakan analisis prediktif untuk mengidentifikasi hubungan kausal yang kompleks dan menganalisis pola yang mungkin sulit diidentifikasi dengan pendekatan tradisional. Algoritma machine learning, termasuk deep learning, dapat digunakan untuk mengenali pola yang kompleks dan mengekstraksi wawasan yang berharga dari data yang melibatkan jumlah variabel dan pengamatan yang besar (Buyya et al., 2016). Contoh penerapan analisis prediktif dalam big data melibatkan sektor kesehatan, keuangan, dan manufaktur. Misalnya, prediksi penyakit berdasarkan data kesehatan pasien, analisis risiko kredit dalam sektor keuangan, atau peramalan kebutuhan bahan baku dalam manufaktur. Penting untuk mencatat bahwa analisis prediktif dalam big data tidak hanya membantu memahami apa yang terjadi, tetapi juga memberikan wawasan yang kuat untuk membuat keputusan yang lebih baik di masa depan. Keseluruhan, integrasi analisis prediktif dengan big data memberikan potensi untuk meningkatkan
140 efisiensi, produktivitas, dan kemampuan pengambilan keputusan di berbagai bidang. 4. Peran Visualisasi Data dalam Memahami Informasi dari Big Data Visualisasi data memainkan peran penting dalam memahami informasi dari Big Data. Dengan menggunakan elemen visual seperti grafik, peta, dan bagan, visualisasi data memungkinkan para pengguna untuk Mengidentifikasi pola dan tren dalam data dengan lebih mudah, Memahami informasi dengan cepat dan efisien, Menyajikan data secara non-teknis kepada berbagai pemangku kepentingan dan Membuat keputusan berdasarkan data dengan lebih baik (Kitchin and McArdle, 2016) Visualisasi Big Data dalam konteks metode clustering adalah teknik untuk memahami pola dan struktur dalam kumpulan data besar yang dikelompokkan. Clustering merupakan metode di bidang analisis data di mana objekobjek serupa dikelompokkan bersama. Visualisasi membantu merepresentasikan hasil clustering dengan cara yang mudah dipahami, memungkinkan identifikasi kelompok, tren, dan anomali. Dalam Big Data, metode ini dapat membantu melihat sebaran cluster, hubungan antar kelompok, dan distribusi data secara keseluruhan (Trunfio, 2012). Visualisasi sering menggunakan teknik seperti scatter plots, heatmaps, atau diagram dendrogram untuk menyajikan informasi dengan cara yang mudah dipahami. Ini memungkinkan analis dan pengambil keputusan untuk
141 memahami struktur data yang kompleks dan mengidentifikasi potensi wawasan yang dapat mendukung pengambilan keputusan strategis. Adapun contoh penerapan metode clustering pada big data dengan menggunakan metode K-Means Clustering. K-Means Clustering adalah salah satu algoritma dalam menentukan klasifikasi terhadap objek berdasarkan attribut dari objek tersebut kedalam K kluster/partisi. Pemartisian data dilakukan dengan mencari nilai jarak minimum antara data dan nilai centroid yang telah di set secara random. Berikut adalah contoh penerapan metode clustering KMeans dengan menggunakan data jawa Tengah. 1. Keterangan pada variabel yang digunakan : 2. Membaca data pada R Import data dengan menggunakan fungsi read.csv() Berikut adalah output dari sintax diatas :
142 3. Melakukan standarisasi pada variabel X1 sampai X23 Syntax yang digunakan pada standarisasi adalah sebagai berikut : Berikut adalah output dari standarisasi diatas : 4. Menentukan banyaknya cluster Untuk menentukan banyaknya cluster dengan menggunakan metode k-means maka fungsi yang digunakan adalah sebagai berikut :
143 Berikut adalah output dari fungsi penentuan jumlah cluster diatas : Berdasarkan plot jumlah cluster yang dihasilkan sebanyak 5 cluster. Untuk menampilkan data dari setiap cluster maka digunakan fungsi berikut : 5. Menampilkan jumlah data setiap cluster Berikut fungsi yang digunakan untuk menentukan jumlah data setiap cluster : Berikut adalah output dari fungsi penentuan jumlah data setiap cluster diatas :
144 Berdasarkan tabel diatas terlihat bahwa cluster 1 terdapat 5 data, cluster 2 sebanyak 12 data, cluster 3,4 dan 5 masing-masing 6 data. 6. Menampilkan plot dari cluster Untuk menampilkan plot dari cluster dapat menggunakan fungsi berikut : 7. Menentukan pembagian cluster Untuk menentukan pembagian cluster yang sudah dibuat maka dapat menggunakan fungsi berikut ini :
145 8. Membuat plot cluster k-means Untuk membuat plot cluster dapat menggunakan fungsi berikut ini :
146
147 mengelompokan data ke dalam sejumlah cluster, dimana setiap cluster memiliki titik centroid atau secara konsep berupa titik pusat cluster. Centroid dapat berupa rata-rata (mean) dan modus (modes) atau sebuah objek representatif dari semua objek dalam suatu cluster berdasarkan suatu ukuran tertentu. Metode partitional clustering memiliki tujuan untuk mengurangi jarak (dissimilarity) dari seluruh data ke pusat cluster masing-masing. Setiap algoritma pengelompokan partisi (partitional clustering algorithm) memperoleh satu partisi data, bukan struktur pengelompokan seperti dendrogram, yang dihasilkan
148 dengan teknik hierarki. Metode partisi memiliki keunggulan dalam aplikasi yang melibatkan kumpulan data besar dimana konstruksi dendrogram secara komputasi sangat kompleks. Teknik partisi menghasilkan cluster dengan mengoptimalkan fungsi kriteria yang ditentukan secara lokal pada subset sampel atau secara global didefinisikan pada seluruh sampel. Pada prinsipnya bahwa kriteria cluster bisa global atau lokal. Dimana kriteria global, seperti Euclidean square-error measure (ukuran error kuadrat geometris) mewakili setiap cluster oleh prototipe atau centroid dan mengalokasikan sampel ke cluster sesuai dengan prototipe yang paling mirip. Sedangkan kriteria lokal, seperti minimum MND (Mutual Neighbor Distance) dapat membentuk cluster dengan menggunakan struktur atau konteks lokal dalam data. Dalam konteks ini, kesamaan antara dua titik, xi dan xj, dapat diukur dengan menggunakan jarak tetangga bersama (MND), yang disebut jarak tetangga bersama, yang didefinisikan sebagai: Dimana NN(xi, xj) adalah bilangan tetangga xj sehubungan dengan xi. Jika xi adalah titik terdekat dengan xj, maka NN(xi, xj) sama dengan 1, jika itu adalah titik paling dekat kedua. Strategi partitional-clustering yang paling sering digunakan didasarkan pada kriteria square-error. Kriteria square-error adalah dasar dari strategi partitional-clustering yang paling umum digunakan. Secara umum, tujuannya adalah untuk mendapatkan partisi yang meminimalkan kesalahan kuadrat total untuk sejumlah cluster tertentu. Misalkan himpunan sampel N tertentu dalam ruang berdimensi n telah dibagi atau dipartisi
149 menjadi kelompok/cluster K {C1, C2,...,Ck}. Setiap cluster Ck memiliki sampel nk, dan setiap sampel berada dalam satu cluster sehingga Σnk = N, di mana k = 1,...,K. Vektor rata-rata Mk dari cluster Ck adalah centroid atau secara konsep disebut titik pusat klister/kelompok, yang didefinisikan sebagai: Untuk seluruh ruang pengelompokan yang berisi K cluster, jumlah square error adalah jumlah variasi cluster: Tujuan metode pengelompokan square-error adalah untuk menemukan partisi yang terdiri dari kelompok K yang meminimalkan untuk K yang diberikan. Cluster partisi mengalokasikan satu set titik data ke dalam cluster K tanpa struktur hierarki. Dalam pengolahan data penggunaan metode partisi yang populer dari algoritma cluster dimana dapat memisahkan kumpulan data menjadi cluster K yang berbeda. Tujuan dari algoritma ini adalah untuk mengumpulkan titik data yang serupa sambil memaksimalkan perbedaan antara cluster. Algoritma K-Means Partitional Clustering (pengelompokan partisi K-means) menggunakan kriteria square-error adalah yang paling umum dan sederhana banyak digunakan dalam berbagai aplikasi karena kemudahan implementasinya. Proses K-means partitional-clustering dimulai dengan partisi awal secara random dan kemudian menugaskan sampel ke cluster, sesuai dengan kesamaan antara sampel dan cluster hingga kriteria konvergensi terpenuhi. Kriteria ini biasanya terpenuhi ketika tidak ada
150 penugasan ulang sampel dari satu cluster ke cluster lain yang menghasilkan penurunan kesalahan kuadrat total. Algoritma Kmeans populer karena mudah diimplementasikan, serta kompleksitas ruang dan waktu yang relatif kecil. Masalah utama algoritma ini adalah sensitif terhadap pemilihan partisi awal. Jika partisi awal tidak dipilih dengan benar, algoritma ini dapat menyatu ke fungsi kriteria minimum lokal. Langkah-langkah dasar algoritma K-means partitional clustering sebagai berikut: 1. Pilih partisi awal dengan K cluster yang berisi sampel yang dipilih secara acak, dan hitung pusat massa cluster. 2. Buat partisi baru dengan menugaskan setiap sampel ke pusat cluster terdekat. 3. Hitung pusat klaster baru sebagai pusat klaster. 4. Ulangi langkah 2 dan 3 hingga nilai optimal fungsi kriteria ditemukan (atau hingga keanggotaan cluster stabil). Mari kita menganalisis langkah-langkah algoritma K-means partitional clusterin pada kumpulan data sederhana yaitu: X1=(0,2), X2=(0,0), X3=(1.5,0), X4=(5,0) dan X5=(5,0) Misalkan jumlah cluster yang dibutuhkan adalah dua dan awalnya cluster terbentuk dari distribusi sampel acak: C1 = {x1, x2, x4} dan C2 = {x3, x5}. Centroid untuk kedua cluster ini adalah: Setelah distribusi acak awal sampel, variasi dalam kelompok adalah: = 19.36
151 maka total square error adalah : Redistribusi baru sampel di dalam cluster akan terjadi ketika semua sampel didistribusikan kembali, tergantung pada jarak minimum antara centroid M1 dan M2, yang dilustrasi seperti dibawah ini: Cluster yang baru memiliki centroid baru yaitu: Variasi dalam cluster yang sesuai dan total square error adalah:
152 Dari contoh kasus yang dilustrasikan dapat dilihat bahwa setelah iterasi pertama, total square error dikurangi secara signifikan (dari nilai 27.48 hingga 6.17). Dalam contoh sederhana ini, iterasi pertama adalah iterasi terakhir karena centroid terakhir akan ditugaskan ke cluster yang sama seperti iterasi pertama. Algoritma berhenti karena tidak ada pengalihan. Algoritma K-means dan setaranya dalam domain kerja artificial neural net works dan jaringan Kohonen telah diterapkan untuk mengkluster pada kumpulan data besar. Alasan di balik popularitas algoritma K-means adalah sebagai berikut: 1. Kompleksitas waktunya adalah O(n × k × l), di mana n adalah jumlah sampel, k adalah jumlah cluster, dan l adalah jumlah iterasi yang diambil oleh algoritma untuk menyatukan. Biasanya, k dan l ditetapkan sebelumnya, sehingga algoritma memiliki kompleksitas waktu linear dalam ukuran set data. 2. Kompleksitas ruangnya adalah O(k + n), dan jika memungkinkan untuk menyimpan semua data di memori primer, waktu akses ke semua elemen sangat cepat, dan algoritma sangat efisien. 3. K-means adalah algoritma independen. Untuk distribusi awal cluster yang diberikan, k-means menghasilkan partisi data yang sama pada akhir proses partisi, terlepas dari urutan di mana sampel disajikan ke algoritma. Dalam pendekatan k-means, setelah partisi awal telah ditetapkan, centroid cluster dapat diperbarui setelah setiap penambahan ke cluster (metode MacQueen), atau hanya setelah semua titik telah ditugaskan (metode Forgy dan metode Jancey).
153 Saat ini optimum lokal telah dicapai. Solusi dapat diterima, atau partisi awal baru dapat diperoleh dan cluster dapat dianalisis kembali. Algoritma dasar untuk metode MacQueen adalah sebagai berikut: 1. Mulai dengan pemisahan awal dari unit data ke dalam cluster (salah satu metode yang disebutkan sebelumnya akan akan bekerja) 2. Ambil setiap unit data dalam urutan dan hitung jarak ke semua centroid cluster; jika centroid terdekat bukan yang dari cluster induk unit data, maka alokasikan kembali unit data dan update centroid dari kluster yang kalah dan menang. 3. Ulangi langkah 2 sampai konvergensi dicapai; yaitu, teruskan sampai siklus penuh melalui set data gagal menyebabkan perubahan apa pun pada anggota cluster. Algoritma dasar untuk metode Forgy adalah: 1. Mulai dengan konfigurasi awal yang diinginkan. Pergi ke langkah 2 jika dimulai dengan seperangkat titik benih; pergi ke langkah 3 jika memulai dengan partisi unit data. 2. Tempatkan setiap unit data di cluster yang dekat dengan titik benih. Dalam seluruh kumpulan data, titik benih tetap konstan selama siklus penuh. 3. Menghitung titik benih baru sebagai centroid dari cluster unit data. 4. Berganti langkah 2 dan 3 sampai proses menyatu; yaitu, terus, sampai tidak ada unit data yang mengubah keanggotaan cluster mereka pada langkah 2.
154 Metode Jancey adalah salah satu teknik clustering yang secara implisit meminimalkan fungsi kesalahan kelompok. Metode ini dimulai dengan memilih k kelompok dan menghitung centroid kelompok, yang disebut titik kelas. Jancey mengembangkan partisi awal melalui pendekatan yang dikaitkan dengan Hartigan. Dengan mencari item yang perlu ditugaskan kembali ke cluster lain untuk langkah berikutnya. Ini dicapai melalui alokasi setiap unit data ke cluster yang memiliki titik kelas terdekat dalam pendekatan Jancey. Titik kelas tetap dalam seluruh kumpulan data. Pada setiap tahap, titik kelas baru ditemukan dengan menggunakan centroid cluster baru untuk mencerminkan titik kelas sebelumnya. Sampai proses converges, pengalihan berulang dilakukan sampai perbaikan lebih lanjut dengan menggerakkan objek dapat dilakukan. Dalam menulis program yang menggunakan algoritma kmean Jancey untuk mengkluster data, dapat menggunakan salah satu dari tiga metode konfigurasi awal yang harus dipilih oleh pengguna saat membuat program. Metode ini menggunakan generator angka acak untuk menentukan titik k yang berbeda dari set data sebagai data awal. Multiplikasi congruent random number generator dilakukan. Algoritma berikut menjelaskan pseudocode yang digunakan untuk membuat generator angka acak (Algorithm 1: Multiplicative Random Number Generator). 1. Pilih angka yang kurang dari sembilan digit dan tentukan sebagai XQ, nilai awal. Data ini harus dipilih secara acak, dapat menggunakan tabel angka acak. 2. Kalikan dengan angka yang ditentukan yaitu a, angka non-negatif yang terdiri dari paling sedikit lima digit.
155 3. Mengalikan produk dari langkah 2 dengan bilangan fraksi atau desimal yang sama dengan 1/m, di mana m adalah bilangan tidak negatif sama dengan 2**b dan b adalah jumlah bit dalam kata komputer. 4. Pilih bagian desimal dari jawaban pada langkah 3 sebagai angka acak 0 < x < 1 5. Dalam langkah 2, ambil decimal point dari angka awal yang dihasilkan dalam langkah 4, dan gunakannya untuk memulihkan X dengan a. 6. Sampai mendapatkan jumlah angka acak yang diinginkan, ulangi langkah 2 hingga 5. Selanjutnya, setiap titik data diurutkan berdasarkan jumlah atribut numerik yang menjelaskan setiap point. Kemudian, titik data yang diurutkan dibagi menjadi k grup, dan nilai-nilai dari k grup ini dihitung dan digunakan sebagai titik awal. Selanjutnya, rutinitas SAS FASTCLUS menciptakan konfigurasi awal ketiga. Program ini menerima data awal yang dihitung dalam metode konfigurasi awal kedua sebagai parameter input, dan kemudian menghasilkan serangkaian data yang disempurnakan. Algoritma yang digunakan SAS FASTCLUS untuk menghitung data awal yang disempurnakan ditemukan dalam Algoritma 2 (Algoritma 2: SAS FASTCLUS Algoritma untuk menghasilkan data awal) 1. Parameter k diterima sebagai input, dan parameter k mencakup semua wilayah dari ruang atribut di mana objek diharapkan tinggal. 2. Kemudian membentuk data cluster sementara dengan mengalokasikan objek yang tersisa secara berurutan ke data cluster masing-masing objek yang terdekat. Ketika objek ditugaskan, data cluster dikumpulkan kembali dan dibuat sama dengan rata-rata profil data dari objek yang
156 berada di dalam cluster. Akibatnya, data cluster berubah ketika sebuah objek sementara ditugaskan ke cluster. 3. Ketika iterasi pertama selesai, set akhir data cluster diambil sebagai data awal k untuk memulai iterasi kedua. Proses ini diulang, secara berurutan mengalokasikan objek ke data cluster terdekat, dan memperbarui datadata saat proses bergerak 4. Setelah beberapa iterasi, ketika perubahan posisi datadata cluster dapat ditoleransi lebih kecil dari satu iterasi ke iterasi berikutnya, program berakhir. Data cluster k dari iterasi akhir berfungsi sebagai data yang disempurnakan. Algorithm 3 menunjukkan algoritma Jancey untuk mengklusterkan titik data. Setelah mengklasifikasikan data menggunakan algoritma ini, program harus menghitung Koreksi Rand Statistic, sebuah indeks statistik yang menghitung keberangkatan partisi yang diperoleh dari partisi sebenarnya. (Algoritma 3: Algoritma Jancey untuk Clustering Data). 1. Mulai dengan konfigurasi awal yang diinginkan. 2. Setiap unit data harus ditempatkan ke dalam cluster yang berdekatan dengan titik data. Selama siklus penuh, titik data tetap hadir di seluruh set data. 3. Menghitung titik benih baru sebagai centroid dari cluster unit data. 4. Iterasi langkah 2 dan 3 sampai proses menyatu, yaitu terus sampai kurang dari jumlah unit data yang dapat diterima mengubah keanggotaan mereka pada langkah 2 Statistik Rand Terkoreksi (Corrected Rand Statistic) adalah ukuran eksternal. Pengukuran eksternal biasanya dihitung berdasarkan bagaimana pasangan titik ditempatkan dalam cluster yang sebenarnya dan ditangkap. Ada empat kemungkinan penempatan untuk beberapa poin. Pertama, pasangan
157 ditempatkan dalam cluster yang sama dalam partisi yang sebenarnya dan ditangkap. Kedua, pasangan ditempatkan dalam cluster yang sama di partisi yang sebenarnya dan dalam clusters berbeda di partition yang ditangkap. Sebagai alternatif, pasangan tersebut ditempatkan dalam cluster berbeda di partisi sebenarnya dan kluster yang sama pada partition yang ditangkap. Akhirnya, pasangan tersebut ditempatkan dalam cluster berbeda di partisi yang sebenarnya dan ditangkap. Kasus pertama dan terakhir mewakili kesamaan antara partisi; dua skema penempatan tengah mewakilkan partisi yang berbeda. Banyak indeks pengukuran eksternal dihitung dengan menggabungkan jumlah pasangan poin masuk ke dalam masing-masing dari empat kategori yang disebutkan sebelumnya. Kemudian indeks sebenarnya adalah fungsi dari empat istilah ini. Misalnya, Statistik Rand dihitung dengan menambahkan istilah pertama dan terakhir; dan kemudian membagi jumlah ini dengan jumlah semua istilah. Nilai Rand yang dikoreksi harus berada di antara nol dan satu. Statistik ini adalah salah satu ukuran eksternal terbaru di bidang analisis cluster. Hal ini didasarkan pada statistik Rand. Hubert dan Arabic memperkenalkan Statistik Rand Terkoreksi; statistik ini memperbaiki indeks rand asli. Algoritma untuk menghitung Statistik Rand Terkoreksi disajikan dalam Algorithm 4: Algoritma untuk Menghitung Statistik Rand Terkoreksi. 1. Menghitung istilah indeks yang sama dengan (Choose 2 ). Dimana i=1 untuk jumlah cluster di partisi aktual, dan j = 1 untuk jumlah clusters di partition yang ditangkap, nij = jumlah titik data di cluster i dari partisi sebenarnya dan cluster j dari partition ditangkap 2. Menghitung periode indeks yang diharapkan. Untuk melakukan perhitungan dapat menggunakan rumus dibawah ini:
158 Perhatikan bahwa ni = jumlah titik data dalam cluster i dari partisi yang sebenarnya dan nj = jumlah poin data di cluster j dari partition yang ditangkap, n = jumlah total titik data yang dikelompokkan. 3. Menghitung jangka waktu indeks maksimum. Untuk melakukan perhitungan ini 4. Menghitung Statistik Rand Terkoreksi yang sama dengan (Indeks term atau istilah – Expected index term atau indeks harapan istilah / (Maximum Index term – Expected Index term).
159 mengasumsikan bahwa data didasarkan pada campuran distribusi probabilitas karena keanggotaan cluster dari kumpulan data tidak diketahui. Tujuan clustering berbasis model adalah untuk memperkirakan parameter distribusi cluster dengan memaksimalkan fungsi probabilitas kepadatan campuran sehubungan dengan data yang diamati. Model-based clustering melibatkan pembentukan model untuk setiap cluster dan menemukan model terbaik yang cocok dengan data. Metode ini juga sering digunakan dalam statistik dan machine learning. Model-Based Clustering, menganggap sebaran data mengikuti distribusi campuran (mixture distribution). Mixture
160 distribution adalah gabungan dari beberapa komponen distribusi nilai keanggotaan data pada suatu cluster ditentutan oleh nilai peluang terbesar dari komponen distribusi. Asumsi yang digunakan pada model-based clustering adalah dalam suatu populasi dapat diambil subpopulasi yang mempunyai distribusi peluang tertentu dan masing-masing subpopulasi mempunyai paremeter yang berbeda. Keseluruhan subpopulasi mempunyai distribusi peluang mixture dengan proporsi berbeda untuk setiap subpopulasi. Asumsi ini mengarahkan pada model probabilitas matematika yaitu model finite mixture. Saat ini penggunaan model finite mixture pada clustering telah berkembang sangat cepat dan menjadi salah satu metode clustering yang populer. Banfield dan Raftery (1993) mengembangkan kerangka model-based clustering menggunakan dekomposisi eigenvalue dari matriks varians kovarians (∑g) sebagai berikut : Keterangan : = nilai skalar yang menunjukkan volume elips. = matriks ortogonal eigenvector yang merupakan orientasi dari komponen utama ∑g. = diagonal matriks dengan elemen-elemen yang proporsional pada eigenvalue ∑g dan menunjukan kontur dari fungsi kepadatannya. Orientasi, volume dan bentuk dari distribusi dapat diestimasi dari data dan mempunyai bentuk bermacam-macam
161 antar cluster atau dapat saling memotong antar cluster, sebagaimana diilustrasikan pada gambar 1. Gambar 1. Contoh Bentuk Cluster yang Mempresenrasikan Struktur Matriks Varians Kovarians pada Model-Based Clustering. Keterangan : 1. I cluster yang terbentuk adalah spherical (bola) dan mempunyai volume yang sama besar antar cluster. 2. semua cluster yang terbentuk mempunyai bentuk, volume dan orientasi yang sama. 3. cluster yang terbentuk bisa berbeda pada bentuk, volume dan orientasinya. 4. hanya orientasi dari cluster terbentuk yang berbeda. Misalkan vektor variabel acak x dengan dimensi berasal dari distribusi finite mixture dengan fungsi kepadatan peluang : x
162 Keterangan : ϑ = (π1, <, πG, ϴ1, <, ϴG) adalah vektor parameter. disebut fungsi kepadatan peluang x dengan parameter kelompok ϴg. G adalah jumlah kelompok dan πg adalah bobot atau proporsi campuran (mixing proportion) dari kelompok ke-g dengan batasan : . Tabel 1. Struktur Data Kelompok ke-g pada Model Finite Mixture. Objek Variabel pengam atan 1 2 < j < p 1 (x11) g (x21) g < (xj1)g < (xp1) g (x1)g 2 (x12) g (x22) g < (xj2)g < (xp2) g (x2)g : : : < : < : : i (x1i)g (x2i)g < (xji)g < (xpi)g (xi)g : : : < : < : : πg (x1πg )g (x2πg )g < (xjπg )g < (xpπg )g (xπg )g
163 Keterangan : (xji)g : Nilai variabel ke-j objek pengamatan ke-i kelompok ke-g (xi)g : Vektor nilai data obyek pengamatan ke-i kelompok kegelompok g : Indeks kelompok, g = 1,2, <, G j : Indeks variabel, j = 1,2, <, p i : Indeks obyek pengamatan, i = 1,2, <, πg Sedikitnya ada dua proses utama yang perlu dilakukan pada model finite mixture yaitu penaksiran parameter dan pemilihan model terbaik yang menggambarkan struktur data. Sampel acak X1, X2, <, Xn dianggap berasal dari sebuah model finite mixture normal multivariat dengan setiap kelompok ke-g pada model diasumsikan berdistribusi normal multivariat maka fungsi kepadatan probabilitasnya berbentuk: dengan g = 1,2, <, G, i = 1,2, <, n, dan Dan adalah vektor mean dan adalah matriks kovarians kelompok ke-g dari distribusi normal multivariat
164 dan adalah fungsi kepadatan probabilitas kelompok keg. Sampel acak X1, X2, <, Xn dianggap berasal dari sebuah model finite mixture t multivariat dengan setiap kelompok ke-g pada model diasumsikan berdistribusi t multivariat maka fungsi kepadatan probabilitasnya berbentuk: dengan g = 1,2, <, G, i = 1,2, <, n, dan dan adalah jarak Mahalanobis kuadrat antara dan (dengan ∑ sebagai matrik kovarians). Dalam hal ini adalah vektor rata-rata kelompok ke-g dengan dan
165 adalah matriks varians kovarians pada kelompok ke-g dengan dan ; j ≠ j* serta adalah derajat bebas kelompok ke-g. Ketika 00 maka pendekatan dengan distribusi t ini akan mengarah pada distribusi normal. Sehingga menurut McLachlan & Peel (2000), parameter dapat dianggap sebagai parameter pengontrol robust (robustness tuning). Clustering berbasis model mengasumsikan bahwa data didasarkan pada campuran distribusi probabilitas keanggotaan cluster dari kumpulan data yang tidak diketahui. Tujuan clustering berbasis model adalah untuk memperkirakan parameter distribusi cluster dengan memaksimalkan fungsi probabilitas kepadatan campuran sehubungan dengan data yang diamati. Secara umum, cluster berbasis model adalah algoritma statistik atau AI. Contoh cluster berbasis model adalah COBWEB, sistem cluster konseptual yang mengatur data untuk memaksimalkan kemampuan inferensi. COBWEB dikembangkan sebagai model untuk mensimulasikan bagaimana manusia membentuk konsep. Hierarki konsep diwakili oleh struktur pohon umum di mana setiap instansi baru diwakilkan sebagai seperangkat pasangan nilai atribut yang teratur. Setiap atribut hanya dapat ditugaskan satu nilai per contoh. Selama konstruksi
166 pohon (tree), pohon (tree) ini dinavigasi secara berulang menggunakan bentuk pencarian mendaki bukit (hill-climbing search). COBWEB menyimpan probabilitas keberadaan konsep pada setiap node konsep, serta informasi tentang setiap atribut yang diamati dalam instansi yang tercakup oleh konsep. Ketika COBWEB menavigasi struktur pohon, ia memilih operasi pohon mana yang harus diterapkan menggunakan utilitas kategori, yang memberikan skor tinggi untuk partisi yang memaksimalkan kesamaan dalam kelas dan kesamaan antara kelas. Pertimbangkan konstruksi hierarki kelas abstrak untuk keseluruhan set tanda lalu lintas: Tabel 2. Traffic Signs Data Set Sign Number Sign Color Shape Type 1 Yield Yellow Triangle Warning 2 Stop Red Octagonal Regulatory 3 Railroad Crossing Yeloow Round Warning 4 Bicycle Route Green Rectangle Guide 5 Do not enter Red Round Regulatory 6 Intersection Yellow Diamond Warning 7 School zone Yellow Pentagon Warning 8 National park Brown Trapezoid Guide Serangkaian instansi sinyal lalu lintas dimasukkan ke algoritma COBWEB dan kemudian disimpan sebagai node
167 konsep, atau sebagai representasi pengetahuan. Hierarki konsep adalah pohon di mana setiap node di pohon menggambarkan konsep. Instansi pertama, tanda yield, digambarkan sebagai seperangkat pasangan nilai atribut yang diatur seperti yang diilustrasikan dalam Tabel 3: Tabel 3. Contoh dari Yield Sign Setiap kali sebuah instansi ditambahkan ke hierarki, pengetahuan ditambahkan dengan mengubah informasi dalam node konsep atau mungkin dengan mengubah struktur keseluruhan hierarki. Instansi pertama menetapkan akar pohon seperti yang digambarkan oleh Tabel 4. Tabel 4. Teori hierarki setelah tanda lalu lintas pertama. First Instance Yield Sign Color Yellow Shape Triangle Type Warning Hierarchy P(C0)=1.00 P( Color Yellow 1.00 Shap Triangle 1.00 Color Yellow Shape Triangle Type Warning
168 e Type War ning 1.00 COBWEB menyimpan probabilitas bersyarat dari setiap nilai atribut yang diberikan, mengingat keanggotaan dalam kelas yang tercakup oleh konsep. Selain itu, COBWEB menyimpan probabilitas keberadaan konsep pada setiap node konsep. Node dalam hierarki ini dihitung sebagai Ck untuk k = 0 sampai 8. Node terminal dalam hierarki menggambarkan instansi tunggal. Titik atas dari setiap node adalah probabilitas terjadinya untuk kelas tertentu, atau ibu bagi kelas tertentu. Sebagai instansi input ke COBWEB, empat operasi dapat diterapkan ke hierarki untuk menggabungkan pengetahuan baru. Operasi ini diterapkan secara lokal pada sub pohon yang terdiri dari konsep terakhir yang instansi diklasifikasikan dan pada anak-anak (children) dari node ini. Fungsi evaluasi yang disebut utilitas kategori, digunakan oleh COBWEB untuk memilih operasi mana yang harus diterapkan. Seleksi ini adalah untuk memilih nilai maksimum dari kategori nilai utilitas. Empat operasi tersebut adalah: 1. Untuk memasukkan: ketika sebuah instance cocok dengan konsep yang sudah ada. Instansi ini terintegrasi ke dalam salah satu node anak (children). Jika node anak bukan singleton, maka probabilitas kondisional diperbarui dalam node konsep dan masing-masing nilai atribut diupdate. Jika node yang dimasukkan adalah
169 singleton maka node incorporasi ditambahkan sebagai node turunan baru. 2. Untuk membuat disjunct baru: ketika sebuah instansi memiliki karakteristik yang sangat berbeda dari konsep yang ada pada tingkat konsep saat ini. Instansi dimasukkan sebagai kategori oleh dirinya sendiri atau saudara dari node konsep yang ada 3. Untuk menggabungkan: terjadi ketika hierarki terlalu bercabang. Dua kelas dikombinasikan untuk memberikan konsep yang baik untuk mengklasifikasikan instansi yang masuk. 4. Untuk membagi: ketika hierarki berisi node yang terlalu umum. Node umum dibagi menjadi kelas yang didefinisikan dengan baik untuk menciptakan keseimbangan yang baik untuk node yang masuk dengan menghapus node saat ini dan menggantikannya dengan anak-anaknya (Children). Untuk membuat pilihan ini, sistem harus dapat mengevaluasi klasifikasi alternatif dan menerapkan operator yang menghasilkan hierarki terbaik. COBWEB menggunakan utilitas kategori untuk mencetak skor alternatif ini. Klasifikasi yang berbeda dari instansi baru menghasilkan sejumlah hierarki yang berbeda untuk semua instansi menjadi kelas. Fungsi utilitas kategori memberikan skor tinggi untuk partisi yang memaksimalkan kesamaan antara anggota kelas, kesamaan dalam kelas, dan perbedaan antara anggota dari kelas yang berbeda, perbedaan antar kelas. Pada kenyataannya, utilitas kategori berdagang dari prediktivitas setiap nilai atribut, probabilitas keanggotaan sebuah instansi dalam suatu kelas, mengingat nilai attributnya, dan prediksi nilai, kemungkinan nilai, karena suatu instansi adalah anggota kelas. Untuk menyimpulkan,
170 nilai-nilai prediktif adalah yang paling pasti unik untuk kelas tertentu dan oleh karena itu indikasi dari itu. Fungsi evaluasi mengutamakan kelas dengan banyak nilai atribut prediktif karena ini memaksimalkan perbedaan antara kelas. Nilai yang dapat diprediksi adalah yang dimiliki banyak anggota dan oleh karena itu mudah ditebak secara acak. Fungsi evaluasi mengutamakan kelas dengan banyak nilai yang dapat diprediksi karena ini memaksimalkan kesamaan dalam kelas. Karena atribut sering tidak dapat diprediksi dan prediktif, kategori utilitas perdagangan dari keduanya, memaksimalkan masing-masing sebanyak mungkin. Persamaan kategori utilitas dapat disimpulkan sebagai: di mana X adalah jumlah yang diharapkan dari nilai atribut yang dapat ditebak dengan benar, dengan mengingat kategori K, dan Y adalah angka yang diantisipasi dari nilai atribute yang dapat diprediksi dengan benar tanpa pengetahuan kategori apa pun. Di-viding oleh K, jumlah total kelas, menormalkan untuk partisi dengan jumlah kelas yang berbeda. Dalam persamaan yang diperluas, istilah X adalah : menghitung antara kelas K, atribut I, dan nilai J. P(Ck) adalah probabilitas terjadinya suatu kelas Ck dan P adalah probabilitas bersyarat dari nilai Vij tertentu yang diberikan keanggotaan dalam kelas. Istilah Y diperluas menjadi:
171 dimana adalah probabilitas dari nilai tertentu pada ibu dari kelas node yang dipertimbangkan; yaitu, probabilitas di seluruh kelas tanpa pengetahuan kategori. Persamaan yang lengkap adalah :
172 Amalina, T., Bima, D., Pramana, A., & Sari, B. N. (2022). Metode K-Means Clustering Dalam Pengelompokan Penjualan Produk Frozen Food. Jurnal Ilmiah Wahana Pendidikan, 8(15), 574–583. https://doi.org/10.5281/zenodo.7052276 Anjariansyah, R., & Triayudi, A. (2022). Clustering Kebutuhan Makanan untuk Meminimasi Standar Deviasi Angka Kebutuhan Gizi Menggunakan Algoritma K-Means dan KMedoids. JURNAL MEDIA INFORMATIKA BUDIDARMA, 6(1), 597. https://doi.org/10.30865/mib.v6i1.3522 Adeline Vinda Septiani, Hasibuan, R. A., Anwar Fitrianto, Erfiani, & Alfa Nugraha Pradana. (2023). Penerapan Metode KMedoids dalam Pengklasteran Kab/Kota di Provinsi Jawa Barat Berdasarkan Intensitas Bencana Alam di Jawa Barat pada Tahun 2020-2021. Statistika, 23(2), 147–155. https://doi.org/10.29313/statistika.v23i2.3057 Afira, N., & Wijayanto, A. W. (2021). Analisis Cluster dengan Metode Partitioning dan Hierarki pada Data Informasi Kemiskinan Provinsi di Indonesia Tahun 2019. Komputika : Jurnal Sistem Komputer, 10(2), 101–109. https://doi.org/10.34010/komputika.v10i2.4317 Anandkumar , Animashree ; Ge, Rong ; Hsu, Daniel; Kakade , Syam; Telgarsky , Matus (2014). "Dekomposisi Tensor untuk Mempelajari Model Variabel Laten" (PDF). Jurnal
173 Penelitian Pembelajaran Mesin. 15 : 2773–2832. arXiv : 1210.7559 . Kode Bib : 2012arXiv1210.7559A . Abels, H. (2021) ‘Short Lecture Notes: Interpolation Theory’, p. 57. Buhmann , J.; Kuhnel , H. (1992). "Pengelompokan data tanpa pengawasan dan diawasi dengan jaringan saraf kompetitif". [Prosiding 1992] Konferensi Gabungan Internasional IJCNN tentang Jaringan Syaraf Tiruan. Jil. 4. IEEE. hal.796–801. doi : 10.1109/ijcnn.1992.227220 . ISBN 0780305590 . S2CID 62651220 Bahga, A., Madisetti, V., 2013. Cloud Computing: A Hands-On Approach. CreateSpace Independent Publishing Platform. Bertin-Mahieux, T., Ellis, D.P.W., Whitman, B., Lamere, P., n.d. Columbia University LabROSA, EE Dept. Banfield, J.D. & Raftery, A.E. (1993). Model-Based Gaussian and non-Gaussian Clustering. Biometrics Vol.49, No.3, hal 803- 821. Bharathi, S., Chervenak, A., Deelman, E., Mehta, G., Su, M.-H., Vahi, K., 2008. Characterization of scientific workflows, in: 2008 Third Workshop on Workflows in Support of LargeScale Science. Presented at the 2008 Third Workshop on Workflows in Support of Large-Scale Science (WORKS 2008), IEEE, Austin, TX, USA, pp. 1–10. https://doi.org/10.1109/WORKS.2008.4723958 Buyya, R., Calheiros, R.N., Dastjerdi, A.V. (Eds.), 2016. Big data: principles and paradigms. Elsevier/Morgan Kaufmann, Cambridge, MA. Couldry, N., 2014. Advertising, Big Data, and the Clearance of the Public Realm: Marketers’ New Approaches to the Content Subsidy.
174 Crase, Si. and Thennadil, S.N. (2022) ‘An analysis framework for clustering algorithm selection with applications to spectroscopy’, PLoS ONE, 17(3), pp. 1–15. Available at: https://doi.org/10.1371/journal.pone.0266369. Comesaña -Campos, Alberto; Bouza -Rodríguez, José Benito (Juni 2016). "Penerapan pembelajaran Hebbian dalam pengambilan keputusan proses desain" . Jurnal Manufaktur Cerdas. 27 (3): 487–506. doi : 10.1007/s10845- 014-0881-z . ISSN 0956-5515 . S2CID 207171436 . Dobbin, K.K. and Simon, R.M. (2011) ‘Optimally splitting cases for training and testing high dimensional classifiers’, BMC Medical Genomics, 4. Available at: https://doi.org/10.1186/1755-8794-4-31. Edy Irwansyah. 2017. https://socs.binus.ac.id/2017/03/09/clustering/ tanggal akses 9/01/2024 Fan, C. et al. (2021) ‘A Review on Data Preprocessing Techniques Toward Efficient and Reliable Knowledge Discovery From Building Operational Data’, Frontiers in Energy Research, 9(March), pp. 1–17. Available at: https://doi.org/10.3389/fenrg.2021.652801. Garbade , Dr Michael J. (12-09-2018). "Memahami Pengelompokan K-means dalam Pembelajaran Mesin" . Sedang. Diakses tanggal 31-10-2019. Hinton, G. (2012). "Panduan Praktis untuk Melatih Mesin Boltzmann yang Dibatasi" (PDF). Jaringan Neural: Trik Perdagangan. Catatan Kuliah Ilmu Komputer. Jil. 7700. Peloncat. hal.599–619. doi : 10.1007/978-3-642-35289-8_32 . ISBN 978-3-642-35289-8 .
175 Hinton, Geoffrey (September 2009). "Jaring Keyakinan Mendalam" (video). Hastie, Tibshirani & Friedman 2009 , hlm.485–586 Hani, Yuni, 2023. Clustering Bidang Keilmuan Menggunakan Kombinasi Metode Topsis dan Algoritma K-Means. JINACS: Volume 04 Nomor 04, 2023 (Journal of Informatics and Computer Science) ISSN : 2686-2220 Hinton, Geoffrey ; Sejnowski , Terrence J. , penyunting. (1999). Pembelajaran Tanpa Pengawasan: Dasar-dasar Komputasi Neural. Pers MIT . ISBN 0-262-58168-X Heningtyas Y, Rahmi F, Muludi K et al. 2022 , Implementasi DensityBased Clustering Pada Segmentasi Citra Betta Fish, Jurnal TEKNOINFO, Vol. 16, No. 1, 8-13. Hutagalung, J., & Sonata, F. (2021). Penerapan Metode K-Means Untuk Menganalisis Minat Nasabah. JURNAL MEDIA INFORMATIKA BUDIDARMA, 5(3), 1187. https://doi.org/10.30865/mib.v5i3.3113 Jumadi, J., Yupianti, Y., & Sartika, D. (2021). PENGOLAHAN CITRA DIGITAL UNTUK IDENTIFIKASI OBJEK MENGGUNAKAN METODE HIERARCHICAL AGGLOMERATIVE CLUSTERING. JST (Jurnal Sains Dan Teknologi), 10(2), 148–156. https://doi.org/10.23887/jstundiksha.v10i2.33636 Joseph, V.R. (2022) ‘Optimal ratio for data splitting’, Statistical Analysis and Data Mining, 15(4), pp. 531–538. Available at: https://doi.org/10.1002/sam.11583. Kim, B., Kim, J.M. and Yi, G. (2017) ‘Analysis of clustering evaluation considering features of item response data using data mining technique for setting cut-off scores’, Symmetry, 9(5). Available at:
176 https://doi.org/10.3390/sym9050062. King, R. S. (2015). Cluster analysis and data mining: An introduction. Mercury Learning and Information. Kantardzic, M. (2020). Data mining: concepts, models, methods, and algorithms. Edisi 3. John Wiley & Sons. Kitchin, R., McArdle, G., 2016. What makes Big Data, Big Data? Exploring the ontological characteristics of 26 datasets. Big Data & Society 3, 205395171663113. https://doi.org/10.1177/2053951716631130 Kononenko, I. and Kukar, M. (2007) ‘Data Preprocessing’, in Machine Learning and Data Mining. 1st edn. Sawston, Cambridge: Woodhead Publishing, pp. 181–211. Available at: https://doi.org/10.1533/9780857099440.181. Kasoqi, I. A., Hayati, M. N., & Goejantoro, R. (2021). PENGELOMPOKAN DESA ATAU KELURAHAN DI KUTAI KARTANEGARA MENGGUNAKAN ALGORITMA DIVISIVE ANALYSIS. Jurnal Statistika Universitas Muhammadiyah Semarang, 9(2), 101. https://doi.org/10.26714/jsunimus.9.2.2021.101-108 Laraswati, B.D. (2023) Kelebihan dan Kekurangan Jenis-Jenis Clustering dalam Data Science. Available at: https://blog.algorit.ma/jenis-clustering/ (Accessed: 10 January 2024). McLachlan, G.J. & Peel, D. (2000). Finite Mixture Models. New York: John Wiley and Sons. Maharani, A. P., & Triayudi, A. (2022). Sentiment Analysis of Indonesian Digital Payment Customer Satisfaction Towards GOPAY, DANA, and ShopeePay Using Naïve Bayes and K-Nearest Neighbour Methods. JURNAL MEDIA
177 INFORMATIKA BUDIDARMA, 6(1), 672. https://doi.org/10.30865/mib.v6i1.3545 Mahmuda, A. F., Yuniarti, A., & K, W. N. (2017). Konstruksi Bounding Volume Hierarchy dengan Metode Agglomerative Clustering untuk Meningkatkan Performa Ray Tracing. Jurnal Teknik ITS, 6(1). https://doi.org/10.12962/j23373539.v6i1.22051 Mark Devaney, E.C., n.d. Case-Based Reasoning for Gas Turbine Diagnostics [WWW Document]. AAAI. URL https://aaai.org/papers/flairs-2005-018/ (accessed 1.15.24). Myrianthous, G. (2021) How to Split a Dataset Into Training and Testing Sets with Python, Mediun. Available at: https://towardsdatascience.com/how-to-split-a-datasetinto-training-and-testing-sets-b146b1649830 (Accessed: 1 January 2024). Ntekouli, M. et al. (2023) ‘Evaluating Multivariate Time-series Clustering using Simulated Ecological Momentary Assessment Data’, Machine Learning with Applications, 14, pp. 1–19. Available at: https://doi.org/10.1016/j.mlwa.2023.100512. Nur, I. M., Syifa, A. N. L., Kharis, M., & Heidy Permatasari, S. (2023). IMPLEMENTASI METODE FUZZY C-MEANS DALAM PENGELOMPOKKAN HASIL PANEN PADI DI PROVINSI BALI. VARIANCE: Journal of Statistics and Its Applications, 5(1), 13–24. https://doi.org/10.30598/variancevol5iss1page13-24 Onay, C., Öztürk, E., 2018. A review of credit scoring research in the age of Big Data. Journal of Financial Regulation and Compliance 26, 00–00. https://doi.org/10.1108/JFRC-06- 2017-0054
178 Peter, Dayan ; Hinton, Geoffrey E .; Neal, Radford M .; Zemel , Richard S. (1995). "Mesin Helmholtz". Komputasi Saraf. 7 (5): 889–904. doi : 10.1162/neco.1995.7.5.889 . hdl : 21.11116/0000-0002-D6D3-E . PMID 7584891 . S2CID 1890561 . Puspita, L., & Angella, N. (2014). STRUKTUR KOMUNITAS UDANG (Crustacea) DI PERAIRAN PESISIR KECAMATAN SIANTAN KABUPATEN KEPULAUAN ANAMBAS PROVINSI KEPULAUAN RIAU. SIMBIOSA, 3(1). https://doi.org/10.33373/sim-bio.v3i1.251 PennStateUniversity (2022) Lesson 14. Cluster Analysis, Stat 505: Multivariate Statistical Analysis. Available at: https://online.stat.psu.edu/stat505/book/export/html/742 (Accessed: 1 January 2024). Reza, Nasir, Hamidah. 2009. A Survey: Clustering Ensembles Techniques. PROCEEDINGS OF WORLD ACADEMY OF SCIENCE, ENGINEERING AND TECHNOLOGY VOLUME 38 FEBRUARY 2009 ISSN: 2070-3740 https://worldwidescience.org/topicpages/k/kmeans+clustering+technique.html/ tanggal akses 10/01/2024 Rácz, A., Bajusz, D. and Héberger, K. (2021) ‘Effect of dataset size and train/test split ratios in qsar/qspr multiclass classification’, Molecules, 26(4), pp. 1–16. Available at: https://doi.org/10.3390/molecules26041111. Romawi, Victor (21-04-2019). "Pembelajaran Mesin Tanpa Pengawasan: Analisis Pengelompokan" . Sedang. Diakses pada 01-10-2019.
179 Richard O .; Hart, Peter E .; Bangau, David G. (2001). "Pembelajaran dan Pengelompokan Tanpa Pengawasan". Klasifikasi pola ( edisi ke-2 ). Wiley. ISBN 0-471-05669-3 . Sachrrial, R. H., & Iskandar, A. (2023). Analisa Perbandingan Complate Linkage AHC dan K-Medoids Dalam Pengelompokkan Data Kemiskinan di Indonesia. Building of Informatics, Technology and Science (BITS), 5(2). https://doi.org/10.47065/bits.v5i2.4310 Sartika, E., & Murniati, S. (2022). PENERAPAN ANALISIS HIERARKI PADA PESEBARAN KEMISKINAN DI JAWA BARAT. Sigma-Mu, 14(2), 22–32. https://doi.org/10.35313/sigmamu.v14i2.4670 Sidik, A. D. W. M., Himawan Kusumah, I., Suryana, A., Edwinanto, Artiyasa, M., & Pradiftha Junfithrana, A. (2020). Gambaran Umum Metode Klasifikasi Data Mining. FIDELITY : Jurnal Teknik Elektro, 2(2), 34–38. https://doi.org/10.52005/fidelity.v2i2.111 Supardi, R., & Kanedi, I. (2020). Implementasi Metode Algoritma K-Means Clustering pada Toko Eidelweis. Jurnal Teknologi Informasi, 4(2), 270–277. https://doi.org/10.36294/jurti.v4i2.1444 Tan Pang-Ning , Steinbach M, Kumar V,2006, Introduction To Data Mining , PEARSON Addison Wesley, Pearson Education,Inc . Boston, hal.600-608. Trunfio, P., 2012. Service-Oriented Distributed Knowledge Discovery, Chapman & Hall/CRC Data Mining and Knowledge Discovery Series. Chapman and Hall/CRC. https://doi.org/10.1201/b12990 Thamrin, N., & Wijayanto, A. W. (2021). Comparison of Soft and Hard Clustering: A Case Study on Welfare Level in Cities
180 on Java Island. Indonesian Journal of Statistics and Its Applications, 5(1), 141–160. https://doi.org/10.29244/ijsa.v5i1p141-160 Tergesa-gesa, Trevor ; Tibshirani , Robert ; Friedman, Jerome (2009). "Pembelajaran Tanpa Pengawasan" . Unsur Pembelajaran Statistik: Penambangan Data, Inferensi, dan Prediksi. Peloncat. hal.485–586. doi : 10.1007/978-0-387- 84858-7_14 . ISBN 978-0-387-84857-0 . Tukang Kayu, GA & Grossberg , S. (1988). "SENI pengenalan pola adaptif oleh jaringan saraf yang mengatur dirinya sendiri" (PDF). Komputer. 21 (3): 77–88. doi : 10.1109/2.33 . S2CID 14625094 . Diarsipkan dari versi asli (PDF) pada 16- 05-2018. Diakses tanggal 16-09-2013. Triayudi, A., & Fitri, I. (2019). A new agglomerative hierarchical clustering to model student activity in online learning. TELKOMNIKA (Telecommunication Computing Electronics and Control), 17(3), 1226. https://doi.org/10.12928/telkomnika.v17i3.9425 Von Luxburg , U.; Raetsch , G., ed. (2004). Kuliah Lanjutan tentang Pembelajaran Mesin . Peloncat. ISBN 978- 3540231226 Wang, N. et al. (2023) ‘Association between systolic blood pressure and low-density lipoprotein cholesterol with coronary heart disease according to age’, PLoS ONE, 18(12 December), pp. 1–11. Available at: https://doi.org/10.1371/journal.pone.0295004. Williamson, D.J. et al. (2020) ‘Machine learning for cluster analysis of localization microscopy data’, Nature Communications, 11(1), pp. 1–10. Available at: https://doi.org/10.1038/s41467-020-15293-x.
181 Xu, R., & Wunsch, D. (2008). Clustering. John Wiley & Sons.Yulianto, L. D., Triayudi, A., & Sholihati, I. D. (2020). Implementation Educational Data Mining For Analysis of Student Performance Prediction with Comparison of KNearest Neighbor Data Mining Method and Decision Tree C4.5. In Jurnal Mantik (Vol. 4, Issue 1). https://iocscience.org/ejournal/index.php/mantik/index Yordania, Michael I.; Uskup, Christopher M. (2004). "7. Sistem Cerdas §Jaringan Neural". Dalam Tucker, Allen B. ( ed .). Buku Pegangan Ilmu Komputer ( Edisi ke-2nd ). Chapman & Hall/CRC Pers. doi : 10.1201/9780203494455 . ISBN 1- 58488-360-X .
182 Agung Triayudi, S.Kom, M.Kom, Ph.D, lahir di Lampung Selatan, 19 Juni 1986. Menyelesaikan pendidikan terakhir di doktoral information communication technology Asia e University. Saat ini bekerja sebagai dosen di fakultas teknologi komunikasi dan informatika Universitas Nasional. Jabatan fungsional terakhir Lektor Kepala Associate Professor, bidang penelitian di Educational Data Mining. I Wayan Rangga Pinastawa, M.Kom Mendapatkan gelar Sarjana dan juga Magister pada bidang Komputer di program studi Teknik Informatika Universitas AMIKOM Yogyakarta. Memiliki hoby membuat dan menulis blog, Beliau saat ini berprofesi sebagai Dosen di program studi sarjana Informatika, Universitas Pembangunan Nasional Veteran Jakarta. Saat ini minat penelitian beliau di bidang Machine Learning, Data Mining, Decision Support System dan Search Engine Optimization.
183 Jovian Dian Pratama, S.Mat., M.Mat. Jovian Dian Pratama lahir di Semarang pada 28 Agustus 1997. Ia lulus S-1 dengan Predikat Cumlaude di Program Studi Matematika Fakultas Sains dan Matematika Universitas Diponegoro (UNDIP) tahun 2020 dan Lulus S-2 dengan Cumlaude dan IPK Sempurna serta Lulusan Terbaik di Program Studi Magister Matematika Fakultas Sains dan Matematika Universitas Diponegoro (UNDIP) pada tahun 2022. Ia adalah pengajar tetap Departemen Matematika Fakultas Sains dan Matematika Universitas Diponegoro Semarang sejak 2022 hingga saat ini. Bidang keahliannya yaitu Matematika Terapan khususnya pada Analisis Numerik Terapan dan Komputasi. Sebelum menjadi pengajar tetap di Departemen Matematika Fakultas Sains dan Matematika Universitas Diponegoro Semarang ia pernah menjadi asisten pengajar Departemen Matematika Universitas Diponegoro (UNDIP) untuk mata kuliah Teori Himpunan dan Relasi, Logika dan Teori Pembuktian, Kalkulus, Analisis Riil, Aljabar Linier, dan Struktur Aljabar. Sari Ningsih.,S.Si.,MM Lahir pada tanggal 2 Juni 1967. Penulis merupakan dosen di Fakultas Teknologi Komunikasi dan Informatika Program Studi Sistem Informasi Universitas Nasional. Lulus Program S1 Matematika Komputasi Di FMIPA Universitas Indonesia dan Pasca Sarjana (S2) Ilmu Manajemen Keuangan Asuransi Universitas
184 Gunadarma. Menjadi dosen sejak tahun 1991 sd sekarang. Pengalaman bekerja sebagai Kaprodi Manajemen Informatika Universitas Nasional dan sekarang menjabat Ka Unit Penjaminan Mutu Fakultas Teknologi Komunikasi Dan Informatika Universitas Nasional dan aktif mengajar di beberapa kampus PTS di Jakarta antara lain Universitas Gunadarma, Universitas Pancasila dan beberapa PTS lainnya. Penulis memiliki keahlian mengajar dalam bidang: Matematika : Aljabar Linier, Kalkulus, Statistika Dan Probabilitas, Matematika Diskrit, Riset Operasional, Data Mining dan Metode Numerik. Dr. Ilham, S.Kom, M.Kom. adalah Dosen PNS di Program Studi Sistem Informasi, UIN Sunan Ampel Surabaya. Kegiatannya selain mengajar sebagai dosen, aktif menulis baik buku maupun artikel yang diterbitkan di Jurnal Nasional dan Internasional. Pernah memberikan penyuluhan dan pembinaan Teknologi informasi di berbagai Institusi baik swasta maupun pemerintah. Pernah mendapatkan penghargaan beberapa kali kategori dana hibah penelitian dan pengabdian kepada masyarakat (PKM). Pernah juga menjadi Konsultan dan Tim FTE DEPDAGRI dalam proyek Pengadaan Barang dan Jasa di 10 Kabupaten dan Kota Propinsi Jawa Timur. Sekarang ini kesibukkan dalam mengajar juga dengan menjadi narasumber, menulis buku dan menulis artikel untuk dipublikasi di jurnaljurnal terindeks SINTA dan Scopus.