The words you are searching are inside this book. To get more targeted content, please make full-text search by clicking here.

Data mining adalah proses mengekstrak pola atau pengetahuan yang berguna dari kumpulan data yang besar. Teknik ini digunakan untuk menganalisis data secara mendalam, mengidentifikasi hubungan yang tersembunyi, dan membuat prediksi berdasarkan informasi yang ter- ungkap. Dengan menggunakan berbagai metode statistik, matematika, dan kecerdasan buatan, data mining membantu organisasi dalam mengambil keputusan yang lebih cerdas dan strategis.

Tujuan utama dari data mining adalah mengubah data mentah menjadi informasi yang berguna dan bermakna. Dengan menerapkan teknik seperti clustering, klasifikasi, regresi, dan asosiasi, data mining dapat mengungkap pola-pola yang membantu dalam pemahaman perilaku pelanggan, analisis pasar, deteksi penipuan, prediksi tren, dan banyak lagi.

Data mining digunakan di berbagai industri seperti perbankan, ritel, kesehatan, dan telekomunikasi untuk meningkatkan efisiensi opera- sional, memahami kebutuhan pelanggan, dan mengoptimalkan strategi bisnis. Dengan pertumbuhan volume data yang cepat, data mining menjadi semakin penting dalam mengubah data menjadi wawasan berharga yang mendukung pengambilan keputusan yang lebih baik.

Discover the best professional documents and content resources in AnyFlip Document Base.
Search
Published by penamudamedia, 2024-03-22 13:36:21

Data Mining

Data mining adalah proses mengekstrak pola atau pengetahuan yang berguna dari kumpulan data yang besar. Teknik ini digunakan untuk menganalisis data secara mendalam, mengidentifikasi hubungan yang tersembunyi, dan membuat prediksi berdasarkan informasi yang ter- ungkap. Dengan menggunakan berbagai metode statistik, matematika, dan kecerdasan buatan, data mining membantu organisasi dalam mengambil keputusan yang lebih cerdas dan strategis.

Tujuan utama dari data mining adalah mengubah data mentah menjadi informasi yang berguna dan bermakna. Dengan menerapkan teknik seperti clustering, klasifikasi, regresi, dan asosiasi, data mining dapat mengungkap pola-pola yang membantu dalam pemahaman perilaku pelanggan, analisis pasar, deteksi penipuan, prediksi tren, dan banyak lagi.

Data mining digunakan di berbagai industri seperti perbankan, ritel, kesehatan, dan telekomunikasi untuk meningkatkan efisiensi opera- sional, memahami kebutuhan pelanggan, dan mengoptimalkan strategi bisnis. Dengan pertumbuhan volume data yang cepat, data mining menjadi semakin penting dalam mengubah data menjadi wawasan berharga yang mendukung pengambilan keputusan yang lebih baik.

89 Pada gambar 2 di atas merupakan proses untuk konfirmasi atau verifikasi email. Gambar 8 RapidMiner software download Pilih sesuai dengan kebutuhan kita dalam hal ini yang dipilih adalah untuk windows. Setelah dilakukan download, selanjutnya adalah proses intalasi, ikuti saja instruksi yang sudah default. Pada Gambar 4 di bawah ini merupakan tampilan halaman utama saat memulai Rapid Miner Studio. Gambar 9 Menu Awal dari RapidMiner Studio


90 Gambar 10 Menu Utama Gambar 11 Repository Gambar 12Operator


91 Gambar 13 Parameter Cari data set yang sudah ada misal pada GitHub - xbwei/machine_learning_in_rapidminer: Demo of using RapidMiner in machine learning. Download dataset yang ingin dianalisa. Kemudian simpan pada folder yang sudah dibuat sebelumnya. Kemudian pada bagian Repositori terdapat fitur Add Data. Klik Add Data seperti pada gambar 9 di bawah ini Gambar 14 Add Data


92 Setelah Add Data di klik, selanjutnya akan mengarah pada lokasi data yang akan ditampilkan dari data set. Seperti pada gambar berikut Gambar 15 Posisi Data Arahkan ke arah data set pada folder yang sudah dibuat sebelumnya. Gambar 16 Posisi Dataset Kemudian di klik button Next pada bagian bawah. Ikuti instruksi nya. Selanjutnya akan menampilkan data seperti pada gambar 12 di bawah ini.


93 Gambar 17 Hasil dari Iris dataset Selanjutnya bisa dilakukan explore data dari berbagai model, misalnya explore model data statistik. Seperti pada gambar 13 di bawah ini Gambar 18 Hasil dari iris dataset


94 Atau bisa juga melihat data dengan model grafik. Misal seperti pada gambar 14 di bawah ini. Ilmuwan data dapat belajar menggunakan RapidMiner untuk penambangan data dengan menginstal perangkat lunak Program edukasi. Program ini memungkinkan guru dan siswa mengambil dataset dan model sampel untuk berlatih menganalisis data dalam berbagai cara. Selain itu, program ini mendukung proses analisis data tambahan, seperti membuat visualisasi data yang memungkinkan untuk mengeksplorasi data dalam berbagai format. RapidMiner juga dapat digunakan untuk melakukan analisis data tanpa mengorbankan keterampilan pemrograman komputer mereka. Namun, karena perangkat lunak RapidMiner mendukung analisis data dalam bentuk model, ilmuwan data harus mempelajari cara teknik penambangan data bekerja agar dapat memilih set data sampel yang tepat untuk pengolahan setiap teknik.


95


96 embelajaran dalam sebuah bagian Machine Learning mencakup berbagai topik seperti analisis regresi, metode pemilihan fitur, dan klasifikasi. Dari klasifikasi, tiga pendekatan utama merupakan bagian dari klasifisifikasi adalah supervised, semi-supervised, dan klasifikasi unsupervised. Dalam sebuah klasifik.asi supervised, kelas atau label dalam sebuah object telah diketahui pada saat proses pencarian data (dalam kasus ini adalah data mining) di mana mendefinisikan data tersebut sebagai data set untuk training dan algoritma digunakan untuk mendapatkan kriteria klasifikasi. Klasifikasi semi-supervised mengatasi kedua jenis data yang berlabel dan tidak berlabel. Sedangkan untuk klasifikasi dengan data yang tidak berlabel disebut dengan clustering. Clustering mengatasi penentuan kelas atau label dari data yang tidak memiliki sama sekali informasi mengenai label data. Tujuan dari clustering adalah untuk mengidentifikasi kumpulan objek, atau cluster yang menyerupai satu dengan yang lainnya. Clustering merupakan proses pembagian data menjadi beberapa bagian sub data (atau cluster) yang dapat ditarik informasi dari masing-masing sub datanya (Garcia Marquez, 2020). Pengujian dalam clustering telah digunakan dalam beberapa penelitian yang ada. Hasil dari data mining yang ada di mana tidak jarang adalah data yang berupa unsupervised sangat membutuhkan proses clustering untuk mendapat informasi dari data yang ada. Salah satu penelitian yang dilakukan oleh Sembiring, yakni merupakan proses clustering dari hasil data mining pada data pemesanan barang berbentuk data unsupervised (Sembiring et al., 2019). Penelitian yang dilakukan oleh Handayani, yakni melakukan clustering untuk gaya belajar mahasiswa. Pengelompokan yang ada pada penelitian P


97 Handayani yakni menjadi tiga: Auditorial, Visual, dan Kinestetik. Dengan pengelompokan yang ada memudahkan untuk menentukan pola belajar mahasiswa berdasarkan cluster yang terbentuk (F. Handayani, n.d.). Dengan clustering data yang awalnya sulit untuk dipahami akan lebih mudah dipahami berdasarkan kelompok yang terbentuk. Dapat dipahami bahwa permasalahan dalam clustering sangat didalami dalam data mining dan machine learning. Beberapa permasalahan dapat bermunculan karena dengan tipe data yang spesifik memiliki dampak yang signifikan dalam proses penentuan permasalahan. Tidak hanya dengan permasalahan tersebut, penggunaan clustering yang kurang hati-hati dan teliti juga mampu menimbulkan permasalahan lain dalam domain tertentu. Salah satunya adalah di mana clustering merupakan langkah fundamental dalam permasalahan data mining. Proses clustering dapat dikatakan sebagai proses peringkasan data, di mana biasanya proses ini menjadi langkah penting untuk proses klasifikasi dan analisis outliers. Penentuan jumlah cluster dapat mempengaruhi hasil klasifikasi dan juga hasil analisis outliers yang ada (Mirkin, 2005). Permasalahanpermasalahan ini merupakan sedikit pandangan bahwa dari salah satu bagian data mining, clustering tidak hanya sekedar menggunakan algoritma yang ada namun juga dituntut mampu mempertimbangkan jenis dan cara penggunaan algoritma clustering. Penggunaan dari metode dan bagaimana menghadapi tipe data yang berbeda akan memiliki strategi yang berbeda dalam penggunaan clustering. Di sisi lain algoritma dari clustering tidaklah sedikit. Dari beberapa algoritma yang ada dikelompokkan menjadi beberapa kategori, Probabilistic model, Partitional and hierarchical


98 clustering, Density-based clustering, Grid-based clustering, Nonnegative matrix factorizations for clustering, Spectral clustering (Mirkin, 2005). Probabilistic Model merupakan salah satu model clustering yang di mana mencoba untuk mengoptimalkan kecocokan antara data observasi dan model matematika dengan menggunakan pendekatan probabilitas. Secara praktiknya, setiap cluster dapat direpresentasikan secara matematis dengan distribusi probabilitas parametrik, seperti Gaussian dan Poisson. Dengan demikian masalah penentuan clustering dirubah menjadi permasalahan estimasi parameter. Dalam kateogori Probabilistic Models terdapat beberapa model dan algoritma yakni mixture models, Expectation-Maximization (EM) algorithm, dan probabilistic topic models. Di mana untuk Mixture Model dibagi menjadi dua yakni Gaussian Mixture Model dan Bernoulli Mixture Model. Sedangkan untuk probabilistic topic models terdiri dari dua yakni probabilistic latent semantic analysis (PLSA) dan latent Dirichlet allocation (LDA). Beberapa model seperti Mixture Model lebih cocok digunakan untuk data dengan tipe kuantitatif, sedangkan PLSA dan LDA akan lebih sering digunakan untuk tipe data berbentuk teks.


99 Partional dan Hieararchical Clustering merupakan algoritma yang sangat sering digunakan dan diteliti. Kedua algoritma ini digunakan di berbagai bidang, dikarenakan tingkat simplisitas dan kemudahan dalam penggunaan dan pengimplementasian dari metode dan algoritma clustering ini dibandingkan dengan yang lain. Partial clustering bertujuan untuk menemukan pengelompokkan yang ada pada data dengan melakukan optimasisasi sebuah fungsi objective dan terus menerus memperbaiki dan meningkatkan kualitas dari pembagian yang ada. Algoritma ini biasanya membutuhkan input parameter dari user untuk menentukan titik prototype yang mewakili masing-masing cluster. Karena dengan pola algoritma tersebut berjalan, maka sering juga disebut dengan prototype-based clustering algorithms. Di sisi lain untuk algoritma Hierarchical clustering, melakukan pendekatan clustering dengan membentuk sebuah sturktur data berbentuk binary tree yang disebut dengan dendogram. Ketika dendogram ini telah terbentuk maka secara otomatis akan membagi dan membetuk jumlah clusters dengan memecah binary tree yang terbentuk. Hierarchical clustering dapat dibagi menjadi dua cara yakni bottom-up dan top-down clustering. Meskipun kedua cara yang ada menggunakan konsep dendogram yang sama, namun dapat menghasilkan hasil yang berbeda bergantung pada kriteria ketika proses pembentukan cluster. Metode Partitional butuh untuk ditentukan cluster awal sedangkan


100 untuk Hierarchical dapat memulai algoritmanya melalui salah satu data yang ada dan membuat clusters. Dalam algoritma Partitional, algoritma yang sering digunakan adalah K-Means. Yakni merupakan algortima yang di awal harus ditentukan jumlah representatif K sebagai titik inisial centroids. Setiap titik kemudian mengelompokkan dirinya masing-masing kepada centroids terdekat disekitarnya. Di mana tahapan ini akan diiterasi hingga mencapai titik di mana dapat dikatakan stabil. Dari algorimta K-Means terdapat beberapa variasi yang muncul, dikarenakan optimasi dan beberapa kondisi yang membutuhkan penyesuaian dari algoritma yang ada. Varias dari K-Means antara lain adalah K-Medoids Clustering, KMedians Clustering, K-Modes Clustering, Fuzzy K-Means Clustering, X-Means Clustering, Intelligent K-Means Clustering, Bisecting K-Means Clustering, Kernel K-Means Clustering¸ Mean Shift Clustering, Weighted K-Means Clustering, dan Genetic K-Means Clustering. Algoritma Hierarchical Clustering, dibentuk dalam rangka untuk mengatasi permasalah yang dihadapi dalam algoritma Partitional. Di mana pada metode Partitional biasanya membutuhkan parameter K yang telah ditentukan di awal terlebih dahulu untuk mendapatkan jumlah cluster, yang di mana biasanya ketika mendapatkan hasil dari data mining jumlah dari K tersebut tidak pasti. Algoritma Hierarchical dibentuk dengan prinsip mekanisme yang fleksibel untuk melakukan clustering. Algoritma Hierarchical dapat dibagi menjadi dua, yakni metode clutering agglomerative dan divisive.


101 Beberapa algoritma sebelummnya, menganggap bahwasanya data yang terbentuk merupakan data yang berasal dari distribusi probabilitas jenis tertentu (sebagai contoh Data dengan campuran dari Distribusi k-Gaussian ). Sehingga beberapa algoritma seperti EM (Expectation Maximization) clustering dan juga K-means membuat pengelompokan cluster dari data yang ada berbentuk bulat. Gambar 1. Cluster Iris Sumber https://datascience.stackexchange.com Dalam kasus ini algoritma yang ada sangat tidak cocok ketika berhadapan dengan data yang di mana clusters yang ada berbentuk nonspherical. Nonspherical data biasanya terbentuk dari data tipe spatial. Bentuk clusters yang terbentuk dari data spatial sangatlah acak. Hal ini didukung dengan semakin besarnya data yang ada menjadikan algoritma clustering yang simple rusak. Maka dari itu dibutuhkan sebuah algoritma yang mampu mendeteksi dan menghapus noise dan outliers. Di mana muncullah algoritma density based yang menanggulangi seluruh


102 masalah yang ada. Density based clustering dapat dikatakan sebagai nonparametric method, di mana algoritma tersebut tidak melakukan asumsi mengenai jumlah clusters dan pola distribusi pada data yang ditangani. Sebagaimana menyerupai dengan namanya, density based clustering merupakan algoritma clustering yang berdasarkan pada kepadatan data yang ada. Beberapa algoritma yang sering digunakan dalam kategori density based clustering adalah DBSCAN, DENCLUE, dan OPTICS. Grid Based Clustering sangat efektif digunakan ketika berhadapan dengan data besar dengan multidimensi. Grid Based Clustering memiliki algoritma untuk membagi ruang data menjadi sejumlah cells untuk membentuk grid structure dan dari grid sturcture itu tadi akan dibentuk clusters. Algoritma ini dikenalkan oleh Warnekar dan Krishna untuk melakukan organisasi pada ruang fitur, dalam GRIDCLUS. Kemudian popularitas dari algoritma ini meningkat ketika algrotima STING, CLIQUE, WaveCluster diperkenalkan. Keunggulan utama dari grid-based clustering adalah banyaknya pengurangan kompleksitas waktu, terutama ketika berhadapan dengan data yang sangat banyak. Grid – based clustering biasanya memiliki tahapan berikut : 1. Membuat sebuah grid sturcture (membagi ruang data menjadi sejumlah cells). 2. Menghitung kepadatan cells pada masing-masing cells yang terbentuk. 3. Mengurutkan cells, berdasarkan pada kepadatannya.


103 4. Mengidentifikasi titik pusat dari clusters. 5. Mengelilingi cells tetangga. Semenjak beberapa cells yang ada perlu dilakukan perhitungan menggunakan metode density maka kebanyakan dari algoritma grid-based clustering termasuk ke dalam density-based. Namun beberapa algoritma yang ada juga mengkombinasikan algoritma hierarchical clustering atau subspace clustering untuk menghitung tingkat density yang ada pada masing-masing cells. Berikut ini adalah pembagian dari algoritma yang menggunakan hierarchical clustering dan subspace clustering. Tabel 1 Algoritma Grid Based Hierarchical dan subspace clustering hierarchical clustering. GRIDCLUS, BANG-clustering, AMR, STING, STING+ subspace clustering MAFIA, CLIQUE, ENCLUS Dengan proses yang ada grid-based clustering juga muncul permasalahan baru dalam clustering. Permasalahan yang ada yakni : 1. Non-Uniformity: Penggunaan grid tunggal yang tidak fleksibel akan berpengaruh pada kualitas ketika bertemu dengan distribusi data yang sangat tidak teratur. 2. Locality: Jika terdapat sebuah distribusi data memiliki lokal variasi, maka tingkat keefektifan dari grid-based


104 clustering akan terbatasi dari ukuran, perbatasan dan batasan treshold kepadatan yang telah ditentukan. 3. Dimensionality: Dengan adanya tambahan dimensi pendekatan grid-based tidak dapat diskalakan untuk pengelompokan data berdimensi sangat tinggi. Dari permasalahan yang ada juga telah dibentuk beberapa Algoritma khusus untuk memecahkan masalah yang dihadapi. Algoritma yang ada dapat dilihat pada tabel berikut dengan permasalahan yang dihadapinya. Tabel 2 Algoritma Grid-Based berdasarkan kemampuannya dalam memecahkan masalah Adaptive MAFIA, AMR Axis-shifting NSGC, ADCC, ASGC, GDILC High-dimension CLIQUE, MAFIA, ENCLUS, OptiGrid, O-cluster, CBF Penggunaan nonnegative matrix factorization (NMF) masih kurang populer, namun algoritma ini juga tidak jarang digunakan untuk melakukan clustering. NMF biasanya digunakan untuk cara konvensional dalam data analisis, namun banyak ketertarikan akan kemampuan NMF dalam memecahkan masalah pada data mining dan machine learning. Khususnya NMF dengan jumlah dari squared error cost function setara dengan nilai K-means


105 dalam posisi stabil. Dan juga NMF dengan I-divergence cost function serupa dengan probabilistic latent semantic indexing, di mana merupakan salah satu algoritma yang sering digunakan untuk unsupervised text data. Perkembangan NMF dalam penggunaan data mining dan machine learning masih dapat berkembang. Namun di sisi lain NMF masih susah diakses karena masih sedikitnya riset yang kuat untuk menggunakan algoritma ini. Sama halnya dengan NFM, algoritma Spectral Clustering merupakan salah satu algoritma clustering yang mulai digunakan dalam beberapa penyelesaian masalah clustering. Sebagaimana berlawanan dengan beberapa algoritma populer yang sering digunakan dalam clustering, algoritma ini memiliki kelebihan di mana mampu mendeteksi cluster dalam bentuk yang lebih kompleks. Hal ini dikarenakan algoritma ini tidak melakukan asumsi dari bentuk cluster yang terbentuk. Dalam Spectral clustering pada dasarnya dibedakan menjadi dua buah kategori, yakni algoritma spectral yang menggunakan normalized laplacian graph atau tidak. Adapun proses dari Spectral clustering adalah sebagai berikut : 1. Membentuk grafik kemiripan untuk semua titik data. 2. Titik-titik data disematkan dalam sebuah ruang, di mana kelompok-kelompoknya lebih "jelas", dengan menggunakan the eigenvectors of the graph laplacian. 3. Langkah terakhir yakni menggunakan algoritma clustering seperti K-means untuk membagi penyematannya.


106 Itulah beberapa algoritma dari clistering. Dengan perkembangan yang ada tidak memungkinkan algoritma yang ada akan terus berkembang dan terus akan diperbaharui dalam rangka memecahkan masalah yang dihadapi dalam dunia data mining dan machine learning


107


108 lgoritma Frequent Pattern-Growth yang disingkat FPGrowth merupakan algoritma yang diusulkan oleh Han Jiawei pada tahun 2000. Algoritma FP-Growth merupakah salah satu algoritma untuk menemukan kumpulan item atau data yang paling sering muncul (frequent itemset), kumpulan hal-hal yang biasa terjadi bersamaan, dengan menyimpan kumpulan data dalam struktur khusus yang disebut FP-Tree (R.Pallavi Reddy, 2023). Algoritma FP-Growth dikembangkan dari algoritma apriori. Namun algoritma FPGrowth menggunakan pendekatan yang berbeda dengan algoritma apriori. Perbedaan keduanya terletak pada penentuan frequent itemset. Pada algoritma apriori menggunakan generate candidate untuk mencari frequent itemset sedangkan algoritma FP-Growth menggunakan FP-Tree untuk mencari frequent itemset (Miftahul Huda, M.Kom, 2007) (Prastyadi Wibawa Rahayu, dkk, 2024). Menurut Sasmeeta Tripathy et.al, tahun 2023 terdapat dua perbedaan utama antara algoritma apriori dengan algoritma FPGrowth. Pada tabel 1 menunjukkan perbedaan antara keduanya. Tabel 1 Perbedaan Algoritma Apriori Dengan Algoritma FP-Growth Algoritma Apriori Algoritma FP-Growth Pada algoritma apriori, basis data dipindai secara berkalikali. Pada algoritma FP-Growth basis data hanya dipindai satu kali, sehingga prosesnya menjadi sangat cepat. Ketika kumpulan data (dataset) memiliki kumpulan item (itemset) yang lebih Ketika kumpulan data (dataset) memiliki banyak kumpulan item (itemset), A


109 sedikit, maka algoritma terbaik untuk digunakan adalah apriori. maka algoritma terbaik untuk digunakan adalah FP-growth. Proses penentuan frequent itemset menggunakan algoritma FP-growth terdiri dari dua tahap, yaitu membangun FP-Tree dan penerapan algoritma FP-Growth untuk pencarian frequence itemset (R.Pallavi Reddy, 2023) (Prastyadi Wibawa Rahayu, dkk, 2024). FP-tree merupakan struktur penyimpanan data yang memanfaatkan pemampatan data yang dibangun dengan mekanisme dimana setiap data akan dipetakan sesuai lintasan (Muhammad Yudho Ardianto et.al, 2021). FP-tree terdiri dari root yang diberi nilai null, sekumpulan item-prefix subtrees sebagai turunan dari root, dan tabel header frequent item (Shivam Sidhu et.al, 2014). Pada tahap penerapan algoritma FPGrowth untuk pencarian frequence itemset dibagi menjadi tiga tahapan utama yaitu: 1. Tahap Pembangkitan Conditional Pattern Base Tahap ini diperoleh dengan menggunakan algoritma FP-Tree. Hasil pembentukan FP-Tree akan digunakan untuk membangkitkan subdata yang berisi prefix path (lintasan awal) dan suffix path (pola akhiran). Subdata inilah yang dinamakan dengan Conditional Pattern Base. 2. Tahap Pembangkitan Conditional FP-Tree Tahap ini dilakukan dengan menjumlahkan support count dan setiap barang pada setiap conditional pattern base, kemudian setiap barang yang memiliki jumlah support count lebih besar atau sama dengan minimum


110 support count akan dibangkitkan dengan conditional FPTree. 3. Tahap Pencarian Frequent Itemset, Setelah memeriksa frequent itemset untuk akhiran (suffix),selanjutnya dilakukan pencarian association rules. Association rules merupakan suatu proses pada data mining untuk menentukan semua aturan asosiatif. Terdapat dua parameter untuk menentukan aturan asosiatif atau association rules, yaitu support dan confidence. Support adalah persentase frekuensi kemunculan itemset pada dataset. Berikut rumus support : Sedangkan confidence adalah persentase kuatnya hubungan antar item dalam aturan asosiatif. Berikut rumus confidence : | Rapidminer merupakan salah satu tools yang dapat digunakan untuk menerapkan data mining menggunakan algoritma FP-Growth. Pada sub bab ini akan membahas tentang langkah-langkah dalam menerapkan algoritma FPGrowth menggunakan tools rapidminer.


111 1. Import Data a. Sebagai latihan pertama, asumsikan ada sebuah data Transaksi ATK dengan format excel yang memuat informasi tentang transaksi penjualan barang ATK di sebuah toko. Tampilan data dari file tersebut adalah sebagai berikut. b. Buka tools rapidminer. Lalu klik import data dan pilih my computer.


112 c. Pilih file excel yang akan di import. Setelah itu, maka muncul data yang ada di excel yang dipilih. Pada tab sheet menunjukkan sheet berapa yang dipilih, sedangkan cell range menunjukkan data kolom berapa yang ingin digunakan. d. Bisa dilihat pada tampilan di bawah, bahwa tipe data yang digunakan adalah integer. Pada penerapan algoritma FP-Growth, data yang bersifat numeric harus diubah tipe datanya menjadi binominal agar dapat diproses. Maka langkah selanjutnya adalah mengubah semua kolom yang memiliki tipe data integer (kecuali Customer ID) menjadi tipe data binominal.


113 e. Langkah selanjutnya adalah mengubah role pada kolom Customer ID menjadi id. Selanjutnya klik next. f. Simpan file yang sudah diimport ke folder yang telah dibuat. Lalu klik finish. Maka proses import data sudah berhasil dilakukan.


114 2. Penerapan Algoritma FP-Growth Menggunakan Rapidminer Pada gambar di bawah ini menunjukkan bahwa data telah berhasil diimport. Setelah data berhasil diimport, maka data sudah siap untuk diproses. Berikut ini adalah langkah-langkah penerapan algoritma FP-Growth menggunakan rapidminer. a. Klik tab Design, lalu drag and drop data Transaksi ATK. Selanjutnya cari algoritma FP-Growth di field search for operator. Drag and drop algoritma FPGrowth dan hubungkan dengan data Transaksi ATK.


115 b. Atur nilai min. support sesuai dengan kebutuhan. Pada tampilan di bawah, nilai min support di atur 0.3 yang artinya data yang ditampilkan adalah yang memiliki nilai support di atas 0.3 atau 30%. Unchecklist find min number of itemsets, agar item yang ditampilkan hanya yang memiliki nilai support di atas 0.3. c. Klik tombol run (tanda panah biru), hingga muncul tampilan seperti gambar di bawah ini. Pada gambar di bawah menampilkan item yang memiliki nilai support di atas 0.3.


116 d. Cari create association rules di field search for operator. Drag and drop create association rules. Hubungkan FP-Growth dengan create association rules. e. Pada tampilan di bawah, nilai min confidence di atur 0.8 atau 80% yang artinya data yang ditampilkan adalah yang memiliki nilai confidence di atas 0.8.


117 f. Klik tombol run (tanda panah biru), hingga muncul tampilan seperti gambar di bawah ini. Pada gambar di bawah menampilkan item yang memiliki nilai support di atas 0.3 dan nilai confidence di atas 0.8. Maksud dari tampilan gambar di atas adalah frekuensi konsumen yang membeli bolpoin dan buku tulis juga membeli tipe x secara bersamaan adalah sebesar 33% dan ada kemungkinan 100% konsumen yang membeli bolpoin dan buku tulis pasti membeli tipe x juga. g. Klik tab description untuk melihat association rules nya, sehingga muncul tampilan seperti gambar di bawah ini. Secara keseluruhan dari data sampel transaksi atk diperoleh tujuh rule atau aturan yang memenuhi nilai support dengan ambang batas minimum 30% dan nilai confidence 80%.


118 h. Klik tab graph untuk melihat graph yang terbentuk dari association rules.


119


120 alam bab ini, kita akan membahas implementasi algoritma K-Means pada platform RapidMiner untuk analisis data mining. K-Means adalah salah satu algoritma clustering yang populer untuk mengelompokkan data menjadi beberapa kelompok berdasarkan kesamaan karakteristik (Sekar Setyaningtyas et al., 2022). RapidMiner, dengan antarmuka grafisnya yang intuitif, menyediakan cara yang mudah dan efektif untuk mengimplementasikan algoritma KMeans (Mahesa Putra et al., 2024). Sebelum kita masuk ke implementasi, mari kita tinjau konsep dasar dari algoritma K-Means. Algoritma ini bekerja dengan mengelompokkan data menjadi kelompokkelompok (clusters) berdasarkan kemiripan atribut (Paminta Rahayu, 2013). Langkah-langkah utamanya melibatkan inisialisasi pusat kelompok, pengelompokan data ke kelompok terdekat, pembaruan pusat kelompok, dan iterasi proses tersebut hingga konvergensi (Roihan et al., 2020). RapidMiner adalah suatu platform pemrograman dengan sifat terbuka (open source). Digunakan sebagai solusi untuk analisis data terstruktur, penambangan teks, dan evaluasi awal. RapidMiner memanfaatkan beragam metode yang cerdas untuk menyediakan wawasan yang berharga kepada pengguna, memungkinkan mereka membuat pilihan yang optimal (Prasetyo et al., 2021). D


121 Gambar 1. Logo RapidMiner Dengan lebih dari 500 administrator penambangan informasi, RapidMiner mencakup aspek seperti input, output, praproses informasi, dan representasi data. Sebagai aplikasi independen, RapidMiner berfungsi sebagai alat penyelidikan informasi dan mesin penambangan data yang dapat diintegrasikan ke dalam proyeknya sendiri. Dikembangkan menggunakan bahasa pemrograman Java, RapidMiner dapat beradaptasi dengan berbagai kerangka kerja. RapidMiner sebelumnya dikenal dengan nama YALE (Satu lagi Iklim Pembelajaran), dengan terjemahan dasarnya dibuat pada tahun 2001 oleh Ralf Klinkenberg, Ingo Mierswa, dan Simon Fischer di Unit Kesadaran Buatan Manusia dari College of Dortmund. Disebarkan di bawah lisensi AGPL (Izin Populasi Keseluruhan Affero GNU) varian tiga, RapidMiner telah menjadi fondasi untuk berbagai aplikasi di lebih dari 40 negara. Popularitasnya sebagai perangkat lunak sumber terbuka untuk penambangan data tidak diragukan lagi, mengingat reputasinya yang sudah mapan di seluruh dunia.


122 Operator ini melakukan pengelompokan data menggunakan algoritma kernel k-means. Pengelompokan bertujuan untuk mengelompokkan objek yang mirip satu sama lain dan tidak mirip dengan objek yang termasuk dalam kelompok lain. Kernel k-means menggunakan kernel untuk mengestimasi jarak antara objek dan kelompok. Kmeans adalah algoritma pengelompokan eksklusif. Gambar 2. K-Means Clustering (Kernel) Operator ini melakukan pengelompokan data menggunakan algoritma kernel k-means. K-means adalah algoritma pengelompokan eksklusif, di mana setiap objek ditugaskan secara tepat ke salah satu dari sejumlah kelompok. Objek dalam satu kelompok mirip satu sama lain. Kesamaan antara objek didasarkan pada pengukuran jarak di antara mereka. Kernel k-means menggunakan kernel untuk mengestimasi jarak antara objek dan kelompok. Karena sifat kernel, diperlukan penjumlahan semua elemen dalam suatu kelompok untuk menghitung satu jarak. Oleh karena itu, algoritma ini kuadratik dalam jumlah contoh dan tidak mengembalikan Model Kelompok Sentroid, berbeda dengan operator K-Means. Jika parameter tambahkan atribut kelompok diatur sebagai benar, operator ini membuat atribut kelompok dalam ExampleSet hasilnya.


123 Pengelompokan berkaitan dengan pengelompokan bersama objek yang mirip satu sama lain dan tidak mirip dengan objek yang termasuk dalam kelompok lain. Pengelompokan adalah teknik untuk mengekstraksi informasi dari data yang tidak berlabel. Pengelompokan dapat sangat berguna dalam berbagai skenario, misalnya dalam aplikasi pemasaran kita mungkin tertarik untuk menemukan kelompok pelanggan dengan perilaku pembelian yang serupa. 1. Diferensiasi Kernel k-means menggunakan kernel untuk mengestimasi jarak antara objek dan kelompok. Karena sifat kernel, diperlukan penjumlahan semua elemen dalam suatu kelompok untuk menghitung satu jarak. Oleh karena itu, algoritma ini kuadratik dalam jumlah contoh dan tidak mengembalikan Model Kelompok Sentroid seperti yang dilakukan operator K-Means. 2. Input (Masukkan) a. example set (Data Table) Port input mengharapkan ExampleSet. Ini adalah output dari operator Retrieve dalam Proses Contoh terlampir. Output dari operator lain juga dapat digunakan sebagai input. 3. Output (Luaran) a. cluster model (Cluster Model) Port ini memberikan model kelompok yang berisi informasi mengenai pengelompokan yang dilakukan. Ini memberi tahu contoh mana yang termasuk dalam kelompok mana.


124 b. clustered set (Data Table) ExampleSet yang diberikan sebagai input diteruskan dengan perubahan minor ke output melalui port ini. Atribut dengan peran id ditambahkan ke ExampleSet input untuk membedakan contoh. Atribut dengan peran kelompok juga mungkin ditambahkan tergantung pada status parameter tambahkan atribut kelompok. 4. Parameter a. add_cluster_attribute Jika diaktifkan, atribut baru dengan peran kelompok dihasilkan langsung di operator ini, jika tidak, operator ini tidak menambahkan atribut kelompok. Dalam kasus terakhir, Anda harus menggunakan operator Apply Model untuk menghasilkan atribut kelompok. Rentang: Boolean b. add_as_label Jika benar, id kelompok disimpan dalam atribut dengan peran label alih-alih peran kelompok (lihat parameter tambahkan atribut kelompok). Rentang: Boolean c. remove_unlabeled Jika diatur sebagai benar, contoh tanpa label dihapus.


125 Rentang: boolean d. use_weights Parameter ini menunjukkan apakah atribut bobot harus digunakan. Rentang: Boolean e. k Parameter ini menentukan jumlah kelompok yang akan dibentuk. Tidak ada aturan pasti untuk jumlah kelompok yang akan dibentuk. Namun, umumnya disarankan untuk memiliki jumlah kelompok yang kecil dengan contoh yang tersebar (tidak terlalu tersebar) di sekitarnya secara seimbang. Rentang: bilangan bulat f. max_optimization_steps Parameter ini menentukan jumlah iterasi maksimal yang dilakukan untuk satu putaran k-Means. Rentang: bilangan bulat g. use_local_random_seed Parameter ini menunjukkan apakah benih acak lokal harus digunakan untuk randomisasi. Rentang: boolean h. local_random_seed Parameter ini menentukan benih acak lokal. Parameter ini hanya tersedia jika parameter gunakan benih acak lokal diatur sebagai benar. Rentang: bilangan bulat


126 i. jenis_kernel Jenis fungsi kernel dipilih melalui parameter ini. Berbagai jenis kernel didukung: dot, radial, polynomial, neural, anova, epachnenikov, gaussian combination, multiquadric 1) dot: Kernel dot didefinisikan oleh k(x,y)=xy yaitu hasil kali dalam produk dalam x dan y. 2) radial: Kernel radial didefinisikan oleh exp(-g ||x-y||^2) di mana g adalah gamma, ditentukan oleh parameter gamma kernel. Parameter gamma yang dapat diatur memainkan peran utama dalam kinerja kernel, dan harus disetel dengan hati-hati sesuai dengan masalah yang dihadapi. 3) polynomial: Kernel polinomial didefinisikan oleh k(x,y)=(xy+1)^d di mana d adalah derajat polinomial dan ditentukan oleh parameter derajat kernel. Kernel polinomial cocok untuk masalah di mana semua data pelatihan dinormalisasi. 4) neural: Kernel neural didefinisikan oleh jaringan saraf dua lapis tanh(a x*y+b) di mana a adalah alpha dan b adalah konstanta intersep. Parameter-parameter ini dapat disesuaikan dengan menggunakan parameter a dan b kernel. Nilai umum untuk alpha adalah 1/N, di mana N adalah dimensi data. Perlu dicatat bahwa tidak semua pilihan a dan b mengarah pada fungsi kernel yang valid.


127 5) anova: Kernel anova didefinisikan oleh pangkat d dari jumlah exp(-g (x-y)) di mana g adalah gamma dan d adalah derajat. gamma dan derajat disesuaikan oleh parameter gamma kernel dan derajat kernel masing-masing. 6) epachnenikov: Kernel epachnenikov adalah fungsi ini (3/4)(1-u2) untuk u antara -1 dan 1 dan nol untuk u di luar rentang tersebut. Ini memiliki dua parameter yang dapat disesuaikan, sigma1 kernel dan derajat kernel. 7) gaussian_combination: Ini adalah kernel kombinasi gaussian. Ini memiliki parameter yang dapat disesuaikan sigma1 kernel, sigma2 kernel, dan sigma3 kernel. 8) multiquadric: Kernel multiquadric didefinisikan oleh akar kuadrat ||x-y||^2 + c^2. Ini memiliki parameter yang dapat disesuaikan sigma1 kernel dan pergeseran sigma kernel. Rentang: pilihan j. kernel_gamma Ini adalah parameter kernel gamma. Ini hanya tersedia ketika parameter jenis kernel diatur sebagai radial atau anova. Rentang: riil k. kernel_sigma1 Ini adalah parameter kernel sigma1. Ini hanya tersedia ketika parameter jenis kernel diatur sebagai epachnenikov, gaussian combination, atau multiquadric.


128 Rentang: riil l. kernel_sigma2 Ini adalah parameter kernel sigma2. Ini hanya tersedia ketika parameter jenis kernel diatur sebagai gaussian combination. Rentang: riil m. kernel_sigma3 Ini adalah parameter kernel sigma3. Ini hanya tersedia ketika parameter jenis kernel diatur sebagai gaussian combination. Rentang: riil n. kernel_shift Ini adalah parameter kernel pergeseran. Ini hanya tersedia ketika parameter jenis kernel diatur sebagai multiquadric. Rentang: riil o. kernel_degree Ini adalah parameter kernel derajat. Ini hanya tersedia ketika parameter jenis kernel diatur sebagai polynomial, anova, atau epachnenikov. Rentang: riil p. kernel_a Ini adalah parameter kernel a. Ini hanya tersedia ketika parameter jenis kernel diatur sebagai neural. Rentang: riil


129 q. kernel_b Ini adalah parameter kernel b. Ini hanya tersedia ketika parameter jenis kernel diatur sebagai neural. Rentang: riil Dalam banyak kasus, tidak ada atribut target (misalnya label) yang dapat ditentukan dan data seharusnya dikelompokkan secara otomatis. Prosedur ini disebut Pengelompokan. RapidMiner mendukung berbagai skema pengelompokan yang dapat digunakan dengan cara yang sama seperti skema pembelajaran lainnya. Ini termasuk kombinasi dengan semua operator praproses. Dalam Proses Contoh ini, data set 'Ripley-Set' dimuat menggunakan operator Retrieve. Perhatikan bahwa label juga dimuat, tetapi hanya digunakan untuk visualisasi dan perbandingan, bukan untuk membangun kelompok itu sendiri. Diletakkan breakpoint pada langkah ini sehingga Anda dapat melihat ExampleSet sebelum aplikasi operator Kernel K-Means. Selain atribut label, 'Ripley-Set' memiliki dua atribut real; 'att1' dan 'att2'. Operator Kernel K-Means diterapkan pada data set ini dengan nilai default untuk semua parameter. Jalankan proses dan Anda akan melihat bahwa dua atribut baru dibuat oleh operator Kernel KMeans. Atribut id dibuat untuk membedakan contoh dengan jelas. Atribut kelompok dibuat untuk menunjukkan kelompok mana contoh termasuk. Karena parameter k diatur sebagai 2, hanya dua kelompok yang mungkin. Itulah mengapa setiap contoh ditugaskan ke 'cluster_0' atau


130 'cluster_1'. Perhatikan juga Plot View dari data ini. Anda dapat dengan jelas melihat bagaimana algoritma telah membuat dua kelompok terpisah dalam Plot View. Sebuah model kelompok juga dikirim melalui port output model kelompok. Ini berisi informasi mengenai pengelompokan yang dilakukan. Di bawah Folder View, Anda dapat melihat anggota setiap kelompok dalam format folder. Gambar 3. Ripley-Set data set menggunakan operator KMeans Clustering (Kernel) Langkah-langkah untuk mengimplementasikan algoritma K-Means pada RapidMiner: 1. Persiapan Data Sebelum kita mulai, pastikan data yang akan dicluster sudah dimuat ke dalam RapidMiner. Bersihkan dan persiapkan data agar sesuai dengan kebutuhan analisis. 2. Penentuan Jumlah Kelompok (Clusters) Pertama, kita harus menentukan jumlah kelompok yang diinginkan. Pilih metode atau kriteria yang sesuai untuk menentukan jumlah optimal dari kelompokkelompok ini.


131 3. Penggunaan Operator K-Means Gunakan operator "K-Means" yang telah disediakan oleh RapidMiner. Atur parameter seperti jumlah kelompok, atribut yang akan digunakan, dan opsi lainnya sesuai kebutuhan. 4. Evaluasi Hasil Setelah proses K-Means selesai, evaluasilah hasilnya. Periksa apakah pembagian kelompok sesuai dengan tujuan analisis. RapidMiner menyediakan berbagai metrik evaluasi dan visualisasi yang membantu dalam menganalisis hasil clustering (Faran & Tamara Aldisa, 2023). 1. Langkah – langkah K-Means Clustering Langkah-langkah dalam mengcluster menggunakan metode K-Means adalah sebagai berikut: a. Tentukan nilai k sebagai jumlah klaster yang akan dibentuk. b. Atur titik pusat awal untuk setiap kluster. c. Hitung jarak antara setiap data input dan masingmasing centroid menggunakan rumus jarak Euclidean (Euclidean Distance) hingga menemukan jarak terpendek dari setiap data ke centroid. Persamaan Euclidean Distance dapat dinyatakan sebagai berikut:


132 d. √ e. Keterangan: f. g. Klasifikasikan data berdasarkan kedekatannya dengan centroid. h. Hitung kembali pusat kluster dengan anggota kluster saat ini. Pusat kluster adalah nilai rata-rata dari semua data objek dalam kluster tertentu. i. Hitung kembali setiap objek menggunakan pusat kluster yang baru. Jika pusat kluster tidak berubah, proses klastering selesai. Jika tidak, kembali ke langkah nomor 3 sampai pusat kluster tidak berubah lagi. Rumus K-Means yang dapat ditambahkan : ∑∑( ) Dimana adalah fungsi objektif, adalah jumlah kluster, adalah jumlah atribut, adalah data ke pada kluster ke , dan adalah pusat kluster ke . Tujuan dari K-Means adalah meminimalkan fungsi objektif . Langkah-langkah dalam menggunakan RapidMiner untuk contoh kasus pada (Aprilianur & Leander Hadisapu, 2022; Nahjan et al., 2023; Septiana Ananda et al., 2023). 2. Studi Kasus: Analisis Pelanggan Sebagai contoh, kita akan menerapkan algoritma KMeans pada dataset pelanggan untuk mengelompokkan


133 mereka berdasarkan perilaku pembelian. Kita akan mengevaluasi hasilnya dan memberikan interpretasi untuk setiap kelompok yang dihasilkan. Beberapa artikel ilmiah yang membahas tentang implementasi K-Means menggunakan RapidMiner antara lain (Aprilianur & Leander Hadisapu, 2022; Nahjan et al., 2023; Septiana Ananda et al., 2023) Dalam bab ini, kita telah mempelajari langkah-langkah praktis untuk menerapkan algoritma K-Means pada RapidMiner. Dengan menggunakan antarmuka grafis yang mudah digunakan, analisis clustering dapat diimplementasikan dengan cepat dan efektif. Selanjutnya, kita akan menjelajahi konsep-konsep lain dalam bidang data mining untuk memperdalam pemahaman kita.


134


135


136 Algoritma Naïve Bayes diusulkan oleh seorang ilmuwan Inggris bernama Thomas Bayes. Ciri utama dari algoritma ini adalah asumsi yang sangat kuat (naif) mengenai independensi dari masing-masing kejadian. Meskipun asumsi ini terkadang terlalu sederhana untuk merepresentasikan kenyataan sebenarnya, algoritma ini sering memberikan kinerja yang baik, terutama pada dataset dengan dimensi tinggi. Algoritma ini digunakan untuk memprediksi peluang kejadian di masa depan berdasarkan pengalaman atau kejadian yang telah terjadi sebelumnya. Kelebihan penggunaan algoritma Naive Bayes adalah hanya memerlukan data latih yang relatif kecil untuk menentukan estimasi parameter yang diperlukan dalam proses pengklasifikasian data, algoritma ini sangat efektif dan dapat digunakan untuk atribut yang tidak relevan. Selain itu kinerja Naïve Bayes cenderung sangat baik jika dibandingkan dengan algoritma klasifikasi lainnya. Kekurangan algoritma Naïve Bayes adalah: tidak mengasumsikan ketergantungan antar variabel (variable bebas) dan tidak berlaku apabila kondisi probabilitasnya mencapai nol. Jika probabilitas mencapai nol, maka prediksi probabilitas secara keseluruhan juga akan menjadi nol. Algoritma Naïve Bayes didasarkan pada persamaan berikut:


137 Keterangan : X : Data dengan kelas yang belum diketahui H : Hipotesis data merupakan suatu kelas spesifik P(H|X) : Probabilitas hipotesis H berdasarkan kondisi X (probabilitas posterior) P(H) : Probabilitas hipotesis H (probabilitas prior) P(X|H) : Probabilitas X berdasarkan kondisi pada hipotesis H P(X) : Probabilitas dari X Cara kerja algoritma Naïve Bayes adalah: 1. Baca data latih. Hitung jumlah kelas atau label. 2. Hitungi probabilitas prior untuk setiap kelas, yaitu probabilitas suatu data masuk ke dalam suatu kelas tanpa memperhitungkan atribut-atribut khusus dari data tersebut. Secara sederhana, probabilitas prior kelas A (P(A)) dihitung sebagai jumlah sampel yang termasuk ke dalam kelas A dibagi total jumlah sampel. 3. Hitung probabilitas posterior untuk setiap kelas menggunakan teorema Bayes. Probabilitas posterior adalah probabilitas suatu kelas mengingat atributatribut spesifik dari data yang diberikan. Ini dihitung dengan mengalikan probabilitas prior dengan


138 probabilitas likelihood, dan kemudian normalisasi untuk memastikan total probabilitas adalah 1. 4. Bandingkan hasil untuk setiap kelas. Pilih kelas dengan probabilitas tertinggi sebagai prediksi untuk data baru. Implementasi algoritma Naïve Bayes pada buku ini menggunakan data yang sudah ada pada Rapidminer, yaitu: Deals, Deals Testset, dan Iris. Ada 2 contoh implementasi yang akan dijabarkan, yaitu: 1. Implementasi Rapidminer menggunakan data latih dan data uji yang disimpan pada file terpisah. Langkah-langkah yang dilakukan adalah: a. Membaca Data Deals Data Deals kita gunakan sebagai data latih. Perhatikan Gambar 1, data Deals berada pada folder Samples > data> Deals. Gambar 1. Lokasi Data Deals


Click to View FlipBook Version