DATA MINING
DATA MINING
DATA MINING Copyright© PT Penamudamedia, 2024 Penulis: Andi Wijaya, M.Kom., I Wayan Rangga Pinastawa, M.Kom., Kharisma Wiati Gusti, S.T., M.T., Petrus Christo, M.Kom., Loso Judijanto, S.Si., M.M., M.Stats., Muchamad Kurniawan, S.Kom., M.Kom., Muhamad Risqiwahid, S. Kom., Budianingsih, S.T., M.T., Iqbal Sabilirrasyad, S.S.T., M.Tr.Kom., Afifah Nurul Izzati, S.Kom., M.Kom., Jovian Dian Pratama, S.Mat., M.Mat., Zuriati, S.Kom., M.Kom., Sriyanto, M.M., Ph.D ISBN: 978-623-8586-01-1 Desain Sampul: Tim PT Penamuda Media Tata Letak: Enbookdesign Diterbitkan Oleh PT Penamuda Media Casa Sidoarium RT 03 Ngentak, Sidoarium Dodeam Sleman Yogyakarta HP/Whatsapp : +6285700592256 Email : [email protected] Web : www.penamuda.com Instagram : @penamudamedia Cetakan Pertama, Maret 2024 xii + 181, 15x23 cm Hak cipta dilindungi oleh undang-undang Dilarang memperbanyak sebagian atau seluruh isi buku tanpa izin Penerbit
v Hormat kami, Dengan penuh kebanggaan, kami mempersembahkan buku ini tentang data mining. Buku ini bertujuan untuk membawa pembaca dalam perjalanan yang menarik dan bermanfaat dalam dunia pengeksplorasian data yang kaya. Data mining, sebagai landasan penting dalam analisis data, memberikan wawasan berharga yang dapat mengubah bagaimana kita memandang informasi. Melalui teknik-teknik canggihnya, data mining memungkinkan kita untuk mengidentifikasi pola tersembunyi, meramalkan tren, dan membuat keputusan yang lebih cerdas. Dalam buku ini, kami menggali konsep-konsep data mining secara komprehensif, mulai dari metode clustering hingga analisis asosiasi, memberikan pemahaman yang kokoh tentang bagaimana data mining dapat diterapkan dalam berbagai konteks, mulai dari bisnis hingga ilmu pengetahuan. Kami berharap buku ini tidak hanya menjadi panduan praktis bagi para profesional dan peneliti yang tertarik dalam analisis
vi data, tetapi juga menjadi sumber inspirasi bagi mereka yang ingin mendalami potensi besar yang tersimpan dalam setiap titik data. Terakhir, kami ingin menyampaikan terima kasih kepada semua individu yang telah memberikan kontribusi dalam pembuatan buku ini. Semoga buku ini tidak hanya memberikan wawasan yang berharga, tetapi juga memperkaya pengetahuan dan pengalaman pembaca dalam dunia yang semakin terhubung melalui data.
vii
viii
ix
x
xi
xii
1
2 i tengah kemajuan era digital yang tak henti, jumlah data yang dihasilkan oleh perusahaan, organisasi, dan individu melesat dengan cepat tiap harinya. Data yang terbentuk mencakup ragam jenis, mulai dari teks, gambar, audio, video, hingga data terstruktur dari basis data konvensional. Bagaimanakah kita dapat mengoptimalkan nilai dari keberadaan data ini? Menjawab pertanyaan tersebut menjadi pokok perhatian utama dalam ranah ilmu data mining. Dengan laju pertumbuhan yang eksponensial, data menjadi aset penting dalam era digital. Perlu dicatat bahwa sifatnya yang beragam, mencakup format dan jenis yang berbeda-beda, menawarkan tantangan unik dan peluang yang luar biasa dalam pemahaman dan pemanfaatan. Oleh karena itu, menjadi esensial untuk memahami bagaimana data mining dapat membantu dalam menyaring, menganalisis, dan mengekstraksi wawasan berharga dari hiruk-pikuk data ini. Melalui ilmu data mining, kita dapat mengembangkan teknik-teknik yang memungkinkan identifikasi pola, korelasi, dan informasi tersembunyi yang mungkin tidak dapat dilihat secara langsung. Dengan kemampuan ini, organisasi dapat membuat keputusan yang lebih terinformasi, memprediksi tren masa depan, dan mengoptimalkan proses bisnis mereka. Dalam konteks ini, data mining menjadi landasan bagi penelitian dan pengembangan berbagai algoritma, metode analisis, dan model prediktif. Kemajuan dalam bidang ini tidak hanya membuka peluang baru dalam berbagai industri, tetapi juga menantang kita untuk terus memperbaiki pendekatan dan teknik yang ada guna menghadapi kompleksitas data yang semakin bertambah. D
3 Dengan demikian, pengertian dan penerapan data mining menjadi kunci dalam memanfaatkan potensi besar yang ditawarkan oleh era digital. Melalui pemahaman yang mendalam tentang konsep dan teknik di baliknya, kita dapat mengambil langkah-langkah yang diperlukan untuk mengoptimalkan nilai dari data yang tersedia dan mengarahkan perkembangan teknologi menuju arah yang lebih efisien dan bermakna. Data mining ialah upaya untuk menggali pola serta pengetahuan yang berharga dari sekumpulan data besar. Fokus utamanya adalah untuk menemukan pola-pola tersembunyi, hubungan yang signifikan, dan informasi yang bermanfaat dari data yang terkumpul. Hal ini bertujuan untuk memberikan dasar yang lebih kuat dalam pengambilan keputusan yang lebih cerdas dan efektif. Dalam prosesnya, data mining menggunakan berbagai teknik dan algoritma untuk menganalisis dan memahami data dengan lebih mendalam. Dengan mengungkap polapola yang tersembunyi, data mining memungkinkan organisasi untuk membuat prediksi yang lebih akurat, mengidentifikasi peluang bisnis, dan mengoptimalkan strategi operasional mereka. Dengan demikian, data mining bukan hanya tentang ekstraksi informasi semata, tetapi juga tentang penggunaan pengetahuan yang dihasilkan untuk meningkatkan kinerja dan efisiensi dalam berbagai aspek kehidupan dan bisnis. Ini menandakan pentingnya peran data mining dalam membentuk landasan yang kokoh untuk pengambilan keputusan yang lebih baik di masa depan.
4 Data mining berperan dalam meningkatkan kualitas pengambilan keputusan organisasi dengan menyediakan pemahaman yang mendalam terhadap data yang tersedia. Hal ini mengarah pada peningkatan kemampuan organisasi untuk meramalkan perilaku masa depan dan peristiwa yang mungkin terjadi melalui penggunaan model prediktif yang dibangun berdasarkan data historis. Selain itu, data mining juga membantu dalam mengidentifikasi pola-pola tersembunyi dan pengetahuan yang dapat meningkatkan pemahaman tentang data secara menyeluruh. Dengan demikian, organisasi dapat mengoptimalkan proses bisnis mereka dengan memanfaatkan wawasan yang diperoleh melalui data mining untuk meningkatkan efisiensi dan produktivitas operasional mereka. Dalam keseluruhan, data mining bukan hanya sekadar alat untuk analisis data, tetapi juga merupakan landasan untuk inovasi dan perbaikan berkelanjutan dalam pengelolaan bisnis dan pengambilan keputusan di era digital. Data mining memanfaatkan beragam teknik dan algoritma untuk menggali, menganalisis, dan memahami data yang ada. Di antara teknik-teknik yang umum digunakan adalah: 1. Teknik Clustering, yang bertujuan untuk mengelompokkan data ke dalam kategori yang serupa berdasarkan karakteristik tertentu. Dengan cara ini, data yang memiliki kesamaan akan dikelompokkan
5 bersama, sementara data yang berbeda akan ditempatkan dalam kelompok yang berbeda pula. 2. Teknik Klasifikasi, yang fokusnya adalah memprediksi kelas atau kategori dari suatu data berdasarkan pola yang ada. Dengan menggunakan data yang telah terklasifikasi sebelumnya, algoritma klasifikasi dapat mengidentifikasi pola-pola yang serupa dalam data baru dan mengatributkannya ke kelas yang sesuai. 3. Teknik Asosiasi, yang bertujuan untuk menemukan hubungan atau korelasi antara item-item dalam kumpulan data. Dengan demikian, kita dapat mengidentifikasi pola pembelian yang terkait dalam data transaksi penjualan, misalnya. 4. Teknik Regresi, yang digunakan untuk memprediksi nilai numerik berdasarkan variabel-variabel yang ada. Ini memungkinkan kita untuk memahami hubungan antara variabel independen dan variabel dependen dalam sebuah model matematika. Dengan menggunakan berbagai teknik ini, data mining memberikan alat yang kuat untuk menganalisis data secara mendalam, mengidentifikasi pola-pola yang tersembunyi, dan mendapatkan wawasan yang berharga untuk pengambilan keputusan yang lebih baik. Selain itu, kombinasi teknik-teknik ini juga memungkinkan pengembangan model prediktif yang dapat digunakan untuk memperkirakan perilaku masa depan dan mendukung pengambilan keputusan yang lebih proaktif.
6 Walaupun data mining memberikan keuntungan yang signifikan, tetap terdapat sejumlah tantangan yang harus dihadapi. Tantangan-tantangan tersebut mencakup isu-isu terkait privasi dan keamanan data, kesulitan dalam memastikan akurasi dan interpretasi hasil yang tepat, serta kompleksitas dan skalabilitas dari algoritma yang digunakan. Masalah privasi dan keamanan data menjadi perhatian utama, mengingat sensitivitas informasi yang mungkin terungkap dalam proses analisis data. Selain itu, akurasi hasil dan interpretasi data yang benar menjadi krusial untuk memastikan pengambilan keputusan yang tepat. Di sisi lain, skalabilitas dan kompleksitas algoritma menjadi pertimbangan penting, terutama dalam menangani data dalam skala besar dan memastikan bahwa algoritma yang digunakan dapat bekerja secara efisien dan efektif. Oleh karena itu, mengatasi tantangan-tantangan ini merupakan bagian integral dari pengembangan dan penerapan data mining yang berhasil. Penerapan data mining telah tersebar luas di berbagai sektor industri dan bidang ilmu, termasuk keuangan, pemasaran, kesehatan, ilmu sosial, dan bidang lainnya. Beragam aplikasi telah dikembangkan, seperti analisis risiko kredit yang membantu perbankan dalam mengevaluasi kelayakan kredit, segmentasi pasar yang memungkinkan perusahaan untuk mengidentifikasi dan menargetkan pasar potensial dengan lebih efektif,
7 manajemen rantai pasokan yang memperbaiki efisiensi distribusi produk, dan deteksi anomali yang membantu dalam mendeteksi kejadian yang tidak biasa atau potensi ancaman. Penerapan data mining ini menunjukkan potensi besar dalam membantu organisasi mengoptimalkan proses, meningkatkan keefektifan, dan mengidentifikasi peluang baru di berbagai sektor dan bidang ilmu. Dengan menerapkan teknik-teknik data mining, organisasi dapat memanfaatkan data yang tersedia dengan lebih baik untuk mendukung pengambilan keputusan yang lebih cerdas dan strategis.
8
9
10 Pada tahap "Awal Mula Data Mining," kita merambah pada fase paling primitif dalam perkembangan disiplin ini. Pada zaman ini merupakan yang diperkirakan berada pada akhir tahun 1960-an hingga awal 1970-an. Ini adalah masa di mana para pionir dalam bidang statistika, matematika, dan ilmu komputer mulai mendefinisikan fondasi teoretis untuk menggali informasi dari data. Selama periode ini, muncul pemikiran awal tentang bagaimana menghadapi tantangan analisis data dan memahami potensi yang terkandung di dalamnya. Para peneliti pada masa ini tidak hanya mengeksplorasi kemungkinan penggunaan praktis, tetapi juga merumuskan kerangka pemikiran yang akan menjadi dasar bagi pengembangan algoritma dan metode analisis data yang kita kenal saat ini. Inilah masa di mana benih-benih penambangan data pertama kali ditanam, dan pemikiran kreatif dari para pelopor menjadi tonggak dalam memahami evolusi ilmu ini dari masa ke masa. Pada masa ini data mining masih disebut KDD atau Knowledge Discovery in Databases dan istilah data mining sendiri baru mulai diciptakan pada tahun 1990-an oleh peneliti dari universitas california, Berkelay. (1) Hingga pada masa tahun 1980an adalah salah satu tonggak penting dalam perkembangan awal data mining. Dimasa ini adalah masa dimana para peneliti dan ahli komputer mulai merancang dan mengembangkan teknik-
11 teknik serta algoritma untuk mengekstrak pola dan pengetahuan dari data yang besar dan kompleks. Pada periode ini, fokus utama adalah menciptakan metode analisis yang efektif dan efisien untuk menangani tantangan yang muncul dalam memproses data yang semakin besar dan heterogen. Periode Menengah dalam sejarah Penambangan Data menciptakan lompatan signifikan dalam kemajuan disiplin ini, menyaksikan evolusi teknik dan algoritma yang semakin canggih, serta peningkatan aplikasi praktis di berbagai sektor. Di tengah intensifikasi penelitian dan pengembangan, kebutuhan mendesak untuk menangani kumpulan data yang semakin besar dan kompleks menjadi pemicu untuk eksplorasi lebih lanjut. Dalam arena Perkembangan Teknik dan Algoritma, fokus utama tertuju pada penemuan metode analisis yang lebih kompleks dan efisien. Ilmuwan dan peneliti di bidang data mining mulai merancang algoritma yang lebih maju untuk mengekstrak pola dan pengetahuan yang lebih mendalam. Progres mencakup pengembangan algoritma penambangan asosiasi yang lebih canggih, metode clustering yang lebih presisi, dan teknik klasifikasi yang menghasilkan prediksi lebih akurat. Pada saat yang sama, terjadi peningkatan dalam pemrosesan paralel dan distribusi, memungkinkan penanganan data yang lebih cepat dan efisien. Aplikasi Awal dalam Berbagai Bidang menandai perluasan konsep-konsep data mining ke sektor-sektor seperti bisnis, kesehatan, dan keuangan. Kesadaran organisasi akan potensi nilai tambah melalui analisis data
12 yang mendalam semakin tumbuh. Contohnya termasuk penerapan data mining dalam prediksi tren pasar untuk membimbing strategi bisnis, analisis risiko kredit untuk lembaga keuangan, dan diagnosis medis yang lebih tepat. Masa ini bukan hanya mengangkat data mining dari domain akademis, melainkan juga menjadikannya alat yang sangat berpengaruh dalam proses pengambilan keputusan di berbagai sektor. Periode Menengah Penambangan Data dapat dipetakan pada rentang akhir tahun 1980-an hingga 1990-an, ketika teknologi terus berkembang dan aplikasi data mining mulai meresap ke dalam pemecahan masalah dunia nyata dengan dampak yang semakin besar. Hingga algoritma-algoritma seperti algoritma Apriori untuk penambangan asosiasi yang diusulkan oleh Agrawal & Srikant pada tahun 1994 dan algoritma CART (Classification and Regression Trees) untuk pengelompokan dan regresi mulai diperkenalkan. Algoritma ini membantu membentuk dasar untuk pengembangan lebih lanjut dalam penambangan data. Pada saat yang sama, konsep-konsep seperti clustering dan prediksi mulai muncul, memberikan landasan bagi perkembangan algoritma yang lebih kompleks di masa mendatang. Seiring berjalannya waktu, munculnya berbagai teknik dan pendekatan membentuk kerangka kerja yang lebih luas untuk penambangan data, membantu peneliti dan praktisi untuk menggali pengetahuan yang lebih dalam dari data yang mereka hadapi.
13 Pada tahun 1996, sekelompok perusahaan ternama seperti Teradata dan NCR memimpin inisiatif revolusioner dengan tujuan menstandarisasi dan meresmikan teknikteknik data mining yang berkembang pesat. Upaya kolaboratif ini menghasilkan pencapaian monumental berupa Proses Standar Lintas Industri untuk Penambangan Data, yang dikenal dengan akronim CRISP-DM. Sejak saat itu, CRISP-DM menjadi panduan esensial bagi para praktisi dan peneliti data mining, memberikan landasan yang kuat untuk eksplorasi dan eksploitasi potensi data.(2) Data Mining pada Era Modern dapat diperkirakan terjadi dalam kisaran akhir tahun 2000-an hingga awal tahun 2010-an. Pada periode ini, kemajuan teknologi komputasi tinggi mencapai puncaknya dengan ketersediaan sumber daya komputasi yang lebih besar, memungkinkan pemrosesan data yang lebih cepat dan efisien. Seiring dengan itu, transformasi algoritma dan pendekatan dalam penambangan data mulai terjadi secara signifikan, menunjukkan perubahan fundamental dalam cara pendekatan analisis data yang semakin kompleks dan mendalam. Inovasi dalam algoritma dan pendekatan analitis pada kisaran waktu ini mencerminkan tanggapan proaktif terhadap tuntutan era modern, di mana data semakin kompleks dan memerlukan pendekatan yang lebih canggih. Pendekatan baru ini mungkin melibatkan integrasi teknikteknik pembelajaran mesin, kecerdasan buatan, atau strategi analitis lainnya yang dapat meningkatkan
14 kemampuan kita untuk mendapatkan wawasan yang lebih dalam dari data. Memasuki awal tahun 2000-an, tren berubah seiring dengan semakin menyadarnya perusahaan web akan daya ungkit yang dimiliki oleh data mining. Praktik data mining bukan hanya menjadi suatu kewajiban, melainkan juga sebuah keharusan dalam menghadapi kompleksitas data yang terus meningkat. Sejalan dengan itu, perkembangan data mining menjadi pusat perhatian dalam upaya pemanfaatan optimal sumber daya data. Proyek-proyek data mining yang dilakukan oleh perusahaan web mencerminkan transisi ke arah pemanfaatan data yang lebih canggih, membawa dampak positif yang masih terasa hingga saat ini. Pendekatan yang telah diawali pada era tersebut terbukti relevan di era digital ini, di mana data menjadi aset paling berharga. Inilah bukti ketangguhan konsep-konsep data mining, yang terus menjadi pilar dalam strategi analisis data yang efektif di berbagai sektor hingga saat ini. Perubahan ini menunjukkan bahwa bidang data mining tidak hanya beradaptasi pasif terhadap perubahan teknologi, melainkan juga aktif dalam menciptakan metode baru yang relevan dengan kebutuhan analisis data di era modern. Keseluruhan proses inovasi ini membentuk dasar yang lebih kuat untuk memahami dan mengoptimalkan potensi data yang terus berkembang di tengah dinamika lingkungan teknologi yang terus berubah.
15 Perkembangan teknologi dalam bidang data mining seringkali didorong oleh perusahaan-perusahaan teknologi yang menginvestasikan sumber daya besar dalam riset dan pengembangan. Misalnya, pada awal tahun 2000-an, Microsoft merilis SQL Server Analysis Services, platform yang menyediakan alat untuk analisis data dan penambangan data. Alat ini membantu organisasi untuk menggali wawasan yang lebih dalam dari data bisnis mereka. Seiring waktu, Google juga menjadi pemain kunci dengan Google Cloud Platform yang menawarkan berbagai layanan untuk analisis data dan machine learning. Perusahaan-perusahaan seperti IBM, SAS, dan Oracle juga memberikan kontribusi signifikan dengan menyediakan solusi data mining dan analisis data yang terkemuka. Institusi akademis dan lembaga penelitian juga memainkan peran penting dalam pengembangan data mining. Contoh keterlibatan institusi akademis termasuk penelitian yang dilakukan oleh Stanford University di bidang algoritma data mining, atau proyek penelitian di Massachusetts Institute of Technology (MIT) yang berkaitan dengan analisis pola dan tren data. Lembaga penelitian seperti Data Mining Institute di University of Notre Dame turut memberikan kontribusi penting melalui penelitian interdisipliner yang melibatkan ilmu komputer, statistika, dan domain ilmu lainnya. Perkiraan waktu untuk kontribusi ini dapat ditempatkan terutama pada periode 1990-an hingga saat ini, dengan ledakan pertumbuhan teknologi dan pemahaman
16 mendalam terhadap manfaat data mining. Era ini melibatkan kolaborasi erat antara perusahaan teknologi dan institusi akademis, di mana ide dan inovasi dari dunia akademis diaplikasikan secara praktis oleh perusahaan untuk menciptakan solusi yang lebih efektif dan dapat diterapkan di dunia nyata. Dalam menghadapi era big data, organisasi dihadapkan pada tantangan signifikan terkait dengan pengelolaan dan analisis data dalam skala yang sangat besar. Volumenya yang luar biasa, kecepatan pertumbuhan yang cepat, dan keragaman sumber data menjadi beberapa tantangan utama. Perusahaan harus mengembangkan infrastruktur yang mampu menangani dan menyimpan data dalam jumlah besar, sambil menjaga integritas dan keamanannya. Selain itu, tantangan analisis data yang efektif juga muncul, di mana diperlukan alat dan teknik yang dapat mengekstrak wawasan bernilai dari kumpulan data yang besar dan kompleks. 1. Perkembangan Terkini dalam Algoritma dan Model Dalam merespons tantangan big data, terjadi perkembangan terkini dalam pengembangan algoritma dan model untuk analisis data. Perkembangan dalam bidang machine learning dan deep learning menjadi fokus utama, memungkinkan pembuatan model yang lebih kompleks dan adaptif. Teknik-teknik seperti transfer learning, reinforcement learning, dan penggunaan model berbasis graf telah menjadi tren. Integrasi teknologi ini melibatkan pemrosesan data
17 yang lebih cepat dan efisien serta hasil analisis yang lebih akurat. Perkembangan ini mencerminkan upaya terus-menerus untuk meningkatkan kemampuan data mining dalam menghadapi tuntutan data modern. Periode ini terjadi sekitar tahun 2010-an hingga sekarang, menandai langkah besar dalam upaya penyelesaian tantangan big data dengan memanfaatkan perkembangan terkini dalam algoritma dan model. Inovasi ini mendukung kemajuan dalam pemrosesan dan analisis data yang besar dan kompleks, membawa kontribusi berarti bagi kemajuan ilmu data mining. Perkiraan Pengembangan Teknologi dan Aplikasi: Dalam merancang pandangan masa depan data mining, perlu dipertimbangkan perkiraan perkembangan teknologi dan aplikasi di bidang ini. Teknologi machine learning dan artificial intelligence diperkirakan akan terus berkembang, membawa inovasi baru dalam algoritma dan model. Penerapan teknologi ini akan memungkinkan data mining untuk mengatasi tantangan yang semakin kompleks dan memanfaatkan potensi wawasan yang lebih mendalam dari data. Selain itu, perkembangan di bidang teknologi penyimpanan data dan pemrosesan akan membuka peluang baru untuk analisis data yang lebih efisien. Pandangan masa depan data mining juga mencakup pemahaman terhadap potensi pengaruhnya pada berbagai sektor. Diperkirakan bahwa data mining akan terus memainkan peran kunci dalam pengambilan keputusan di
18 sektor bisnis, membantu perusahaan untuk merancang strategi yang lebih cerdas berdasarkan analisis data mendalam. Di sektor kesehatan, data mining dapat memberikan kontribusi besar dalam prediksi penyakit dan pengembangan perawatan yang disesuaikan. Dalam konteks keuangan, analisis data mining dapat meningkatkan manajemen risiko dan pengambilan keputusan investasi. Pandangan masa depan ini, yang mencakup dekade mendatang dan seterusnya, menggambarkan optimisme terhadap kemungkinan kemajuan signifikan dalam data mining. Antisipasi terhadap perkembangan teknologi dan potensi dampak positif pada berbagai sektor menunjukkan bahwa data mining akan tetap menjadi elemen kunci dalam pemanfaatan data untuk mendukung pengambilan keputusan dan inovasi di masa depan
19
20 ab ini akan membahas konsep dasar, model, dan implementasi Data Warehouse, yang merupakan bagian penting dari Data Mining. 1. Definisi Data Warehouse Data Warehouse adalah suatu sistem atau platform komputer yang dirancang untuk menyimpan, mengelola, memelihara dan mengintegrasikan data dari sumber yang berbeda. Data yang telah diolah kemudian dilakukan analisis untuk pengambilan keputusan dan pelaporan. Data Warehouse menciptakan suatu lingkungan sentral di mana data operasional dapat diolah dan disusun ulang untuk keperluan analisis yang lebih efisien. Dengan menggabungkan data dari berbagai sumber, Data Warehouse memberikan solusi untuk kendala integrasi data, menyediakan dasar untuk pengambilan keputusan yang informasional, dan mendukung pemahaman yang lebih baik terhadap tren bisnis. Secara umum, Data Warehouse berfungsi sebagai repositori data yang terorganisir, dioptimalkan untuk kueri kompleks dan analisis bisnis, serta dirancang untuk menyediakan akses yang cepat dan efisien kepada para pengguna bisnis. (Inmon, 2005) B
21 Gambar 1. Struktur Data Warehouse Sumber : (Inmon, 2005) 2. Tujuan Data Warehouse Tujuan utama dari Data Warehouse adalah menyediakan platform yang mendukung analisis data yang mendalam dan pengambilan keputusan strategis di tingkat perusahaan. (Inmon and Hackathorn, 1994) Beberapa tujuan khusus dari implementasi Data Warehouse antara lain: a. Integrasi Data: Menggabungkan data dari berbagai sumber untuk menciptakan pandangan yang konsisten dan terintegrasi. b. Peningkatan Kualitas Data: Menyediakan mekanisme untuk membersihkan, merapikan, dan menyatukan data agar data yang tersimpan memiliki kualitas yang tinggi.
22 c. Analisis yang Mendalam: Memungkinkan analisis kompleks terhadap data historis dan saat ini untuk mengidentifikasi tren, pola, dan wawasan yang dapat digunakan untuk pengambilan keputusan. d. Dukungan Terhadap Pengambilan Keputusan: Memberikan akses yang cepat dan mudah terhadap data yang relevan sehingga para pengambil keputusan dapat membuat keputusan yang informasional dan berbasis data. e. Optimasi Kinerja: Menyediakan struktur data yang dirancang khusus untuk mendukung kueri dan analisis data dengan kinerja tinggi. f. Penyimpanan Data Historis: Menyimpan data historis untuk analisis tren jangka panjang dan pemahaman lebih baik terhadap perubahan bisnis. g. Ketersediaan Real-time: Mendukung analisis data dalam waktu nyata untuk mendapatkan wawasan yang cepat terhadap perubahan lingkungan bisnis. 3. Karakteristik Utama Data Warehouse Beberapa karakteristik utama Data Warehouse (Inmon, 2005)adalah sebagai berikut: a. Integrasi Data: Karakteristik utama Data Warehouse adalah kemampuannya untuk mengintegrasikan data dari berbagai sumber, termasuk database operasional, file eksternal, dan sistem lainnya. Hal ini menciptakan pandangan data yang konsisten dan terpadu. b. Orientasi Subjek: Data Warehouse bersifat orientasi subjek, artinya data disusun berdasarkan subjek atau topik tertentu, bukan berdasarkan proses
23 bisnis atau aplikasi tertentu. Ini mempermudah analisis data dari perspektif bisnis yang berbeda. c. Waktu-Variabel (Time-Variant): Data Warehouse menyimpan data historis dan mempertahankan variasi data sepanjang waktu. Ini memungkinkan analisis tren, pola, dan perubahan bisnis dari waktu ke waktu. d. Non-Volatile: Data Warehouse bersifat non-volatile, artinya data yang sudah dimasukkan tidak berubah atau dihapus secara rutin. Hal ini menjaga konsistensi dan keandalan data untuk keperluan analisis dan pelaporan. e. Keterpisahan Data (Data Independence): Data Warehouse memberikan keterpisahan data antara sistem operasional dan analisis. Ini memungkinkan perubahan pada sistem operasional tanpa mempengaruhi fungsi dan kinerja Data Warehouse. Data Warehouse memfasilitasi organisasi untuk mendapatkan wawasan bisnis lebih mendalam, mengidentifikasi tren, dan merancang strategi masa depan dengan lebih efektif. Selain itu, perannya yang signifikan dalam mendukung pengambilan keputusan berdasarkan bukti dan analisis data menjadi semakin penting. (Albright and Winston, 2021) 4. Proses ETL (Ekstraksi, Transformasi, dan Pemuatan) Proses ETL (Ekstraksi, Transformasi, dan Pemuatan) adalah tahapan kritis dalam pengelolaan data, terutama dalam konteks Data Warehouse. Proses ini memiliki tujuan untuk mengumpulkan data dari
24 berbagai sumber, menyusun ulang dan membersihkannya, lalu memuatnya ke dalam Data Warehouse agar dapat diakses dan dianalisis secara efektif. (Kimbal and Ross, 2013). a. Ekstraksi (Extraction): Langkah pertama ETL melibatkan ekstraksi data dari sumber-sumber eksternal, seperti basis data operasional, file teks, atau sistem aplikasi lainnya. Data ini diambil dan dipindahkan ke area penyimpanan sementara, seringkali disebut sebagai zona ekstraksi atau data staging area. b. Transformasi (Transformation): Setelah data diekstraksi, langkah berikutnya adalah transformasi, di mana data diubah, disaring, diolah dan diperbaiki agar sesuai dengan struktur dan standar yang diterapkan oleh Data Warehouse. Transformasi mencakup pembersihan data, penggabungan, pemisahan kolom, perhitungan tambahan, pengahapusan data yang tidak sesuai, dan langkah-langkah lain untuk mempersiapkan data agar sesuai dengan kebutuhan analisis. Tujuan proses tranformasi adalah untuk membuat data konsisten, relevan, dan siap untuk dilakukan analisis. c. Pemuatan (Loading): Langkah terakhir adalah pemuatan data ke dalam Data Warehouse. Data yang telah diolah dan ditransformasi dari zona ekstraksi dimuat ke dalam tabel atau struktur data yang dirancang khusus dalam Data Warehouse. Proses ini dapat dilakukan secara periodik (batch
25 processing) atau secara real-time tergantung pada kebutuhan bisnis. Proses ETL memungkinkan organisasi untuk mengintegrasikan data dari sumber yang beragam, melakukan pembersihan data, dan menyajikannya dalam bentuk yang sesuai untuk analisis dan pengambilan keputusan. (Marsa et al., 2023) Model Data Warehouse adalah struktur yang mendefinisikan bagaimana data akan diorganisir, disimpan, dan diakses di dalam Data Warehouse. Dua pendekatan utama dalam model Data Warehouse adalah model bintang (star schema) dan model salju (snowflake schema). (Inmon, 2005) Berikut adalah penjelasan lebih detail mengenai keduanya: 1. Model Bintang (Star Schema): Dalam model bintang, terdapat satu tabel pusat yang disebut sebagai tabel fakta. Tabel fakta ini berisi data numerik yang diukur atau dihitung, seperti penjualan atau pendapatan. Tabel fakta terhubung ke beberapa tabel dimensi yang berisi atribut yang mendeskripsikan dimensi tertentu, seperti waktu, produk, atau lokasi. Model ini membentuk struktur yang terlihat seperti bintang, dengan tabel fakta di tengah dan tabel dimensi di sekelilingnya.
26 a. Keuntungan: 1) Sederhana dan Mudah Dipahami: Model bintang memiliki struktur yang sederhana, memudahkan untuk dipahami oleh pengguna dan pengembang. 2) Kueri yang Efisien: Model ini mendukung eksekusi kueri dengan cepat karena relasi antara tabel fakta dan tabel dimensi bersifat langsung. b. Kekurangan: 1) Redundansi Data: Tabel dimensi dapat mengandung informasi yang berlebihan, mengakibatkan potensi redundansi data. 2) Tidak Normalisasi: Tabel dimensi mungkin tidak sepenuhnya dinormalisasi, yang dapat menghasilkan pengulangan data. 2. Model Salju (Snowflake Schema): Model salju adalah variasi dari model bintang, di mana tabel dimensi pada model salju dapat terurai lebih lanjut menjadi beberapa tabel. Hal ini dapat menghasilkan struktur yang lebih normalisasi dengan tingkat kompleksitas tambahan. Sebagai contoh, tabel dimensi waktu dalam model salju dapat terbagi menjadi tabel-tabel seperti tahun, bulan, dan hari. Model salju seringkali diterapkan saat diperlukan untuk mengelola data dengan tingkat normalisasi yang lebih tinggi atau ketika sumber data membutuhkan proses normalisasi. (Kimbal and Ross, 2013)
27 a. Keuntungan: 1) Normalisasi yang Lebih Tinggi: Model salju menawarkan tingkat normalisasi yang lebih tinggi, mengurangi redundansi dan memperbaiki efisiensi penggunaan ruang penyimpanan. 2) Manajemen Data yang Fleksibel: Normalisasi memungkinkan fleksibilitas dalam manajemen data, terutama saat menangani sumber data yang kompleks. b. Kekurangan: 1) Redundansi Data: Tabel dimensi dapat mengandung informasi yang berlebihan, mengakibatkan potensi redundansi data. 2) Tidak Normalisasi: Tabel dimensi mungkin tidak sepenuhnya dinormalisasi, yang dapat menghasilkan pengulangan data. Pemilihan antara model bintang dan salju sebaiknya bergantung pada kebutuhan bisnis, kompleksitas data, dan tujuan analisis yang diinginkan. Model bintang lebih cocok untuk situasi di mana kueri yang cepat dan pemahaman yang mudah diperlukan, sementara model salju lebih sesuai untuk situasi yang memerlukan normalisasi tinggi dan fleksibilitas dalam manajemen data. Implementasi Data Warehouse untuk keperluan Data Mining melibatkan serangkaian langkah dan
28 strategi untuk memastikan bahwa data yang diperlukan untuk analisis dan penambangan informasi dapat diakses dengan efisien. 1. Pemilihan dan Ekstraksi Data Proses pemilihan data melibatkan identifikasi dan penentuan data yang relevan dari berbagai sumber untuk dimasukkan ke dalam Data Warehouse. Pemilihan data yang tepat sangat penting untuk memastikan bahwa informasi yang disimpan di dalam Data Warehouse memiliki nilai dan relevansi yang tinggi. Proses ekstraksi melibatkan pengambilan data dari sumber-sumber yang berbeda, seperti database operasional, file eksternal, atau aplikasi bisnis. Ada beberapa metode ekstraksi yang umum digunakan, termasuk ekstraksi penuh (full extraction), ekstraksi increment (incremental extraction), dan ekstraksi perubahan (change data capture). Proses Ekstraksi Data yang Umum (Inmon and Hackathorn, 1994) adalah sebagai berikut: a. Identifikasi Sumber Data: Tentukan sumber data yang akan diambil untuk dimasukkan ke dalam Data Warehouse. b. Pemilihan Data: Pilih data yang relevan dan diperlukan untuk analisis bisnis. c. Penentuan Metode Ekstraksi: Tentukan metode ekstraksi yang sesuai, apakah itu ekstraksi penuh, increment, atau perubahan. d. Pengambilan Data: Lakukan pengambilan data dari sumber-sumber yang telah diidentifikasi.
29 e. Validasi Data: Validasi data untuk memastikan integritas dan konsistensi sebelum dimuat ke dalam Data Warehouse. 2. Transformasi Data Lakukan transformasi data agar sesuai dengan kebutuhan analisis Data Mining. Transformasi data melibatkan pembersihan data, penggabungan data dari berbagai sumber, dan pengubahan format data untuk memfasilitasi pemrosesan lebih lanjut. 3. Pemuatan Data Data yang telah diolah dan ditransformasi dimuat ke dalam Data Warehouse. Proses ini dapat dilakukan secara periodik atau secara real-time, tergantung pada kebutuhan bisnis dan sifat data yang diolah. 4. Desain Skema Data Mining Desain struktur data yang mendukung proses Data Mining. Ini melibatkan pemilihan dimensi, atribut, dan tabel yang akan digunakan dalam analisis. Skema data mining yang baik memfasilitasi identifikasi pola, tren, dan penemuan wawasan yang berharga. 5. Pemilihan Algoritma Data Mining Pilih algoritma atau teknik Data Mining yang sesuai untuk tujuan analisis tertentu. Beberapa teknik Data Mining melibatkan klasifikasi, clustering, regresi, dan asosiasi. Pemilihan algoritma bergantung pada jenis informasi yang ingin diungkapkan dari data.
30 6. Pelatihan Model Jika menggunakan pendekatan machine learning, lakukan pelatihan model menggunakan data historis yang ada di Data Warehouse. Model yang dilatih dapat digunakan untuk membuat prediksi atau klasifikasi pada data baru. 7. Pengujian dan Evaluasi Uji dan evaluasi hasil analisis Data Mining untuk memastikan keakuratan dan relevansinya. Identifikasi pola atau wawasan baru yang dapat mendukung pengambilan keputusan. 8. Pemeliharaan dan Peningkatan Lakukan pemeliharaan rutin pada Data Warehouse, termasuk pembaruan data dan penyesuaian skema jika diperlukan. Terus tingkatkan model dan teknik Data Mining berdasarkan pengalaman dan perkembangan bisnis. Implementasi Data Warehouse untuk Data Mining membutuhkan kolaborasi antara tim Data Warehouse dan tim Data Mining untuk memastikan bahwa data yang disiapkan dan model yang dibangun sesuai dengan kebutuhan dan tujuan analisis bisnis.
31
32 rsitektur data mining adalah kerangka kerja yang digunakan untuk mengorganisir dan mengelola proses penambangan data. Pemahaman perlu dipahami dan termasuk dalam arsitektur data mining meliputi: Langkah pertama dalam memahami arsitektur data mining adalah melakukan identifikasi sumber data yang akan digunakan. Sumber data ini bisa berasal dari berbagai sumber, termasuk basis data internal perusahaan, data streaming, data transaksional, data media sosial, dan banyak lagi. Setelah sumber data diidentifikasi, data tersebut harus diproses agar dapat digunakan untuk analisis. Proses ini melibatkan pembersihan data, integrasi data dari berbagai sumber, transformasi data, dan pemilihan fitur yang relevan untuk analisis. Tahap-tahap pemrosesan data dalam kaitannya arsitektur data mining meliputi: 1. Pembersihan Data: Langkah pertama dalam pemrosesan data adalah pembersihan data, di mana data yang tidak lengkap, tidak valid, atau tidak konsisten diidentifikasi dan diperbaiki. Ini melibatkan deteksi dan penanganan nilai yang hilang, duplikat, atau anomali dalam data. A
33 2. Integrasi Data: Setelah pembersihan, data dari berbagai sumber dapat diintegrasikan menjadi satu set data yang konsisten. Proses ini memastikan bahwa data dari berbagai sumber dapat digunakan bersama-sama untuk analisis lebih lanjut dengan cara yang konsisten. 3. Transformasi Data: Transformasi data melibatkan pengubahan format atau representasi data untuk memenuhi kebutuhan analisis. Ini dapat mencakup normalisasi data, pengkodean variabel kategorikal, ekstraksi fitur, dan transformasi lainnya untuk mengoptimalkan kualitas data dan relevansi untuk proses data mining. 4. Pemilihan Fitur: Pemilihan fitur adalah proses memilih subset fitur yang paling relevan atau informatif dari data untuk digunakan dalam analisis. Ini membantu mengurangi dimensi data dan meningkatkan kinerja model data mining dengan fokus pada fitur yang paling penting. 5. Sampling Data: Dalam beberapa kasus, data mungkin terlalu besar untuk diproses secara efisien. Oleh karena itu, teknik pengambilan sampel digunakan untuk mengambil subset representatif dari data yang lebih kecil untuk analisis lebih lanjut, sambil mempertahankan karakteristik penting dari data asli. 6. Penyimpanan Data: Data yang sudah diproses kemudian disimpan dalam basis data atau penyimpanan data yang sesuai. Ini bisa mencakup penyimpanan data relasional, penyimpanan data berbasis kolom, penyimpan-an data berbasis dokumen, atau bahkan penyimpanan data berbasis grafik tergantung pada kebutuhan dan karakteristik data.
34 Arsitektur Penambangan dalam kaitannya dengan pemahaman arsitektur data mining meliputi hal-hal apa yang perlu dilakukan meliputi: 1. Penentuan Tujuan: 2. Identifikasi tujuan atau pertanyaan bisnis yang ingin dijawab melalui proses data mining. Proses penentuan tujuan meliputi langkah-langkah yang perlu dijalankan yaitu: 3. Pemahaman Bisnis: Langkah awal dalam menentukan tujuan dalam arsitektur data mining adalah memahami tujuan bisnis organisasi dengan jelas. Ini melibatkan identifikasi masalah bisnis yang ingin dipecahkan, peluang yang ingin ditangkap, atau pertanyaan spesifik yang ingin dijawab melalui analisis data. 4. Spesifikasi Tujuan Analisis: Setelah pemahaman bisnis diperoleh, tujuan analisis yang konkret dan terukur harus ditetapkan. Ini bisa mencakup tujuan seperti meningkatkan retensi pelanggan, meningkatkan efisiensi operasional, mendeteksi penipuan, mengoptimalkan strategi pemasaran, dan lainnya. 5. Identifikasi Variabel Kunci: Variabel yang paling berpengaruh terhadap tujuan analisis harus diidentifikasi. Misalnya, jika tujuan adalah meningkatkan retensi pelanggan, variabel seperti frekuensi pembelian, tingkat kepuasan pelanggan, atau interaksi pelanggan dengan layanan dukungan dapat dianggap sebagai variabel kunci. 6. Pengukuran Kinerja: Kriteria pengukuran kinerja yang jelas harus ditetapkan untuk mengevaluasi kesuksesan
35 mencapai tujuan analisis. Misalnya, jika tujuan adalah meningkatkan retensi pelanggan, kriteria pengukuran kinerja bisa berupa peningkatan dalam tingkat retensi pelanggan atau penurunan dalam tingkat churn. 7. Penggunaan Ruang Lingkup / Wawasan: Penting untuk mempertimbangkan bagaimana ruang lingkup / wawasan yang ditemukan dari analisis data akan digunakan untuk mendukung pengambilan keputusan organisasi. Hal ini membantu memastikan bahwa hasil analisis memberikan nilai tambah yang nyata dan relevan bagi organisasi. 8. Keterlibatan Pemangku Kepentingan (StakeHolder): Proses penentuan tujuan harus melibatkan pemangku kepentingan utama dari berbagai departemen atau tingkatan dalam organisasi. Ini membantu memastikan bahwa tujuan yang ditetapkan mencerminkan kebutuhan dan prioritas bisnis yang sebenarnya. 9. Pemilihan Algoritma: Pemilihan algoritma data mining yang sesuai berdasarkan tujuan dan karakteristik data. Adapun langkah-langkah yang perlu dipahami dalam pemilihan algoritma adalah 10. Pemahaman Tipe Masalah: Langkah awal dalam pemilihan algoritma adalah memahami tipe masalah yang ingin diselesaikan. Ini dapat mencakup masalah klasifikasi (prediksi label kelas), regresi (prediksi nilai kontinu), clustering (pengelompokan data berdasarkan kesamaan), asosiasi (penemuan hubungan antara item), atau tugas lainnya. 11. Eksplorasi Algoritma: Setelah pemahaman tentang masalah diperoleh, langkah berikutnya adalah eksplorasi berbagai algoritma yang tersedia untuk
36 menyelesaikan jenis masalah tersebut. Misalnya, untuk masalah klasifikasi, beberapa algoritma yang umum digunakan termasuk Decision Trees, Naive Bayes, Support Vector Machines (SVM), dan k-Nearest Neighbors (k-NN). 12. Evaluasi Kinerja: Algoritma yang dipertimbangkan harus dievaluasi berdasarkan kriteria kinerja yang relevan, seperti akurasi, presisi, recall, atau F1-score untuk tugas klasifikasi. Untuk regresi, kriteria kinerja mungkin berupa RMSE (Root Mean Squared Error) atau R-squared. Evaluasi ini membantu memilih algoritma yang paling cocok untuk tipe masalah dan data yang dimiliki. 13. Pertimbangan Karakteristik Data: Karakteristik data seperti ukuran data, dimensi, jumlah atribut, dan sebagainya juga harus dipertimbangkan dalam pemilihan algoritma. Misalnya, algoritma seperti kMeans clustering lebih cocok untuk data berdimensi tinggi dan jumlah cluster yang jelas, sementara algoritma DBSCAN lebih cocok untuk data yang memiliki kepadatan cluster yang berbeda. 14. Keterbatasan Komputasi: Keterbatasan sumber daya komputasi seperti memori, CPU, atau waktu komputasi juga harus dipertimbangkan. Beberapa algoritma mungkin lebih efisien dalam hal waktu dan memori dibandingkan dengan yang lain, yang dapat menjadi faktor penting terutama dalam penanganan big data. 15. Pengujian dan Validasi: Sebelum mengimplementasikan algoritma dalam lingkungan produksi, penting untuk menguji dan memvalidasi kinerja algoritma menggunakan data uji yang independen. Ini membantu
37 memastikan bahwa algoritma dapat umumnya diterapkan pada data baru dan menghasilkan hasil yang konsisten. Proses penambangan data dalam arsitektur data mining melibatkan serangkaian langkah-langkah untuk mengungkap pola, hubungan, dan wawasan berharga dari data. Berikut adalah rangkuman proses penambangan data: 1. Pemahaman Bisnis: Langkah awal adalah memahami tujuan bisnis dan masalah yang ingin diselesaikan melalui penambangan data. Ini melibatkan identifikasi pertanyaan yang ingin dijawab atau tantangan bisnis yang ingin dipecahkan. 2. Pemahaman Data: Selanjutnya, data yang relevan untuk analisis dipelajari secara mendalam. Ini mencakup pemahaman tentang struktur, karakteristik, dan kualitas data yang tersedia. 3. Pemilihan Data: Data yang paling relevan untuk mencapai tujuan analisis dipilih. Langkah ini melibatkan pemilihan fitur yang sesuai dan eliminasi data yang tidak relevan atau tidak berguna. 4. Pemrosesan Data: Data yang dipilih kemudian diproses untuk membersihkan, mengintegrasikan, dan mentrans-formasikannya menjadi format yang sesuai untuk analisis lebih lanjut. Ini juga mencakup pemilihan teknik pemrosesan seperti pengurangan dimensi atau normalisasi. 5. Pemilihan Model: Model atau algoritma yang paling sesuai dengan tipe masalah dan data yang dimiliki
38 dipilih. Ini melibatkan pemilihan dari berbagai kelas model seperti klasifikasi, regresi, clustering, atau asosiasi, serta algoritma spesifik dalam kelas tersebut. 6. Pelatihan Model: Model yang dipilih kemudian dilatih dengan menggunakan data yang telah diproses. Proses pelatihan melibatkan menyesuaikan parameter model untuk mengoptimalkan kinerja berdasarkan data pelatihan. 7. Validasi Model: Model yang dilatih dievaluasi dan divalidasi menggunakan data uji yang independen untuk memastikan kinerja yang baik dan umum. Validasi juga membantu menghindari overfitting dan mengukur kecocok-an model dengan data yang tidak dilihat sebelumnya. 8. Interpretasi dan Evaluasi: Hasil dari analisis data dan model yang dihasilkan dievaluasi dan diinterpretasikan untuk mendapatkan wawasan yang bermakna. Hal ini melibatkan identifikasi pola, tren, atau hubungan yang signifikan dalam data. 9. Implementasi: Wawasan yang ditemukan dari proses penambangan data kemudian diimplementasikan ke dalam strategi bisnis atau proses operasional. Ini dapat melibatkan pengembangan kebijakan baru, perubahan proses bisnis, atau pengambilan keputusan yang didasarkan pada wawasan yang ditemukan. Evaluasi hasil penambangan data dan interpretasi terhadap pola atau wawasan yang ditemukan. Hal-hal yang perlu dipahami meliputi: