BIG DATA
BIG DATA
BIG DATA Copyright© PT Penamudamedia, 2024 Penulis: Nindy Irzavika, S.SI., M.T., Laina Farsiah, S.Si., M.S., Nova Tri Romadloni, M.Kom., Rahmatika Pratama Santi, M.T., Nabilah, S.Kom., MT., Ani Anisyah, S.Pd., M.T., Khairun Amala, S.Si., M.M., Nisa Dwi Angresti, S.SI., M.Kom., Dwina Satrinia, S.Kom.,M.T., Dodi Zulherman, M.T., Yuwan Jumaryadi, S.Kom., MM., M.Kom., Deosa Putra Caniago, S.Kom., M.Kom, Luki Hernando, M.Kom., Liptia Venica, S.T., M.T. ISBN: 978-623-8586-16-5 Desain Sampul: Tim PT Penamuda Media Tata Letak: Enbookdesign Diterbitkan Oleh PT Penamuda Media Casa Sidoarium RT 03 Ngentak, Sidoarium Dodeam Sleman Yogyakarta HP/Whatsapp : +6285700592256 Email : [email protected] Web : www.penamuda.com Instagram : @penamudamedia Cetakan Pertama, April 2024 xii + 181, 15x23 cm Hak cipta dilindungi oleh undang-undang Dilarang memperbanyak sebagian atau seluruh isi buku tanpa izin Penerbit
v ig Data merupakan sumber informasi yang melimpah dan berpotensi besar, memungkinkan kita untuk mendapatkan wawasan yang bernilai dan membuat keputusan yang lebih baik. Melalui buku ini, kami mengajak pembaca untuk menjelajahi konsep-konsep utama Big Data, seperti analisis data, teknik pengolahan, keamanan data, dan penerapan praktis dalam berbagai bidang. Dengan pemahaman yang mendalam tentang Big Data, pembaca diharapkan dapat mengoptimalkan potensi data yang ada, menemukan pola-pola yang relevan, dan mengambil langkah-langkah strategis berdasarkan analisis yang akurat. Kami berharap buku ini dapat menjadi panduan yang bermanfaat bagi para profesional, peneliti, dan siapa pun yang tertarik dalam memahami dan memanfaatkan Big Data. Terima kasih kepada semua pihak yang telah mendukung dan berkontribusi dalam pembuatan buku ini. Semoga buku ini memberikan wawasan yang berharga dan memperkaya pengetahuan pembaca dalam menghadapi tantangan dan peluang yang terkait dengan Big Data di era digital ini. Hormat kami Penulis B
vi
vii
viii
ix
x
xi
xii
1 A. Definisi Big Data Data dihasilkan setiap jam, setiap menit, bahkan setiap detik, sehingga jumlah data terus meningkat. Perangkat seluler, media sosial, rekam medis menciptakan data baru dan tersimpan untuk beberapa tujuan. Ledakan jumlah data ini menjadi tantangan dan peluang bagi pelaku bisnis, pemerintah, dan peneliti untuk mengubah data tersebut menjadi bernilai. Data menjadi asset yang sangat bernilai yang bisa dimiliki karena data menghasilkan informasi, pengetahuan, dan membantu stakeholder dalam pengambilan keputusan (Irzavika and Supangkat, 2018). Big data merupakan terminologi dari cara menganalisis, mengekstraksi informasi secara sistematis, atau menangani kumpulan data yang terlalu besar dan rumit diselesaikan oleh alat pemrosesan data tradisional (Mariani, Tweneboah and Beccar-Varela, 2022). Big data adalah aset informasi yang dicirikan dengan jumlah, kecepatan, dan keanekaragaman yang sangat tinggi sehingga membutuh-
2 - kan teknologi dan metode analisis tertentu untuk mentransformasinya menjadi sesuatu yang bernilai. Tiga atribut utama yang menjadi penentuk karakter big data adalah (EMC Education Services, 2015): 1. Volume data yang sangat besar – big data bisa terdiri dari miliaran baris dan jutaan kolom. 2. Kompleksitas tipe dan struktur data – big data mencerminkan keragaman sumber, format, dan struktur data. 3. Kecepatan pembuatan dan pertumbuhan data baru – big data menggambarkan kecepatan pertumbuhan data baru dengan penyerapan data yang cepat dan analisis yang real-time Penerapan big data biasanya dibutuhkan ketika analisis data, teknologi pemrosesan, dan teknik penyimpanan data secara tradisional tidak cukup dan mampu memberikan solusi yang sesuai. Jumlah data pada big data umumnya sangat banyak sehingga melampaui kemampuan basis data tradisional untuk menyimpan, mengelola, dan memproses data tersebut. Hal ini disebabkan oleh data yang berasal dari berbagai sumber data seperti sensor, perangkat, smartphone, video/audio, web, media sosial dan lain sebagainya yang menghasilkan data dengan jumlah yang sangat besar. Untuk dapat menganalisis data dengan jumlah yang sangat besar tersebut diperlukan beberapa teknik analitik. Data analitik mencakup empat kategori, yaitu: 1. Descriptive Analytic – apa yang terjadi? 2. Diagnostic Analytic – mengapa ini terjadi?, 3. Predictive Analytic – apa yang mungkin terjadi di masa depan?
3 4. Prescriptive Analytic – apa yang seharusnya kita lakukan selanjutnya? Tujuan utama dilakukan analisis pada big data adalah untuk memperoleh pengetahuan yang dapat membantu pengambil keputusan untuk mengambil keputusan yang benar berdasarkan analisis terhadap data yang tersedia. Analisis pada big data merupakan gabungan dari beberapa bidang ilmu, diantaranya adalah matematika, statistika, dan ilmu komputer. Dengan menggunakan teknologi dan alat yang tepat, organisasi dapat memanfaatkan big data untuk memperoleh wawasan bisnis yang lebih baik, mendukung pengambilan keputusan, dan mengidentifikasi tren atau pola yang mungkin sulit terdeteksi dengan metode analisis tradisional. B. Jenis Data pada Big Data Data dapat diklasifikasikan menjadi tiga jenis, yaitu: 1. Data terstruktur (Structured Data) Data terstruktur merupakan model data atau skema yang biasanya terseimpan dalam bentuk table (tabular form). Data terstruktur memiliki relasi antar entitas yang berbeda dalam basis data relasional. Contoh data terstruktur adalah data transaksi penjualan barang, data pelanggan, data mahasiswa, dll. Gambar 1. Contoh data terstruktur: tabel buku
4 - 2. Data semi-terstruktur (Semi-structured Data) Data semi-terstruktur didefinisikan sebagai data terstruktur tetapi bukan relasional. Data ini tersimpan berdasarkan hirarki atau grafik. Biasanya tersimpan dalam file yang berisi teks. Contoh data semiterstruktur adalah cacatan rekam medis, laporan cuaca, email, log webserver, HTML, XML, JSON dll. Gambar 2. Contoh data semi-terstruktur: HTML 3. Data tidak terstruktur (Unstructured Data) Data tidak terstruktur tidak berasal dari model atau skema serta tidak dapat diproses lansung menggunakan query pada basis data. Data tidak terstruktur biasanya tersimpan pada basis data non-relasional atau lebih dikenal dengan NoSQL. Contoh data tidak terstruktur adalah video, gambar, audio, data sosial media, catatan call center, dll.
5 Gambar 3. Contoh data tidak terstruktur: video tentang Indonesia C. Tantangan dan Peluang Big Data Pengeloaan dan pemanfaatan big data menimbulkan tantangan dan peluang. Hal ini mencerminkan kompleksitas data dan variasi data yang beragam. Beberapa tantangan yang muncul dalam pemanfaatan big data adalah sebagai berikut: 1. Volume data yang besar Jumlah data yang besar membutuhkan penyimpanan, pemrosesan, dan pengelolaan data yang berbeda. Sehingga membutuhkan infrastruktur komputasi dan penyimpanan yang mahal. 2. Kecepatan data Pertumbuhan data sangat cepat dan real-time. Hal ini menimbulkan kesulitan dalam pemrosesan dan analisis data yang cepat dan tepat.
6 - 3. Variasi data Big data berasal dari berbagai sumber dengan format dan jenis yang berbeda. Sumber data big data paling banyak adalah data yang tidak terstruktur sehingga perlu diatasi agar data tersebut bisa digunakan untuk analisis lebih lanjut. Sumber big data tidak terbatas pada data tidak terstruktur saja, bisa berupa data terstruktur maupun data semi-terstruktur. 4. Kualitas data Kesalahan atau ketidakakuratan data dapat menghasilkan analisis yang salah atau tidak akurat, sehingga perlu dipastikan data yang digunakan adalah data yang berkualita 5. Keamanan dan privasi Big data cenderung berisi informasi yang sensitif, maka keamanan dan privasi menjadi tantangan dalam pemanfaatan big data. Pemanfaatan big data juga memberikan peluang bagi organisasi yang menerapkannya. Beberapa peluang pemanfaatan big data adalah sebagai berikut: 1. Analisis mendalam Big data memungkinkan organisasi untuk melakukan analisis mendalam untuk menemukan wawasan baru yang berharga dalam pengambilan keputusan. 2. Inovasi produk dan layanan Organisasi dapat memahami pola dan tren dari data untuk mengembangkan inovasi produk dan layanan yang lebih baik sesuai dengan kebutuhan pasar.
7 3. Efisiensi operasional Big data dapat membantu meningkatkan efisiensi operasional melalui analisis yang tepat waktu, pemantauan real-time, dan optimasi proses bisnis. 4. Pemahaman pelanggan yang lebih baik Analisis big data membantu organisasi memahami perilaku pelanggan dengan lebih baik, sehingga memungkinkan personalisasi layanan dan peningkatan kepuasan pelanggan. 5. Mendukung pengambilan keputusan Analisis big data memungkinakn organisasi untuk membuat keputusan berdasarkan data dan prediksi serta tren yang mendukung perencanaan strategis. D. Implementasi Big Data Big data telah diterapkan dengan sukses pada berbagai bidang dan sektor, diantaranya adalah bidang kesehatan, perbankan, e-commerce, transportasi dan logistic, pendidikan, telekomunikasi, dan berbagai bidang lainnya. Banyak perusahaan telah memanfaatkan data, karena data mampu menjelaskan hal yang tidak diketahui, mengurangi ketidakpastian, dan cara mengubah pengambilan keputusan (Irzavika and Supangkat, 2018). Perusahaan seperti Netflix menggunakan big data untuk membangun sistem rekomendasi. Sistem ini memberikan rekomendasi konten kepada pengguna berdasarkan preferensi dan riwayat film atau acara TV yang ditonton pengguna layanan. Dari data yang dikumpulkan, Netflix melakukan analisis untuk memprediksi preferensi
8 - pelanggan sehingga setiap pelanggan memperoleh rekomendasi sesuai dengan preferensi mereka. Sistem rekomendasi ini memberikan pengalaman menonton yang lebih baik dan relevan bagi setiap pengguna. Contoh lain penerapan big data adalah prediksi lalu lintas yang dilakukan oleh Google. Google menciptakan sebuah aplikasi, yaitu Google Maps. Aplikasi tersebut mampu memberikan prediksi waktu tempuh dari titik A ke titik B dengan moda transportasi yang berbeda. Aplikasi tersebut juga memberikan beberapa pilihan rute alternatif serta biaya yang mungkin ditimbulkan, seperti biaya toll. Model prediksi yang dikembangkan Google tersebut berasal dari big data GPS pengguna smartphone, yang kemudian dianalisis sehingga menghasilkan informasi yang bermanfaat bagi pengguna. E. Dampak Big Data Pemanfaatan big data memberikan dampak yang signifikan pada berbagai aspek, baik dalam bisnis maupun kehidupan sehari-hari. Selain itu big data memberikan dampak dalam proses pengambilan keputusan pada organisasi. Big data memungkinkan organisasi untuk menganalisis sejumlah data besar dan kompleks. Hal ini membantu pengambilan keputusan yang lebih baik karena informasi atau wawasan yang diperoleh lebih mendalam dan komprehensif. Selain itu big data dapat meningkatkan produktivitas karena memungkinkan untuk memperoleh informasi yang lebih lengkap dan terpercaya. Proses pengambilan keputusan menjadi lebih cepat dengan analisis secara real-time dan responsif terhadap perubahan pasar atau kondisi bisnis.
9 arakteristik Big Data merupakan serangkaian atribut dan sifat khas yang menentukan esensi data dalam skala besar. Dalam konteks ini, Big Data tidak hanya didefinisikan oleh ukurannya yang besar, tetapi juga oleh sejumlah faktor yang mencakup kecepatan, keragaman, dan kompleksitas data. Pengertian karakteristik Big Data melibatkan pemahaman mendalam terhadap sejumlah dimensi, seperti kemampuan untuk mengelola, menganalisis, dan mengekstrak nilai dari data tersebut. Karakteristik Big Data mencerminkan sifat unik yang membedakannya dari data tradisional, memberikan landasan bagi inovasi, pengambilan keputusan cerdas, dan transformasi bisnis yang signifikan. Dengan merinci setiap karakteristik, kita dapat memahami lebih baik bagaimana Big Data membentuk dan memengaruhi berbagai aspek dalam era digital ini. Berikut ini adalah kumpulan karakteristik dari big data yang K
10 - dikumpulkan dari berbagai sumber (Kaisler et al., 2013; Schmarzo, 2013; Mayer-Schönberger and Cukier, 2014; Warren and Marz, 2015; Marr, 2016). A. Volume Volume merupakan salah satu karakteristik utama Big Data yang mengacu pada jumlah besar data yang diproduksi, dikumpulkan, dan disimpan oleh suatu sistem atau organisasi. Data dalam skala besar ini mencakup volume yang melebihi kemampuan sistem atau alat tradisional untuk mengelolanya secara efisien. Ketika kita berbicara tentang volume dalam konteks karakteristik Big Data, kita merujuk pada kuantitas data yang sangat besar yang terus tumbuh secara eksponensial. Ini mencakup data dari berbagai sumber seperti sensor IoT, media sosial, log transaksi, dan banyak lagi. Dengan kata lain, Big Data tidak hanya melibatkan jumlah data yang besar, tetapi juga kemampuan untuk menangani pertumbuhan data yang cepat. Sebagai contoh, perusahaan e-commerce seperti Shopee menghasilkan miliaran data transaksi setiap harinya. Jumlah besar data ini mencakup informasi tentang produk yang dilihat, dicari, dibeli, dan preferensi pengguna. Mengelola dan menganalisis data sebanyak itu memerlukan solusi Big Data yang mampu menangani volume data yang besar dan terus meningkat.
11 B. Velocity Velocity merujuk pada kecepatan tinggi aliran data yang masuk atau diproduksi oleh berbagai sumber dalam lingkungan Big Data. Hal ini menekankan pentingnya kemampuan sistem untuk menangani data yang diterima dengan cepat dan memberikan respons dalam waktu yang sesingkat-singkatnya. Dalam era Big Data, data tidak hanya hadir dalam jumlah besar, tetapi juga diproduksi dengan kecepatan tinggi. Sumber data seperti sensor IoT, media sosial, dan sistem pengukuran real-time menghasilkan aliran data yang terus menerus. Kecepatan ini menuntut sistem Big Data untuk dapat memproses, menganalisis, dan mengambil tindakan secepat mungkin agar informasi yang dihasilkan tetap relevan dan bernilai. Contoh konkret dari velocity adalah data transaksi pada platform keuangan seperti kartu kredit. Setiap transaksi yang dilakukan oleh pelanggan menghasilkan data secara instan yang perlu diolah dan diproses dalam hitungan detik. Kesalahan atau keterlambatan dalam pemrosesan dapat memiliki dampak besar terhadap keamanan dan keandalan sistem. C. Variety Variety menunjukkan keragaman jenis data yang ada dalam lingkungan Big Data. Data dalam Big Data dapat bersifat terstruktur, semi-terstruktur, dan tak terstruktur, dan kemampuan untuk mengelola dan menganalisis
12 - berbagai jenis data ini menjadi tantangan yang khas dalam Big Data. Big Data tidak hanya terbatas pada data terstruktur seperti tabel dalam database relasional. Sebaliknya, Big Data mencakup data dengan berbagai struktur dan format, termasuk teks, gambar, audio, video, data sensor, dan lainnya. Kemampuan untuk mengatasi dan memanfaatkan informasi dari berbagai sumber dan format ini menjadi inti dari karakteristik Variety. Contoh konkret dari variety adalah data yang dihasilkan oleh media sosial. Data ini dapat mencakup teks dalam bentuk status atau komentar, gambar, video, dan lainnya. Pengelolaan data semacam ini memerlukan pendekatan yang berbeda dibandingkan dengan data terstruktur tradisional, dan analisis Big Data harus mampu mengekstrak nilai dari semua bentuk ini. D. Veracity Veracity merujuk pada kualitas dan keandalan data dalam lingkungan Big Data. Karakteristik ini menyoroti tantangan terkait dengan kepastian, ketepatan, dan kebenaran data yang dihadapi dalam pengumpulan, pengolahan, dan analisis data Big Data. Big Data sering kali melibatkan data dari berbagai sumber yang mungkin tidak selalu akurat atau terpercaya. Faktor-faktor seperti kesalahan pengukuran, ketidakpastian, dan data yang tidak lengkap dapat memengaruhi veracity. Oleh karena itu, memastikan kualitas dan
13 keandalan data menjadi kunci untuk mendapatkan wawasan yang berarti dari analisis Big Data. Misalnya, dalam pengumpulan data sensor IoT, keakuratan sensor dan integritas data dapat dipertanyakan. Jika sensor memberikan pembacaan yang tidak akurat atau mengalami gangguan, hal ini dapat mempengaruhi hasil analisis dan keputusan yang diambil berdasarkan data tersebut. E. Value Value dalam konteks karakteristik Big Data merujuk pada kemampuan untuk mengekstrak nilai bisnis yang signifikan dari analisis dan interpretasi data yang besar dan kompleks. Pentingnya karakteristik ini terletak pada pemanfaatan data untuk mendukung pengambilan keputusan yang lebih baik, inovasi, dan pencapaian tujuan bisnis. Value dalam Big Data tidak hanya berkaitan dengan kuantitas data yang besar, tetapi lebih kepada kemampuan untuk mendapatkan wawasan yang bermanfaat dan mengambil tindakan yang relevan dari data tersebut. Menciptakan nilai dari Big Data melibatkan identifikasi pola, tren, dan informasi strategis yang dapat digunakan untuk meningkatkan efisiensi operasional, memahami pelanggan, dan menciptakan keunggulan kompetitif. Misalkan sebuah perusahaan e-commerce menggunakan analisis Big Data untuk mengidentifikasi pola pembelian pelanggan, preferensi produk, dan tren pasar. Dengan memahami perilaku konsumen, perusahaan dapat
14 - menyusun strategi pemasaran yang lebih efektif, meningkatkan stok produk yang diminati, dan menyediakan rekomendasi produk yang lebih relevan kepada pelanggan, yang semuanya berkontribusi pada peningkatan nilai bisnis. F. Variability Variability merujuk pada fluktuasi dan perubahan sifat data yang ada dalam lingkungan Big Data. Karakteristik ini menyoroti tantangan terkait dengan perubahan format, struktur, dan nilai data yang dapat bervariasi seiring waktu atau dalam situasi tertentu. Data dalam lingkungan Big Data tidak selalu tetap atau memiliki struktur yang konsisten. Variability mencakup perubahan dalam jenis dan format data, yang dapat bersifat periodik atau terjadi secara acak. Oleh karena itu, kemampuan untuk menangani variasi data menjadi kunci untuk memastikan analisis yang konsisten dan dapat diandalkan. Sebuah situs web e-commerce mungkin mengalami variasi data harian dalam hal jumlah pembeli, jenis produk yang dicari, atau preferensi warna dan ukuran. Analisis data yang berhasil harus dapat menangani fluktuasi ini dan memberikan wawasan yang relevan dalam konteks perubahan harian tersebut. G. Complexity Complexity mengacu pada tingkat kesulitan dan kerumitan yang terkait dengan pengelolaan, analisis, dan interpretasi data dalam lingkungan Big Data. Karakteristik
15 ini menyoroti tantangan terkait dengan kompleksitas struktur dan hubungan data yang terlibat dalam skala besar. Data dalam Big Data seringkali kompleks dalam struktur dan terdiri dari banyak elemen yang saling terkait. Hal ini melibatkan hubungan yang rumit dan terkadang sulit dipahami antara berbagai jenis data. Oleh karena itu, mengelola kompleksitas data menjadi kunci untuk memahami secara menyeluruh potensi nilai dari data yang ada. Sebuah proyek riset ilmiah yang mengumpulkan data dari sensor-sensor canggih, catatan medis, dan data lingkungan dapat menjadi contoh kompleksitas Big Data. Data dari berbagai sumber dan disiplin ilmu harus disatukan dan dianalisis bersama untuk mendapatkan pemahaman yang menyeluruh tentang kondisi atau fenomena yang sedang dipelajari. H. Accessibility Accessibility dalam konteks Big Data merujuk pada ketersediaan dan kemudahan akses terhadap data oleh pengguna yang membutuhkannya. Karakteristik ini menyoroti pentingnya infrastruktur dan teknologi yang mendukung pengambilan, penyimpanan, dan pertukaran data dengan efisien. Data di dalam lingkungan Big Data harus mudah diakses oleh para pengguna yang memerlukannya, termasuk analis data, ilmuwan data, dan pemimpin bisnis. Ketersediaan data yang cepat dan aksesibilitas yang mudah memungkinkan organisasi untuk merespons perubahan
16 - pasar, mengambil keputusan secara real-time, dan mengoptimalkan proses bisnis. Sebuah perusahaan yang memiliki sistem Big Data untuk mengelola data pelanggan mungkin membutuhkan akses cepat ke data pembelian, preferensi pelanggan, dan umpan balik. Kecepatan dan kemudahan akses ini memungkinkan tim pemasaran untuk merespons tren pasar dengan cepat dan menyusun strategi pemasaran yang lebih efektif. I. Authenticity Authenticity dalam karakteristik Big Data mencerminkan keabsahan dan keamanan data. Karakteristik ini menekankan pentingnya memastikan bahwa data yang digunakan dalam analisis adalah benar-benar asli, tidak dimanipulasi, dan dapat dipercaya. Keamanan dan integritas data menjadi fokus utama dalam memastikan authenticity. Data dalam Big Data harus dapat dipercaya dan benarbenar merefleksikan keadaan atau informasi yang dimaksud. Kekhawatiran tentang keaslian data dapat mencakup masalah keamanan, perlindungan terhadap manipulasi, dan upaya untuk memastikan integritas data dalam seluruh siklus hidupnya. Sebuah perusahaan keuangan yang menggunakan data transaksi harus memastikan bahwa data tersebut tidak mengalami manipulasi oleh pihak yang tidak berwenang. Kegagalan dalam memastikan keaslian data dapat
17 berpotensi mengekspos pelanggan pada risiko keamanan finansial. J. Agility Agility dalam karakteristik Big Data mencerminkan kemampuan sistem dan organisasi untuk beradaptasi dan merespons dengan cepat terhadap perubahan. Karakteristik ini menekankan fleksibilitas dalam pengelolaan dan analisis data untuk mendukung pengambilan keputusan yang cepat dan respons yang adaptif terhadap dinamika bisnis dan lingkungan. Big Data membutuhkan kemampuan untuk bergerak dengan cepat dan fleksibel. Ketika tuntutan bisnis atau kondisi pasar berubah, organisasi harus dapat menyesuaikan strategi analisis dan pengelolaan data untuk mengikuti perubahan tersebut. Kemampuan untuk beradaptasi secara cepat dapat memberikan keunggulan kompetitif. Sebuah perusahaan e-commerce yang melihat perubahan tren pembelian konsumen harus dapat dengan cepat menyesuaikan strategi pemasaran dan stok produk mereka. Analisis Big Data yang responsif dan sistem yang bersifat agile dapat membantu organisasi tersebut merespons dengan cepat terhadap perubahan preferensi konsumen. K. Analyzability Analyzability dalam karakteristik Big Data merujuk pada kemampuan untuk menganalisis dan mendapatkan
18 - wawasan yang bermakna dari data yang sangat besar dan kompleks. Karakteristik ini menyoroti pentingnya alat analisis, teknik, dan metodologi yang dapat digunakan untuk menggali informasi yang berharga dari kerumitan data Big Data. Big Data tidak memiliki nilai bila tidak dapat dianalisis dengan cara yang efektif. Analyzability mencakup kemampuan untuk merancang dan menerapkan teknik analisis yang sesuai, memilih alat yang tepat, dan mengembangkan metodologi yang dapat mengungkap pola, tren, dan wawasan yang dapat digunakan untuk pengambilan keputusan. Sebuah organisasi kesehatan yang memiliki data pasien dari berbagai sumber, seperti rekam medis, sensor kesehatan, dan riwayat pengobatan, memerlukan kemampuan analisis yang canggih untuk mengidentifikasi pola dan faktor risiko penyakit tertentu dalam jumlah data yang besar dan bervariasi. L. Availability Availability dalam karakteristik Big Data merujuk pada ketersediaan data dan sistem yang tinggi. Karakteristik ini menyoroti kebutuhan akan infrastruktur dan teknologi yang dapat mendukung akses dan pengolahan data dengan waktu nyata serta tanpa gangguan. Ketersediaan dalam Big Data berfokus pada kemampuan sistem untuk tetap beroperasi dan memberikan layanan tanpa henti. Hal ini melibatkan aspek infrastruktur seperti kehandalan server, sistem
19 penyimpanan yang dapat diandalkan, serta mekanisme cadangan dan pemulihan yang memastikan data tetap dapat diakses bahkan dalam situasi darurat. Sebuah perusahaan finansial yang menggunakan sistem Big Data untuk pemrosesan transaksi harus memastikan ketersediaan tinggi untuk menghindari penundaan atau kerugian finansial. Sistem yang tidak tersedia dalam waktu nyata dapat memiliki dampak yang signifikan terhadap operasi harian dan keandalan layanan kepada pelanggan. M. Actionability Actionability dalam karakteristik Big Data merujuk pada kemampuan untuk mengambil tindakan atau keputusan yang bermakna berdasarkan wawasan yang diperoleh dari analisis data. Karakteristik ini menyoroti pentingnya membuat informasi yang ditemukan dapat diimplementasikan dalam tindakan konkret dan berdampak. Data dan analisis Big Data hanya bermanfaat jika dapat menghasilkan wawasan yang dapat diterjemahkan menjadi tindakan nyata. Actionability mencakup keberhasilan organisasi dalam merancang strategi dan proses bisnis yang memungkinkan mereka merespons secara efektif terhadap temuan analisis, sehingga mendorong perubahan positif. Sebuah perusahaan ritel yang menggunakan analisis Big Data untuk memahami perilaku pembelian pelanggan dapat mengambil tindakan nyata dengan merancang promosi khusus, menyesuaikan persediaan produk, atau
20 - memodifikasi strategi pemasaran berdasarkan wawasan yang ditemukan. N. Alignment Alignment dalam karakteristik Big Data merujuk pada keselarasan atau keterkaitan data dan analisis dengan tujuan strategis dan visi organisasi. Karakteristik ini menekankan pentingnya memastikan bahwa inisiatif Big Data terkait erat dengan misi, tujuan, dan strategi bisnis organisasi. Alignment adalah langkah krusial untuk memastikan bahwa investasi dan usaha dalam mengelola dan menganalisis Big Data sejalan dengan arah strategis organisasi. Data dan analisis Big Data harus memberikan nilai tambah dan mendukung pencapaian tujuan bisnis yang lebih besar. Sebuah perusahaan teknologi yang fokus pada inovasi dapat menggunakan Big Data untuk menganalisis tren pasar dan mengidentifikasi peluang riset dan pengembangan baru yang sesuai dengan visi mereka untuk menjadi pemimpin industri. O.Privacy and Ethics Privacy and Ethics dalam karakteristik Big Data mencakup kebutuhan untuk melindungi privasi individu dan menjalankan praktik-praktik yang etis dalam pengumpulan, pengolahan, dan penggunaan data. Karakteristik ini menyoroti tanggung jawab organisasi
21 dalam menghormati hak privasi individu dan menjaga integritas dan moralitas dalam pengelolaan Big Data. Pertimbangan etika dan privasi menjadi krusial dalam lingkungan Big Data, mengingat jumlah data yang besar dan potensi penggunaannya. Organisasi perlu memastikan bahwa penggunaan data mereka tidak melanggar hak privasi individu dan sesuai dengan norma-norma etika yang berlaku. Sebuah perusahaan teknologi yang mengumpulkan data pelanggan untuk tujuan analisis harus memastikan bahwa informasi pribadi pelanggan tidak disalahgunakan atau dibagikan tanpa izin mereka. Hal ini termasuk mengimplementasikan praktik privasi yang ketat dan kebijakan etika yang jelas.
22 - A. Definisi Data Analitik Data Analitik dapat secara formal didefinisikan sebagai analisis data statistik dan matematis yang mengelompokkan, mengelompokkan, memberi peringkat, dan memprediksi kemungkinan masa depan. Fitur penting dari data analitik adalah kemampuan prediktif, peramalan, dan preskriptifnya. Penggunaan data analitik historis dan memperkirakan nilai atau hasil baru.(Kamal and Saxena, 2019) Data Analitik menyarankan teknik yang akan memberikan hasil yang paling efisien dan bermanfaat bagi suatu perusahaan. Data Analitik membantu dalam menemukan intelijen bisnis dan membantu dalam pengambilan keputusan.(Balusamy et al., 2021) Data Analitik merupakan proses pengolahan data untuk menghasilkan informasi yang bermanfaat. Melibatkan
23 penggunaan teknik dan alat untuk menyelidiki, membersihkan, mentransformasi, dan memodelkan data. Tujuannya adalah untuk menghasilkan wawasan yang dapat digunakan untuk pengambilan keputusan atau tujuan lainnya. Sedangkan Data Analisis merupakan langkah spesifik dalam proses data analitik. Melibatkan pemahaman dan penafsiran data untuk mengidentifikasi pola, tren, dan hubungan yang mungkin tersembunyi dalam data. Tujuannya adalah untuk menggali informasi yang berguna dari data yang tersedia. Dengan demikian, data analitik adalah proses umum yang mencakup berbagai tahap dalam pengolahan data, sedangkan data analisis adalah langkah khusus dalam proses tersebut yang fokus pada pemahaman dan penafsiran data. Data Analitik pada Big Data melibatkan serangkaian langkah, mulai dari pembersihan data, pengolahan data (data munging), hingga pemrosesan dan visualisasi data. Siklus hidup dimulai dengan pengumpulan data dari berbagai sumber. Diperlukan alat dan kerangka kerja khusus untuk memproses data dari berbagai sumber ke dalam backend. Data disimpan dalam solusi penyimpanan khusus, seperti sistem file terdistribusi dan database nonrelasional, yang dirancang untuk menangani skala besar. Tergantung pada persyaratan analisis (batch atau real-time) dan jenis analisis yang akan dilakukan (deskriptif, diagnostik, prediktif, atau preskriptif), kerangka kerja khusus digunakan. Analisis Big Data didukung oleh berbagai teknologi, termasuk komputasi awan, kerangka kerja
24 - pemrosesan terdistribusi dan paralel, database nonrelasional, dan komputasi dalam memori (Santoso, 2020). Pada pembahasan Data Analitik dalam Big Data merupakan proses mengumpulkan, menganalisis, dan menginterpretasikan kumpulan data yang sangat besar atau kompleks untuk mengungkap pola, tren, dan wawasan yang dapat digunakan untuk pengambilan keputusan yang lebih baik (Passarella, Thoriq and Nurmaini, 2021). Proses ini melibatkan beberapa langkah, sebagai berikut. 1. Pengumpulan Data Mengumpulkan data dari berbagai sumber, termasuk sensor, perangkat mobile, media sosial, dan lainnya. Data ini dapat berupa data terstruktur (misalnya, database) maupun data tak terstruktur (misalnya, teks, gambar, dan video). 2. Penyimpanan Data Menyimpan data dalam infrastruktur yang sesuai, seperti data warehouse atau sistem penyimpanan Big Data, untuk memastikan data dapat diakses dan dianalisis secara efisien. 3. Pemrosesan Data Memproses data menggunakan algoritma dan teknik analitik untuk mengidentifikasi pola dan tren yang relevan. Ini bisa melibatkan analisis statistik, data mining, machine learning, dan analisis prediktif. 4. Visualisasi Data Menggunakan visualisasi data, seperti grafik dan dashboard interaktif, untuk menggambarkan hasil analisis dengan cara yang mudah dipahami dan dapat digunakan untuk pengambilan keputusan.
25 5. Penerapan Wawasan Menggunakan wawasan yang diperoleh dari analisis data untuk mengidentifikasi peluang bisnis, meningkatkan efisiensi operasional, dan membuat keputusan yang lebih baik. Data analitik dalam Big Data memungkinkan organisasi untuk menggali nilai dari kumpulan data yang besar dan kompleks, yang dapat membantu mereka memahami pasar, mengoptimalkan operasi, dan meningkatkan pengalaman pelanggan. B. Teknologi Pendukung Data Analitik Terdapat berbagai teknologi yang mendukung data analitik, terutama dalam konteks Big Data. Beberapa teknologi pendukung data analitik yang umum digunakan meliputi: 1. Hadoop Kerangka kerja open-source yang dirancang untuk menyimpan dan mengolah data yang sangat besar secara terdistribusi. Hadoop menggunakan model pemrograman MapReduce untuk pemrosesan data paralel. 2. Spark Kerangka kerja pemrosesan data cepat yang dapat digunakan untuk analisis data interaktif, analisis streaming, dan machine learning. Spark dapat bekerja lebih cepat daripada Hadoop karena memanfaatkan pemrosesan in-memory. 3. NoSQL Databases
26 - Basis data NoSQL, seperti MongoDB, Cassandra, dan HBase, cocok untuk menyimpan dan mengelola data semi-struktur atau tidak terstruktur yang biasanya ditemukan dalam Big Data. 4. Data Warehouse Teknologi seperti Amazon Redshift, Google BigQuery, dan Snowflake menyediakan penyimpanan data terpusat yang dioptimalkan untuk analisis data. 5. Machine Learning Algoritma machine learning digunakan untuk mengidentifikasi pola dan tren dalam data yang dapat digunakan untuk membuat prediksi atau pengambilan keputusan. 6. Data Visualization Tools Tools seperti Tableau, Power BI, dan Qlik memungkinkan pengguna untuk membuat visualisasi data interaktif yang membantu dalam memahami dan menjelaskan data. 7. Data Integration Tools Tools seperti Apache NiFi, Talend, dan Informatica digunakan untuk mengintegrasikan data dari berbagai sumber untuk analisis lebih lanjut. 8. Cloud Computing Layanan cloud seperti Amazon Web Services (AWS), Microsoft Azure, dan Google Cloud Platform menyediakan infrastruktur yang dapat diakses untuk menyimpan, mengelola, dan menganalisis data secara efisien. 9. Data Governance Tools
27 Tools ini membantu organisasi dalam mengelola data dengan memastikan kualitas data, keamanan, dan kepatuhan terhadap peraturan. Teknologi-teknologi ini memainkan peran penting dalam mendukung proses analisis data, terutama dalam konteks Big Data di mana volume, kecepatan, dan variasi data menjadi tantangan utama. C. Metode dan Algoritma Data Analitik Metode dan algoritma ini membantu dalam menganalisis data dengan lebih mendalam dan menghasilkan wawasan yang dapat digunakan untuk pengambilan keputusan yang lebih baik. Pemilihan metode dan algoritma yang tepat sangat bergantung pada jenis data yang miliki dan tujuan analisis. Beberapa metode dan algoritma yang umum digunakan yaitu: 1. Statistika Deskriptif Merangkum dan menggambarkan karakteristik dasar dari kumpulan data, seperti rata-rata, median, dan deviasi standar. 2. Statistika Inferensial Membuat inferensi tentang populasi berdasarkan sampel data, misalnya uji hipotesis dan interval kepercayaan. 3. Regresi Memodelkan hubungan antara variabel dependen dan independen dalam data. Regresi linier dan regresi logistik adalah contoh regresi yang umum digunakan. 4. Clustering
28 - Mengelompokkan data menjadi kelompokkelompok yang homogen berdasarkan karakteristik tertentu. Contoh algoritma clustering termasuk KMeans dan Hierarchical Clustering. 5. Classification Memprediksi kelas atau label dari data berdasarkan fitur-fiturnya. Contoh algoritma klasifikasi termasuk Decision Tree, Random Forest, dan Support Vector Machine (SVM). 6. Association Rule Learning Menemukan hubungan antara item-item dalam kumpulan data transaksional. Contoh algoritma termasuk Apriori dan FP-Growth. 7. Time Series Analysis Menganalisis data yang dikumpulkan secara berurutan dalam interval waktu tertentu untuk mengidentifikasi pola dan tren. 8. Anomaly Detection Mengidentifikasi anomali atau perilaku yang tidak biasa dalam data. Contoh algoritma termasuk Isolation Forest dan One-Class SVM. 9. Natural Language Processing (NLP) Memproses dan menganalisis teks dalam bentuk yang dapat dimengerti oleh komputer, seperti analisis sentimen dan pemrosesan bahasa alami. 10. Deep Learning Sebuah subbidang dari machine learning yang menggunakan jaringan saraf tiruan untuk belajar mewakili data yang kompleks dan mampu melakukan
29 tugas-tugas yang lebih kompleks, seperti pengenalan gambar dan pemrosesan bahasa alami. D. Tantangan dan Solusi Tantangan dalam data analitik dapat beragam tergantung pada konteksnya. Beberapa tantangan umum dalam data analitik seperti volume data, varietas, kecepatan, keakuratan, keamanan, integrasi data, serta kesesuaian hukum dan etika. Dalam hal volume data yang besar dan tumbuh dengan cepat dapat menjadi sulit untuk dikelola dan dianalisis dengan cara tradisional. Sebagai contoh, platform media sosial saat ini harus mengolah jumlah pesan yang mencapai miliaran setiap harinya. Di sektor industri dan energi, sistem sensor dapat menghasilkan data berukuran terabyte setiap hari (Santoso, 2020). Sedangkan dalam varietas data berasal dari berbagai sumber dan dalam berbagai format, termasuk data terstruktur, semi-terstruktur, dan tidak terstruktur. Dulu, data hanya bisa dikumpulkan dari spreadsheet dan database. Namun, sekarang data hadir dalam berbagai format, termasuk email, PDF, foto, video, audio, posting media sosial, dan banyak lagi. Begitu dengan kecepatan beberapa aplikasi memerlukan analisis real-time atau streaming data, yang memerlukan pemrosesan data yang cepat. Kecepatan dalam konteks data mengacu pada seberapa cepat data dihasilkan secara real-time. Dalam skala yang lebih luas, kecepatan mencakup tingkat perubahan data, kemampuan untuk
30 - menghubungkan berbagai set data dengan kecepatan yang berbeda, dan lonjakan aktivitas data. Mengenai keakuratan, data yang tidak akurat atau tidak lengkap dapat menghasilkan hasil analisis yang tidak dapat diandalkan. Tantangan dalam keamanan data membutuhkan perlindungan terhadap data penting dari akses yang tidak sah atau kehilangan. Seperti halnya integrasi data yaitu Menggabungkan data dari berbagai sumber menjadi satu set data yang koheren dan konsisten. Terkait kesesuaian dalam hukum dan etika diantaranya adalah memastikan bahwa penggunaan data mematuhi peraturan hukum dan etika yang berlaku. Solusi untuk mengatasi beberapa tantangan tersebut meliputi penggunaan teknologi yang tepat, seperti sistem manajemen basis data yang canggih, infrastruktur cloud, dan alat analitik yang kuat. Selain itu, penting untuk memiliki proses yang baik dalam pembersihan, integrasi, dan analisis data, serta untuk memastikan keamanan dan kepatuhan data. Dengan mengatasi tantangan ini, memungkinkan dapat memanfaatkan data mereka secara efektif untuk mendapatkan wawasan yang berharga dan mendukung pengambilan keputusan yang lebih baik. E. Studi Kasus Penjualan E-Commerce Sebagai contoh studi kasus data analitik, bagaimana sebuah perusahaan e-commerce menggunakan analisis data untuk meningkatkan penjualan dan pengalaman pelanggan mereka.
31 Perusahaan e-commerce menghadapi persaingan yang ketat dan ingin meningkatkan penjualan serta memperbaiki pengalaman pelanggan. Dalam hal ini diperlukan beberaa tahapan yaitu: 1. Pengumpulan Data Perusahaan mengumpulkan data transaksi, interaksi pelanggan, dan data lainnya dari berbagai sumber, termasuk website, aplikasi mobile, dan media sosial. 2. Analisis Data Data tersebut kemudian dianalisis menggunakan teknik analisis data, seperti segmentasi pelanggan, analisis asosiasi, dan analisis prediktif untuk mengidentifikasi pola pembelian, preferensi pelanggan, dan tren pasar. 3. Visualisasi Data Hasil analisis disajikan dalam bentuk visualisasi data yang mudah dipahami, seperti grafik dan dashboard interaktif, untuk membantu dalam pengambilan keputusan. 4. Implementasi Wawasan Berdasarkan wawasan yang diperoleh, perusahaan mengimplementasikan strategi pemasaran yang lebih terarah, promosi produk yang lebih efektif, dan perbaikan pada layanan pelanggan. Dari tahapan tersebut menghasilkan peningkatan penjualan dengan menggunakan data analitik untuk mengoptimalkan strategi pemasaran dan promosi, perusahaan berhasil meningkatkan penjualan secara signifikan. Selain itu, didapatkan pengalaman pelanggan
32 - yang lebih baik dengan memahami preferensi dan perilaku pelanggan, perusahaan dapat memberikan pengalaman yang lebih personal dan memuaskan bagi pelanggan. Serta efisiensi operasional dengan menganalisis data operasional, perusahaan dapat mengidentifikasi area di mana efisiensi dapat ditingkatkan, seperti manajemen persediaan dan logistik. Dengan menggunakan analisis data secara efektif, perusahaan e-commerce dapat mencapai keunggulan kompetitif dengan meningkatkan penjualan, memperbaiki pengalaman pelanggan, dan meningkatkan efisiensi operasional.
33 eknologi informasi diciptakan untuk membantu manusia dalam mengerjakan kegiatannya dalam sektor yang luas. Penggunaan teknologi informasi menghasilkan data dalam bentuk digital dalam bentuk yang beragam dan jumlah yang besar. Saat ini kita sudah berada di era dimana data adalah sebuah tambang emas bagi siapapun baik untuk bisnis maupun social dengan istilah big data. Menurut Marr (2016), big data pada dasarnya mengacu kepada sebuah fakta yang dapat kita kumpulkan dan analisis. Sedangkan menurut Erl, et al (2015) big data merupakan sebuah bidang ilmu yang menganalisis, memproses, dan menyimpan data dalam jumlah besar yang bersumber dari sumber yang terpisah. Dalam buku yang berjudul Big Data Principles and Paradigms oleh Buyya, et al. (2016), karakteristik big data yaitu terdiri dari velocity, variety, dan volume atau dikenal dengan istilah 3V. Dengan demikian dapat disimpulkan bahwa big data bukan hanya sekedar fakta, namun fakta yang memiliki karakter berupa pertumbuhan yang T
34 - cepat, jumlah yang besar, memiliki nilai, keragaman sumber, dan kesesuaian yang dapat dianalisis, diproses, dan disimpan untuk dapat ditemukan informasi tersembunyi. Pengolahan big data untuk menemukan informasi yang tersimpan didalamnya memerlukan proses analitik dengan melibatkan dataset dan proses persiapan data serta metode Machine Learning yang dikenal dengan istilah Big Data Analytics. Data analitik sudah dijelaskan pada Bab sebelumnya baik definisi maupun teknik dari data analitik itu sendiri. Machine Learning diperlukan untuk memproces data secara automatic untuk menemukan pattern dengan menggunakan Bahasa mesin. Hal ini dikarenakan data yang dikelola tidak dalam jumlah, jenis, dan kecepatan yang dapat diolah secara konvensional, tetapi sebaliknya. Big Data Analytics berbeda dengan cara pengolahan data menggunakan metode yang konvensional oleh karena volume, velocity, dan variety pada data. Menurut Erl, et al. (2015), perlu beberapa tahapan yang dilakukan untuk melakukan proses analisis pada data seperti yang digambarkan pada Error! Reference source not found. tentang tahap demi tahap dalam mengelola big data.
35 Gambar 1 Tahapan pada Big Data Analytics Berdasarkan Error! Reference source not found., terdapat Sembilan tahapan dalam melakukan analisis pada Big Data. Tahapan demi tahapan diperlukan untuk mengelola big data dimulai dengan perolehan data, preprocessing data, analisis dan penggunaan Kembali data. A. Business Case Evaluation Suatu siklus biasanya akan diawali dengan mempelajari kasus bisnis yang diangkat agar terdefinisi dengan baik. Dimulai dengan memahami proses bisnis dan dan kondisi dari data maupun project yang akan dianalisis. Tahap pertama adalah business case evaluation atau evaluasi kasus bisnis, yang dilakukan untuk menilai kelayakan dari kasus yang diangkat agar dapat ditentukan apakah permasalahan yang ditangani benar-benar merupakan sebuah permasalahan Big Data. Dalam melakukan evaluasi terhadap kasus yang diangkat, perlu menilai tujuan, manfaat, kelayakan, resiko dan alternatif, bahkan bila perlu hingga melakukan evaluasi terhadap biaya. Evaluasi kasus bisnis yang diangkat akan membantu dalam mengurangi resiko dan meningkatkan peluang keberhasilan dalam melakukan analisis pada data. Tujuan dilakukan evalusasi adalah untuk mendapatkan kasus atau project yang Specific, Measurable, Attainable, Relevant, dan Timely (SMART). B. Data Identification Data Identification atau Identifikasi terhadap data merupakan tahapan yang dilakukan setelah selesai
36 - mengevaluasi business case yang diangkat. Hal ini bertujuan untuk pengenalan dan memahami berbagai jenis data yang tersedia baik dari orgnisasi maupun lingkungan kerja. Selain itu, sumber data, variable, atribut, dan karakteristik data juga terlibat dalam proses pengenalan ini. Mengidentifikasi sumber data yang lebih beragam dapat meningkatkan peluang untuk menemukan pola dan korelasi tersembunyi dari data. Sumber data dapat berasal dari internal dan/atau eksternal pada organisasi. Data internal bisa berupa data operasional atau data yang dihasilkan dari proses operasional maupun data mart yang merupakan database penyimpanan data untuk analisis. Data eksternal dapat berupa kumpulan data publik maupun yang dikompilasi, yang berasal dari website, blog, API, dan berbagai aplikasi berbasis konten lainnya. C. Data Acquisition and Filtering Data acquisition and filtering atau Akuisisi data dan penyaringan pada data merupakan tahapan untuk mengumpulkan data dari berbagai sumber data yang diidentifikasi pada tahap sebelumnya. Setelah data diperoleh, dilakukan filtering atau penyaringan untuk menyaring data yang rusak atau data yang dianggap tidak memiliki nilai relevan dengan tujuan analisis. Jenis sumber data yang diakuisisi akan beragam bentuk, terutama data eksternal yang dari berbagai sumber seperti dari pihak ketiga maupun dari integrasi API. Pada banyak kasus, data eksternal biasanya dalam bentuk yang semi terstruktur atau bahkan tidak terstruktur. Bahkan
37 sumber data eksternal terkadang memiliki struktur, ukuran, bahasa, dan waktu yang berbeda dengan data internal. Data yang diperoleh bisa saja dalam kondisi rusak dan banyak noise sehingga dapat dibuang dan diabaikan dalam proses penyaringan. Terkadang data yang tereleminasi dari proses penyaringan dapat digunakan untuk analisis lain sehingga disarankan untuk menyimpan atau melakukan backup pada data yang diperoleh sebelum dilakukan filtering. D. Data Extraction Data yang sudah kumpulkan dan disaring akan menghasilkan format, ukuran, struktur, dan bentuk yang beragam. Beberapa data yang digunakan sebagai masukan mungkin dalam kondisi tidak kompatibel. Proses data extraction atau ekstraksi data dilakukan untuk mengubah format data menjadi yang bisa digunakan untuk Solusi Big Data Analytics. Proses ekstraksi yang juga bisa dikatakan sebagai proses transformasi data, digunakan sesuai kondisi data yang diperoleh. Misal, data yang dikumpulkan berupa data dalam format XML yang diektrak menjadi data yang mudah dibaca dalam bentuk tabel seperti pada Gambar 2. Data format XML merupakan data dalam bentuk semiterstruktur. Gambar 2 Ekstrak data XML ke data terstruktur
38 - Pada Gambar 2, sumber data XML menampilkan data tentang data transaksi beserta elemennya. Data tersebut diubah menjadi data terstruktur agar dapat diolah dan dianalisis sebagai Solusi Big Data Analytics. Contoh lain adalah dari format JSON yang mana data disimpan ke dalam bentuk Objek sehingga juga berbentuk semi-terstruktur. Agar bisa dilakukan analisis, perlu diekstrak menjadi data terstruktur. E. Data Validation and Cleaning Data validation and data cleaning atau validasi dan pembersihan data bertujuan untuk melakukan proses pembenaran dan mengeleminasi data sumber yang tidak valid dari data yang dikumpulkan. Prinsip pengelolaan big data yaitu jika data sumber yang diinputkan adalah data dalam kondisi yang kotor dan banyak kesalahan, maka akan menghasilkan informasi yang tidak tepat dan tidak valid. Selain validitas data, anomaly, dan redudansi pada data juga akan rentan terjadi. Terkadang situasi pada data yang redundan dapat dimanfaatkan sebagai salah satu cara untuk mengeksplorasi kumpulan data yang saling berhubungan guna menyusun parameter validasi dan mengisi data valid yang hilang. Validasi dan pembersihan data dapat dilakukan melalui operasi ETL (Extract, Transform, Loader). Untuk analisis yang bersifat real-time, diperlukan sistem memori yang lebih kompleks untuk memvalidasi dan membersihkan data yang berasal dati sumber. Data yang tampaknya tidak valid mungkin masih berharga karena mungkin memiliki pola dan tren yang tersembunyi.