41 # Menghapus baris yang memiliki satu nilai hilang df_dropped = df.dropna() print("Dataset setelah menghapus baris dengan nilai hilang:") print(df_dropped) Output dari dataset setelah menghapus baris dengan nilai hilang: Nama Umur Gaji 0 Alice 25.0 50000.0 4 Eva 50.0 60000.0 3. Pengisian Nilai (Imputation) Rata-rata (Mean) Metode ini mengisi nilai yang hilang dengan nilai pengganti, rata-rata (mean) kolom tersebut. #Mengisi nilai yang hilang dengan rata-rata kolom tersebut df_filled = df.copy() df_filled['Umur']= df_filled['Umur'].fillna(df_filled['Umur'].mean()) df_filled['Gaji'] = df_filled['Gaji'].fillna(df_filled['Gaji'].mean()) print("Dataset setelah imputasi nilai yang hilang dengan rata-rata:") print(df_filled) Output Dataset setelah imputasi nilai yang hilang dengan rata-rata:
42 Nama Umur Gaji 0 Alice 25.0 50000.000000 1 Bob 38.75 54666.666667 2 Charlie 35.0 54666.666667 3 David 45.0 54666.666667 4 Eva 50.0 60000.000000 4. Pengisian Nilai (Imputation) Median Sebelum melakukan imputasi, perlu menghitung median dari kolom yang memiliki nilai hilang. Dalam contoh ini, kolom "Umur" dan "Gaji" memiliki nilai yang hilang. # Menghitung median untuk setiap kolom median_umur = df['Umur'].median() median_gaji = df['Gaji'].median() print("Median Umur:", median_umur) print("Median Gaji:", median_gaji) Kemudian, mengisi nilai yang hilang (NaN) dengan median dari kolom tersebut. # Mengisi nilai yang hilang dengan median df['Umur'] = df['Umur'].fillna(median_umur) df['Gaji'] = df['Gaji'].fillna(median_gaji) print("Dataset Setelah Pembersihan:") print(df)
43 Output dari kode di atas akan menunjukkan dataset sebelum dan sesudah nilai yang hilang diisi dengan median: Dataset Sebelum Pembersihan: Nama Umur Gaji 0 Alice 25.0 50000.0 1 Bob NaN 54000.0 2 Charlie 35.0 NaN 3 David 45.0 NaN 4 Eva 50.0 60000.0 Median Umur: 40.0 Median Gaji: 55000.0 Dataset Setelah Pembersihan: Nama Umur Gaji 0 Alice 25.0 50000.0 1 Bob 40.0 54000.0 2 Charlie 35.0 55000.0 3 David 45.0 55000.0 4 Eva 50.0 60000.0 Menggunakan median sebagai metode pengisian nilai hilang adalah pendekatan yang biasa dipakai karena median kurang sensitif terhadap outlier dibandingkan rata-rata. Hal ini membuat median menjadi pilihan yang lebih robust, terutama untuk data yang mungkin tidak terdistribusi normal atau memiliki outlier (Fu & Zhang, 2024).
44 5. Pengisian Nilai (Imputation) dengan Modus Mengisi nilai yang hilang dengan modus (nilai yang paling sering muncul) adalah strategi yang sering digunakan terutama untuk data kategorikal atau data numerik yang diskrit. Modus sangat berguna ketika data memiliki distribusi yang tidak simetris atau ketika terdapat outlier yang bisa mempengaruhi ratarata atau median. a. Persiapan Dataset Dataset yang sama seperti sebelumnya dan tambahkan sebuah kolom kategorikal yang lebih lengkap: import pandas as pd import numpy as np # Membuat DataFrame data = { 'Nama': ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Alice'], 'Umur': [25, np.nan, 35, 45, 50, 25], 'Gaji': [50000, 54000, None, np.nan, 60000, 50000], 'Departemen': ['Keuangan', 'Keuangan', 'HR', np.nan, 'HR', 'Keuangan'] } df = pd.DataFrame(data) print("Dataset Sebelum Pembersihan:") print(df)
45 b. Menghitung Modus Kita perlu menghitung modus dari setiap kolom, termasuk kolom kategorikal. # Menghitung modus untuk setiap kolom modus_umur = df['Umur'].mode()[0] modus_gaji = df['Gaji'].mode()[0] modus_departemen = df['Departemen'].mode()[0] print("Modus Umur:", modus_umur) print("Modus Gaji:", modus_gaji) print("Modus Departemen:", modus_departemen) c. Mengisi Nilai yang Hilang dengan Modus Kemudian, kita akan mengisi nilai yang hilang (NaN) dengan modus dari masing-masing kolom. # Mengisi nilai yang hilang dengan modus df['Umur'] = df['Umur'].fillna(modus_umur) df['Gaji'] = df['Gaji'].fillna(modus_gaji) df['Departemen'] = df['Departemen'].fillna(modus_departemen) print("Dataset Setelah Pembersihan:") print(df) Output dari kode di atas akan menunjukkan dataset sebelum dan sesudah nilai yang hilang diisi dengan modus:
46 Dataset Sebelum Pembersihan: Nama Umur Gaji Departemen 0 Alice 25.0 50000.0 Keuangan 1 Bob NaN 54000.0 Keuangan 2 Charlie 35.0 NaN HR 3 David 45.0 NaN NaN 4 Eva 50.0 60000.0 HR 5 Alice 25.0 50000.0 Keuangan Modus Umur: 25.0 Modus Gaji: 50000.0 Modus Departemen: Keuangan Dataset Setelah Pembersihan: Nama Umur Gaji Departemen 0 Alice 25.0 50000.0 Keuangan 1 Bob 25.0 54000.0 Keuangan 2 Charlie35.0 50000.0 HR 3 David 45.0 50000.0 Keuangan 4 Eva 50.0 60000.0 HR 5 Alice 25.0 50000.0 Keuangan Menggunakan modus untuk mengisi nilai yang hilang sangat efektif untuk data yang memiliki mode yang jelas dan terdefinisi dengan baik, seperti data kategorikal atau data numerik yang banyak berulang. Ini membantu mempertahankan distribusi data asli, terutama ketika outlier atau distribusi yang tidak normal bisa mempengaruhi penggunaan mean atau median.
47 6. Mengatasi noise dan outliers Mengatasi noise dan outliers adalah bagian penting dari pembersihan data, terutama ketika data tersebut sangat berpengaruh terhadap hasil analisis. Dalam contoh ini, saya akan menggunakan dataset numerik sederhana dan menunjukkan bagaimana kita bisa mengidentifikasi serta mengatasi outliers (Zhu et al., 2018) menggunakan metode IQR (Interquartile Range). a. Persiapan Dataset Mari kita buat sebuah dataset sederhana yang mencakup beberapa outliers: import pandas as pd import numpy as np # Membuat DataFrame data = { 'Nama': ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Frank', 'Grace'], 'Umur': [25, 22, 23, 52, 28, 24, 120], # Notice the outlier ages 52 and 120 'Gaji': [50000, 48000, 51000, 49000, 53000, 47000, 58000] # Normal salaries } df = pd.DataFrame(data) print("Dataset Sebelum Pembersihan:") print(df)
48 b. Identifikasi Outliers Kita akan menggunakan metode IQR untuk mengidentifikasi outliers pada kolom "Umur". # Menghitung Q1 dan Q3 Q1 = df['Umur'].quantile(0.25) Q3 = df['Umur'].quantile(0.75) IQR = Q3 - Q1 # Mendefinisikan batas untuk outlier lower_bound = Q1 - 1.5 * IQR upper_bound = Q3 + 1.5 * IQR print(f"Lower Bound: {lower_bound}, Upper Bound: {upper_bound}") c. Mengatasi Outliers Kita akan menghapus baris yang mengandung outliers pada kolom "Umur". # Menghapus outliers df_cleaned = df[(df['Umur'] >= lower_bound) & (df['Umur'] <= upper_bound)] print("Dataset Setelah Menghapus Outliers:") print(df_cleaned) Output Ketika menjalankan script di atas, output yang dihasilkan akan seperti ini: Dataset Sebelum Pembersihan:
49 Nama Umur Gaji 0 Alice 25 50000 1 Bob 22 48000 2 Charlie 23 51000 3 David 52 49000 4 Eva 28 53000 5 Frank 24 47000 6 Grace 120 58000 Lower Bound: 14.5, Upper Bound: 37.5 Dataset Setelah Menghapus Outliers: Nama Umur Gaji 0 Alice 25 50000 1 Bob 22 48000 2 Charlie 23 51000 4 Eva 28 53000 5 Frank 24 47000 Dalam contoh ini, menghapus baris yang mengandung outliers. Alternatif lain termasuk mengganti outliers dengan median atau mean dari data yang tidak termasuk outliers, atau menggunakan metode statistik lain untuk menormalkan data. Pilihan strategi tergantung pada konteks data dan analisis yang akan dilakukan. Menghapus outliers bisa men-jadi pendekatan yang keras karena menghilangkan data, jadi biasanya dihindari kecuali benar-benar diperlukan. Untuk mengganti outliers dengan median, kita akan menggunakan dataset yang sama dan meng-
50 identifikasi outliers menggunakan metode IQR (Interquartile Range) seperti sebelumnya. Kemudian, kita akan mengganti nilai outlier tersebut dengan median dari kolom yang relevan. Berikut adalah langkah-langkah dan skrip Python yang dapat Anda gunakan: a. Persiapan Dataset Mari kita siapkan dataset yang sama seperti sebelumnya: import pandas as pd import numpy as np # Membuat DataFrame data = { 'Nama': ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Frank', 'Grace'], 'Umur': [25, 22, 23, 52, 28, 24, 120], # Notice the outlier ages 52 and 120 'Gaji': [50000, 48000, 51000, 49000, 53000, 47000, 58000] # Normal salaries } df = pd.DataFrame(data) print("Dataset Sebelum Pembersihan:") print(df) b. Identifikasi dan Penggantian Outliers Kita akan menggunakan median untuk mengganti outliers pada kolom "Umur".
51 # Menghitung Q1, Q3, dan IQR Q1 = df['Umur'].quantile(0.25) Q3 = df['Umur'].quantile(0.75) IQR = Q3 - Q1 # Mendefinisikan batas untuk outliers lower_bound = Q1 - 1.5 * IQR upper_bound = Q3 + 1.5 * IQR # Menghitung median dari data yang tidak outlier median_umur = df[(df['Umur'] >= lower_bound) & (df['Umur'] <= upper_bound)]['Umur'].median() # Mengganti outliers dengan median df['Umur'] = df['Umur'].apply(lambda x: median_umur if x < lower_bound or x > upper_bound else x) print("Dataset Setelah Mengganti Outliers dengan Median:") print(df) Output, ketika menjalankan script di atas, output yang dihasilkan akan seperti ini: Dataset Sebelum Pembersihan: Nama Umur Gaji 0 Alice 25 50000 1 Bob 22 48000 2 Charlie 23 51000 3 David 52 49000
52 4 Eva 28 53000 5 Frank 24 47000 6 Grace 120 58000 Dataset Setelah Mengganti Outliers dengan Median: Nama Umur Gaji 0 Alice 25 50000 1 Bob 22 48000 2 Charlie 23 51000 3 David 25 49000 # Outlier replaced by median 4 Eva 28 53000 5 Frank 24 47000 6 Grace 25 58000 # Outlier replaced by median Dalam contoh ini, menggunakan fungsi apply pada kolom "Umur" untuk mengganti nilai yang merupakan outliers dengan median dari nilai yang bukan outliers. Metode ini membantu menjaga integritas data dengan tidak menghilangkan data apapun dan menyediakan cara yang lebih stabil untuk menangani outliers, terutama jika data memiliki distribusi yang skewed atau tidak normal. Ini sering dianggap sebagai pendekatan yang lebih baik dibandingkan dengan menghapus data, terutama dalam kasus dataset yang kecil di mana setiap data point mungkin berharga.
53 7. Smoothing Smoothing atau penghalusan data merupakan teknik yang digunakan oleh penulis untuk mengurangi kebisingan dalam dataset, sehingga pola yang lebih mendasar dalam data dapat lebih mudah diidentifikasi. Teknik ini sangat berguna dalam dataset yang mengandung fluktuasi sementara atau variabilitas tinggi yang dapat mengaburkan hubungan sejati antar variabel. Penulis sering menggunakan metode smoothing seperti moving average, exponential smoothing, atau binning untuk mencapai hal ini. Moving average, misalnya, menghitung ratarata dari setiap subset dari dataset untuk meratakan fluktuasi jangka pendek dan menyoroti tren jangka panjang. Penggunaan exponential smoothing merupakan alternatif lain yang memberikan bobot yang menurun secara eksponensial terhadap nilai-nilai lama, sehingga nilai-nilai baru memiliki pengaruh yang lebih besar dalam rata-rata yang dihitung. Teknik ini sangat efektif untuk data time-series di mana tren terbaru lebih informatif daripada data lama. Binning, di sisi lain, adalah metode di mana data dikelompokkan ke dalam bin atau interval yang lebih besar, sehingga variasi minor antar data yang serupa dapat diabaikan, menghasilkan representasi yang lebih halus dari distribusi data. Penggunaan teknik smoothing ini memungkinkan penulis untuk menghasilkan visualisasi yang lebih bersih dan analisis yang lebih akurat, khususnya dalam memodelkan tren atau pola yang kompleks.
54 Untuk memberikan contoh pembersihan data menggunakan teknik smoothing pada sebuah dataset, menggunakan metode moving average, yang merupakan salah satu metode penghalusan data yang populer. Metode ini meratakan fluktuasi jangka pendek dan menyoroti tren jangka panjang dalam data. a. Persiapan Dataset Siapkan dataset sederhana yang menggambarkan nilai suatu variabel yang diukur setiap hari. Dataset ini sengaja akan saya buat dengan sedikit 'noise' untuk menunjukkan efektivitas metode moving average. import pandas as pd import numpy as np # Membuat DataFrame np.random.seed(0) dates = pd.date_range('20230101', periods=10) data = pd.DataFrame({ 'Tanggal': dates, 'Nilai': np.random.randn(10).cumsum() + 10 }) print("Dataset Sebelum Smoothing:") print(data) b. Mengaplikasikan Moving Average Menerapkan moving average dengan window sebesar 3 hari. Ini berarti nilai pada setiap hari akan
55 dihaluskan dengan mengambil rata-rata dari hari itu, satu hari sebelumnya, dan satu hari setelahnya. # Menggunakan moving average dengan window 3 data['Smoothed']=data['Nilai'].rolling(window=3, min_periods=1).mean() print("Dataset Setelah Smoothing:") print(data) Output dari skrip di atas akan menunjukkan dataset sebelum dan sesudah penghalusan: Dataset Sebelum Smoothing: Tanggal Nilai 0 2023-01-01 10.764052 1 2023-01-02 12.164210 2 2023-01-03 12.142948 3 2023-01-04 11.383481 4 2023-01-05 12.251461 5 2023-01-06 13.274714 6 2023-01-07 14.224209 7 2023-01-08 15.127844 8 2023-01-09 14.355180 9 2023-01-10 14.468368 Dataset Setelah Smoothing: Tanggal Nilai Smoothed 0 2023-01-01 10.764052 10.764052
56 1 2023-01-02 12.164210 11.464131 2 2023-01-03 12.142948 11.690403 3 2023-01-04 11.383481 11.896880 4 2023-01-05 12.251461 11.925963 5 2023-01-06 13.274714 12.303219 6 2023-01-07 14.224209 13.250128 7 2023-01-08 15.127844 14.208922 8 2023-01-09 14.355180 14.569075 9 2023-01-10 14.468368 14.650464 Dalam contoh ini, penggunaan pandas library di Python untuk melakukan smoothing dengan teknik moving average. Parameter window=3 menentukan jumlah hari yang digunakan untuk menghitung ratarata. Parameter min_periods=1 memastikan bahwa mendapatkan nilai rata-rata bahkan jika data di awal seri waktu tidak cukup untuk jendela yang ditentukan. Skrip ini mengilustrasikan bagaimana noise dalam data dapat dihaluskan untuk menyoroti tren yang lebih mendasar. 8. Clipping Clipping adalah teknik yang digunakan oleh penulis untuk membatasi rentang data dengan cara memotong nilai-nilai yang berada di luar batas tertentu yang telah ditentukan sebelumnya. Tujuan dari teknik ini adalah untuk mengurangi pengaruh outlier yang mungkin merusak analisis keseluruhan atau menyebabkan bias dalam hasil pengolahan data. Dalam praktiknya, penulis akan menetapkan ambang batas atas dan batas bawah; nilai-nilai data yang
57 melebihi ambang ini akan diatur ulang ke nilai batas tersebut. Misalnya, jika di dalam dataset keuangan seseorang ditemukan transaksi yang nilainya sangat tinggi dan tidak konsisten dengan transaksi lainnya, penulis mungkin akan menggunakan clipping untuk mengurangi distorsi statistik yang ditimbulkan oleh transaksi tersebut. Teknik clipping sering diterapkan dalam pengolahan sinyal dan pengolahan citra, di mana perlu membatasi range dari sinyal atau nilai piksel untuk menghindari distorsi yang disebabkan oleh noise atau error instrumen. Dalam konteks pengolahan data, clipping membantu dalam menstabilkan model prediktif dengan mengeliminasi variabel ekstrem yang dapat menyebabkan model menjadi overfit atau kurang general terhadap data baru. Selain itu, clipping juga digunakan untuk memastikan bahwa data masukan ke dalam algoritme machine learning berada dalam skala yang sesuai, sehingga algoritme dapat bekerja lebih efisien dan efektif. Meskipun clipping merupakan teknik yang berguna untuk mengatasi outlier dan noise, penulis harus berhati-hati dalam menggunakannya karena dapat mengubah distribusi data asli. Keputusan untuk memotong data harus didasarkan pada pemahaman yang mendalam tentang data tersebut dan konteks analisis yang akan dilakukan. Selain itu, penulis mempertimbangkan dampak dari penghilangan atau pengurangan outlier terhadap interpretasi dan kesimpulan yang dihasilkan. Clipping harus di-
58 aplikasikan dengan cara yang meminimalisir kehilangan informasi penting, sambil tetap mempertahankan keutuhan analisis data keseluruhan. Dengan demikian, clipping menjadi salah satu teknik dalam toolbox pembersihan data yang bisa sangat bermanfaat jika diterapkan dengan tepat. Untuk memberikan contoh pembersihan data menggunakan teknik clipping, kita akan menggunakan dataset sederhana yang memuat beberapa nilai yang bisa dianggap sebagai outliers. Teknik clipping akan digunakan untuk membatasi nilai-nilai ini ke dalam range tertentu yang kita tentukan. a. Persiapan Dataset Mari kita siapkan dataset yang menggambarkan nilai suatu variabel yang mungkin mengandung outliers: import pandas as pd import numpy as np # Membuat DataFrame data = { 'Nama': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'], 'Skor': [88, 92, 117, 95, 150] # Skor Charlie dan Eva adalah outliers } df = pd.DataFrame(data) print("Dataset Sebelum Clipping:") print(df)
59 b. Mengaplikasikan Clipping Kita akan menetapkan batas atas dan batas bawah untuk nilai Skor. Nilai yang melewati batas ini akan di- "clip" ke batas tersebut. Misalnya, kita akan menetapkan batas atas sebesar 100 dan batas bawah sebesar 85. # Menetapkan batas untuk clipping upper_limit = 100 lower_limit = 85 # Menggunakan clip() untuk membatasi nilai df['Clipped_Skor']=df['Skor'].clip(lower=lower_lim it, upper=upper_limit) print("Dataset Setelah Clipping:") print(df) Output dari skrip di atas akan menunjukkan dataset sebelum dan sesudah clipping dilakukan: Dataset Sebelum Clipping: Nama Skor 0 Alice 88 1 Bob 92 2 Charlie 117 3 David 95 4 Eva 150
60 Dataset Setelah Clipping: Nama Skor Clipped_Skor 0 Alice 88 88 1 Bob 92 92 2 Charlie 117 100 3 David 95 95 4 Eva 150 100 Clipping adalah cara efektif untuk menghandle outliers yang bisa merusak analisis lebih lanjut jika tidak diatasi. Dengan menetapkan nilai maksimum dan minimum, kita dapat memastikan bahwa data tidak terdistorsi oleh nilai ekstrem yang tidak representatif. Teknik ini khususnya berguna dalam dataset dengan variabel yang memiliki batasan logis, seperti skor tes, persentase, atau nilai yang berbasis skala tertentu. Skrip ini mengilustrasikan bagaimana clipping dapat diterapkan untuk memperbaiki distribusi data tanpa menghilangkan baris data secara keseluruhan, memungkinkan penulis untuk mempertahankan sebanyak mungkin informasi. 9. Binning Binning, yang juga dikenal sebagai bucketing, adalah teknik yang digunakan oleh penulis untuk mengurangi dampak dari kebisingan minor dalam dataset (Sousa et al., 2013). Teknik ini melibatkan proses pengelompokan sejumlah nilai data yang kontinu ke dalam sejumlah bin atau kategori yang lebih kecil, sehingga informasi yang lebih umum dan
61 kurang detail diperoleh. Misalnya, umur dalam dataset bisa dibagi menjadi kategori seperti '0-20', '21- 40', '41-60', dan seterusnya. Binning membantu dalam menyederhanakan model, meningkatkan keakuratan prediksi, dan memudahkan visualisasi data. Pengelompokan ini biasanya dilakukan pada data numerik tetapi bisa juga diterapkan pada data kategorikal dengan cara yang berbeda, tergantung pada tujuan analisis. Dalam prakteknya, binning dapat diterapkan melalui berbagai metode, salah satunya adalah binning berbasis lebar (equal-width binning) di mana rentang setiap bin memiliki lebar yang sama. Metode lainnya adalah binning berbasis kedalaman (equalfrequency binning), di mana setiap bin memiliki jumlah data elemen yang kurang lebih sama. Binning tidak hanya mengurangi kompleksitas data tetapi juga membantu dalam mengatasi masalah outlier dan nilai ekstrem dengan efektif. Selain itu, binning seringkali digunakan untuk mengubah data numerik menjadi kategorikal, sehingga metode statistik tertentu yang membutuhkan data kategorikal dapat diterapkan. Namun, binning juga memiliki beberapa kelemahan yang harus diperhatikan oleh penulis. Proses ini bisa mengakibatkan kehilangan informasi yang signifikan, terutama jika jumlah bin yang ditetapkan terlalu sedikit. Pemilihan jumlah dan ukuran bin yang tidak tepat dapat mengaburkan tren penting dalam data atau menghasilkan interpretasi yang salah. Oleh karena itu, sangat penting bagi penulis untuk mempertimbangkan dengan matang segala aspek
62 metodologi binning sebelum menerapkannya dalam dataset. Penulis harus menguji beberapa skenario binning dan memilih konfigurasi yang menyediakan keseimbangan terbaik antara keakuratan informasi dan generalisasi yang diperoleh dari data tersebut. Dengan demikian, binning, ketika dilakukan dengan benar, dapat menjadi alat yang sangat berguna dalam pre-processing data untuk analisis lebih lanjut. Untuk memberikan contoh pembersihan data menggunakan teknik binning, kita akan menggunakan dataset yang menggambarkan usia dari sekelompok individu. Teknik binning akan digunakan untuk mengkategorikan data usia ini ke dalam beberapa kelompok umur. a. Persiapan Dataset Mari siapkan dataset yang menggambarkan usia beberapa individu: import pandas as pd import numpy as np # Membuat DataFrame data = { 'Nama': ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Frank'], 'Usia': [22, 55, 13, 45, 25, 33]} df = pd.DataFrame(data) print("Dataset Sebelum Binning:") print(df)
63 b. Mengaplikasikan Binning Mengkategorikan usia ke dalam tiga kelompok: 'Muda', 'Dewasa', dan 'Senior'. Batas kelompok usia adalah sebagai berikut: 0-18 tahun ('Muda'), 19-35 tahun ('Dewasa'), 36 tahun ke atas ('Senior'). # Mendefinisikan batas usia untuk kategori bins = [0, 18, 35, np.inf] labels = ['Muda', 'Dewasa', 'Senior'] # Menggunakan cut() untuk mengkategorikan usia df['Kategori_Usia'] = pd.cut(df['Usia'], bins=bins, labels=labels) print("Dataset Setelah Binning:") print(df) Output dari skrip di atas akan menunjukkan dataset sebelum dan sesudah binning dilakukan: Dataset Sebelum Binning: Nama Usia 0 Alice 22 1 Bob 55 2 Charlie 13 3 David 45 4 Eva 25 5 Frank 33 Dataset Setelah Binning:
64 Nama Usia Kategori_Usia 0 Alice 22 Dewasa 1 Bob 55 Senior 2 Charlie 13 Muda 3 David 45 Senior 4 Eva 25 Dewasa 5 Frank 33 Dewasa Binning adalah teknik yang sangat bermanfaat untuk menyederhanakan data numerik yang kontinu ke dalam kategori yang lebih mudah dianalisis dan dipahami. Metode ini khususnya berguna dalam analisis data eksploratif dan visualisasi untuk menyoroti tren dalam kelompok yang berbeda. Dalam contoh ini, penggunaan fungsi `pd.cut()` memungkinkan kita untuk dengan mudah mengategorikan data berdasarkan usia ke dalam beberapa kelompok yang memiliki makna sosial atau demografis yang relevan. Metode ini juga membantu dalam mengurangi kepekaan model terhadap noise atau variasi kecil dalam data usia. 10. Koreksi data dan deteksi anomali Koreksi data dan deteksi anomali adalah dua proses penting yang dilakukan oleh penulis dalam rangka mempersiapkan dataset untuk analisis data yang lebih akurat dan terpercaya (Zhou et al., 2023), (Zhu et al., 2018). Koreksi data melibatkan identifikasi dan perbaikan kesalahan yang mungkin terjadi selama pengumpulan atau pengolahan data, seperti kesalahan entri, kesalahan format, atau ketidaklengkapan data.
65 Proses ini memastikan bahwa semua data yang digunakan dalam analisis bersih dari kesalahan yang dapat mengarah pada kesimpulan yang keliru. Sementara itu, deteksi anomali bertujuan untuk mengidentifikasi data yang menyimpang secara signifikan dari pola umum dataset, yang bisa menunjukkan adanya kesalahan atau kondisi khusus yang memerlukan analisis lebih lanjut. Deteksi anomali sangat penting karena anomali dapat mengindikasikan masalah dalam proses bisnis, kesalahan eksperimental, atau upaya penipuan, yang semuanya memerlukan perhatian khusus. Teknik yang digunakan untuk deteksi anomali bervariasi mulai dari metode statistik sederhana, hingga algoritma machine learning yang kompleks. Salah satu teknik statistik yang sering digunakan adalah analisis outlier, di mana data yang nilai statistiknya jauh dari rata-rata atau median grupnya dianggap sebagai anomali. Algoritma machine learning, seperti Isolation Forest atau One-Class SVM, juga populer karena kemampuannya dalam mendeteksi anomali dalam dataset besar dan kompleks dengan tingkat akurasi yang tinggi. Dalam proses koreksi data, penulis sering kali harus membuat keputusan mengenai data mana yang harus diubah atau dihapus. Keputusan ini tidak boleh diambil secara sembarangan karena bisa berdampak besar pada hasil analisis. Oleh karena itu, penulis harus menggunakan pendekatan yang sistematis dan terukur, seperti verifikasi data melalui sumber data tambahan atau konsultasi dengan ahli subjek. Koreksi
66 data bisa termasuk tugas-tugas seperti mengganti nilai yang hilang, mengoreksi kesalahan format, dan menyelaraskan entri data yang berkontradiksi, semua dilakukan dengan tujuan memastikan integritas data. Selanjutnya, penulis harus memastikan bahwa langkah-langkah yang diambil dalam deteksi dan koreksi anomali tidak menghilangkan informasi penting. Anomali bukan selalu menunjukkan kesalahan; dalam banyak kasus, mereka bisa menunjukkan penemuan yang berharga atau wawasan baru yang dapat membawa penelitian ke arah yang baru. Oleh karena itu, sangat penting untuk membedakan antara noise dan anomali yang sebenarnya memiliki makna dalam konteks data tersebut. Pemahaman mendalam tentang domain subjek dan data itu sendiri adalah kunci untuk melaksanakan proses ini dengan efektif, memastikan bahwa data yang digunakan dalam analisis mencerminkan kenyataan yang sebenarnya dengan seakurat mungkin. Untuk melanjutkan proses koreksi data dan deteksi anomali, penulis memerlukan alat dan teknologi yang memadai. Penggunaan perangkat lunak analisis data canggih yang dilengkapi dengan fitur deteksi anomali otomatis bisa sangat mempermudah tugas ini. Selain itu, visualisasi data melalui grafik scatterplot, boxplot dan histogram dapat membantu penulis dalam mengidentifikasi anomali secara visual. Visualisasi tidak hanya mempermudah pengenalan pola yang tidak biasa, tetapi juga memudahkan penulis dalam mengkomunikasikan temuan anomali kepada pihak lain yang mungkin mem-
67 butuhkan informasi tersebut untuk pengambilan keputusan atau perbaikan sistem. Selain metode-metode tradisional, pendekatan modern menggunakan algoritma pembelajaran mesin telah membuka dimensi baru dalam deteksi dan koreksi anomali. Algoritma seperti Neural Network (Hindarto, 2023), Autoencoders, dan Random Cut Forest telah terbukti efektif dalam mengidentifikasi data yang tidak hanya berbeda secara statistik, tetapi juga dalam hal pola kompleks yang mungkin tidak terdeteksi melalui metode statistik konvensional. Pendekatan ini sangat berguna di lingkungan dengan volume data yang sangat besar dan kompleksitas tinggi, di mana anomali sering kali sulit untuk didefinisikan hanya dengan menggunakan aturanaturan statistik sederhana. Akhirnya, dalam menerapkan proses koreksi dan deteksi anomali, penulis harus mempertimbangkan konteks dan implikasi etis dari manipulasi data. Transparansi dalam metodologi yang digunakan untuk deteksi dan koreksi adalah kunci untuk mempertahankan integritas penelitian. Penulis harus menyediakan dokumentasi yang memadai mengenai keputusan yang diambil selama proses pembersihan data, termasuk alasan mengapa data tertentu diubah atau dihapus. Hal ini tidak hanya membantu dalam memelihara kepercayaan terhadap hasil analisis, tetapi juga penting untuk audit dan review ilmiah di masa depan. Sehingga, koreksi dan deteksi anomali tidak hanya mendukung kualitas data, tetapi juga
68 memperkuat validitas dan reliabilitas keseluruhan penelitian. Untuk memberikan contoh pembersihan data yang melibatkan koreksi data dan deteksi anomali, kita akan menggunakan dataset sederhana yang mencakup kemungkinan kesalahan entri dan anomali. Kita akan mengidentifikasi anomali menggunakan metode statistik sederhana dan mengoreksi kesalahan yang ditemukan. a. Persiapan Dataset Mari kita siapkan dataset yang menggambarkan data pengukuran suhu (dalam Celsius) yang mungkin mengandung kesalahan entri: import pandas as pd import numpy as np # Membuat DataFrame data = { 'Tanggal': ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04', '2023-01-05', '2023-01-06'], 'Suhu': [22, -300, 19, 21, 20, 250] # -300 dan 250 adalah anomali } df = pd.DataFrame(data) print("Dataset Sebelum Koreksi:") print(df)
69 b. Deteksi Anomali Kita akan menggunakan IQR (Interquartile Range) untuk mengidentifikasi nilai-nilai yang dianggap sebagai anomali. # Menghitung Q1, Q3, dan IQR Q1 = df['Suhu'].quantile(0.25) Q3 = df['Suhu'].quantile(0.75) IQR = Q3 - Q1 # Mendefinisikan batas untuk outliers lower_bound = Q1 - 1.5 * IQR upper_bound = Q3 + 1.5 * IQR # Mendeteksi outliers outliers = df[(df['Suhu'] < lower_bound) | (df['Suhu'] > upper_bound)] print("Detected Outliers:") print(outliers) c. Koreksi Data Kita akan mengganti nilai anomali dengan median dari data yang tidak anomali. #Menghitung median dari data yang tidak anomali median_suhu = df[(df['Suhu'] >= lower_bound) & (df['Suhu'] <= upper_bound)]['Suhu'].median()
70 # Mengganti outliers dengan median df.loc[(df ['Suhu'] < lower_bound) | (df['Suhu'] > upper_bound), 'Suhu'] = median_suhu print("Dataset Setelah Koreksi:") print(df) Output dari skrip di atas akan menunjukkan dataset sebelum dan sesudah koreksi dilakukan, serta anomali yang terdeteksi: Dataset Sebelum Koreksi: Tanggal Suhu 0 2023-01-01 22 1 2023-01-02 -300 2 2023-01-03 19 3 2023-01-04 21 4 2023-01-05 20 5 2023-01-06 250 Detected Outliers: Tanggal Suhu 1 2023-01-02 -300 5 2023-01-06 250 Dataset Setelah Koreksi: Tanggal Suhu 0 2023-01-01 22.0 1 2023-01-02 20.5 2 2023-01-03 19.0 3 2023-01-04 21.0
71 4 2023-01-05 20.0 5 2023-01-06 20.5 Dalam contoh ini, deteksi dan koreksi anomali dilakukan menggunakan metode statistik sederhana. Mengganti nilai anomali dengan median memastikan bahwa data tetap konsisten dan tidak terdistorsi oleh nilai ekstrem. Pendekatan ini cukup efektif untuk dataset kecil dan masalah sederhana. Namun, untuk data yang lebih kompleks atau jika keakuratan sangat kritikal, pertimbangan lebih lanjut dan metode yang lebih robust mungkin diperlukan.
72 Analisis Deskriptif dan Inferensial Dr. Nur Putri Erdianti, SKM., MKM tatistik deskriptif dan inferensial merupakan dua kategori utama dalam statistik. Statistik deskriptif menggambarkan kumpulan data untuk sekelompok objek, pengamatan, atau orang tertentu. Mereka tidak berusaha menggeneralisasi di luar serangkaian observasi. Statistik inferensial menggunakan kumpulan data untuk membuat kesimpulan populasi yang lebih besar dari mana sampel diambil. Statistik ini menggeneralisasi melampaui observasi spesifik yang ada dalam kumpulan data ke kelompok atau populasi yang lebih besar. A. Analisis Deskriptif Analisis deskriptif adalah metode analisis data yang bertujuan untuk menggambarkan, menampilkan, dan merangkum sekumpulan data. Jenis analisis ini menjadi populer karena kemampuannya dalam menjelaskan perubahan dari waktu ke waktu dan tujuannya untuk mengidentifikasi tren serta pola dalam data. Pada S
73 penelitian, seorang analis akan mulai dengan melakukan pencarian informasi dari data mentah dan memahami kejadian yang ada di dalamnya. Proses ini dilakukan menggunakan analisis deskriptif. 1. Manfaat Analisis Deskriptif Analisis deskriptif berfokus pada upaya untuk menjelaskan atau menggambarkan data secara ringkas. Meskipun tidak bertujuan untuk meramalkan masa depan, analisis ini tetap memiliki nilai yang tinggi dalam konteks bisnis. Hal ini terutama karena kemampuannya dalam mempermudah pemanfaatan data, sehingga memfasilitasi pengambilan keputusan bagi para analis. Manfaat lain dari analisis deskriptif adalah membantu dalam menyaring data yang kurang signifikan. Hal ini disebabkan oleh fokus teknik statistik yang digunakan dalam analisis ini pada pola data, bukan pada data yang menyimpang. Analisis deskriptif berupaya menguraikan dan menggambarkan data yang telah terhimpun sebelumnya. Meskipun belum dapat memprediksi masa depan, analisis ini berperan dalam merangkum informasi dan membuatnya lebih mudah dipahami. Selain itu, manfaat dari penggunaan analisis deskriptif adalah dalam membantu memilah data yang tidak relevan. Teknik statistik yang diterapkan dalam analisis deskriptif cenderung fokus pada pola data, sehingga mempermudah dalam mengenali informasi yang tidak sesuai.
74 2. Jenis Analisis Deskriptif Analisis deskriptif dapat dibagi menjadi empat kategori: ukuran frekuensi, tendensi sentral, dispersi atau variasi, dan ukuran posisi. Ukuran Frekuensi: Pada analisis deskriptif, penting untuk memahami seberapa sering suatu peristiwa atau respons tertentu terjadi. Inilah tujuan pengukuran frekuensi, seperti hitungan atau persen. Misalnya, survei yang menanyakan 1.000 peserta tentang rasa susu favorit mereka. Daftar 1.000 tanggapan akan sulit untuk dipahami, namun datanya dapat dibuat lebih mudah diakses dengan mengukur berapa kali rasa tertentu dipilih. Ukuran Tendensi Sentral: Pada analisis deskriptif, penting juga untuk mengetahui peristiwa atau respons utama (atau rata-rata). Ukuran tendensi sentral yang umum mencakup tiga rata-rata — mean, median, dan mode. Sebagai contoh, perhatikan survei yang mengukur berat badan 1.000 orang. Dalam hal ini, rata-rata rata-rata akan menjadi metrik deskriptif yang sangat membantu. Ukuran Dispersi: Sesekali, penting untuk memahami bagaimana data tersebar di dalam suatu kisaran. Untuk mengilustrasikannya, pertimbangkan tinggi rata-rata dalam sampel dua orang. Jika kedua individu beratnya 60 kg, berat rata-ratanya adalah 60 kg. Namun, jika satu individu beratnya 55 kg kaki dan yang lainnya 65 kg, berat rata-ratanya tetap 60 kg. Untuk mengukur distribusi semacam ini, ukuran
75 dispersi seperti rentang atau deviasi standar dapat digunakan. Ukuran Posisi: Analisis deskriptif dapat melibatkan identifikasi posisi suatu peristiwa atau respons dalam kaitannya dengan peristiwa atau respons lainnya. Di sinilah ukuran seperti persentil dan kuartil digunakan. 3. Cara Melakukan Analisis Deskriptif Seperti halnya dalam banyak analisis data lainnya, analisis deskriptif dapat memiliki sifat yang fleksibel. Artinya, Anda memiliki kebebasan untuk menentukan apa yang ingin Anda teliti dalam analisis Anda. Namun, umumnya, proses analisis deskriptif melibatkan beberapa langkah yang konsisten. a. Mengumpulkan data Tahap awal dalam setiap analisis data adalah mengumpulkan informasi. Ada berbagai metode yang dapat digunakan untuk melakukan ini, tetapi survei dan pengukuran tradisional sering menjadi pilihan yang efektif. b. Data bersih Langkah krusial lain dalam analisis data deskriptif dan varian lainnya adalah melakukan pembersihan data. Hal ini diperlukan karena data bisa memiliki format yang sulit diolah, sehingga menyulitkan analisis statistik. Tahap pembersihan ini bisa melibatkan perubahan format data, pengelompokan, dan/atau penghapusan data yang tidak representatif atau outlier.
76 c. Terapkan metode Pada analisis deskriptif, dilakukan penerapan metode statistik yang sesuai untuk mencapai kesimpulan yang diinginkan. Pilihan metode tersebut akan disesuaikan dengan jenis data yang Anda kerjakan dan tujuan analisis Anda. Jika perlu, periksa kembali empat jenis metode analisis deskriptif yang telah dijelaskan sebelumnya. 4. Kapan Melakukan Analisis Deskriptif Analisis deskriptif sering kali digunakan ketika mengevaluasi data masa lalu atau saat ini. Ini karena data mentah seringkali sulit untuk dipahami dan diinterpretasikan, sedangkan metrik yang disajikan oleh analisis deskriptif lebih jelas. Analisis deskriptif juga dapat digunakan sebagai langkah awal sebelum melakukan analisis diagnostik atau prediktif. Ini memberikan pemahaman tentang apa yang telah terjadi di masa lalu sebelum mencoba menjelaskan mengapa hal tersebut terjadi atau memperkirakan apa yang mungkin terjadi di masa depan. 5. Parameter Populasi Parameter adalah nilai yang mencerminkan karakteristik keseluruhan populasi, seperti rata-rata populasi. Karena jarang dimungkinkan untuk mengukur seluruh populasi, sering kali kita tidak mengetahui nilai sebenarnya dari parameter tersebut. Sebagai akibatnya, nilai parameter sering kali tidak diketahui. Meskipun demikian, nilai parameter tetap ada. Dalam proses ini, kita mempelajari bahwa jenis
77 kelamin adalah subpopulasi penting yang terkait dengan tinggi badan, yang meningkatkan pemahaman kita tentang subjek tersebut. Dalam penelitian lebih lanjut tentang tinggi badan, kita dapat memasukkan jenis kelamin sebagai variabel. Itulah cara para ilmuwan mempertimbangkan pertanyaan penelitian dan memperluas pengetahuan mereka. Misalkan kita sekarang mempelajari lebih lanjut tentang wilayah studi dan memasukkan pria dan wanita sebagai subpopulasi. Hasilnya bisa seperti ini: sebagai contoh, rata-rata tinggi badan wanita dewasa di Amerika Serikat adalah sebuah parameter yang memiliki nilai pasti—walaupun kita tidak mengetahui nilai sebenarnya. Walaupun kita tidak pernah memiliki informasi pasti tentang nilai parameter populasi ini, kita bisa menggunakan statistik inferensial untuk membuat perkiraan dan menyertakan margin kesalahan. 6. Contoh Analisis Deskriptif Sebagai contoh analisis deskriptif, pertimbangkan sebuah perusahaan asuransi yang sedang memeriksa basis pelanggannya. Perusahaan asuransi mungkin memiliki data mengenai beberapa karakteristik pelanggan, seperti jenis kelamin, usia, dan kewarganegaraan. Untuk mendapatkan pemahaman yang lebih baik tentang profil pelanggan mereka, perusahaan asuransi dapat menggunakan analisis deskriptif.
78 Mereka dapat menggunakan ukuran frekuensi untuk melihat berapa banyak pelanggan yang berusia di bawah suatu rentang tertentu; ukuran tendensi pusat untuk mengetahui karakteristik mayoritas pelanggan; ukuran penyebaran untuk melihat variasi dalam usia pelanggan, misalnya; dan akhirnya, ukuran posisi untuk membandingkan segmen pelanggan berdasarkan karakteristik tertentu. B. Analisis Inferensial Statistik inferensial, atau analisis inferensial, adalah metode yang digunakan untuk menarik kesimpulan dari sampel yang mewakili populasi yang lebih besar. Analisis ini dilakukan dengan memeriksa sampel acak dari data yang lebih luas, seperti populasi besar, dan kemudian membuat kesimpulan yang berlaku untuk seluruh populasi tersebut. Keakuratan analisis inferensial sangat bergantung pada seberapa representatif dan akurat data sampel tersebut. Ini berlaku untuk berbagai jenis populasi, seperti sekelompok individu, wilayah geografis, atau fasilitas kesehatan. Teknik analisis inferensial memungkinkan analis bekerja dengan sampel yang lebih kecil daripada populasi keseluruhan. Sampel yang representatif harus cukup besar untuk memberikan hasil yang signifikan secara statistik, tetapi tetap cukup kecil untuk dianalisis secara praktis. Karena analisis inferensial berfokus pada prediksi dari pada pernyataan fakta, hasilnya biasanya berbentuk
79 probabilitas. Analisis inferensial adalah salah satu teknik yang paling berguna untuk memprediksi bagaimana kumpulan data akan diskalakan. Teknik ini juga membantu menetapkan standar untuk pengujian hipotesis. 1. Jenis Analisis Inferensial a. Analisis Regresi Analisis regresi digunakan untuk mengukur bagaimana satu variabel berubah sehubungan dengan variabel lain. Metode ini memungkinkan analis memprediksi nilai variabel dependen berdasarkan nilai variabel independen. Ada berbagai jenis regresi yang dapat digunakan, seperti regresi linier sederhana, linier berganda, nominal, logistik, dan ordinal. Namun, regresi linier adalah yang paling umum dalam analisis inferensial. Regresi linier meneliti pengaruh variabel independen terhadap variabel dependen. Regresi analisis adalah metode dalam statistika yang digunakan untuk meramalkan hubungan antara variabel, yaitu variabel dependen dan independen. Melalui metode ini, analis dapat menilai kekuatan prediksi yang dihasilkan. Selain itu, regresi analisis juga digunakan untuk memperkirakan dampak dan tren. Dalam konteks bisnis, regresi analisis berguna untuk mengidentifikasi faktor-faktor yang paling penting bagi perusahaan, menentukan faktor yang dapat diabaikan, serta memahami bagaimana faktorfaktor tersebut saling berinteraksi.
80 Analisis regresi mengolah dan menganalisis data untuk menjadi dasar dalam pengambilan keputusan bisnis yang lebih baik. Analisis regresi berfungsi untuk: 1) Meramalkan penjualan dalam jangka pendek dan panjang. 2) Memahami dinamika permintaan dan penawaran. 3) Menilai tingkat persediaan. 4) Meninjau dan memahami bagaimana variabel-variabel saling mempengaruhi. 2. Jenis-jenis Regresi: a. Regresi Linier Regresi linier adalah jenis regresi yang paling sederhana untuk memahami hubungan antara variabel dependen dan variabel independen. Terdapat dua model dalam regresi linier: model regresi linier sederhana (satu variabel dependen dan satu variabel independen) dan model regresi linier berganda (satu variabel dependen dan beberapa variabel independen). Dengan regresi linier, bisnis dapat lebih mudah mengevaluasi tren, membuat perkiraan, dan mendapatkan wawasan tentang perilaku konsumen. b. Regresi Logistik Regresi logistik adalah jenis regresi yang digunakan untuk mengklasifikasikan data, seperti ya atau tidak, benar atau salah, lulus atau gagal. Variabel dependen dalam regresi logistik hanya bisa
81 mengambil salah satu dari dua nilai. Regresi logistik membentuk kurva sigmoid (berbentuk huruf S) untuk menunjukkan hubungan antara variabel dependen dan variabel independen. Regresi ini cocok untuk digunakan pada data besar dengan nilai kejadian yang hampir sama. c. Regresi Polinomial Regresi polinomial digunakan untuk menunjukkan hubungan non-linier antara variabel dependen dan independen. Teknik analisis dalam regresi polinomial mirip dengan regresi linier berganda, tetapi lebih fleksibel dan mampu memodelkan hubungan yang lebih kompleks. Regresi polinomial memproses data yang tidak dapat dipisahkan secara linier, menghasilkan kurva berupa garis lengkung (non-linier). d. Regresi Ridge Regresi ridge digunakan ketika data menunjukkan adanya hubungan yang kuat antara dua atau lebih variabel (multikolinearitas). Artinya, jika satu variabel independen berubah, variabel lain juga ikut berubah. Regresi ridge adalah teknik regularisasi yang mengurangi kompleksitas model. Ini membantu memecahkan masalah ketika analis memiliki lebih banyak parameter daripada sampel. e. Regresi Lasso Lasso adalah singkatan dari least absolute shrinkage and selection operator. Mirip dengan regresi ridge, regresi lasso juga merupakan teknik
82 untuk mengurangi kompleksitas model. Bedanya, regresi ridge menggunakan nilai kuadrat, sehingga koefisiennya hanya bisa mendekati nol, sedangkan regresi lasso menggunakan nilai mutlak, memungkinkan koefisien benar-benar mencapai nol. Keunggulan regresi lasso adalah kemampuannya dalam menyeleksi variabel independen pada model, sehingga hanya variabel-variabel tertentu yang masuk dalam model. 3. Uji Hipotesis Pengujian hipotesis adalah jenis analisis inferensial yang digunakan untuk menguji asumsi dan menarik kesimpulan tentang populasi berdasarkan data sampel. Untuk mendapatkan kesimpulan yang valid, hipotesis atau prediksi diuji menggunakan uji statistik. Pengujian ini melibatkan hipotesis nol dan hipotesis alternatif. a. Macam-macam hipotesis yaitu: 1) Hipotesis Nol: Hipotesis ini menyatakan bahwa tidak ada hubungan antara dua variabel. 2) Hipotesis Alternatif: Hipotesis ini menyatakan bahwa variabel independen mempengaruhi variabel dependen. Hipotesis ini digunakan bersama dengan hipotesis nol dan menyatakan kebalikannya. 3) Hipotesis Asosiatif dan Kasual: Hipotesis asosiatif menggambarkan hubungan saling ketergantungan antara variabel-variabel.
83 Hipotesis ini memprediksi bahwa perubahan dalam satu variabel menyebabkan perubahan pada variabel lain. Sementara itu, hipotesis kasual menyatakan hubungan sebab-akibat antara dua atau lebih variabel. 4) Hipotesis Kompleks: Hipotesis ini menunjukkan banyak hubungan antara lebih dari dua variabel, seperti dua variabel independen dan satu variabel dependen. Misalkan kita mempelajari efektivitas pengobatan baru dengan membandingkan hasil pada kelompok perlakuan dan kelompok kontrol. Uji hipotesis dapat memberi tahu kita apakah efek obat, yang merupakan perbedaan rata-rata antara kelompok perlakuan dan kelompok kontrol, yang kita amati dalam sampel, kemungkinan besar ada dalam populasi. Ada kemungkinan bahwa efek sampel merupakan kesalahan acak dan bukan efek nyata. Lagi pula, kami tidak ingin menggunakan obat tersebut jika hanya efektif pada sampel spesifik kami. Sebaliknya, kita memerlukan bukti bahwa ini akan berguna pada seluruh populasi pasien. Uji hipotesis memungkinkan kita menarik kesimpulan tentang keseluruhan populasi. 4. Interval Kepercayaan Tujuan utama analisis inferensial adalah memperkirakan parameter populasi yang umumnya tidak diketahui. Interval kepercayaan membantu memperkirakan tingkat akurasi sampel dalam menggambarkan parameter populasi. Setiap interval kepercayaan memiliki tingkat kepercayaan yang
84 menunjukkan probabilitas dalam bentuk persentase. Misalnya, interval kepercayaan 95% berarti jika pengujian dilakukan 100 kali dengan sampel baru dalam kondisi yang sama, maka estimasi akan akurat sekitar 95 kali. 5. Contoh Analisis Inferensial Berikut adalah contoh penggunaan analisis inferensial. Rina ingin membuka toko roti di Bogor. Untuk menentukan daftar menu yang akan dijual, ia melakukan survei terhadap 400 warga setempat untuk mengetahui selera dan preferensi mereka. Survei ini mencakup responden dari berbagai kelompok usia, jenis kelamin, dan tingkat pendapatan. Hasil survei menunjukkan: a. 60% perempuan menyukai croissant. b. 45% dari total responden menyukai donat. c. 95% orang dewasa menyukai bolu keju. d. 30% remaja menyukai cookies. Hasil ini diperoleh melalui analisis inferensial. Berdasarkan hasil survei ini, Rina memutuskan untuk memasukkan semua jenis roti tersebut ke dalam daftar menunya guna menarik pelanggan. Ia membuat kesimpulan atau generalisasi berdasarkan jawaban dari survei tersebut. Selain itu, Rina juga berencana menambahkan kue baru yang inovatif untuk memberikan pengalaman yang lebih kaya kepada pelanggannya.
85 Regresi dan Korelasi dalam Data Mining Erni Rihyanti, S.Si., M.M A. Regresi 1. Definisi Regresi Analisis regresi adalah salah satu teknik statistik yang paling umum digunakan dalam ilmu sosial dan perilaku serta ilmu fisika yang melibatkan identifikasi dan evaluasi hubungan antara variabel terikat dan satu atau lebih variabel bebas, yang juga disebut variabel prediktor atau penjelas. Hal ini sangat berguna untuk menilai dan menyesuaikan perancu. Model hubungan dihipotesiskan dan estimasi nilai parameter digunakan untuk mengembangkan persamaan regresi estimasi. Berbagai pengujian kemudian dilakukan untuk menentukan apakah model tersebut memuaskan. Jika model dianggap memuaskan, persamaan regresi yang diestimasi dapat digunakan untuk memprediksi nilai variabel terikat mengingat nilai variabel bebas.
86 Regresi linier mengeksplorasi hubungan yang dapat dengan mudah digambarkan dengan garis lurus atau generalisasinya ke berbagai dimensi. Sejumlah besar permasalahan dapat diselesaikan dengan regresi linier, dan terlebih lagi dengan transformasi variabel asli yang menghasilkan hubungan linier di antara variabel-variabel yang ditransformasikan. Bila terdapat satu variabel terikat kontinu dan satu variabel bebas, analisisnya disebut analisis regresi linier sederhana. Analisis ini mengasumsikan adanya hubungan linier antara kedua variabel. Regresi berganda adalah mempelajari lebih jauh hubungan antara beberapa variabel bebas atau prediktor dengan suatu variabel terikat atau kriteria. Variabel independen merupakan karakteristik yang dapat diukur secara langsung; variabel-variabel ini disebut juga variabel prediktor atau penjelas yang digunakan untuk memprediksi atau menjelaskan perilaku variabel terikat. Variabel terikat adalah suatu karakteristik yang nilainya bergantung pada nilai variabel bebas. 2. Keandalan dan Validitas: a. Apakah model tersebut masuk akal secara intuitif? Apakah modelnya mudah dipahami dan diinterpretasikan? b. Apakah semua koefisien signifikan secara statistik? (nilai p kurang dari 0,05) c. Apakah tanda-tanda yang berhubungan dengan koefisien sudah sesuai dengan yang diharapkan?
87 d. Apakah model memperkirakan nilai yang mendekati nilai sebenarnya? e. Apakah modelnya cukup baik? (R-kuadrat tinggi, kesalahan standar rendah, dll.) 3. Tujuan Analisis Regresi Analisis regresi digunakan untuk menjelaskan variabilitas variabel terikat melalui satu atau lebih variabel bebas atau kontrol dan untuk menganalisis hubungan antar variabel yang akan dijawab; pertanyaan tentang seberapa besar perubahan variabel terikat seiring dengan perubahan masing-masing variabel bebas, dan untuk meramalkan atau memprediksi nilai variabel terikat berdasarkan nilai variabel bebas. Tujuan utama regresi adalah untuk mengembangkan hubungan linier antara variabel respons dan variabel penjelas untuk tujuan prediksi, dengan asumsi adanya hubungan linier fungsional, dan pendekatan alternatif (regresi fungsional) lebih unggul. 4. Analisis Asumsi Regresi a. Model regresi didasarkan pada asumsi-asumsi berikut. 1) Hubungan antara variabel independen dan dependen bersifat linier. 2) Nilai yang diharapkan dari istilah kesalahan adalah nol
88 3) Varians istilah kesalahan adalah konstan untuk semua nilai variabel independen, asumsi homoskedastisitas. 4) Tidak ada autokorelasi. 5) Variabel independen tidak berkorelasi dengan error term. 6) Istilah kesalahan berdistribusi normal. 7) Pada selisih rata-rata antara nilai observasi (yi) dan nilai prediksi (ˆyi) adalah nol. 8) Rata-rata nilai taksiran kesalahan dan nilai variabel independen tidak berhubungan satu sama lain. 9) Perbedaan kuadrat antara nilai observasi dan nilai prediksi serupa. 10) Ada beberapa variasi dalam variabel independen. Jika ada lebih dari satu variabel didalamnya persamaannya, maka dua variabel tidak boleh berkorelasi sempurna. b. Intersep atau Konstan 1) Intersep adalah titik di mana regresi memotong sumbu y. 2) Intercept memberikan ukuran tentang ratarata variabel terikat ketika kemiringannya nol. 3) Jika kemiringan tidak nol maka titik potong sama dengan rata-rata variabel terikat di-
89 kurangi kemiringan × rata-rata variabel bebas. c. Lereng 1) Perubahan adalah variabel terikat sebagaimana kita mengubah variabel bebas. 2) Zero Slope artinya variabel independen tidak mempunyai pengaruh terhadap variabel dependen variabel. 3) Untuk model linier, kemiringan tidak sama dengan elastisitas. Itu karena; elastisitas adalah persen perubahan variabel terikat, akibatnya perubahan variabel bebas sebesar satu persen. 5. Model Regresi Sederhana Regresi linier sederhana adalah metode statistik yang memungkinkan kita merangkum dan mempelajari hubungan antara dua variabel kontinu (kuantitatif). Dalam hubungan sebab akibat, variabel bebasnya adalah sebab, dan variabel terikatnya adalah akibat. Regresi linier kuadrat terkecil adalah suatu metode untuk memprediksi nilai variabel terikat y berdasarkan nilai variabel bebas x. a. Satu variabel, dilambangkan (x), dianggap sebagai prediktor, penjelas, atau independen variabel. b. Variabel lainnya, dilambangkan (y), dianggap sebagai respons, hasil, atau dependen variabel.
90 Secara matematis, model regresi diwakili oleh persamaan berikut: dimana : x = variabel bebas. y = variabel terikat. n = Jumlah kasus atau individu. = Kemiringan garis regresi. = Titik potong garis regresi dan sumbu y. ̅ ̅ = Jumlah hasil kali variabel terikat dan bebas. = Jumlah variabel bebas. = Jumlah variabel terikat. = Jumlah kuadrat variabel bebas. 6. Model Regresi Berganda Regresi berganda merupakan perpanjangan dari regresi linier sederhana. Digunakan ketika kita ingin memprediksi nilai suatu variabel terikat (variabel target atau kriteria) berdasarkan nilai dua atau lebih variabel bebas (variabel prediktor atau penjelas). Regresi berganda memungkinkan Anda menentukan kecocokan keseluruhan (penjelasan varians) model dan kontribusi relatif masing- masing prediktor terhadap total varians yang dijelaskan.