89 Analisis Text Mining dalam Data Learning Ardiansyah, M.Kom erkembangan teknologi yang semakin baik dalam beberapa tahun terakhir memberikan tersedia banyak informasi yang tersebar secara luas dapat berupa gambar, dokumen, teks dan lainnya. Penggunaan internet menjadi hal yang mendorong penyebaran informasi yang masif seperti penggunaan perangkat Smartphone terhadap social media ataupun aplikasi mobile (Žcže[ et al., 2019). Dengan demikian disiplin ilmu teks mining menjadi popular digunakan untuk mengkestrak informasi dari teks (Aggarwal, 2015). Berikut beberapa pengertian teks mining sebagai berikut: 1. Text Mining atau penambangan teks merupakan proses penggalian informasi dengan memanfaatkan teks yang telah di identifikasi dan eksplorasi pola danri teks (Feldman and Sanger, 2007). 2. Teks mining merupakan ektrasi pengetahuan dan pengklasifikasian, pengelompokan, entitas, relasi dari teks P
90 tidak terstruktur dari berbagai sumber seperti situs web maupun dokumen (Kao and Poteet, 2007). 3. Teks mining merupakan pencarian informasi lanjutan secara traditional yang diakibatkan pertumbuhan data untuk menemukan sebuah pola. Penggunaan teks mining untuk memberikan prespektif lain kepada pengambil keputusan berdasarkan teks (Aggarwal and Zhai, 2012). Selanjutnya, teks mining sendiri memiliki beberapa keuntungan yaitu: dapat memberikan insight baru untuk berbagai bidang, memberikan sudut pandang lebih dalam hipotesa, membantu dalam pembuatan kebijakan berdasarkan tren dan lainnya (Verma et al., 2015). Selain itu teks mining juga memiliki beberapa tantangan adalah kompleksitas bahasa alami atau bahasa manusia. Penggunaan bahasa berupa teks memiliki tingkat ambiguitas dan bias yang tinggi terhadap sebuah makna sesungguhnya. Hal tersebut dikarenakan teks mampu memberikan makna yang berbeda walaupun berasal dari teks yang sama (Jusoh and Alfawareh, 2012). Keterbatasan tersebut menjadikan teks mining tidak dapat berdiri sendiri. Teks mining memerlukan bidang lain untuk memahami teks secara komprehensif. A. Teknik Terkait Text Mining Teks mining sendiri merupakan teknik yang sangat berkaitan erat dengan berbagai teknik yang bertujuan untuk mengekstrak informasi dari kumpulan teks. Teknik terkait teks mining terdapat berbagai bidang yang beririsan seperti pada gambar 1 dibawah.
91 Gambar 1. Interaksi text mining dengan bidang lain Sumber: (Talib et al., 2016) 1. Information Extraction Infromation Extraction (IE) merupakan teknik untuk mendapatkan informasi dari kumpulan text seperti dokumen berupa teks, artikel berita, maupun pesan online yang telah banyak tersedia di dunia maya. IE memiliki tujuan untuk mengeluarkan entitas, hubungan, serta fakta yang termuat pada teks (Talib et al., 2016). Selanjutnya menurut (Kononova et al., 2021) terdapat skema representasi standar teks mining terlihat pada Gambar 2 dibawah. Gambar 2. Desain representasi standar teks mining untuk Information Extraction
92 2. Information Retrieval Information Retrieval (IR) merupakan teknik lain teks mining untuk mendapatkan informasi dari kumpulan dokumen yang pada proses mendapatkan informasi menggunakan kueri pertanyaan pengguna. 3. Natural Language Processing Natural Language Processing (NLP) merupakan bidang yang berfokus pada memahami, menganalisa teks tidak terstruktur sehingga mampu menghubungkan bahasa manusia dan komputer. Dengan adanya NLP komputer mampu merepresentasikan maksud serta tujuan yang sebenarnya dari teks hal tersebut dikarenakan NLP mempertimbangkan konsep linguistik, serta variasi bahasa (Alhazmi, 2022; Kao and Poteet, 2007; Shamshiri et al., 2024). Implementasi NLP yaitu: sentimen analisis yang mampu merepresentasikan teks bermuat kalimat positif, negatif ataupun netral. Tren terbaru dari NLP adalah pre-trained language model yaitu: RoBERTa, BERT. Mampu memberikan akurasi dan perfoma yang lebih baik serta pemahaman terhadap bahasa Indonesia yang baik (Ardiansyah et al., 2023). 4. Text Summarization Text Summarization merupakan teknik dari text mining yang bertujuan untuk meringkas teks pada dokumen yang besar. Teknik ini dapat mempersingkat waktu dalam mendapatkan informasi penting disetiap bagian yang ada pada dokumen (Aggarwal and Zhai, 2012; Lai and Chen, 2023).
93 5. Clustering dan Clasifikasi Teknik Clustering merupakan teknik pembelajaran tidak terstruktur pada teks mining yang bertujuan untuk mengelompokan dokumen teks ber-dasarkan kesamaan kategorinya masing-masing (Žcže[ et al., 2019). Teknik clustering mempertimbang-kan kemiripan, jarak, koherensi dan kekuatan dari hasil analisis yang dilakukan (Lai and Chen, 2023). Algoritma klustering antara lain: K-Means, Hierarchical, Latent Dirichlet Allocation (LDA). Sebaliknya klasifikasi mempelajari data terstruktur dengan pendekatan kuantitaf untuk mengoptimalkan NLP disetiap kelas yang ada. Algoritma klasifikasi yang sering digunakan antara lain: K-Nearest Neigbour (KNN), Decision Tree (DT), Support Vector Machine (SVM), Artificial Neural Networks (ANN), Random Forest (Alhazmi, 2022) . B. Tahapan Text Mining Teks mining memiliki beberapa tahapan dasar umum sebagai berikut: 1. Pengumpulan Data Tahapan awal pada teks mining yang dilakukan adalah pengumpulan data dari berbagai sumber seperti berita, artikel, tweet, review produk, (Antons et al., 2020). Banyak sekali cara mengumpulkan data dapat dilakukan antara lain dengan teknik scrape maupun pemanfaatan API (Žcže[ et al., 2019). Teknik webscrape seringkali digunakan untuk mendapatkan
94 data yang berupa dokumen HTML, XML, JSON bahkan file PDF dapat dijadikan sebagai sumber data (Kononova et al., 2021). Terkhusus PDF perlu menambah seperti Optical Character Recognition (OCR). 2. Preprocessing Data Tahapan kedua seringkali di kenal dengan preprocessing. Tahapan ini bertujuan untuk membersihkan atau mengembalikan teks yang tidak sesuai dengan ejaan yang sesungguhnya. Prepro-cessing dapat dilakukan antara lain: Tokenization, Compound word identification, Normalization (stem-ming, lemmatization, stopword, dan lainnya), Named Entity Recognition, Part-of-speech tagging (Hickman et al., 2022; Žcže[ et al., 2019). Selain itu, Preprocesing data menjadi tahapan yang penting untuk memberikan standar pada teks sehingga pada tahapan selanjutnya menjadi efisien (Talib et al., 2016). Berikut Tabel 1 preprocessing yang sering digunakan untuk teks mining. Tabel 1. Preprocessing yang sering digunakan untuk teks mining Tahapan Definisi Lowercase Lowercase untuk mengubah semua teks pada dataset menjadi bentuk huruf kecil. Spelling Correction Speeling correction untuk menurunkan kesalahan dalam penulisan, serta menjelaskan
95 Tahapan Definisi penulisan singkatan. Nonalphabeti c character Teknik untuk menghilangkan angka, symbol tanda baca, special karakter, emoticon. Sehingga akan meninggalkan teks berupa huruf saja. Stopword Stopword teknik untuk menghilangkan kata yang tidak memiliki arti yang significant terhadap teks antara lain: yang, di, dan. Namun stopword dalam beberapa kasus tidak perlu dihilangkan untuk mendapatkan maksud teks secara komprehensif. Lemmatizer Lemmatizer merupakan teknik mengembalikan teks ke kalimat dasar. Stemmer Stemmer hampir mirip lemmatizer namun stemmer lebih sederhana dalam mengembalikan teks ke kalimat dasar dengan cara menghilangkan teks imbuhan. 3. Analisis teks Tahapan Analisis teks merupakan tahapan pemodelan atau menganalisis data yang telah dikumpulkan serta melalui proses preprocessing.
96 Pemodelan terbagi menjadi 3 yaitu (Lai and Chen, 2023; Žcže[ et al., 2019): a. Supervised learning merupakan teknik analisis teks yang dimana telah dilakukan labeling teks bertujuan untuk menimalisir kesalahan dalam prediksi atau pengukuran hasil pelatihan data. b. Unsupervised learning merupakan teknik analisis teks tidak terstruktur yang tidak memerlukan labeling teks seperti yang dilakukan pada supervised. Unsupervised akan mempelajari sendiri teks berdasarkan karakteristik serta status data teks yang dilatih. Selanjutnya, Unsupervised seringkali digunakan untuk teks clustering. c. Semi-Supervised learning merupakan teknik pelatihan data dengan cara menggabungkan 2 teknik sebelumnya. Pada teknik ini akan dilakukan sebagain labeling teks dari kumpulan data untuk melabeling data yang lebih besar. Data kecil yang telah dilabeling akan menjadi parameter untuk data yang belum dilabeling pada sebagian besar data lainnya. C. Implementasi Text mining Implementasi penambangan teks dapat dilakukan diberbagai bidang. Menurut (Lai and Chen, 2023) implementasi teks mining paling sering adalah bidang teknologi finansial (fintech), perdagangan elektronik (ecommerce), dan kesehatan (obat-obatan atau pengobatan). Meskipun begitu implementasi teks mining tidak terbatas pada bidang yang telah disebutkan.
97 1. Bidang teknologi finansial Bidang teknologi finansial telah banyak menggunakan teks mining berdasarkan data pelanggan yang sangat banyak untuk memprediksi pergerakan harga komoditas seperti saham, debt, dan deriviatif. 2. Perdagangan elektronik Teks mining digunakan untuk mengimprove perdagangan elektronik. Kemajuan internet mendorong ketersedian data untuk mengukur kualitas produk dan menilai kualitas layanan. 3. Kesehatan Teks mining pada bidang kesehatan telah banyak dilakukan karena bidang kesehatan memiliki banyak data yang dapat dimanfaatkan seperti dokumen medis, tulisan ilmiah, catatan kesehatan maupun ringkasan medis. Dengan banyaknya ketersedian data memungkinkan implementasi di bidang kesehatan agar informasi pada dokument didapatkan.
98 Metode Penambangan Data Graf dalam Digital Learning Rizqi Putri Nourma Budiarti, S.T., M.T engan kemajuan teknologi dan meningkatnya akses terhadap internet, pendidikan digital atau digital learning telah menjadi komponen penting dalam sistem pendidikan modern. Digital learning tidak hanya memberikan fleksibilitas dalam waktu dan tempat belajar, tetapi juga memungkinkan akses ke berbagai sumber daya dan materi pembelajaran yang lebih luas. Namun, tantangan utama yang dihadapi dalam digital learning adalah bagaimana mengelola dan menganalisis data besar yang dihasilkan dari aktivitas belajar-mengajar untuk meningkatkan efektivitas pendidikan. Salah satu pendekatan yang paling menjanjikan untuk mengatasi tantangan ini adalah melalui penerapan data mining pada data graf. Dengan hadirnya teknologi, pendidikan mengalami transformasi signifikan dengan munculnya platform digital learning yang memungkinkan akses pendidikan secara fleksibel dan luas. Namun, dengan meningkatnya penggunaan D
99 teknologi dalam pendidikan, volume dan kompleksitas data yang dihasilkan juga meningkat secara eksponensial. Setiap interaksi antara siswa dan platform pembelajaran digital menghasilkan data yang kaya dan beragam. Data ini mencakup interaksi siswa dengan konten pembelajaran, aktivitas kolaboratif, penilaian, dan umpan balik. Kompleksitas yang sering dihadapi oleh institusi pendidikan biasanya berkaitan dengan pengelolaan manajemen dan civitas pendidikan, analisis kebutuhan proses belajar mengajar dan asesmen pendidikan di dalamnya, dan pemanfaatan data entitas dalam pendidikan untuk meningkatkan kualitas pendidikan dan personalisasi pembelajaran. Menurut (Romero and Ventura, 2006, 2010) data mining dalam konteks pendidikan atau Educational Data Mining (EDM) adalah bidang yang berkembang pesat yang berfokus pada penerapan teknik data mining untuk data pendidikan. EDM bertujuan untuk mengembangkan metode yang membantu memahami siswa dan lingkungan belajar mengajar. Dalam digital learning, data tidak hanya besar dalam volume tetapi juga sangat terstruktur dan kompleks karena melibatkan berbagai jenis hubungan dan interaksi. Data graf, yang merepresentasikan entitas sebagai node dan interaksi sebagai edge, menjadi alat yang sangat efektif untuk menangkap kompleksitas ini. Dalam buku "Analyzing Social Networks," (Neal, 2015) mendefinisikan data graf sebagai representasi matematis dari suatu jaringan, di mana node mewakili entitas individu (seperti orang atau objek) dan edge mewakili hubungan atau interaksi antara entitas tersebut. Graf digunakan untuk menganalisis struktur sosial dan pola interaksi dalam jaringan, serta untuk mengidentifikasi node penting dan pola komunitas dalam jaringan tersebut. Penjelasan lainnya
100 terkait data graf dijabarkan dalam Dalam buku "Introduction to Social Network Methods," (Hanneman and Riddle, 2005) mendefinisikan graf sebagai representasi visual dan matematis dari jaringan sosial. Selain itu, disebutkan bahwa graf membantu dalam mengidentifikasi pola hubungan, pengaruh, dan aliran informasi dalam jaringan sosial. Graf juga digunakan untuk mengukur dan menganalisis sifat-sifat jaringan, seperti sentralitas, kohesi, dan kekuatan ikatan. Sentralitas membantu dalam hal mengidentifikasi individu atau entitas yang berperan penting dalam jaringan, kohesi memberikan wawasan tentang tingkat keterkaitan dan integrasi dalam kelompok, dan kekuatan ikatan mengungkap kualitas dan intensitas hubungan antar node. Data graf adalah representasi matematis yang digunakan untuk memodelkan hubungan antar entitas dalam berbagai jenis jaringan. Dimana, graf terdiri dari node yang mewakili entitas individu dan edge yang mewakili hubungan atau interaksi antara entitas tersebut. Graf digunakan dalam berbagai disiplin ilmu untuk menganalisis struktur dan dinamika jaringan, mengidentifikasi pola interaksi, dan memahami bagaimana elemen-elemen dalam suatu sistem saling berinteraksi dan mempengaruhi satu sama lain sehingga dengan mudah membuat keputusan yang lebih baik tentang bagaimana mengelola dan mengoptimalkan jaringan sosial untuk tujuan tertentu, seperti meningkatkan kolaborasi dalam tim, menyebarkan informasi secara efektif, atau membangun komunitas yang lebih erat dan terintegrasi. Namun, penerapan data mining pada data graf dalam digital learning masih dihadapkan pada berbagai tantangan teknis dan metodologis. Salah satu permasalahan dasar yang
101 sering muncul adalah kualitas dan integritas data. Data yang dihasilkan dari platform digital learning seringkali tidak konsisten dan tidak lengkap. Menurut (Siemens and Long, 2011), data pendidikan yang buruk dapat mengarah pada hasil analisis yang tidak akurat, yang pada gilirannya dapat mempengaruhi keputusan yang diambil berdasarkan analisis tersebut. Kualitas data yang rendah, termasuk kesalahan entri data, data yang hilang, dan data yang tidak terstruktur, dapat menyebabkan kesulitan dalam proses ekstraksi dan analisis data graf. Oleh karena itu, institusi pendidikan perlu memastikan bahwa data yang dikumpulkan adalah akurat, lengkap, dan relevan. Kompleksitas data graf juga menjadi tantangan signifikan dalam proses data mining. Data graf dalam digital learning mencakup berbagai jenis interaksi dan hubungan yang kompleks, seperti interaksi siswa dengan berbagai jenis konten pembelajaran, kolaborasi antar siswa, dan hubungan antara siswa dan pengajar. Menurut (Neal, 2015) mengelola dan menganalisis data yang kompleks ini memerlukan algoritma yang canggih dan sumber daya komputasi yang besar. Selain itu, skalabilitas menjadi isu ketika harus memproses data dalam skala besar. Infrastruktur teknologi yang memadai dan sumber daya komputasi yang kuat sangat diperlukan untuk menangani volume data yang besar dan kompleksitas analisis. Permasalahan privasi dan keamanan data juga menjadi perhatian utama dalam penerapan data mining pada data graf dalam digital learning. Data pendidikan seringkali mengandung informasi pribadi yang sensitif, yang harus dilindungi dengan baik untuk memenuhi regulasi privasi data seperti GDPR. Menurut (Nguyen, Gardner and Sheridan, 2018),
102 melindungi privasi siswa dan memastikan keamanan data adalah tantangan yang harus diatasi untuk mencegah akses yang tidak sah dan ancaman siber. Ini memerlukan implementasi sistem keamanan yang kuat dan kebijakan privasi yang ketat, yang bisa menjadi kompleks dan mahal. A. Pengertian Penambangan Data Graf dalam Digital Learning Data mining adalah proses untuk menemukan pola, korelasi dan pengetahuan dari set data yang besar menggunakan teknik analisis data yang canggih. Dalam konteks digital learning, data mining dapat digunakan untuk menganalisis data graf, yang merupakan representasi dari data dalam bentuk node (simpul) dan edge (sisi). Data graf sangat cocok untuk merepresentasikan hubungan dan interaksi dalam lingkungan belajar digital. Pada penjabaran secara khusus, contoh penggunaan data graf yang dapat merepresentasikan berbagai jenis interaksi dan hubungan, seperti interaksi antara siswa dan materi pembelajaran, hubungan sosial antar siswa, serta jalur pembelajaran yang diikuti oleh siswa. Penerapan data mining pada data graf dalam digital learning memiliki berbagai tujuan penting yang secara signifikan dapat meningkatkan pengalaman dan hasil belajar. Dari personalisasi pembelajaran, deteksi dini siswa berisiko, optimasi kurikulum, fasilitasi kolaborasi sosial, hingga peningkatan kualitas pengajaran, setiap aspek ini berkontribusi pada pencapaian tujuan pendidikan yang lebih baik. Dengan menggunakan teknik
103 data mining yang canggih dan analisis data graf, institusi pendidikan dapat memanfaatkan data yang kaya dan beragam untuk membuat keputusan yang lebih informatif dan strategis, yang pada akhirnya akan meningkatkan efektivitas pendidikan dan memaksimalkan potensi belajar siswa. Adapun tujuan penerapan data mining pada data graf dalam Digital Learning, diantaranya meliputi: 1. Meningkatkan Personalisasi Pembelajaran. Salah satu tujuan utama dari penerapan data mining pada data graf dalam digital learning adalah untuk meningkatkan personalisasi pembelajaran. Dengan menggunakan data graf, institusi pendidikan dapat menganalisis pola interaksi individu siswa dengan berbagai materi pembelajaran. Data graf dapat digunakan untuk memahami preferensi belajar siswa, gaya belajar, serta tingkat keterlibatan siswa. Melalui analisis ini, sistem pembelajaran dapat merekomendasikan materi yang paling sesuai untuk setiap siswa, memberikan pengalaman belajar yang lebih disesuaikan dengan kebutuhan dan kecepatan belajar siswa. Ini tidak hanya meningkatkan efektivitas pembelajaran tetapi juga meningkatkan motivasi dan kepuasan siswa (Romero and Ventura, 2006, 2010). 2. Mendeteksi Siswa Berisiko dan Mendukung Intervensi Dini. Data mining pada data graf juga sangat berguna untuk mendeteksi siswa yang berisiko mengalami kesulitan akademis. Dengan menganalisis data inte-
104 raksi siswa, seperti frekuensi akses materi, partisipasi dalam diskusi, dan hasil penilaian, sehingga dapat mengidentifikasi pola yang menunjukkan siswa yang mungkin memerlukan bantuan tambahan. Teknik seperti anomaly detection dalam data graf dapat membantu menemukan siswa yang menyimpang dari pola belajar normal. Identifikasi dini ini memungkin-kan institusi pendidikan untuk melakukan intervensi tepat waktu, memberikan dukungan dan bimbingan yang diperlukan sebelum siswa tersebut mengalami kegagalan atau kesulitan yang lebih besar (Siemens and Long, 2011). 3. Mengoptimalkan Kurikulum dan Materi Pembelajaran Penerapan data mining pada data graf juga bertujuan untuk mengoptimalkan kurikulum dan materi pembelajaran. Analisis data graf dapat mengungkapkan bagian-bagian dari kurikulum yang efektif dan yang memerlukan perbaikan. Misalnya, dengan melihat bagaimana siswa berinteraksi dengan modul tertentu dan hasil belajar yang dihasilkan, dapat menilai apakah materi tersebut sesuai dengan tujuan pembelajaran atau perlu disesuaikan. Data graf dapat memahami jalur pembelajaran yang paling efektif, membantu dalam merancang kurikulum yang lebih efisien dan mendukung pencapaian belajar yang lebih baik (Baker and others, 2019). 4. Memfasilitasi Kolaborasi dan Pembelajaran Sosial Kolaborasi dan interaksi sosial adalah komponen penting dari pembelajaran yang efektif. Data graf dapat memetakan hubungan dan interaksi antar
105 siswa, mengidentifikasi kelompok belajar yang efektif, dan memahami dinamika sosial dalam kelas. Dengan memanfaatkan analisis graf, institusi pendidikan dapat membentuk kelompok belajar yang optimal berdasarkan pola interaksi sosial dan akademik. Ini membantu meningkatkan kolaborasi, memperkuat ikatan sosial, dan menciptakan lingkungan belajar yang lebih mendukung dan kooperatif. Selain itu, pemahaman tentang jaringan sosial dalam kelas dapat membantu mengatasi masalah isolasi sosial dan mendukung inklusi (Neal, 2015). 5. Meningkatkan Kualitas Pengajaran dan Kinerja Guru Data mining pada data graf juga memberikan wawasan yang berharga tentang kinerja guru dan efektivitas metode pengajaran. Dengan menganalisis umpan balik siswa, hasil belajar, dan interaksi siswaguru, sehingga dapat menilai kinerja pengajaran dan mengidentifikasi area yang memerlukan peningkatan. Data graf memungkinkan untuk menghubungkan kinerja siswa dengan guru yang mengajar, sehingga memberikan gambaran yang lebih jelas tentang pengaruh metode pengajaran terhadap hasil belajar. Ini tidak hanya membantu dalam pengembangan profesional guru tetapi juga mendukung pengambilan keputusan berbasis data untuk meningkatkan kualitas pengajaran secara keseluruhan (Nguyen, Gardner and Sheridan, 2018).
106 B. Manfaat Penggunaan Metode Penambangan Data Graf dalam Digital Learning. Penggunaan metode penambangan data graf dalam digital learning membawa manfaat signifikan karena memungkinkan analisis mendalam dan berkelanjutan dari hubungan kompleks dan pola interaksi yang terjadi dalam proses belajar-mengajar terutama dalam meningkatkan kualitas pendidikan, personalisasi pembelajaran, dan efektivitas intervensi pendidikan. Penggunaan metode penambangan data graf merupakan alat yang sangat kuat untuk meningkatkan efektivitas dan kualitas pendidikan secara keseluruhan. Adapun manfaat penggunaan metode penambangan data graf dalam digital learning diantaranya: 1. Meningkatkan Kualitas Pendidikan Data graf memungkinkan analisis yang lebih komprehensif dari data yang kompleks dan terstruktur. Dalam konteks pendidikan, data graf dapat merepresentasikan hubungan antara siswa, materi pembelajaran, dan aktivitas pendidikan lainnya. Teknik data mining seperti clustering, classification, dan association rule mining digunakan dalam menemukan pola tersembunyi dalam data yang dapat memberikan wawasan berharga tentang efektivitas metode pengajaran dan bahan ajar (Romero and Ventura, 2006, 2010). Dengan memahami pola interaksi dan hasil belajar siswa, institusi pendidikan
107 dapat mengevaluasi dan meningkatkan kurikulum serta strategi pengajaran siswa. Data graf juga memungkinkan pemantauan dan evaluasi berkelanjutan terhadap kinerja siswa dan efektivitas pengajaran. Dengan analisis data real-time, institusi pendidikan dapat segera mengidentifikasi masalah dan melakukan penyesuaian yang diperlukan. Misalnya, analisis hasil kuis dan tes dapat menunjukkan bagian kurikulum yang tidak dipahami dengan baik oleh banyak siswa, sehingga materi tersebut dapat diperbaiki atau diajarkan ulang dengan metode yang berbeda (Baker and others, 2019). 2. Personalisasi Pembelajaran Data graf memungkinkan identifikasi preferensi dan kebutuhan individual siswa melalui analisis pola interaksi antar siswa dengan materi pembelajaran. Dengan menggunakan teknik data mining, seperti clustering, sehingga dapat mengelompokkan siswa berdasarkan pola belajarnya dan memberikan rekomendasi materi yang sesuai. Misalnya, siswa yang lebih suka belajar melalui video dapat direkomendasikan lebih banyak konten visual, sementara siswa yang lebih suka membaca dapat diberikan lebih banyak teks (Siemens and Long, 2011). Sistem pembelajaran berbasis data graf dapat memberikan rekomendasi materi yang lebih akurat dan personal. Ini meningkatkan keterlibatan dan motivasi siswa karena dalam menerima materi dalam format yang paling sesuai dengan gaya belajar diharapkan. Misalnya, analisis data graf dapat
108 menunjukkan bahwa siswa dengan gaya belajar kinestetik lebih berhasil dalam tugas-tugas praktis daripada ujian tertulis, sehingga dapat diberikan lebih banyak tugas praktis untuk memaksimalkan hasil belajar para siswa (Graf, Liu and Kinshuk, 2010). 3. Efektivitas Intervensi Pendidikan Data mining pada data graf sangat efektif untuk deteksi dini siswa yang berisiko mengalami kesulitan akademis. Dengan menganalisis pola interaksi dan kinerja siswa, dapat mengidentifikasi tanda-tanda awal ketidakberhasilan, seperti penurunan partisipasi dalam kegiatan pembelajaran atau skor yang menurun secara konsisten. Teknik anomaly detection dalam data graf dapat membantu menemukan siswa yang menyimpang dari pola belajar normal dan memerlukan intervensi segera (Nguyen, Gardner and Sheridan, 2018). Dengan informasi yang diperoleh dari analisis data graf, institusi pendidikan dapat mengoptimalkan alokasi sumber daya dan dukungan. Misalnya, guru dapat diberikan informasi tentang siswa yang membutuhkan bantuan tambahan dalam mata pelajaran tertentu, memungkinkan para siswa untuk memberikan bimbingan yang lebih terfokus. Selain itu, program mentoring atau tutoring dapat diimplementasikan untuk siswa yang membutuhkan bantuan tambahan, berdasarkan analisis data graf (Neal, 2015).
109 C. Metode Penambangan Data Graf dalam Digital Learning Penambangan data graf (graph mining) adalah cabang dari data mining yang berfokus pada analisis struktur graf dan pola hubungan antara node (simpul) dan edge (sisi)(Cook and Holder, 2006; Borgelt, 2009; Rehman, Khan and Fong, 2012). Data graf memungkinkan representasi hubungan kompleks dan interaksi dalam berbagai konteks, termasuk pendidikan. Dalam digital learning, data graf digunakan untuk memetakan berbagai jenis interaksi, seperti hubungan antara siswa dengan materi pembelajaran, kolaborasi antar siswa, dan interaksi siswa dengan pengajar. Dengan menganalisis data ini, institusi pendidikan dapat mengidentifikasi pola yang signifikan, mengoptimalkan proses pembelajaran, dan meningkatkan hasil belajar siswa. Metode penambangan data graf dalam digital learning mencakup berbagai teknik seperti clustering, classification, link prediction, community detection, dan pattern mining. Clustering digunakan untuk mengelompokkan siswa berdasarkan pola belajar siswa, memungkinkan personalisasi materi pembelajaran. Classification membantu dalam mengidentifikasi siswa yang berisiko dan memprediksi keberhasilan akademis para siswa. Link prediction dapat merekomendasikan kolaborasi yang potensial antara siswa, sementara community detection mengidentifikasi kelompok belajar yang efektif dan memetakan dinamika sosial dalam kelas. Pattern mining menemukan jalur pembelajaran yang paling efektif dengan meng-
110 identifikasi pola interaksi siswa dengan konten pembelajaran. Dalam penerapannya, metode penambangan data graf memberikan wawasan yang berharga tentang bagaimana meningkatkan personalisasi pembelajaran, efektivitas intervensi pendidikan, dan kualitas pengajaran. Dengan analisis mendalam terhadap interaksi dan hubungan dalam jaringan pendidikan, institusi dapat membuat keputusan yang lebih informatif dan strategis. Hal ini memungkinkan pengembangan kurikulum yang lebih responsif, intervensi yang tepat waktu untuk siswa yang membutuhkan, dan pembentukan kelompok belajar yang optimal, yang semuanya berkontribusi pada peningkatan keseluruhan dalam pengalaman dan hasil belajar siswa (Romero and Ventura, 2010; Siemens and Long, 2011; Baker and others, 2019). Dalam konteks digital learning, metode penambangan data graf digunakan untuk memahami dan mengoptimalkan proses pembelajaran melalui analisis data yang terstruktur dalam bentuk graf. Berikut ini beberapa metode penambangan data graf yang penting dan penggunaan penerapannya dalam digital learning. 1. Clustering Clustering adalah metode penambangan data yang digunakan untuk mengelompokkan node dalam graf berdasarkan kesamaan para siswa. Dalam konteks digital learning, clustering dapat digunakan untuk mengidentifikasi kelompok siswa dengan pola belajar yang serupa, sehingga dapat diberikan materi dan strategi pembelajaran yang disesuaikan.
111 Metode algoritma clustering yang bisa digunakan seperti K-means, Spectral Clustering, dan Community Detection sering digunakan. Salah satu penerapan implementasinya dengan menganalisis graf interaksi siswa, sehingga dapat menemukan komunitas siswa yang sering berinteraksi dan bekerja sama. Ini membantu dalam membentuk kelompok belajar yang efektif dan memahami dinamika sosial dalam kelas (Newman, 2012) 2. Classification Classification adalah metode penambangan data yang digunakan untuk mengklasifikasikan node dalam graf ke dalam kategori tertentu berdasarkan fitur siswa. Dalam digital learning, classification dapat digunakan untuk mengidentifikasi siswa yang berisiko gagal atau memprediksi keberhasilan akademis siswa. Metode algoritma classification yang bisa digunakan seperti Decision Trees, Random Forests, dan Support Vector Machines dapat diterapkan pada data graf. Salah satu penerapan implementasinya dengan menganalisis data graf yang mencakup interaksi siswa dengan materi pembelajaran, hasil penilaian, dan umpan balik, sehingga dapat mengklasifikasikan siswa berdasarkan kinerja akademis para siswa dan memberikan intervensi yang tepat waktu (Romero and Ventura, 2010)
112 3. Link Prediction Link prediction adalah metode yang digunakan untuk memprediksi edge baru yang mungkin muncul dalam graf berdasarkan pola hubungan yang ada. Dalam digital learning, link prediction dapat digunakan untuk merekomendasikan kolaborasi antara siswa atau untuk mengidentifikasi potensi hubungan yang bermanfaat dalam jaringan pembelajaran. Metode algoritma link prediction seperti Common Neighbors, Graph Neural Networks digunakan untuk prediksi hubungan. Salah satu penerapan implementasinya menganalisis graf sosial siswa, sistem dapat merekomendasikan pasangan siswa untuk kerja kelompok berdasarkan kesamaan minat atau kebutuhan akademis, sehingga meningkatkan kolaborasi dan hasil belajar (Liben-Nowell and Kleinberg, 2003) 4. Community Detection Community detection adalah metode untuk mengidentifikasi subgraf atau komunitas dalam graf yang memiliki keterhubungan internal yang tinggi dibandingkan dengan keterhubungan eksternal. Ini sangat berguna dalam digital learning untuk mengidentifikasi kelompok siswa yang saling mendukung dan berbagi informasi. Metode algoritma community detection yang bisa digunakan seperti Girvan-Newman, Louvain Method, dan Infomap digunakan untuk mendeteksi komunitas.
113 Salah satu penerapan implementasinya mengidentifikasi komunitas dalam graf interaksi siswa, dapat memahami bagaimana informasi dan bantuan akademis menyebar dalam jaringan sosial, serta mengidentifikasi siswa yang mungkin memerlukan lebih banyak dukungan untuk bergabung dengan komunitas belajar yang ada (Fortunato, 2010) 5. Pattern Mining Pattern mining adalah metode untuk menemukan pola berulang dalam graf. Dalam digital learning, pattern mining dapat digunakan untuk mengidentifikasi jalur pembelajaran yang paling efektif atau pola penggunaan yang menunjukkan keberhasilan akademis. Metode algoritma pattern mining yang bisa digunakan seperti Subgraph Mining dan Frequent Pattern Mining(Yan and Han, 2006; Wu et al., 2014) digunakan untuk menemukan pola dalam graf. Salah satu penerapan implementasinya dengan menganalisis pola interaksi siswa dengan materi pembelajaran, dapat mengidentifikasi jalur pembelajaran yang efektif dan merekomendasikannya kepada siswa lain, serta menyesuaikan kurikulum untuk meningkatkan hasil belajar (Yan and Han, 2006).
114 D. Implementasi Penerapan Metode Penambangan Data Graf Menggunakan Decisison Tree Decision Tree adalah salah satu metode machine learning yang paling populer dan intuitif digunakan untuk tugas-tugas classification dan regression. Decision Tree berfungsi dengan memecah dataset yang kompleks menjadi bagian-bagian yang lebih sederhana dan kemudian membuat keputusan berdasarkan kondisi tertentu (Charbuty and Abdulazeez, 2021). Struktur Decision Tree menyerupai diagram pohon dengan node, cabang, dan daun. Setiap node internal mewakili sebuah "uji" pada suatu atribut, setiap cabang menunjukkan hasil uji, dan setiap daun mewakili label kelas atau nilai target. Proses pembentukan Decision Tree dimulai dengan memilih atribut yang paling signifikan sebagai root node, kemudian memecah dataset ke dalam subset berdasarkan nilai-nilai atribut tersebut. Pemilihan atribut ini biasanya didasarkan pada metrik seperti Gini Impurity atau Information Gain. Gini Impurity mengukur seberapa sering elemen yang dipilih secara acak akan salah klasifikasi, sedangkan Information Gain mengukur pengurangan entropi sebelum dan sesudah pemisahan dataset. Proses pemisahan ini berlanjut secara rekursif hingga mencapai kondisi tertentu, seperti semua data dalam subset termasuk dalam satu kelas, atau tidak ada atribut yang tersisa untuk pemisahan lebih lanjut. Decision Tree digunakan dalam berbagai aplikasi seperti diagnosis medis, analisis kredit, pemasaran, dan banyak
115 lagi. Dalam diagnosis medis, misalnya, Decision Tree dapat membantu dokter menentukan kemungkinan penyakit berdasarkan gejala pasien. Dalam konteks pendidikan, Decision Tree dapat digunakan untuk personalisasi pembelajaran, prediksi kinerja siswa, analisis umpan balik, dan pengelompokan siswa. Kemampuannya untuk memberikan wawasan yang jelas dan mudah diinterpretasikan membuatnya sangat berharga bagi pendidik dan administrator pendidikan. Dengan implementasi yang tepat, Decision Tree dapat membantu meningkatkan kualitas pendidikan dan pengalaman belajar siswa. Berikut adalah contoh bagaimana mengimplementasikan Decision Tree untuk memprediksi kinerja siswa berdasarkan dataset sederhana: 1. Data yang akan digunakan dalam penambangan Decision Tree. Berikut adalah bagaimana data graf tersebut dapat direpresentasikan dan dihubungkan: a. Graf Siswa ke Kehadiran 1) Node Siswa: Siswa1, Siswa2, ..., Siswa10 2) Edge: Siswa1 --(1)--> Kehadiran, Siswa2 --(1)--> Kehadiran, Siswa3 --(0)--> Kehadiran, ... b. Graf Siswa ke Partisipasi 1) Node Siswa: Siswa1, Siswa2, ..., Siswa10 2) Edge: Siswa1 --(3)--> Partisipasi, Siswa2 --(4)--> Partisipasi, Siswa3 --(2)--> Partisipasi, ... c. Graf Siswa ke Hasil Ujian
116 1) Node Siswa: Siswa1, Siswa2, ..., Siswa10 2) Edge: Siswa1 --(80)--> Hasil Ujian, Siswa2 -- (85)--> Hasil Ujian, Siswa3 --(60)--> Hasil Ujian, ... d. Graf Siswa ke Kinerja 1) Node Siswa: Siswa1, Siswa2, ..., Siswa10 2) Edge: Siswa1 --(baik)--> Kinerja, Siswa2 -- (baik)--> Kinerja, Siswa3 --(kurang)--> Kinerja, ... Tabel 1. Data Kehadiran dan Hasil Peserta Ujian 2. Implementasi decision tree menggunakan python pada penambangan data graf. import pandas as pd from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTreeClassifier from sklearn import metrics from sklearn.tree import plot_tree import matplotlib.pyplot as plt
117 # Membuat dataset kehadiran dan hasil peserta ujian data = { 'kehadiran': [1, 1, 0, 1, 1, 0, 0, 1, 0, 1], 'partisipasi': [3, 4, 2, 5, 5, 1, 2, 5, 1, 4], 'hasil_ujian': [80, 85, 60, 90, 88, 55, 65, 95, 50, 87], 'kinerja': ['baik', 'baik', 'kurang', 'baik', 'baik', 'kurang', 'kurang', 'baik', 'kurang', 'baik'] } df = pd.DataFrame(data) # Memisahkan fitur dan label X = df[['kehadiran', 'partisipasi', 'hasil_ujian']]- y = df['kinerja'] # Membagi data menjadi data latih dan uji X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1) # Membuat model Decision Tree clf = DecisionTreeClassifier() clf = clf.fit(X_train, y_train)
118 # Membuat prediksi y_pred = clf.predict(X_test) conf_matrix = confusion_matrix(y_test, y_pred) # Mengevaluasi model print("Akurasi:", metrics.accuracy_score(y_test, y_pred)) print("Confusion Matrix:") print(conf_matrix) # Visualisasi Decision Tree plt.figure(figsize=(12,8)) plot_tree(clf, feature_names=['kehadiran', 'partisipasi', 'hasil_ujian'], class_names=['baik', 'kurang'], filled=True) plt.show() 3. Hasil Visualisasi Decision Tree Akurasi: 1.0 Confusion Matrix: [[1 0] [0 2]]
119 Gambar 1. Hasil Visualisasi Decision Tree pada Graf Mining. 4. Analisa Pembahasan Hasil Implementasi Berikut merupakan langkah-langkah dalam membuat penambangan data graf pada Decision Tree: a. Impor Pustaka yang Diperlukan: Mengimpor pustaka pandas, scikit-learn, dan matplotlib. b. Membuat Dataset: Membuat dataset contoh berdasarkan data yang diberikan. c. Memisahkan Fitur dan Label: Memisahkan data menjadi fitur (X) dan label (y). d. Membagi Data Latih dan Uji: Membagi data menjadi set latih dan set uji. e. Membuat dan Melatih Model Decision Tree: Menggunakan DecisionTreeClassifier dari scikitlearn untuk membuat dan melatih model.
120 f. Membuat Prediksi dan Mengevaluasi Model: Membuat prediksi menggunakan model yang telah dilatih dan mengevaluasi akurasinya. g. Visualisasi Decision Tree: Menggunakan plot_tree dari scikit-learn untuk memvisualisasikan Decision Tree. Pada program yang telah dijalankan, dapat membangun model Decision Tree untuk memprediksi kinerja siswa berdasarkan data tentang kehadiran, partisipasi, dan hasil ujian. Data dibagi menjadi set latih dan set uji dengan proporsi 70:30 untuk mengevaluasi kinerja model. Setelah membangun dan melatih model, dilakukan pembuatan prediksi terhadap data uji dan mengevaluasi akurasi model. Setelah itu, memvisualisasikan Decision Tree untuk memahami logika di balik prediksi yang dibuat oleh model. Setelah menjalankan model, akurasi yang diperoleh adalah hasil yang menggambarkan seberapa baik model dapat memprediksi kinerja siswa berdasarkan fitur yang disediakan. Dalam kasus ini, akurasi dihitung dengan membandingkan prediksi model dengan label sebenarnya pada set uji. Dari output ini, misalkan model menghasilkan akurasi sebesar 66.67% (2 dari 3 prediksi benar). Ini berarti model mampu memprediksi kinerja siswa dengan benar dalam 66.67% kasus pada data uji. Akurasi ini cukup baik untuk dataset kecil dan sederhana, tetapi mungkin perlu peningkatan untuk aplikasi yang lebih kompleks atau dataset yang lebih besar.
121 Visualisasi Decision Tree memberikan wawasan tentang bagaimana model membuat keputusan berdasarkan fitur yang disediakan. Setiap node dalam pohon mewakili keputusan berdasarkan nilai suatu fitur. Berikut adalah interpretasi dari visualisasi Decision Tree diantaranya, Root node, Cabang node, Leaf node. Root node adalah titik awal pengambilan keputusan. Dalam visualisasi ini, root node mungkin berdasarkan fitur seperti hasil_ujian, yang memiliki dampak terbesar pada prediksi kinerja siswa. Misalnya, jika hasil ujian > 70, maka kemungkinan besar siswa tersebut memiliki kinerja 'baik'. Pada cabang node, setiap cabang dan node berikutnya menguraikan keputusan lebih lanjut berdasarkan fitur lainnya. Misalnya, jika hasil ujian siswa lebih rendah, keputusan berikutnya mungkin didasarkan pada partisipasi atau kehadiran. Node ini menggambarkan bagaimana fitur-fitur tambahan membantu memisahkan data untuk membuat prediksi yang lebih akurat. Leaf nodes mewakili prediksi akhir yang dibuat oleh model. Setiap leaf node akan menunjukkan prediksi kinerja siswa (baik atau kurang) berdasarkan jalur keputusan yang diambil melalui pohon. Dari analisis hasil program, Decision Tree memberikan alat yang kuat dan intuitif untuk memprediksi kinerja siswa berdasarkan berbagai fitur. Akurasi model yang dinilai 1.0 dimana dalam contoh ini menunjukkan bahwa dengan dataset yang
122 lebih besar dan fitur yang lebih banyak, model dapat ditingkatkan lebih lanjut. Visualisasi Decision Tree memberikan wawasan berharga tentang proses pengambilan keputusan model, memungkinkan pemahaman yang lebih baik dan penerapan yang lebih efektif dalam konteks digital learning. E. Implementasi Penerapan Metode Penambangan Data Graf Menggunakan Clustering Kmeans Clustering(Pawar, Zaveri and others, 2015; Zhang and Zhang, 2018) adalah teknik data mining yang digunakan untuk mengelompokkan data ke dalam beberapa kelompok berdasarkan kesamaan yang dimiliki entitasnya. Dalam konteks digital learning, penggunaan clustering bisa dilakukan untuk mengelompokkan siswa berdasarkan interaksi diantara siswa dengan materi pembelajaran dan gaya belajarnya. Berikut ini adalah contoh proses pengolahan data mining dari awal pengambilan data hingga hasil pengolahan, analisis, dan visualisasi menggunakan clustering. Clustering K-Means (Pawar, Zaveri and others, 2015) adalah algoritma pembelajaran mesin unsupervised yang bertujuan untuk membagi data menjadi sejumlah k cluster yang ditentukan sebelumnya. Algoritma ini berfungsi dengan menempatkan k centroid (titik tengah) secara acak dalam ruang data, kemudian mengalokasikan setiap data point ke centroid terdekat berdasarkan jarak Euclidean.
123 Setelah pengalokasian, centroid dihitung ulang sebagai rata-rata dari semua data point yang termasuk dalam cluster tersebut. Proses ini diulang hingga posisi centroid konvergen atau perubahan dalam cluster minim, memastikan bahwa setiap data point terkelompok ke dalam cluster yang paling mirip. Dalam konteks penambangan data graf di digital learning, K-Means dapat digunakan untuk mengelompokkan siswa berdasarkan interaksi para siswa dengan platform pembelajaran serta gaya belajar siswanya. Data graf memungkinkan representasi hubungan kompleks antara siswa dan elemen pembelajaran (seperti video, artikel, dan kuis), yang kemudian dapat dianalisis dengan K-Means untuk menemukan pola dan kelompok yang signifikan. Misalnya, dengan menggunakan data graf interaksi siswa, dapat mengidentifikasi cluster siswa yang lebih cenderung mengonsumsi konten visual, membaca artikel secara ekstensif, atau sering mengambil kuis. Dengan demikian, K-Means membantu dalam personalisasi pembelajaran dengan mengelompokkan siswa berdasarkan preferensi dan kebiasaan belajar para siswa. Manfaat utama dari K-Means dalam digital learning adalah kemampuannya untuk mempersonalisasi pengalaman belajar dan mengoptimalkan strategi pengajaran. Dengan mengelompokkan siswa yang memiliki pola belajar serupa, pengajar dapat menyediakan materi yang lebih sesuai dengan kebutuhan individu atau kelompok. Ini tidak hanya meningkatkan efektivitas pembelajaran tetapi juga membantu dalam deteksi dini siswa yang mungkin memerlukan perhatian khusus. Namun, tan-
124 tangan yang dihadapi termasuk penentuan jumlah cluster yang tepat (k), yang seringkali memerlukan percobaan dan evaluasi menggunakan metrik seperti Silhouette Score. Selain itu, K-Means mengasumsikan bahwa cluster berbentuk bulat dan memiliki ukuran yang serupa, yang mungkin tidak selalu sesuai dengan distribusi data sebenarnya. Meski demikian, dengan pemahaman yang tepat dan aplikasi yang cermat, K-Means tetap menjadi alat yang sangat berguna dalam penambangan data graf di digital learning. Berikut langkah-langkah dalam implementasi penambangan data graf menggunakan clustering kmeans: 1. Pengumpulan Data Langkah pertama dalam membuat penambangan data graf adalah pengumpulan data. Dalam konteks digital learning, data ini bisa mencakup interaksi siswa dengan materi pembelajaran (seperti jumlah video yang ditonton, artikel yang dibaca, dan kuis yang diambil), serta data gaya belajar siswa (seperti preferensi belajar visual, auditory, dan kinestetik). 2. Preprocessing Data Setelah data dikumpulkan, langkah berikutnya adalah preprocessing data. Didalamnya pembersihan data, pengisian nilai yang hilang, dan normalisasi data. 3. Representasi Data dalam Bentuk Graf Untuk penambangan data graf, data yang telah dipreproses harus diubah ke dalam bentuk graf. Node dalam graf bisa mewakili entitas seperti siswa,
125 sementara edge bisa mewakili interaksi atau hubungan antara entitas tersebut. Misalnya, node dapat mewakili siswa dan materi pembelajaran, dengan edge yang menunjukkan interaksi (seperti menonton video atau membaca artikel). 4. Penerapan Algoritma Clustering K-Means Setelah data diwakili dalam bentuk graf, langkah berikutnya adalah menerapkan algoritma clustering K-Means. Berikut adalah langkah-langkah detailnya: a. Inisialisasi Centroid: Pilih k titik secara acak dari data sebagai centroid awal. b. Pengelompokan Data Points: Hitung jarak setiap data point ke setiap centroid dan kelompokkan data point ke centroid terdekat. c. Memperbarui Centroid: Hitung ulang centroid sebagai rata-rata dari semua data point yang termasuk dalam cluster tersebut. d. Iterasi: Ulangi langkah pengelompokan dan pembaruan centroid sampai posisi centroid konvergen atau perubahan cluster minim. 5. Evaluasi Hasil Clustering Langkah penting berikutnya adalah mengevaluasi hasil clustering. Ini dapat dilakukan dengan menggunakan metrik seperti Silhouette Score atau DaviesBouldin Index, yang memberikan gambaran tentang seberapa baik data telah dikelompokkan. Evaluasi ini membantu menentukan apakah jumlah cluster k yang dipilih sudah optimal atau perlu disesuaikan.
126 6. Analisis dan Visualisasi Hasil Setelah clustering selesai, analisis hasil dilakukan untuk memahami karakteristik setiap cluster. Visualisasi data menggunakan alat seperti PCA (Principal Component Analysis) atau t-SNE (tDistributed Stochastic Neighbor Embedding) dapat membantu dalam memahami distribusi cluster dan hubungan antar data point. Graf yang dihasilkan dapat memberikan wawasan mendalam tentang pola belajar siswa dan interaksi mereka dengan materi pembelajaran. 7. Interpretasi dan Tindak Lanjut Langkah terakhir adalah interpretasi hasil dan tindak lanjut. Berdasarkan cluster yang terbentuk, pengajar dapat mempersonalisasi pengalaman belajar siswa dengan menyediakan materi yang sesuai dengan kebutuhan dan preferensi belajar mereka. Selain itu, pengelompokkan ini dapat membantu dalam mengidentifikasi siswa yang memerlukan perhatian khusus dan menyediakan dukungan tambahan yang diperlukan. 8. Pengumpulan dataset Pada penambangan data graf, Berikut adalah dataset pada data interaksi siswa dengan materi pembelajaran dan gaya belajar dimana representasi graf yang dapat digunakan: a. Graf Siswa ke Interaksi Pembelajaran 1) Node: Siswa, Video_Watched, Articles_Read, Quizzes_Taken
127 2) Edge: Menghubungkan siswa dengan nilai interaksi mereka (jumlah video yang ditonton, artikel yang dibaca, dan kuis yang diambil). b. Graf Siswa ke Gaya Belajar 1) Node: Siswa, Visual, Auditory, Kinesthetic 2) Edge: Menghubungkan siswa dengan nilai gaya belajar mereka. Berikut dataset yang digunakan dalam implementasi Clustering Kmeans: Tabel 2. Data interaksi dan learning style siswa Setelah itu dilakukan tahapan implementasi dengan menggunakan library python untuk tahapan pengumpulan dataset, preprocessing data, penerapan k-means clustering, visualisasi dan evaluasi. 1. Representasi Graf Untuk representasi data graf, kita dapat menggunakan pustaka seperti NetworkX di Python untuk
128 memvisualisasikan hubungan antara siswa dan atribut yang dimiliki. 2. Implementasi decision tree menggunakan python pada penambangan data graf. import pandas as pd from sklearn.cluster import KMeans import matplotlib.pyplot as plt from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Membuat dataset dari data interaksi siswa dan data learning style siswa data_interaksi = { 'Siswa': [f'Siswa{i}' for i in range(1, 16)],
129 'Video_Watched': [10, 8, 15, 7, 12, 9, 14, 6, 11, 13, 8, 10, 7, 5, 7], 'Articles_Read': [5, 7, 2, 10, 4, 5, 3, 8, 6, 5, 7, 5, 9, 4, 8], 'Quizzes_Taken': [3, 2, 5, 1, 4, 3, 6, 2, 4, 3, 2, 4, 3, 2, 1] } data_learning_style = { 'Siswa': [f'Siswa{i}' for i in range(1, 16)], 'Visual': [5, 4, 5, 3, 5, 4, 5, 3, 4, 5, 4, 5, 3, 3, 3], 'Auditory': [2, 3, 1, 4, 2, 3, 2, 4, 3, 2, 3, 2, 4, 3, 4], 'Kinesthetic': [3, 3, 4, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 4, 3] } # Membuat DataFrame df_interaksi = pd.DataFrame(data_interaksi) df_learning_style = pd.DataFrame(data_learning_style) # Menggabungkan kedua DataFrame df = pd.merge(df_interaksi, df_learning_style, on='Siswa') # Menghapus kolom 'Siswa' untuk clustering
130 X = df.drop('Siswa', axis=1) # Standardisasi fitur scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Menjalankan K-Means Clustering kmeans = KMeans(n_clusters=3, random_state=0) df['Cluster'] = kmeans.fit_predict(X_scaled) # Menampilkan hasil clustering print(df) # Mengurangi dimensi dengan PCA untuk visualisasi pca = PCA(n_components=2) components = pca.fit_transform(X_scaled) plt.scatter(components[:, 0], components[:, 1], c=df['Cluster'], cmap='viridis') plt.xlabel('PCA 1') plt.ylabel('PCA 2') plt.title('K-Means Clustering of Students') plt.show()
131 # Menghitung Silhouette Score from sklearn.metrics import silhouette_score score = silhouette_score(X_scaled, df['Cluster']) print(f'Silhouette Score: {score:.2f}') 3. Hasil Visualisasi Clustering Kmeans Silhouette Score: 0.39 4. Analisa dan Hasil Pembahasan Clustering Kmeans Setelah menjalankan K-Means clustering, hasilnya menunjukkan bahwa siswa telah dikelompokkan ke dalam tiga cluster berdasarkan interaksi mereka
132 dengan materi pembelajaran dan gaya belajar siswa. Berikut merupakan tiga poin analisis yang diperoleh diantaranya: a. Karakteristik Cluster Cluster 0: Siswa yang memiliki skor visual tinggi, menonton banyak video, tetapi memiliki partisipasi rendah. Cluster 1: Siswa dengan keseimbangan antara gaya belajar visual dan kinestetik, serta partisipasi yang moderat. Cluster 2: Siswa yang cenderung memiliki gaya belajar auditory yang lebih tinggi dan partisipasi yang lebih tinggi dalam membaca artikel dan mengambil kuis. b. Personalisasi Pembelajaran Cluster 0: Dapat diberikan lebih banyak materi visual seperti video. Cluster 1: Dapat diberikan materi pembelajaran yang bervariasi untuk memenuhi gaya belajar mereka. Cluster 2: Dapat diberikan lebih banyak materi yang berbasis audio dan aktivitas interaktif. c. Evaluasi dan Peningkatan Strategi Pembelajaran Dengan memahami bagaimana siswa dikelompokkan berdasarkan interaksi mereka dan gaya belajar, institusi pendidikan dapat mengevaluasi dan meningkatkan strategi pembelajaran mereka. Ini termasuk penyesuaian konten dan metode pengajaran untuk memenuhi kebutuhan berbagai kelompok siswa.
133 Silhouette Score untuk data point i didefinisikan sebagai: di mana: 1) ( )adalah jarak rata-rata antara data point i dengan semua data point lain dalam cluster yang sama. 2) b(i) adalah jarak rata-rata antara data point i dengan semua data point dalam cluster terdekat yang berbeda. Nilai Silhouette Score untuk seluruh dataset adalah rata-rata dari nilai Silhouette Score untuk setiap data point. Silhouette Score adalah metrik yang berguna untuk mengevaluasi dan memahami kualitas clustering. Nilai 0.39 menunjukkan bahwa clustering yang dilakukan cukup baik tetapi masih ada ruang untuk perbaikan. Melalui analisis lebih lanjut dan mungkin penyesuaian parameter atau metode, kualitas clustering dapat ditingkatkan untuk memberikan hasil yang lebih akurat dan berarti. Dengan menggunakan K-Means clustering untuk menganalisis interaksi siswa dengan materi pembelajaran dan gaya belajar mereka dalam digital learning adalah pendekatan yang efektif untuk meningkatkan personalisasi pembelajaran dan efektivitas pengajaran. Dengan memanfaatkan data graf yang mencakup berbagai aspek interaksi dan preferensi belajar, pe-
134 ngajar dapat membuat keputusan yang lebih terinformasi dan strategis untuk mendukung pencapaian akademis siswa F. Penutup Penambangan data graf dalam digital learning merupakan pendekatan yang revolusioner untuk mengoptimalkan pengalaman belajar siswa dan efektivitas pengajaran. Baik melalui teknik klasifikasi maupun clustering, penambangan data graf memungkinkan analisis mendalam terhadap interaksi dan hubungan dalam data pendidikan, memberikan wawasan yang berharga dan actionable untuk semua pemangku kepentingan. Dalam konteks klasifikasi, teknik seperti Decision Tree membantu dalam memprediksi kinerja siswa dan mengidentifikasi siswa yang mungkin memerlukan intervensi tambahan. Dengan memanfaatkan data historis dan pola interaksi siswa dengan materi pembelajaran, klasifikasi memungkinkan institusi pendidikan untuk membuat keputusan yang lebih informatif dan proaktif. Ini tidak hanya meningkatkan kualitas pembelajaran tetapi juga membantu dalam mengurangi kesenjangan akademis dengan memberikan dukungan yang tepat waktu kepada siswa yang berisiko. Penambangan data graf dalam konteks digital learning merupakan inovasi penting yang mengubah cara pandang dalam memahami dan mengoptimalkan proses pendidikan. Dengan kemampuan untuk menganalisis hubungan kompleks dan interaksi dalam data pendidikan, teknik
135 seperti clustering K-Means memberikan wawasan yang sangat berharga tentang pola belajar siswa dan dinamika pembelajaran. Ini memungkinkan personalisasi pembelajaran yang lebih baik, deteksi dini siswa yang membutuhkan dukungan tambahan, dan peningkatan strategi pengajaran secara keseluruhan. Implementasi yang efektif dari penambangan data graf memerlukan pemahaman mendalam tentang struktur data dan teknik analisis yang sesuai. Dari pengumpulan dan preprocessing data hingga penerapan algoritma clustering dan evaluasi hasil, setiap langkah harus dilakukan dengan cermat untuk memastikan bahwa hasil yang diperoleh akurat dan relevan. Silhouette Score, misalnya, adalah metrik yang esensial untuk mengevaluasi kualitas clustering dan memastikan bahwa kelompok yang dihasilkan benar-benar representatif dari pola yang ada dalam data. Berdasarkan penjelasan diatas, terlihat penambangan data graf sebagai alat yang sangat kuat dan esensial dalam transformasi pendidikan digital. Kekuatan analitis dari teknik klasifikasi dan clustering dapat memahami kompleksitas data pendidikan dengan cara yang lebih mendalam dan terstruktur. Dengan terus mengeksplorasi dan menerapkan teknologi ini, dapat menciptakan lingkungan pembelajaran yang lebih adaptif, responsif, dan efektif, yang pada akhirnya akan mendorong pencapaian akademis yang lebih tinggi dan pengalaman belajar yang lebih bermakna bagi setiap siswa. Integrasi yang tepat dari penambangan data graf dalam digital learning tidak hanya mengubah cara
136 mengajar tetapi juga bagaimana cara dalam memahami dan mendukung setiap siswa dalam perjalanan pendidikan siswa. Masa depan pendidikan digital sangat bergantung pada kemampuan untuk memanfaatkan data dengan cara yang cerdas dan berwawasan, dan penambangan data graf adalah kunci untuk membuka potensi tersebut.
137 Analisis Visualisasi Data dan Representasi dalam Digital Learning Endah Septa Sintiya,S.Pd.,M.Kom A. Pengantar Visualiasi Data dan Digital Learning Kemampuan menyajikan dan menjelaskan hasil analisis data secara visual sangat fundamental di digital ini. Teknik visualisasi data yang efektif sangat berpengaruh pada efektivitas komunikasi dan presepsi yang sama guna memperjelas pola data, dan memperkuat pesan yang ingin disampaikan (Sartono, B., & Hidayatuloh, 2022). Visualisasi data melibatkan penggunaan elemen visual seperti diagram atau grafik untuk menggambarkan informasi yang kompleks, besar, atau berupa angka ke dalam bentuk visual yang lebih mudah dipahami (Amazon Web Services, 2024). Visualisasi data membantu mempermudah dalam analisis trend data, pattern dan hubungan antar data untuk mendukung pengambilan keputusan dan
138 Solusi(Sudipa et al., 2023). Visualisasi data dapat diterapkan dalam beberapa kebutuhan bidang pekerjaan, salah satu yang erat dengan kehidupan saat ini yaitu pembelajaran dan teknologi informasi. Merancang kegiatan pengajaran untuk digital learning dan menerapkan perangkat teknologi secara fleksibel merupakan isu utama dalam pendidikan yang terintegrasi dengan teknologi informasi saat ini(Lin et al., 2017). Pada digital learning, visualisasi dapat digunakan untuk membantu mengenali pola dan tren data nilai peserta didik, hubungan antara komponen penilaian dan peringkat siswa, analisis kinerja pendidik dan juga dashboard prestasi siswa atau mahasiswa. Perangkat visualisasi data umum dan dasar yang dapat dimanfaatkan yaitu Microsoft excel atau Speadsheet. Apabila ingin lebih detail dan beragam fitur visualisasi dapat memanfaatkan Tableau, Google Data Studio, Power BI, Plotly, dan Data Wrapper. B. Mengapa Visualisasi Penting? Coba bandingkan 2 jenis visualisasi pada gambar 11.1, mana yg lebih mudah dipahami? Bayangkan jika data yang digunakan ratusan atau bahkan ribuan, mana yg lebih mudah dipahami? Apakah yang berupa tabel atau yang berupa grafik? Saya yakin Anda akan memilih yang grafik karena lebih mudah mengetahui rata-rata nilai yang tertinggi dan terendah.