Dalam penulisan tugas akhir ini akan dicari nilai support dan confidence dari hubungan tingkat kelulusan dengan data induk mahasiswa. Tidak semua data induk siswa akan dicari hubungannya dengan data kelulusan, hanya beberapa atribut yang kira-kira berguna dan sebarannya tidak terlalu acak. Karena data yang terlalu acak akan membuat proses mining memakan waktu lama dan tingkat hubungannya pun rendah. Data induk mahasiswa yang akan dicari hubungannya meliputi proses masuk, asal sekolah, kota asal sekolah, dan program studi.
Tahapan Analisa Data Mining menggunakan Metode K-Means Clustering
A. Analisa Data Mining
Adapun yang akan diproses mining meliputi :
- Hubungan tingkat kelulusan dengan proses masukHasil dari proses mining ini dapat membantu untuk mengetahui sejauh mana tingkat keberhasilan PSSB dan SPMB.
- Hubungan tingkat kelulusan dengan asal sekolah dan proses masukDari atribut proses masuk dan asal sekolah dicari hubungan tingkat kelulusan dengan asal sekolah yang melalui proses masuk PSSB dengan harapan dapat mengetahui tingkat keberhasilan mahasiswa dengan sekolah tertentu.
- Hubungan tingkat kelulusan dengan kota asal sekolahHubungan tingkat kelulusan dengan asal kota bermanfaat untuk mengetahui daerah-daerah mana yang mempunyai tingkat keberhasilan tinggi ataupun rendah. Diasumsikan bahwa kota asal sekolah merupakan kota tempat asal mahasiswa.
- Hubungan tingkat kelulusan dengan program studiDari atribut program studi dapat diketahui hubungan tingkat kelulusun dan program studi untuk megetahui tingkat kelulusan program studi.
B. Sumber Data
Data yang digunakan dalam penulisan tugas akhir ini terdiri dari dua sumber data, yaitu data Induk Mahasiswa dan data Kelulusan. Dalam penulisan tugas akhir kali ini dicari hubungan beberapa atribut dari data induk mahasiswa dengan tingkat kelulusan. Karena tidak semua tabel digunakan maka perlu dilakukan pembersihan data agar data yang akan diolah benar-benar dengan yang dibutuhkan. Pembersihan ini penting untuk meningkatkan performa dalam proses mining. Cara pembersihan dengan menghapus atribut yang tidak terpakai dan menghapus data-data yang tidak lengkap isiannya. atribut yang digunakan terdiri dari atribut pada data kelulusan dan pada data induk mahasiswa.
Atribut yang digunakan dalam data induk mahasiswa meliputi :
- Atribut NIM digunakan sebagai primary key untuk menghubungkan dengan data kelulusan
- Atribut proses masuk digunakan untuk proses mining guna mengetahui hubungan antara tingkat kelulusan dengan jalur masuk yang digunakan mahasiswa.
- Atribut nama asal sekolah digunakan untuk proses mining guna mengetahui hubungan antara tingkat kelulusan dengan asal sekolah.
- Atribut kota asal sekolah digunakan untuk proses mining guna mengetahui hubungan tingkat kelulusan dengan kota asal mahasiswa.
Atribut yang digunakan dalam data kelulusan meliputi :
- NIM digunakan sebagai primary key untuk menghubungkan dengan data induk mahasiswa.
- Indeks Prestasi Kumulatif (IPK) digunakan sebagai ukuran tingkat kelulusan mahasiswa
- Lama studi digunakan sebagai ukuran tingkat kelulusan mahasiswa.
- Program studi digunakan untuk proses mining guna mengetahui hubungan tingkat kelulusan dengan program studi.
C. Integrasi Data
Dalam penulisan tugas akhir kali ini diasumsikan bahwa data yang diambil sudah berupa tabel-tabel dalam satu server. Untuk proses mining, data kelulusan dan data induk mahasiswa digabungkan dengan primary key NIM. Setelah itu baru dilakukan proses mining. Proses integrasi data dilakukan ketika proses ETL (ekstract, transform, and Load) ketika membangun data warehouse, dalam proses ETL data dalam data source digabungkan menjadi satu dalam data warehouse dengan key NIM.
D. Transformasi Data
Transformasi data merupakan proses pengubahan atau penggabungan data ke dalam format yang sesuai untuk diproses dalam data mining. Seringkali data yang akan digunakan dalam proses data mining mempunyai format yang belum langsung bisa digunakan, oleh karena itu perlu dirubah formatnya.
Dalam penulisan tugas akhir ini penulis mencari keterkaitan antara tingkat kelulusan dengan data induk mahasiswa. Tingkat kelulusan mahasiswa dapat dilihat dari lama studi dan IPK (Indeks Prestasi Kumulatif). Dari dua parameter tersebut data diubah menjadi tipe data yang memudahkan untuk diproses.
Tabel 1 Predikat Kelulusan
Indeks Prestasi
Kumulatif
|
Predikat
|
3.51 – 4.00
2.76 – 3.50
2.00 – 2.75
|
Dengan
pujian (cumlaude)
Sangat memuaskan
Memuaskan
|
Dari tabel diatas, data kelulusan berdasarkan IPK dapat dikategorikan menjadi tiga yaitu:
- IPK tipe dengan pujian dengan IPK 3,51 – 4,00
- IPK sangat memuaskan dengan IPK 2,76 – 3,50
- IPK memuaskan dengan IPK 2,00 – 2,75
Pengkategorian data kelulusan berdasarkan lama studi yaitu :
- Sesuai jadwal, bila lama studi 4 tahun atau kurang dari 4 tahun
- Tidak sesuai jadwal, bila lama studi lebih dari 4 tahun
Dari dua pengkategorian tersebut dapat dibuat kategori berdasarkan kombinasi keduanya, seperti yang dapat dilihat pada tabel 2.
Tabel 2 Transformasi Data
Kategori
|
Keterangan
|
A1
|
lama studi
4 tahun atau kurang dari 4 tahun dan IPK
3,51 – 4,00
|
A2
|
lama studi
4 tahun atau kurang dari 4 tahun dan IPK
2,76 – 3,50
|
A3
|
lama studi
4 tahun atau kurang dari 4 tahun dan IPK
2,00 – 2,75
|
B1
|
lama studi
lebih dari 4 tahun dan IPK 3,51
– 4,00
|
B2
|
lama studi
lebih dari 4 tahun dan IPK 2,76
– 3,50
|
B3
|
lama studi
lebih dari 4 tahun dan IPK 2,00
– 2,75
|
Dari kombinasi yang terdapat di tabel diatas terdapat enam tingkatan untuk mengukur tingkat kelulusan mahasiswa.
Lanjut Baca di: Contoh Kasus Data Mining Metode K-Means Clustering
0 Response to "Analisa Data Mining Metode K-Means Clustering"
Post a Comment