Dalam penulisan tugas akhir ini akan dicari nilai support dan confidence dari hubungan tingkat kelulusan dengan data induk mahasiswa. Tidak semua data induk siswa akan dicari hubungannya dengan data kelulusan, hanya beberapa atribut yang kira-kira berguna dan sebarannya tidak terlalu acak. Karena data yang terlalu acak akan membuat proses mining memakan waktu lama dan tingkat hubungannya pun rendah. Data induk mahasiswa yang akan dicari hubungannya meliputi proses masuk, asal sekolah, kota asal sekolah, dan program studi. 

Tahapan Analisa Data Mining menggunakan Metode K-Means Clustering

A. Analisa Data Mining

Adapun  yang akan diproses mining meliputi :
  1. Hubungan tingkat kelulusan dengan proses masuk
    Hasil dari proses mining ini dapat membantu untuk mengetahui sejauh mana tingkat keberhasilan PSSB dan SPMB.
  2. Hubungan tingkat kelulusan dengan asal sekolah dan proses masuk
    Dari atribut proses masuk dan asal sekolah dicari hubungan tingkat kelulusan dengan asal sekolah yang melalui proses masuk PSSB dengan harapan dapat mengetahui tingkat keberhasilan mahasiswa dengan sekolah tertentu.
  3. Hubungan tingkat kelulusan dengan kota asal sekolah
    Hubungan tingkat kelulusan dengan asal kota bermanfaat untuk mengetahui daerah-daerah  mana  yang  mempunyai  tingkat  keberhasilan  tinggi  ataupun rendah. Diasumsikan bahwa kota asal sekolah merupakan kota tempat asal mahasiswa.
  4. Hubungan tingkat kelulusan dengan program studi
    Dari atribut program studi dapat diketahui hubungan tingkat kelulusun dan program studi untuk megetahui tingkat kelulusan program studi.


B. Sumber Data

Data yang digunakan dalam penulisan tugas akhir ini terdiri dari dua sumber data, yaitu data Induk Mahasiswa dan data Kelulusan. Dalam penulisan tugas akhir kali ini dicari hubungan beberapa atribut dari data  induk  mahasiswa  dengan  tingkat  kelulusan.  Karena  tidak  semua  tabel digunakan maka perlu dilakukan pembersihan data agar data yang akan diolah benar-benar dengan yang dibutuhkan. Pembersihan ini penting untuk meningkatkan performa dalam proses mining. Cara pembersihan dengan menghapus atribut yang tidak terpakai dan menghapus data-data yang tidak lengkap isiannya. atribut yang digunakan terdiri dari atribut pada data kelulusan dan pada data induk mahasiswa.
 Atribut yang digunakan dalam data induk mahasiswa meliputi :
  1. Atribut NIM   digunakan sebagai primary key untuk menghubungkan dengan data kelulusan
  2. Atribut  proses  masuk  digunakan  untuk  proses  mining  guna  mengetahui hubungan antara tingkat kelulusan dengan jalur masuk yang digunakan mahasiswa.
  3. Atribut nama asal sekolah digunakan untuk proses mining guna mengetahui hubungan antara tingkat kelulusan dengan asal sekolah.
  4. Atribut  kota asal  sekolah  digunakan  untuk  proses  mining  guna mengetahui hubungan tingkat kelulusan dengan kota asal mahasiswa.


 Atribut yang digunakan dalam data kelulusan meliputi :
  1. NIM digunakan sebagai primary key untuk menghubungkan dengan data induk mahasiswa.
  2. Indeks Prestasi Kumulatif (IPK) digunakan sebagai ukuran tingkat kelulusan mahasiswa
  3. Lama studi  digunakan sebagai ukuran tingkat kelulusan mahasiswa.
  4. Program  studi  digunakan  untuk  proses  mining  guna  mengetahui  hubungan tingkat kelulusan dengan program studi.


C. Integrasi Data

Dalam penulisan tugas akhir kali ini diasumsikan bahwa data yang diambil sudah berupa tabel-tabel dalam satu server.  Untuk proses mining, data kelulusan dan data induk mahasiswa digabungkan dengan primary key NIM. Setelah itu baru dilakukan  proses  mining. Proses  integrasi  data  dilakukan  ketika  proses  ETL (ekstract, transform, and Load) ketika membangun data warehouse, dalam proses ETL data dalam data source digabungkan menjadi satu dalam data warehouse dengan key NIM.

D. Transformasi Data

Transformasi data merupakan proses pengubahan atau penggabungan data ke dalam format yang sesuai untuk diproses dalam data mining. Seringkali data yang akan digunakan dalam proses data mining mempunyai format yang belum langsung bisa digunakan, oleh karena itu perlu dirubah formatnya.

Dalam penulisan tugas akhir ini penulis mencari keterkaitan antara tingkat kelulusan dengan data induk mahasiswa. Tingkat kelulusan mahasiswa dapat dilihat dari lama studi dan IPK (Indeks  Prestasi Kumulatif). Dari dua parameter tersebut data diubah menjadi tipe data yang memudahkan untuk diproses. 
Tabel 1 Predikat Kelulusan
Indeks Prestasi Kumulatif
Predikat
3.51 – 4.00
2.76 – 3.50
2.00 – 2.75

Dengan pujian (cumlaude)
Sangat memuaskan
Memuaskan



Dari tabel diatas, data kelulusan berdasarkan IPK dapat dikategorikan menjadi tiga yaitu:
  1. IPK tipe dengan pujian dengan IPK 3,51 – 4,00 
  2. IPK sangat memuaskan dengan IPK 2,76 – 3,50
  3. IPK memuaskan dengan IPK 2,00 – 2,75


 Pengkategorian data kelulusan berdasarkan lama studi yaitu :
  1. Sesuai jadwal, bila lama studi 4 tahun atau kurang dari 4 tahun
  2. Tidak sesuai jadwal, bila lama studi lebih dari 4 tahun


Dari dua pengkategorian tersebut dapat dibuat kategori berdasarkan kombinasi keduanya, seperti yang dapat dilihat pada tabel 2.
Tabel 2 Transformasi Data
Kategori
Keterangan
A1
lama studi 4 tahun atau kurang dari 4 tahun dan IPK
 3,51 – 4,00
A2
lama studi 4 tahun atau kurang dari 4 tahun dan IPK
2,76 – 3,50
A3
lama studi 4 tahun atau kurang dari 4 tahun dan IPK
2,00 – 2,75
B1
lama studi lebih dari 4 tahun dan IPK 3,51 – 4,00
B2
lama studi lebih dari 4 tahun dan IPK 2,76 – 3,50
B3
lama studi lebih dari 4 tahun dan IPK 2,00 – 2,75
 Dari kombinasi  yang terdapat di tabel diatas terdapat enam tingkatan untuk mengukur tingkat kelulusan mahasiswa. 


Subscribe to receive free email updates:

0 Response to "Analisa Data Mining Metode K-Means Clustering"

Post a Comment