Pengertian Data Mining

Data mining merupakan analisis dari peninjauan kumpulan data untuk menemukan hubungan yang tidak diduga dan meringkas data dengan cara yang berbeda dengan sebelumnya, yang dapat dipahami dan bermanfaat bagi pemilik data” (Larose, 2005). Data mining adalah melakukan ekstraksi untuk mendapatkan informasi penting yang sifatnya implisit dan sebelumnya tidak diketahui, dari suatu data (Witten et al., 2011). Menurut Gartner Grup data mining adalah suatu proses menemukan hubungan yang berarti, pola, dan kecendrungan dengan memeriksa dalam sekumpulan besar data yang tersimpan dalam penyimpanan dengan menggunakan teknik pengenalan pola seperti teknik statistik dan matematika.

Faktor Pendukung Data Mining

Beberapa Faktor yang mendukung Data Mining adalah sebagai berikut:

  1. Data telah mencapai jumlah dan ukuran yang sangat besar
  2. Telah dilakukan proses data warehousing
  3. Kemampuan Komputasi yang semakin terjangkau
  4. Persaingan bisnis yang semakin ketat


Tahapan Data Mining

Data mining merupakan suatu bagian yang penting dalam proses KDD (Knowledge Discovery in Database) terutama berkaitan dengan ekstrasi dan perhitungan pola-pola dari data yang dianalisis. Berikut tahapan-tahapan dalam proses KDD (Knowledge Discovery in Database):

Gambar 2.1 Tahapan proses Knowledge Discovery in Database (Han, 2006).


1.  Data Selection

Pemilihan (seleksi) data baru sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD (Knowledge Discovery in Database) dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.

2.  Preprocessing/Cleaning

Sebelum proses data mining dapat dilaksanakan, perlu dilakukan prosescleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi).

3.  Transformasi

Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan cari dalam basis data. 

4.  Data Mining

Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.

5.  Interpretasi / Evaluasi

Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut dengan interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya.

Pengelompokan Data Mining

Menurut Larose (2005), data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan,yaitu:

1.  Deskripsi

Terkadang peneliti dan analis secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data.

2.  Estimasi

Estimasi hamper sama dengan klasifikasi, kecuali variabel target estimasi lebih kearah numeric daripada ke arah kategori.

3.  Prediksi 

Prediksi hamper sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil aka nada di masa mendatang. Beberapa metode dan teknik yang digunakan dalam klasifikasi dan estimasi dapat pula digunakan (untuk keadaan yang tepat) untuk prediksi.

4.  Klasifikasi

Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh, penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu pendapatan tinggi, pendapatan sedang, dan pendapatan rendah.

Tujuan Data Mining

Dengan kemampuan data mining (pengembangan data) untuk mencari informasi bisnis yang berharga dari basis data yang sangat besar. Teknologi ini dipakai untuk :

1.  Prediksi trend dan sifat-sifat bisnis

Data mining mengotomatisasi proses pencarian informasi pemprediksi di dalam basis data yang besar. Pertanyaan–pertanyaan yang berkaitan dengan prediksi ini dapat cepat dijawab langsung dari data yang tersedia.

2.  Penemuan pola–pola yang tidak di ketahui sebelumnya

Data mining menyapu basis data, kemudian mengidentifikasi pola–pola yang sebelumnya tersembunyi dalam satu sapuan. Contoh dari penemuan pola–pola ini adalah analisa data penjualan ritel untuk mengidentifikasi produk–produk, yang kelihatannya tidak berkaitan, yang seringkali dibeli secara bersamaan oleh costumer.

Pohon Keputusan

Pohon keputusan meruapakan metode klasifikasi dan prediksi yang sangat kuat dan terkenal. Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang merepresentasikan aturan. Aturan dapat diekspresikan dalam bentuk bahasa basis data seperti Structured Query Language untuk mencari Record. Pohon keputusan juga bergunba untuk mengeksploitasi data, menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel output. 
Sebuah pohon keputusan adalah sebuah struktur yang dapat digunakan untuk membagi kumpulan data yang besar menjadi himpunan–himpunan record yang lebih kecil dengan menerapkan serangkaian aturan keputusan. Dengan masing–masing rangkaian pembagian, anggota himpunan hasil menjadi mirip satu dengan yang lain (Berry & Linoff, 2004). 
Banyak Algoritma yang dapat dipakai dalam pembentukan pohon keputusan, antara lain ID3, CART, dan C4.5 (Larose, 2005). Algoritma C4.5 merupakan pengembangan dari algoritma ID3. 
Data dalam pohon keputusan biasanya dinyatakan dalam bentuk tabel dengan atribut dan record. Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan pohon. Misalnya untuk menentukan main tenis, kriteria yang diperhatikan adalah cuaca, angin dan temperatur. Salah satu atribut merupakan atribut yang menyatakan data solusi per item yang disebut target atribut. Atribut memiliki nilai–nilai yang dinamakan dengan instance. Misalnya atribut cuaca mempunyai instance berupa cerah, berawan, hujan (Basuki & Syarif, 2003).

Algoritma C4.5

Pengertian Algortma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan.
Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah
1. Pilih atribut sebagai node akar.
2. Buat cabang untuk tiap-tiap nilai
3. Bagi kasus dalam cabang.
4. Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki kelas yang sama.
Untuk memilih atribut sebagai  node  akar, didasarkan pada nilai  Gain  tertinggi dari atribut-atribut yang ada. Untuk menghitung  Gain  digunakan rumus seperti tertera dalam persamaan berikut:
Sebelum  mendapatkan nilai  Gain  adalah mencari  nilai  Entropy. Entropy digunakan untuk menentukan seberapa informatif sebuah masukan atribut untuk menghasilkan keluaran  atribut. Rumus dasar dari  Entropy  tersebut adalah sebagai berikut :



Keterangan :
S  : himpunan Kasus
A  : fitur
n  : jumlah partisi S
pi  : proporsi dari Si terhadap S



Subscribe to receive free email updates:

0 Response to "Data Mining Algoritma C4.5"

Post a Comment