Data Mining

Teknologi komputasi dan media penyimpanan telah memungkinkan manusia untuk mengumpulkan dan menyimpan data dari berbagai sumber dengan jangkauan yang amat luas. Fenomena ini terjadi dalam banyak bidang kehidupan, seperti bisnis, perbankan, pemasaran, produksi, sains, dan sebagainya. Dalam sains misalnya, berbagai teknologi memungkinkan pengambilan data yang dilakukan secara kontinu hingga dalam jumlah bertera-tera (1012) byte. Salah satu contohnya adalah Sistem Observasi Bumi milik NASA yang mampu mengirimkan berbagai jenis data berkaitan dengan objek-objek yang diamatinya hingga berpuluh-puluh gigabyte setiap jamnya.

Meskipun teknologi basisdata modern telah menghasilkan media penyimpanan yang ekonomis bagi aliran data yang amar besar ini, teknologi untuk membantu kita menganalisis, memahami, atau bahkan memvisualisasikannya belumlah tersedia. Hal inilah yang melatarbelakangi dikembangannya konsep pengambilan pengetahuan dari basisdata (PPB) atau datamining yang dapat diterjemahkan secara sederhana sebagai 'penambangan data'. Definisi sederhana dari PPB adalah pencarian pengetahuan dalam basisdata dalam proses identifikasi pola-pola yang valid,  berpotensi manfaat, dan dapat dipahami secara mudah.

Tahap-tahap Pengambilan Pengetahuan dari Basisdata (PPB) 1.       Membangun pemahaman akan domain aplikasi, pengetahuan lampau yang relevan, dan tujuan dari pengguna akhir

Dengan teknologi sekarang, tahap ini memerlukan penyandaran pada analis / pengguna. Faktor-faktor yang dipertimbangkan :

-          Apa saja bottle neck dalam domain? Apa saja proses yang berharga untuk diotomatisasi dan apa yang sebaiknya diproses secara manual?

-          Apa tujuan yang diinginkan? Kriteria unjuk kerja apa saja yang penting?

2.      Membentuk himpunan data target, memilih sebuah himpunan data, atau berfokus pada sub himpunan variabel atau contoh-contoh data, yang padanya pencarian dilakukan

Hal ini melibatkan homogenitas data, dinamika dan perubahan, strategi pengambilan sampel, tingkat kebebasan, dan sebagainya.

3.      Pembersihan dan pendahuluan pemprosesan data

Melibatkan operasi-operasi dasar seperti penghilangan derau atau "outliner", pengumpulan informasi yang diperlukan untuk model, menentukan strategi penanganan field data yang hilang, perhitungan informasi urutan waktu, normalisasi yang sesuai, dan seterusnya.

4.      Reduksi dan transformasi data

Melibatkan keputusan ciri-ciri penting representasi data (bergantung pada tujuan). Penggunaan reduksi dimensionalitas atau metode-metode transformasi untuk mengurangi banyaknya variabel efektif di bawah pertimbangan atau menemukan representasi invarian bagi data, dan memproyeksikan data pada ruang-ruang yang di dalamnya sebuah solusi lebih mudah ditemukan.

5.      Memilih task datamining

Melibatkan keputusan tujuan dari proses PPB, yaitu : klasifikasi, regresi, clustering, peringkasan, pemodelan kebergantungan, atau deteksi perubahan dan deviasi

6.      Memilih algoritma datamining

Memilih metode yang digunakan untuk menemukan pola atau mencocokkan model kedalam data. Pemilihan model dan parameter yang sesuai seringkali bersifat kritikal. Sebagai tambahan, metode datamining harus kompatibel dengan tujuan (pengguna akhir seringkali lebih tertarik pada memahami model daripada memprediksi kapabilitasnya.

7.      Datamining

Melibatkan pencarian minat dalam sebuah form atau sekumpulan representasi : pohon atau aturan klasifikasi, regresi, clustering, dan sebagainya. Pengguna dapat secara signifikan menyumbang metode datamining dengan mengikuti tahap-tahap berikutnya secara tepat

8.      Evaluasi keluaran tahap 7

Pada tahap ini diputuskan apa yang menjadi pengetahuan, hal tersebut merupakan sebuah tugas yang sulit. Pencapaian hasil yang dapat diterima dapat melibatkan penggunaan beberapa pilihan berikut (mungkin juga kombinasinya) :

-          Mendefinisikan sebuah skema terotomasi menggunakan ukuran "ketertarikan" dan lain-lain untuk menyaring pengetahuan dari keluaran-keluaran yang lain. Pengukuran dapat bersifat statistikal, goodness of fit, atau kesederhanaan dibandingkan dengan yang lain

-          Menyandarkan pada teknik visualisasi untuk membantu analis memutuskan utilitas pengetahuan yang terekstraksi atau mencapai kesimpulan tentang data / fenomena underlying

-          Menyandarkan secara keseluruhan kepada pengguna untuk bergeser melalui pola-pola yang diturunkan dengan harapan of coming across items of interest

Tahap ini mungkin menghasilkah perubahan-perubahan pada tahap-tahap selanjutnya, atau pengulangan seluruh proses.

9.      Konsolidasi pengetahuan yang telah ditemukan, incorporating dengan sistem unjuk kerja, atau sekedar mendokumentasikan dan melaporkannya kepada pengguna.

Hal ini juga melibatkan pengecekan dan pemecahan konflik-konflik yang potensial dengan pengetahuan atau keyakinan sebelumnya


Cara terbaik untukmemahami tentang konsep Data Mining adalah dalam lingkup spectrum of initiative:

·        User Initiative: pada akhir spektrum kita mempunyai Query dan Laporan yang diinisiatifkan oleh user – sebagai contoh user harus memikirkan pertanyaan untuk ditanyakan, dan sistem akan merespon. Secara singkat pendekatan user initiative adalah user tidak pernah berfikir tentang semua hal yang berkaitan yang akan ditanyakan, dan banyak item-item penting yang akan terlewatkan.


·        System Initiative: pada sisi lainya dari spektrum, dengan otomatisasi data mining, program akan berfikir tentang pertanyaan yang menarik. Disini program akan mencari pola yang penting dan menarik untuk ditanyakan tanpa campur tangan user. Sistem IDIS  menemukan pola dengan proses Information Discovery. User tidak perlu memberikan serangkaian pertanyaan, IDIS akan mengenerate pertanyaan penting tersebut.
Sebagai tambahan, dua aktivitas Data Mining yang perlu dilakukan adalah:

·        Predictive Modeling: Disini pola ditemukan dari database yang digunakan untuk meramal masa depan. Pemodelan Prediksi  memungkinkan user untuk mengirimkan record dengan beberapa field kosong, dan sistem akan menebak nilai yang kosong tersebut dengan pola-pola sebelumnya yang ditemukan dari basis data.

·        Forensic Analysis:  Disini pola-pola yang telah diekstraksi digunakan untuk menemukan keanehan atau elemen data yang tidak biasa. Untuk mencari data yang tidak biasa pertama kali yang dicari adalah norm dari data tersebut, kemudian mendeteksi item-item deviasi dari dari data yang biasa (usual) dengan batasan yang diberikan.

  Kesimpulan Teknologi basisdata modern telah menghasilkan kemampuan yang sangat besar dalam menimpan dan mentransmisikan data. Dengan datamining kita dapat menganalisis, memahami, atau bahkan memvisualisasikannya, melalui pencarian pengetahuan dalam basisdata dalam proses identifikasi pola-pola yang valid, berpotensi manfaat, dan dapat dipahami secara mudah.

Artikel :


data mining 1