Wednesday, May 7, 2014

DATA MINING & TEXT MINNING & Analitika & KDD & Algoritm

Penggalian data (bahasa Inggris: data mining) adalah ekstraksi pola yang menarik dari data dalam jumlah besar [1]. Suatu pola dikatakan menarik apabila pola tersebut tidak sepele, implisit, tidak diketahui sebelumnya, dan berguna. Pola yang disajikan haruslah mudah dipahami, berlaku untuk data yang akan diprediksi dengan derajat kepastian tertentu, berguna, dan baru. Penggalian data memiliki beberapa nama alternatif, meskipun definisi eksaknya berbeda, seperti KDD (knowledge discovery in database), analisis pola, arkeologi data, pemanenan informasi, dan intelegensia bisnis. Penggalian data diperlukan saat data yang tersedia terlalu banyak (misalnya data yang diperoleh dari sistem basis data perusahaan, e-commerce, data saham, dan data bioinformatika), tapi tidak tahu pola apa yang bisa didapatkan.

Penambangan teks (bahasa Inggris: text mining) adalah proses ekstraksi pola berupa informasi dan pengetahuan yang berguna dari sejumlah besar sumber data teks, seperti dokumen Word, PDF, kutipan teks, dll. Jenis masukan untuk penambangan teks ini disebut data tak terstruktur dan merupakan pembeda utama dengan penambangan data yang menggunakan data terstruktur atau basis data sebagai masukan. Penambangan teks dapat dianggap sebagai proses dua tahap yang diawali dengan penerapan struktur terhadap sumber data teks dan dilanjutkan dengan ekstraksi informasi dan pengetahuan yang relevan dari data teks terstruktur ini dengan menggunakan teknik dan alat yang sama dengan penambangan data. Proses yang umum dilakukan oleh penambangan teks di antaranya adalah perangkuman otomatis, kategorisasi dokumen, penggugusan teks, dll. (Turban, et.al., 2011)

Analitika (bahasa Inggris: analytics) adalah metode atau ilmu untuk melakukan analisis logis.[1][2] Penerapan umum analitika di antaranya adalah untuk mempelajari data bisnis dengan menggunakan analisis statistik untuk menemukan dan memahami pola historis demi memprakirakan dan meningkatkan kinerja bisnis pada masa depan. Analitika mirip dengan analisis statistika dan penggalian data, namun dengan penekanan kepada pemodelan dengan menggunakan perhitungan ekstensif.

 Proses Pencarian Pola

Penggalian data adalah salah satu bagian dari proses pencarian pola. Berikut ini urutan proses pencarian pola:
  1. Pembersihan Data: yaitu menghapus data pengganggu (noise) dan mengisi data yang hilang.
  2. Integrasi Data: yaitu menggabungkan berbagai sumber data.
  3. Pemilihan Data: yaitu memilih data yang relevan.
  4. Transformasi Data: yaitu mentransformasi data ke dalam format untuk diproses dalam penggalian data.
  5. Penggalian Data: yaitu menerapkan metode cerdas untuk ekstraksi pola.
  6. Evaluasi pola: yaitu mengenali pola-pola yang menarik saja.
  7. Penyajian pola: yaitu memvisualisasi pola ke pengguna.

Latar belakang

Perkembangan yang pesat di bidang pengumpulan data dan teknologi penyimpanan di berbagai bidang, menghasilkan basis data yang terlampau besar. Namun, data yang dikumpulkan jarang dilihat lagi, karena terlalu panjang, membosankan, dan tidak menarik. Seringkali, keputusan -yang katanya berdasarkan data- dibuat tidak lagi berdasarkan data, melainkan dari intuisi para pembuat keputusan. Sehingga, lahirlah cabang ilmu penggalian data ini.
Analisis data tanpa menggunakan otomasi dari penggalian data adalah tidak memungkinkan lagi, kalau 1) data terlalu banyak, 2) dimensionalitas data terlalu besar, 3) data terlalu kompleks untuk dianalisis manual (misalnya: data time series, data spatiotemporal, data multimedia, data streams).

Teknik Penggalian Data

Pada dasarnya penggalian data dibedakan menjadi dua fungsionalitas, yaitu deskripsi dan prediksi. Berikut ini beberapa fungsionalitas penggalian data yang sering digunakan:
  • Karakterisasi dan Diskriminasi: yaitu menggeneralisasi, merangkum, dan mengkontraskan karakteristik data.
  • Penggalian pola berulang: yaitu pencarian pola asosiasi (association rule) atau pola intra-transaksi, atau pola pembelian yang terjadi dalam satu kali transaksi.
  • Klasifikasi: yaitu membangun suatu model yang bisa mengklasifikasikan suatu objek berdasar atribut-atributnya. Kelas target sudah tersedia dalam data sebelumnya, sehingga fokusnya adalah bagaimana mempelajari data yang ada agar klasifikator bisa mengklasifikasikan sendiri.
  • Prediksi: yaitu memprediksi nilai yang tidak diketahui atau nilai yang hilang, menggunakan model dari klasifikasi.
  • Penggugusan/Cluster analysis: yaitu mengelompokkan sekumpulan objek data berdasarkan kemiripannya. Kelas target tidak tersedia dalam data sebelumnya, sehingga fokusnya adalah memaksimalkan kemiripan intrakelas dan meminimalkan kemiripan antarkelas.
  • Analisis outlier: yaitu proses pengenalan data yang tidak sesuai dengan perilaku umum dari data lainnya. Contoh: mengenali noise dan pengecualian dalam data.
  • Analisis trend dan evolusi: meliputi analisis regresi, penggalian pola sekuensial, analisis periodisitas, dan analisis berbasis kemiripan.

Knowledge Discovery and Data Mining

Database sekarang dapat memiliki besar sampai hitungan terrabyte. Dalam data yang besar ini tersembunyi informasi yang bersifat strategik. Tapi dengan banyaknya data, timbul masalah untuk menggali informasi yang berguna dari data.
Banyak perusahaan telah mengumpulkan data berkuantitas besar. Teknik data mining dapat diimplementasikan ke platform software dan hardware yang sudah ada untuk meningkatkan nilai dari sumberdaya informasi yang sudah ada. Implementasi data mining pada client/server berperforma tingi atau komputasi paralel dapat menganalisis database yang besae untuk menjawab pertanyaan seperti,”Klien mana yang paling mungkin merespon surat promosi kami selanjutnya, dan kenapa?” 

Pengertian

Knowledge Discovery and Data Mining(KDD) adalah proses yang dibantu oleh komputer untuk menggali dan menganalisis sejumlah besar himpunan data dan mengekstrak informasi dan pengetahuan yang berguna. Data mining tools memperkirakan perilaku dan tren masa depan, memungkinkan bisnis untuk membuat keputusan yang proaktif dan berdasarkan pengetahuan. Data mining tools mampu menjawab permasalahan bisnis yang secara tradisional terlalu lama untuk diselesaikan. Data mining tools menjelajah database untuk mencari pola tersembunyi, menemukan infomasi yang prediktif yang mungkin dilewatkan para pakar karena berada di luar ekspektasi mereka.

Proses Data Mining

Proses dalam KDD adalah proses yang digambarkan pada dan terdiri dari rangkaian proses iteratif sebagai berikut:
1. Data cleaning, menghilangkan noise dan data yang inkonsisten.
2. Data integration, menggabungkan data dari berbagai sumber data yang berbeda
3. Data selection, mengambil data yang relevan dengan tugas analisis dari database
4. Data transformation, Mentransformasi atau menggabungkan data ke dalam bentuk yang sesuai untuk penggalian lewat operasi summary atau aggregation.
5. Data mining, proses esensial untuk mengekstrak pola dari data dengan metode cerdas.
6. Pattern evaluation, mengidentifikasikan pola yang menarik dan merepresentasikan pengetahuan berdasarkan interestingness measures.
7. Knowledge presentation, penyajian pengetahuan yang digali kepada pengguna dengan menggunakan visualisasi dan teknik representasi pengetahuan.
......

Metode

Banyak teknik dan metode yang ada untuk melakukan berbagai jenis tugas data mining. Metode ini dikelompokkan dalam 3 paradigma utama data mining: Predictive Modeling, Discovery, dan Deviation Detection.

Predictive Modeling

Aplikasi Predictive Modeling menghasilkan klasifikasi atau prediksi. Tujuan dari predictive modeling adalah menemukan pola yang melibatkan variabel untuk memprediksi dan mengklasifikasi perilaku masa depan dari sebuah entitas. Ada dua tipe masalah yang diselesaikan oleh predictive modeling: klasifikasi dan regresi.
Klasifikasi melibatkan model pembelajaran yang memetakan (atau mengklasifikasi) data contoh ke dalam satu atau beberapa kelas yang telah didefinisikan. Sebagai contoh, bank dapat menggunakan skema klasifikasi untuk menentukan pengajuan pinjaman yang akan disetujui. Teknik klasifikasi meliputi Naive Bayesian, neural networks, dan decision trees.
Regresi melibatkan model yang memetakan data contoh ke prediksi real-valued. Teknik regresi meliputi neural networks dan decision (atau regression) trees.

Discovery

Aplikasi discovery adalah pendekatan eksploratoris untuk analisis data. Aplikasi discovery menggunakan teknik yang menganalisis data set yang besar untuk menemukan association rules(atau pola), atau menemukan kluster dari sampel yang dapat dikelompokan. Hasil dari metode discovery umumnya dimaksudkan untuk pengguna. Walau begitu, hasilnya juga dapat diaplikasikan ke metode data mining yang lain

Deviation Detection

Deviation Detection melakukan deteksi anomali secara otomatis. Tujuannya untuk mengidentifikasi kebiasaan suatu entitas dan menetapkan sejumlah norm melalui pattern discovery. Sampel yang berdeviasi dari norm lalu diidentifikasi sebagai tidak biasa. teknik Deviation Detection melalui visualisasi melalui parallel coordinates, scatterplots, dan surface plots.
....... 

Aplikasi

Aplikasi dari KDD dalam bisnis antara lain:
§ Market segmentation – Mengidentifikasi karakteristik umum dari pelanggan yang membeli produk yang sama dari perusahaan
§ Customer churn – Memprediksi pelanggan yang mungkin meninggalkan perusahaan untuk beralih ke kompetitor
§ Fraud detection – Mengidentifikasi transaksi yang mungkin merupakan transaksi curang.
§ Direct marketing – Memprediksi prospek yang harus dimasukkan dalam mailing-list untuk mendapatkan respon maksimum
§ Interactive marketing – Memprediksi hal-hal yang menarik bagi setiap individu yang mengakses website.
§ Market basket analysis – Memahami produk atau layanan yang biasanya dibeli bersamaan.
§ Trend analysis – Mengungkap perbedaan antara tipikal pelanggan bulan ini dan bulan lalu dan prediksi tipikal pelanggan bulan depan.
....
 
Berikut ini adalah 10 algoritma penggalian data yang paling populer berdasarkan konferensi ICDM '06, semua algoritma dinominasikan oleh para pemenang ACM KDD Innovation Award dan IEEE ICDM Research Contributions Award [2]:
  1. C4.5 (61 suara) [3]
  2. k-Means (60 suara): [4]
  3. SVM (58 suara): [5]
  4. Apriori (52 suara): [6]
  5. EM (48 suara): [7]
  6. PageRank (46 suara): [8]
  7. AdaBoost (45 suara): [9]
  8. kNN (45 suara): [10]
  9. Naive Bayes (34 suara): [11]
Berikut ini adalah yang hanya masuk nominasi:
Referensi :
wikipedia

Introduction to Data Mining and Knowledge Discovery Third Edition
Penulis : Herbert A. Edelstein
Publisher : Two Crows Corporation (October 8, 1999)
Penulis : Kurt Thearling
Judul : An Introduction to Data Mining, Discovering hidden value in your data warehouse
http://www.thearling.com/text/dmwhite/dmwhite.htm
Publisher : Wikipedia Foundation
Judul : Data Mining
http://en.wikipedia.org/wiki/Data_mining
Publisher : ALG (Automated Learning Group), NCSA (National Center for Supercomputing Applications)
Judul : Data Mining
http://alg.ncsa.uiuc.edu/tools/docs/d2k/manual/dataMining.html
Penulis : Jiawei Han, Micheline Kamber
Judul : Data Mining: Concept and Techniques
Publisher : Academic Press Sand Diego, CA, 2001

No comments:

Post a Comment