Penambangan teks (bahasa Inggris: text mining) adalah proses ekstraksi pola berupa informasi dan pengetahuan yang berguna dari sejumlah besar sumber data teks, seperti dokumen Word, PDF, kutipan teks, dll. Jenis masukan untuk penambangan teks ini disebut data tak terstruktur dan merupakan pembeda utama dengan penambangan data yang menggunakan data terstruktur atau basis data sebagai masukan. Penambangan teks dapat dianggap sebagai proses dua tahap yang diawali dengan penerapan struktur terhadap sumber data teks dan dilanjutkan dengan ekstraksi informasi dan pengetahuan yang relevan dari data teks terstruktur ini dengan menggunakan teknik dan alat yang sama dengan penambangan data. Proses yang umum dilakukan oleh penambangan teks di antaranya adalah perangkuman otomatis, kategorisasi dokumen, penggugusan teks, dll. (Turban, et.al., 2011)
Analitika (bahasa Inggris: analytics) adalah metode atau ilmu untuk melakukan analisis logis.[1][2] Penerapan umum analitika di antaranya adalah untuk mempelajari data bisnis dengan menggunakan analisis statistik untuk menemukan dan memahami pola historis demi memprakirakan dan meningkatkan kinerja bisnis pada masa depan. Analitika mirip dengan analisis statistika dan penggalian data, namun dengan penekanan kepada pemodelan dengan menggunakan perhitungan ekstensif.
Proses Pencarian Pola
Penggalian data adalah salah satu bagian dari proses pencarian pola. Berikut ini urutan proses pencarian pola:- Pembersihan Data: yaitu menghapus data pengganggu (noise) dan mengisi data yang hilang.
- Integrasi Data: yaitu menggabungkan berbagai sumber data.
- Pemilihan Data: yaitu memilih data yang relevan.
- Transformasi Data: yaitu mentransformasi data ke dalam format untuk diproses dalam penggalian data.
- Penggalian Data: yaitu menerapkan metode cerdas untuk ekstraksi pola.
- Evaluasi pola: yaitu mengenali pola-pola yang menarik saja.
- Penyajian pola: yaitu memvisualisasi pola ke pengguna.
Latar belakang
Perkembangan yang pesat di bidang pengumpulan data dan teknologi penyimpanan di berbagai bidang, menghasilkan basis data yang terlampau besar. Namun, data yang dikumpulkan jarang dilihat lagi, karena terlalu panjang, membosankan, dan tidak menarik. Seringkali, keputusan -yang katanya berdasarkan data- dibuat tidak lagi berdasarkan data, melainkan dari intuisi para pembuat keputusan. Sehingga, lahirlah cabang ilmu penggalian data ini.Analisis data tanpa menggunakan otomasi dari penggalian data adalah tidak memungkinkan lagi, kalau 1) data terlalu banyak, 2) dimensionalitas data terlalu besar, 3) data terlalu kompleks untuk dianalisis manual (misalnya: data time series, data spatiotemporal, data multimedia, data streams).
Teknik Penggalian Data
Pada dasarnya penggalian data dibedakan menjadi dua fungsionalitas, yaitu deskripsi dan prediksi. Berikut ini beberapa fungsionalitas penggalian data yang sering digunakan:- Karakterisasi dan Diskriminasi: yaitu menggeneralisasi, merangkum, dan mengkontraskan karakteristik data.
- Penggalian pola berulang: yaitu pencarian pola asosiasi (association rule) atau pola intra-transaksi, atau pola pembelian yang terjadi dalam satu kali transaksi.
- Klasifikasi: yaitu membangun suatu model yang bisa mengklasifikasikan suatu objek berdasar atribut-atributnya. Kelas target sudah tersedia dalam data sebelumnya, sehingga fokusnya adalah bagaimana mempelajari data yang ada agar klasifikator bisa mengklasifikasikan sendiri.
- Prediksi: yaitu memprediksi nilai yang tidak diketahui atau nilai yang hilang, menggunakan model dari klasifikasi.
- Penggugusan/Cluster analysis: yaitu mengelompokkan sekumpulan objek data berdasarkan kemiripannya. Kelas target tidak tersedia dalam data sebelumnya, sehingga fokusnya adalah memaksimalkan kemiripan intrakelas dan meminimalkan kemiripan antarkelas.
- Analisis outlier: yaitu proses pengenalan data yang tidak sesuai dengan perilaku umum dari data lainnya. Contoh: mengenali noise dan pengecualian dalam data.
- Analisis trend dan evolusi: meliputi analisis regresi, penggalian pola sekuensial, analisis periodisitas, dan analisis berbasis kemiripan.
Knowledge Discovery and Data Mining
Database
sekarang dapat memiliki besar sampai hitungan terrabyte. Dalam data
yang besar ini tersembunyi informasi yang bersifat strategik. Tapi
dengan banyaknya data, timbul masalah untuk menggali informasi yang
berguna dari data.
Banyak
perusahaan telah mengumpulkan data berkuantitas besar. Teknik data
mining dapat diimplementasikan ke platform software dan hardware yang
sudah ada untuk meningkatkan nilai dari sumberdaya informasi yang sudah
ada. Implementasi data mining pada client/server berperforma tingi atau
komputasi paralel dapat menganalisis database yang besae untuk menjawab
pertanyaan seperti,”Klien mana yang paling mungkin merespon surat
promosi kami selanjutnya, dan kenapa?”
Pengertian
Knowledge Discovery and Data Mining(KDD) adalah
proses yang dibantu oleh komputer untuk menggali dan menganalisis
sejumlah besar himpunan data dan mengekstrak informasi dan pengetahuan
yang berguna. Data mining tools memperkirakan perilaku dan tren masa depan, memungkinkan bisnis untuk membuat keputusan yang proaktif dan berdasarkan pengetahuan. Data mining tools mampu menjawab permasalahan bisnis yang secara tradisional terlalu lama untuk diselesaikan. Data mining tools
menjelajah database untuk mencari pola tersembunyi, menemukan infomasi
yang prediktif yang mungkin dilewatkan para pakar karena berada di luar
ekspektasi mereka.
Proses Data Mining
Proses dalam KDD adalah proses yang digambarkan pada dan terdiri dari rangkaian proses iteratif sebagai berikut:
1. Data cleaning, menghilangkan noise dan data yang inkonsisten.
2. Data integration, menggabungkan data dari berbagai sumber data yang berbeda
3. Data selection, mengambil data yang relevan dengan tugas analisis dari database
4. Data transformation, Mentransformasi atau menggabungkan data ke dalam bentuk yang sesuai untuk penggalian lewat operasi summary atau aggregation.
5. Data mining, proses esensial untuk mengekstrak pola dari data dengan metode cerdas.
6. Pattern evaluation, mengidentifikasikan pola yang menarik dan merepresentasikan pengetahuan berdasarkan interestingness measures.
7. Knowledge presentation, penyajian pengetahuan yang digali kepada pengguna dengan menggunakan visualisasi dan teknik representasi pengetahuan.
......
Metode
Banyak
teknik dan metode yang ada untuk melakukan berbagai jenis tugas data
mining. Metode ini dikelompokkan dalam 3 paradigma utama data mining: Predictive Modeling, Discovery, dan Deviation Detection.
Predictive Modeling
Aplikasi Predictive Modeling menghasilkan klasifikasi atau prediksi. Tujuan dari predictive modeling
adalah menemukan pola yang melibatkan variabel untuk memprediksi dan
mengklasifikasi perilaku masa depan dari sebuah entitas. Ada dua tipe
masalah yang diselesaikan oleh predictive modeling: klasifikasi dan regresi.
Klasifikasi
melibatkan model pembelajaran yang memetakan (atau mengklasifikasi)
data contoh ke dalam satu atau beberapa kelas yang telah didefinisikan.
Sebagai contoh, bank dapat menggunakan skema klasifikasi untuk
menentukan pengajuan pinjaman yang akan disetujui. Teknik klasifikasi
meliputi Naive Bayesian, neural networks, dan decision trees.
Regresi melibatkan model yang memetakan data contoh ke prediksi real-valued. Teknik regresi meliputi neural networks dan decision (atau regression) trees.
Discovery
Aplikasi discovery adalah pendekatan eksploratoris untuk analisis data. Aplikasi discovery menggunakan teknik yang menganalisis data set yang besar untuk menemukan association rules(atau pola), atau menemukan kluster dari sampel yang dapat dikelompokan. Hasil dari metode discovery umumnya dimaksudkan untuk pengguna. Walau begitu, hasilnya juga dapat diaplikasikan ke metode data mining yang lain
Deviation Detection
Deviation Detection melakukan deteksi anomali secara otomatis. Tujuannya untuk mengidentifikasi kebiasaan suatu entitas dan menetapkan sejumlah norm melalui pattern discovery. Sampel yang berdeviasi dari norm lalu diidentifikasi sebagai tidak biasa. teknik Deviation Detection melalui visualisasi melalui parallel coordinates, scatterplots, dan surface plots........
Aplikasi
Aplikasi dari KDD dalam bisnis antara lain:
§ Market segmentation – Mengidentifikasi karakteristik umum dari pelanggan yang membeli produk yang sama dari perusahaan
§ Customer churn – Memprediksi pelanggan yang mungkin meninggalkan perusahaan untuk beralih ke kompetitor
§ Fraud detection – Mengidentifikasi transaksi yang mungkin merupakan transaksi curang.
§ Direct marketing – Memprediksi prospek yang harus dimasukkan dalam mailing-list untuk mendapatkan respon maksimum
§ Interactive marketing – Memprediksi hal-hal yang menarik bagi setiap individu yang mengakses website.
§ Market basket analysis – Memahami produk atau layanan yang biasanya dibeli bersamaan.
§ Trend analysis – Mengungkap perbedaan antara tipikal pelanggan bulan ini dan bulan lalu dan prediksi tipikal pelanggan bulan depan.
....
- C4.5 (61 suara) [3]
- k-Means (60 suara): [4]
- SVM (58 suara): [5]
- Apriori (52 suara): [6]
- EM (48 suara): [7]
- PageRank (46 suara): [8]
- AdaBoost (45 suara): [9]
- kNN (45 suara): [10]
- Naive Bayes (34 suara): [11]
- CART: [12]
- FP-Tree: [13]
- HITS: [14]
- BIRCH: [15]
- GSP: [16]
- PrefixSpan: [17]
- CBA: [18]
- Finding Reduct: [19]
- gSpan: [20]
wikipedia
Introduction to Data Mining and Knowledge Discovery Third Edition
Penulis : Herbert A. Edelstein
Publisher : Two Crows Corporation (October 8, 1999)
Penulis : Kurt Thearling
Judul : An Introduction to Data Mining, Discovering hidden value in your data warehouse
http://www.thearling.com/text/dmwhite/dmwhite.htm
Publisher : Wikipedia Foundation
Judul : Data Mining
http://en.wikipedia.org/wiki/Data_mining
Publisher : ALG (Automated Learning Group), NCSA (National Center for Supercomputing Applications)
Judul : Data Mining
http://alg.ncsa.uiuc.edu/tools/docs/d2k/manual/dataMining.html
Penulis : Jiawei Han, Micheline Kamber
Judul : Data Mining: Concept and Techniques
Publisher : Academic Press Sand Diego, CA, 2001
No comments:
Post a Comment