Konsep dan Definisi Text Mining - Seri Text Mining dan Web Mining (1)

Seri ini menjelaskan ikhtisar yang agak komprehensif tentang text mining dan web mining karena keduanya terkait dengan business intelligence (BI) dan decision support systems (dss). Keduanya pada dasarnya adalah turunan dari data mining. Karena text mining dan web mining selalu meningkat jumlahnya dan besarnya lebih dari data yang ada dalam database terstruktur, maka sangat penting untuk mengetahui beberapa teknik yang digunakan dalam memproses jumlah data tak-terstruktur yang sangat besar.

Text Mining: Konsep dan Definisi

Era informasi dimana kita sekarang jalani dicirikan dengan pertumbuhan data dan informasi yang banyak dan cepat yang dikumpulkan, disimpan, dan disediakan di media elektronik. Sebagian besar data bisnis disimpan dalam bentuk dokumen teks yang secara virtual sama sekali tidak terstruktur.  Menurut kajian dari Merrill Lynch dan gartner, 85 hingga 90 persen dari semua data korporat diambil dan disipan dalam bentuk data tak-terstruktur (McKnight, 2005). Dalam kajian yang sama juga dituliskan bahwa data takterstruktur ini selalu menjadi dua kali lipat dalam hal size setiap 18 bulansekali. Karena knowledge adalah power dalam dunia bisnis saat ini, dan knowledge diturunkan dari data dan informasi, organisasi bisnis yang bisa secar efektif dan efisien masuk ke beragam sumber data teks mereka akan memiliki knowledge yang diperlukan untuk membuat keputusan yang lebiih baik, yang membawa ke keuntungan kompetitif atas berbagai bisnis yang sedang ketinggalan di belakang. Inilah yang mengakibatkan kebutuhan terhadap text mining cocok dengan gambaran besar bisnis hari ini.

Text mining (juga disebut dengan text data mining, atau knowledge discovery in textual database) adalah proses semi-otomatis dalam mengekstrak berbagai pola data (informasi dan database yang bermanfaat) dari sumber data tak-terstruktur.  Perlu diingat bahwa data mining adalah suatu proses untuk mengidentifikasi pola-pola yang valid, baru, berpotensi bermanfaat, dan akhirnya bisa dipahami yang ada di dalam data yang disimpan dalam database terstruktur, dimana data dikelola secara terstruktur berdasarkan atribut atau variable-variabel categorical, ordinal, atau continuous. Text mining sama dengan data mining dalam arti dia punya maksud yang sama dan menggunakan proses yang sama, tetapi dalam text mining input terhadap proses adalah file-file data tak-terstruktur (atau kurang terstruktur) seperti dokumen word, file-file pdf, kutipan-kutipan text, file-file XML, dan seterusnya. Pada dasarnya, text mining bisa dipikir sebagai suatu proses (dengan dua langkah utama) yang mulai dengan memaksakan struktur ke berbagai sumber data berbasis teks yang diikuti dengan mengektrak informasi dan knowledge yang relevan dari data berbasis teks yang sudah terstruktur tersebut  dengan menggunakan berbagai tool dan teknik data mining. [Baca juga: Berbagai software text mining]

Manfaat text mining sangat terasa di bidang-bidang yang memiliki banyak data teks, seperti bidang hukum (perintah pengadilan), penelitian akademis (artikel-artikel ilmiah),keuangan (laporan quarterly), pengobatan/kedokteran, biologi (interaksi molekuler), teknologi (file-file paten), dan marketing (komentar-komentar pelanggan). Sebagai contoh,  berbagai macam jenis interaksi dengan para pelanggan berbasis teks dengan format yang sembarangan dalam hal complain (atau mungkin juga pujian) dan klaim jaminan bisa digunakan untuk mengidentifikasi karakteristik produk danlayanan secara objektif yang dianggap kurang sempurna untuk dijadikan sebagai input terhadap pengembangan produk dan alokasi layanan. Demikian juga, dengan brbagai macam program untuk menjangkau market yang menghasilkan jumlah data yang besar. Dengan tidak membatasi feedback terhadap produk dan layanan dengan bentuk yang terformat, pelanggan bisa menyajikan dengan kata-kata mereka sendiri apa yang mereka pikirkan tentang produk dan layanan perusahaan. Bidang lain dimana pemrosesan otomatis terhadap text takterstruktur telah membawa berbagai impact adalah dalam email dan komunikasi elektronik.  Text mining tidak hanya bisa digunakan untuk mengklasifikasikan dan memfilter junk email, tetapi juga bisa digunakan untuk memprioritaskan email secara otomatis berdasarkan tingkat kepentingannya dan juga menghasilkan respon otomatis (Weng and Liu, 2004).

Berikut ini adalah bidang-bidang penerapan text mining yang paling popular:
  • Information extraction (ekstraksi informasi). Identifikasi terhadap hubungan dan frase-frase kunci dalam text dengan mencari urutan yang sudah ditetapkan dalam text menggunakan pencocokan pola.
  • Topic tracking (pelacakan topic). Berdasarkan pada profil user dan berbagai dokumen yang dilihat user, text mining bisa memprediksi dokumen-dokumen lain yang menjadi perhatian/minat user tersebut.
  • Summarization (peringkasan). Meringkas suatu dokumen untuk menghemat waktu dari sis si pembaca
  • Clustering. Mengelompokkan dokumen-dokumen yang mirip tanpa memiliki kategori yang sudah ditetapkan sebelumnya.
  • Concept linking. Menghubungkan berbagai dokumen terkait dengan mengidentifikasi konsep yang digunakan berbsama dan dengan demikian membantu para user untuk menemukan informasi yang barangkali mereka tidak akan temukan dengan menggunakan metode-metode pencarian tradisional.
  • Question answering. Menemukan jawaban terbaik pada pertanyaan yang diberikan melalui pencocokan pola berbasis knowledge

No comments:

Post a Comment