Penerapan-penerapan Text Mining - Seri Text Mining dan Web Mining (3)

Karena jumlah data tak-terstruktur yang dikumpulkan perusahaan semakin banyak, maka nilai dan popularitas tools text mining juga meningkat. Saat ini banyak sekali perusahaan menyadari betapa pentingnya mengekstrak knowledge (pengetahuan) yang ada di berbagai data berbasis dokumen yang mereka miliki dengan menggunakan tools text mining. Berikut ini adalah beberapa contoh kecil beberapa kategori penerapan text mining. [Baca juga: Kisah sukses web mining]

Penerapan Bidang Marketing

Text mining bisa digunakan untuk meningkatkan ‘cross-selling’ dan ‘up-selling’ dengan menganalisa data tak-terstruktur yang dihasilkan oleh ‘call-centers’. Text yang dihasilkan oleh catatan di call-centers dan juga transkrip percakapannya dengan pelanggan bisa dianalisa dengan menggunakan algoritma-algoritma text mining untuk mengekstrak informasi yang baru dan bisa ditindaklanjuti tentang persepsi pelanggan terhadap produk dan layanan pelanggan. Selain itu, berbagai blog, review pelanggan tentang produk dan layanan perusahaan dari berbagai situs independen, dan diskusi di forum adalah tambang emas dalam analisa sentimen pelanggan. Kumpulan informasi yang kaya tersebut, sekali dianalisa dengan benar, bisa dimanfaatkan untuk meningkatkan kepuasan dan keseluruhan nilai pelanggan.

Text mining telah menjadi suatu yang tak ternilai bagi CRM (Customer Relationship Management). Banyak perusahaan bisa menggunakan text minig untuk menganalisa berbagai data teks tak-terstrukutr, yang digabungkan dengan data terstruktur yang relevan yang berasal dari database perusahaan, untuk memprediksi persepsi pelanggan dan perilaku pelanggan dalam pembelian berikutnya. Coussement dan Van den Poel (peneliti text mining) telah berhasil menerapkan text mining untuk meningkatkan secara signifikan kemampuan suatu model (text mining) untuk memprediksi loyalitas pelanggan (mislanya, pelanggan yang mau pindah ke kompetitor) sehingga pelanggan yang cenderung pindah ke kompetiror bisa diidentifikasi dengan akurat untuk menyiapkan berbagai taktik retensi. Ghani (peneliti text mining) telah menggunakan text mining untuk menarik kesimpulan atribut-atribut produk secara implicit dan eksplisit untuk meningkatkan kemampuan took pengecer untuk menganalisa database produuk. Memperlakukan berbagai produk sebagai sekumpulan pasangan antara atribut-dan-nilai atribut daripada  sebagai entitas atomic bisa meningkatkan efektivitas berbagai penerapan bisnis, antara lain prediksi terhadap ‘demand’ (permintaan), optimisasi keragaman produk, rekomendasi produk, perbandingan keragaman produk di pengecer dan produsen, dan pemilihan supplier produk.  Sistem yang diusulkan mendorong perusanaan untuk menyajikan produk-produknya dalam arti ‘atribut dan nilai atribut’ tanpa melakukan banyak usaha manual. Sistem tersebut akan mempelakari atribut-atribut tersebut dengan menerapkan teknik-teknik belajar ‘supervised’ dan ‘unsupervised’ pada deskripsi produk yang ditemukan pada situs-situs pengecer.

Penerapan Bidang Keamanan

Salah satu penerapan text mining yang terbesar dan paling terkenal dalam bidang keamanan barangkali adalah system pengawasan ECHELON yang sangat rahasia. Seperti rumornya, ECHELON dianggap mampu mengidentifikasi isi panggilan telepon, faks, email, dan jenis-jenis data lainnya, dengan mengambil informasi di tengah yang dikirim lewat satelit, jaringan telepon public, dan link microwave.

Pada 2007, EUROPOL sudah mengembangkan system terintegrasi yang mampu mengakses, menyimpan, dan menganalisa berbagai sumber data yang terstruktur dan tak-terstruktur  yang sangat besar untuk melacak kejahatan transnasional yang terorganisasi. Ada suatu sistem yang disebut OASIS (Overall Analysis System for Intelligence Support), system ini bertujuan untuk mengintegrasikan data dan teknologi text minig yang paling canggih yang ada di market.  System tersebut memungkinkan EUROPOL untuk membuat kemajuan yang signifikan dalam mendukung berbagai tujuan penegakan hokum di tingkat internasional.

FBI (Federal Bureau of Investigation) dan CIA (Central Intelligence Agency) dibawah komando ‘Department for Homeland Security’, sedang mengembangkan bersama suatu data supercomputer dan system text mining. System tersebut diharapkan untu menciptakan datawarehouse yang sangat besar disertai dengan berbagai macam data dan modul-modul text mining untuk memenuhi kebutuhan akan penemuan knowledge di  tingkat pusat, negara bagian, dan dinas penegakan hokum lokal. Sebelum project ini, masing-masing FBI dan CIA memiliki database sendiri yang tidak saling terkoneksi.

Penerapan text mining terkait bidang keamanan lainnya adalah bidang deteksi kebohongan. Dengan menerapkan text mining ke banyak data tentang pernyataan penjahat di dunia nyata, Fuller (peneliti text mining) telah mengembangkan model prediksi untuk membedakan pernyataan yang bohong dengan yang jujur. Dengan menggunakan berbagai isyarat yang sangat banyak yang diekstrak dari pernyataan teks, model  tersebut memprediksi data sampel dengan akurasi 70%, yang dipercaya sebagai sukses yang signifikan dalam mempertimbangkan bahwa berbagai isyarat  hanya diekstrak dari pernyataan teks (tidak ada isyarat verbal maupun visual). Selain itu, dibandingkan dengan berbagai teknik deteksi kebohongan lainnya, seperti polygraph, metode ini tidak membosankan dan bisa diterapkan secara luas tidak hanya pada data teks, tetapi juga pada transkrip dari rekaman suara.


Penerapan Bidang Biomedis

Text mining memiliki potensi yang dahsyat dalam bidang biomedis secara umum dan biomedik dalam hal tertentu dengan beberapa alasan. Pertama, literatur yang sudah terbit dan terbitan-terbitan publikasi (khususnya dengan kedatangan berbagai jurnal open source) dalam bidang ini sedang berkembang cepat secara eksponential. Kedua, bila dibandingkan dengan kebanyakan bidang-bidang yang lain, literatur bidang medis lebih terstandardisasi dan teratur rapi, sehingga menjadikannya sumber informasi yang lebih mudah untuk ditambang. Terakhir, terminologi yang digunakan dalam literatur relatif tetap sama, sehingga memiliki ontologi yang cukup terstandardisasi. Berikut dibawah ini adalah beberapa kajian contoh dimana teknik-teknik dalam text mining berhasil digunakan untuk mengekstrak pola-pola baru dari literatur biomedis.

Teknik eksperimental seperti analisis DNA microarray, analisis serial ekspresi gen (SAGE), dan proteomik spektrometri massa  adalah beberapa contoh  yang menghasilkan sejumlah besar data yang berkaitan dengan gen dan protein. Seperti halnya dalam pendekatan eksperimental lainnya, adalah sesuatu yang sangat penting untuk menganalisa sejumlah besar data tersebut dari konteks informasi yang sudah diketahui sebelumnya tentang entitas biologi yang sedang dikaji. Literatur tersebut adalah sumber informasi yang sangat berharga untuk validasi dan interpretasi dari eksperimen. Karena itu pengembangan dari berbagai macam tool text mining untuk membantu interpretasi yang sedemikian adalah salah satu tantangan utama dalam penelitian bioinformatik saat ini.

Mengetahui lokasi protein di dalam suatu sel bisa membantu menjelaskan perannya dalam berbagai proses biologi dan menentukan potensinya sebagai suatu target obat.  Banyak sekali sistem prediksi lokasi yang dijelaskan dalam literatur; beberapa berfokus pada organisme tertentu, sedangkan yang lain mencoba untuk menganalisis berbagai organisme.  Shatkay (peneliti text mining) mengusulkan sistem yang komprehensif yang menggunakan beberapa jenis dari ‘ sequence- and text-based features’ untuk memprediksi lokasi protein (feature dalam data mining adalah sama dengan  atribut, variabel atau dimensi dalam bidang lainnya). Hal utama yang baru dalam sistem mereka terletak pada caranya untuk memilih sumber-sumber teks dan features-nya dan mengintegrasikannya dengan ‘sequence-based features’.  Mereka menguji sistem pada dataset yang sudah digunakansebelumnya dan pada dataset yang baru yang dirancang secara khusus untuk menguji kemampuan prediktifnya. Hasilnya menunjukkan bahwa sistem mereka konsisten mengalahkan banyak hasil ujicoba yang telah dilaporkansebelumnya.

Chun dan kawan-kawan (peneliti text mining) menjelaskan suatu sistem yang memngekstrak hubungan antara penyakit-dan-gen dari literatur yang diakses melalui MEDELINE. Mereka membuat ‘dictionary’ nama-nama untuk penyakit dan gen dari database publik dan mengekstrak kandidat-kandidat hubungan dengan pencocokan ‘dictionary’. Karena pencocokan ‘dictionary’ menghasilkan sejumlah besar ‘false positive’ [tentang ‘false positive’ bisa membaca isi artikel tentang ‘confusion matrix’ di link berikut: http://beritati.blogspot.co.id/2013/08/metode-metode-dalam-data-mining-seri.html], mereka  mengembangkan suatu metode pengenalan entitas yang berbasis ‘machine learning’ (NER) untuk menyaring pengenalan yang keliru dari nama-nama penyakit/gen.  Mereka menyimpulkan bahwa keberhasilan dari ekstrasi hubungan antara penyakit/gen sangat bergantung pada kinerja penyaringan NER dan bahwa proses penyaringan tersebut meningkatkan presisi ekstraksi hubungan tersebut sebesar 26.7 persen, dengan kompensi sedikit pengurangan dalam hal ‘recall’ [tentang ‘recall’ juga bisa dibaca di dalam isi artikel di link berikut ini: http://beritati.blogspot.co.id/2013/08/metode-metode-dalam-data-mining-seri.html]


Gambar di atas menunjukkan gambaran yang sederhana tentang proses analisa text multilevel untuk menyingkap hubungan antara gen-protein (atau interaksi antara protein-protein) dalam literatur biomedis. Seperti yang bisa dilihat dalam contoh sederhana tersebut yang menggunakan kalimat sederhana dari teks biomedis, pertama (3 level di bagian bawah) teks di-tokenisasi atau dipecah-pecah (tokenized) dengan menggunakan ‘part-of-speech tagging’ dan ‘shallow-parsing’. Istilah-istilah yang sudah di-tokenisasi (kumpulan kata) kemudian di cocokkan dan di interpretasikan dengan penyajian hirarkis dari ontologi domain untuk menurunkan hubungan antara gen-protein. Penerapan metode ini (dan/atau beberapa variasinya) ke literatur biomedis menawarkan potensi yang sangat besar untuk  menyingkap kompleksitas pada ‘Human Genome Project’.

Penerapa Bidang Akademik

Isu tentang text mining merupakan hal yang sangat penting bagi para penerbit yang memiliki banyak database yang sangat besar tentang informasi yang memerlukan ‘indexing’ untuk pencarian informasi yang lebih baik. Hal ini memang betul dalam bidan ilmu pengetahuan, dimana informasi yang sangat khusus seringkali berada di dalam tulisan teks. Banyak inisiatif telah diluncurkan, seperti proposal ‘Nature’ untuk ‘Open Text Mining Interface’ (OTMI) dan ‘National Institutes of Health’s common Journal Publishing Document Type Definition’ (DTD), yang memberikan petunjuk-petunjuk semantik bagi mesin untuk menjawab pertanyaan-pertanyaan tertentu yang terkandung di dalam teks tanpa menghilangkan hambatan penerbit terhadap akses publik.
Institusi akademik juga sudah meluncurkan berbagai inisiatif text mining. Sebagai contoh, ‘ National Centre for Text Mining’, suatu usaha kolaboratif antara Universitas Manchester dan Liverpool, memberikan berbagai tool yang ‘customized’, berbagai fasilitas penelitian, dan saran tentang text mining ke komunitas akademik. Dengan fokus awal tentang text mining pada bidang-bidang ilmu biologi dan biomedis, penelitian tentang text mining telah berkembang ke ilmu-imu sosial. Di Amerika Serikat, School of Information di Universita barkeley, sedang mengembangkan program yang disebut BioText untuk membantu para peneliti bidang bioscience dalam analisa dan text mining.

No comments:

Post a Comment