Pengertian Clustering atau Analisa Cluster

Pengertian clustering atau analisa cluster adalah proses membagi (atau mempartisi) satu set objek data (atau observasi) menjadi beberapa subset. Masing-masing subset adalah satu cluster, sedemikian sehingga objek-objek di dalam suatu cluster adalah mirip satu sama lain, namun tidak mirip dengan objek-objek di dalam cluster lainnya. Set (atau kumpulan) cluster yang dihasilkan dari analisa cluster bisa disebut sebagai clustering. Di dalam konteks ini, berbagai metode clustering yang berbeda bisa menghasilkan clustering yang berbeda pada dataset yang sama. [Baca juga: Metode-metode Dasar dalam Clustering]. Proses membagi (atau mempartisi) tidak dilakukan oleh manusia, tetapi oleh algoritma clustering. Jadi, clustering sangat bermanfaat karena dapat membawa ke penemuan berbagai kelompok yang belum diketahui sebelumnya di dalam data.

Analisa cluster (atau clustering) sudah digunakan secara luas di berbagai macam penerapan seperti business intelligence, pengenalan pola gambar (image pattern recognition), pencarian web, biologi, dan keamanan. 

Di business intelligence, clustering bisa digunakan untuk mengelompokkan jumlah pelanggan yang sangat banyak menjadi beberapa kelompok, dimana para pelanggan di dalam suatu kelompok memiliki karakteristik yang sangat mirip. Hal ini bisa membantu pengembangan strategi bisnis untuk CRM (customer relationship management) yang lebih baik. Disamping itu, coba pertimbangkan suatu perusahaan konsultan yang memiliki jumlah project yang sangat banyak. Untuk meningkatkan manajemen project, clustering bisa diterapkan untuk membagi (atau mempartisi) project-project menjadi beberapa kategori berdasarkan kemiripan sehingga proses audit dan diagnosis project (untuk meningkatkan hasil dan delivery project) bisa dilakukan secara efektif. [Baca juga: Penerapan-penerapan Data Mining untuk Business Intelligence]

Di dalam image recognition (pengenalan gambar), clustering bisa digunakan untuk menemukan cluster-cluster atau subclass-subclass pada berbagai sistem pengenalan karakter tulisan tangan. Misalkan kita punya suatu dataset yang berisi angka-angka tulisan tangan, dimana setiap angka diberi label 1,2,3, dst. Perlu dicatat bahwa ada banyak kemungkinan cara orang-orang menuliskan angka yang sama. Ambil contoh angka 2. Beberapa orang mungkin menulisnya dengan lingkaran kecil dibagian kiri bawah, tetapi beberapa yang lain tidak begitu. Kita bisa menggunakan clustering untuk menentukan subclass-subclass untuk angka "2", dimana masing-masing menyajikan variasi cara dimana angka 2 dituliskan. Dengan menggunakan berbagai model yang berdasarkan pada subclass-subclass bisa meningkatkan akurasi pengenalan secara keseluruhan.

Clustering juga banyak diterapkan pada pencarian web. Misalnya, pencarian suatu keyword (kata kunci) mungkin seringkali menghasilkan jumlah hits yang sangat banyak (misalnya laman-laman yang relevan ke pencarian) karena jumlah laman web yang sangat-sangat banyak. Clustering bisa digunakan untuk mengorganisasi hasil-hasil pencarian menjadi beberapa kelompok dan menampilkan hasil-hasilnya dalam cara yang ringkas dan mudah diakses. Selain itu, teknik-teknik clustering sudah dikembangkan untuk meng-cluster berbagai macam dokumen ke dalam topik-topik, yang sering digunakan dalam praktik-praktik pencarian dan pengambilan informasi.



Sebagaimana halnya fungsi data mining (atau penambangan data), analisa cluster bisa digunakan sebagai tool standalone untuk mendapatkan insight (pengetahuan) ke dalam distribusi data, untuk mengamati karakteristik setiap cluster, dan berfokus pada set (atau sekumpulan) cluster tertentu untuk analisa lanjutan. Yang lain lagi, analisa cluster bisa juga berfungsi pada langkah pre-processing (persiapan data) untuk algoritma-algoritma lainnya, seperti karakterisasi (characterization), pemilihan subset atribut, dan klasifikasi, yang kemudian diterapkan pada cluster-cluster yang sudah dideteksi dan atribut-atribut atau feature-feature yang sudah dipilih.

Karena suatu cluster adalam kumpulan atau koleksi objek-objek data yang mirip satu sama lain di dalam cluster yang sama tetapi tidak mirip dengan objek-objek di cluster yang lain, suatu cluster objek-objek data bisa diperlakukan sebagai class yang implisit. Dalam pengertian ini, clustering kadang-kadng disebut dengan klasifikasi otomatis (atau automatic classification). Jangan lupa, perbedaan pentingnya disini adalah bahwa clustering bisa secara otomatis menemukan kelompok-kelompoknya. Ini adalah hal yang membedakan dari analisa cluster.

Clustering disebut juga segmentasi data dalam beberapa penerapan karena clustering membagi (atau mempartisi) beberapa dataset yang besar menjadi kelompok-kelompok menurut kemiripannya. Clustering juga bisa digunakan untuk outlier detection (mendeteksi pencilan), dimana outliers (pencilan atau objek-objek yang nilai-nilainya yang sangat jauh dari cluster manapun) mungkin lebih menarik dibanding kasus-kasus yang umum. Penerapan-penerapan outlier detection (mendeteksi pencilan) meliputi deteksi terhadap kecurangan kartu kredit dan monitoring berbagai aktivitas kriminal dalam e-commerce. Misalnya, ada kasus dalam transaksi kartu kredit yang tidak biasa, seperti pembelian suatu produk yang sangat mahal dan sangat jarang, mungkin saja menjadi perhatian karena aktivitas kecurangan atau pembobolan yang mungkin terjadi. Outlier detection di bahas dalam post artikel lainnnya.

Clustering data sedang dikembangkan secara serius. Area kajian yang memberikan kontribusi yang berarti meliputi data mining (penambangan data), statistik, machine learning, teknologi database spasial, pencarian dan penemuan informasi (information retrieval), pencarian web, biologi, marketing, dan banyak area-area penerapan lainnya. Karena jumlah data yang dikumpulkan di database sangatlah besar, analisa cluster akhir-akhir ini menjadi topik yang sangat aktif di dalam penelitian data mining.

Sebagai cabang dari statistik, analisa cluster sudah menjadi kajian yang sangat luas, dengan fokus utama pada analisa cluster berbasis jarak. Berbagai macam tool analisa cluster berbasis k-means, k-medoids, dan beberapa metode yang lain juga sudah dibuat menjadi banyak paket software analisa statistik, seperti S-Plus, SPSS, dan SAS. Pada machine learning, harap diingat bahwa klasifikasi (classification) dikenal sebagai supervised learning (pembelajaran terawasi) karena informasi label class ditentukan, artinya, algoritma pembelajaran diawasi dalam arti sudah diberitahu keanggotaan class dari setiap baris data yang digunakan untuk training. Clustering dikenal sebagai unsupervised learning (pembelajaran tak-terawasi) karena informasi label class tidak ada. Karena alasan ini, clustering adalah suatu bentuk belajar dengan observasi, dan bukan belajar dengan contoh. Pada data mining (penambangan data), berbagai usaha sudah berfokus pada menemukan berbagai metode untuk analisa cluster yang efisien dan efektif pada database yang sangat besar. Tema-tema aktif penelitian berfokus pada skalabilitas dari berbagai metode clustering, efectiveness dari berbagai metode untuk clustering bentuk-bentuk yang kompleks (misalnya nonconvex) dan jenis-jenis data (misalnya teks, grafik, dan gambar), teknik-teknik clustering dengan dimensi yang sangat banyak (high-dimensional clustering) misalnya clustering pada object-object dengan ribuan features atau atribut, dan metode-metode untuk clustering data campuran antara data numerik dan nominal pada database yang sangat besar.

Apa saja yang tidak termasuk clustering?

  • Klasifikasi: dalam data mining termaasuk metode supervised learning karena memiliki label class
  • Segmentasi sederhana: misalnya membagi/mengelompokkan mahasiswa menjadi beberapa kelompok pendaftaran berdasarkan alfabet nama
  • Hasil suatu query: pengelompokkan adalah hasil dari suatu spesifikasi tertentu atau eksternal

Artikel terkait clustering:

No comments:

Post a Comment