Apa itu Repositori Metadata di Data Warehouse dan Apa Isinya?

Arsitektur data warehouse 3-tier
Metadata adalah data yang mendeskripsikan data. Ketika digunakan di suatu data warehouse, metadata adalah data yang mendefinisikan objek-objek warehouse. Gambar arsitektur data warehouse 3-tier di samping menunjukkan repositori metadata di bagian tier dasar pada arsitektur data warehousing. Metadata dibuat untuk mendapatkan nama-nama data dan definisi-definisi dari warehouse tertentu. Metadata tambahan dibuat dan ditangkap untuk membuat 'timestamping' dari data yang diekstrak, sumber data yang diekstrak, dan field-field yang kosong yang ditambahkan melalui proses 'data cleaning' dan integrasi. [Baca juga: Pengembangan Repositori Metadata dalam Proyek BI]

Pertanyaan yang mungkin muncul dalam benak orang yang belajar tentang data warehouse adalah: apa isi dari metadata? Repositori metadata seharusnya berisi hal-hal berikut:
  • Deskripsi dari struktur data, yang meliputi skema warehouse, view, dimensi, hirarki, dan definisi-definisi data turunan, dan juga lokasi dan konten data mart.
  • Metadata operasional, yang meliputi silsilah data (histori data yang dimigrasikan dan urutan transformasi yang diterapkan pada data tersebut), kekinian dari data (update terbaru: aktif, sudah terarsip, atau dibersihkan), dan informasi tentang monitoring (statistik penggunaan warehouse, laporan-laporan tentang error, dan jejak audit).
  • Algoritma yang digunakan untuk summarisasi (summarization), yang meliputi algoritma-algoritma untuk definisi ukuran dan dimensi, data pada granularitas, partisi, area subjek, agregasi, summarisasi, laporan dan query yang sudah ditentukan.
  • Mapping dari lingkungan operasional ke data warehouse, yang meliputi berbagai database sumber dan konten-nya, deskripsi gateway, partisi data, ekstraksi data, cleaning (pembersihan data). aturan-aturan untuk transformasi dan nilai default-nya, aturan-aturan untuk pembersihan data dan pembaruan data, dan sekuriti (otorisasi pengguna dan kontrol akses).
  • Data terkait kinerja sistem, yang meliputi berbagai macam indeks dan profil yang meningkatkan akses data dan kinerja retrieval (pengambila data), selain berbagai aturan untuk 'timing' (pengaturan waktu) dan penjadwalan untuk refresh, update, dan siklus replikasi. 
  • Metadata bisnis, yang meliputi berbagai istilah dan definisi bisnis, informasi kepemilikan data, dan berbagai policy (kebijakan).
Data warehouse berisi berbagai tingkatan summarisasi (summarization) yang berbeda-beda, dimana salah satunya adalah metadata. Jenis-jenis yang lain meliputi data detil saat ini (yang hampir selalu ada di disk), data detil yang lebih lama (yang biasanya ada pada 'tertiary storage' atau tenpat penyimpanan lainnya), data yang agak ter-summarisasi, dan data yang sangat tersummarisasi (yang mungkin ya atau mungkin tidak ditempakan secara fisik).

Metadata memainkan peran yang sangat berbeda dibanding dengan data lainnya dari suatu data warehouse dan sangat penting karena berbagai alasan. Contohnya, metadata digunakan sebagai direktori untuk membantu si analis sistem pendukung keputusan untuk menempatkan konten data warehouse, dan sebagai pedoman untuk mapping data ketika data ditransformasikan dari lingkungan operasional ke lingkungan data warehouse. Metadata juga bertindak sebagai pedoman ke algoritma-algoritma yang digunakan untuk summarisasi antara data detil saat ini dan data yang agak ter-summarisasi, dan antara data yang setengah ter-summarisasi dan daya yang sangat ter-summarisasi. Metadata seharusnya disimpan dan di-manage secara persisten.

Post artikel terkait:

No comments:

Post a Comment