Perancangan ETL (Extract-Transform-Load): Langkah 9 Dalam Siklus Hidup Proyek Pengembangan BI

Tahap 4: Perancangan

Langkah 9: Perancangan ETL (Extract/Transform/Load)

Berbagai aktivitas dalam perancangan ETL
Aktivitas-aktivitas dalam perancangan ETL (Extract-Transform-Load)

Aktivitas-aktivitas dalam mendesain ETL (Extract-Transform-Load) tidak harus dilakukan secara linear. Gambar di samping menunjukkan aktivitas mana saja yang dapat dilakukan secara bersamaan. Berikut di bawah ini adalah gambaran secara ringkas tentang aktivitas-aktivitas yang berhubungan dengan langkah 9, yaitu: mendesain ETL (Extract-Transform-Load). [Baca juga: Proses ETL (Extract-Transform-Load)  dalam Data Warehouse dan Pengembangan ETL (Extract-Transform-Load)]

1. Buat dokumen untuk pemetaan dari sumber-ke-target.

Gunakan hasil-hasil analisa data sumber dan business rules dari langkah-langkah sebelumnya dan gabungkan semuanya ke dalam spesifikasi untuk transformasi. Mendokumentasikan spesifikasi transformasi dalam matriks atau spreadsheet pemetaan dari sumber-ke-target.

2. Ujilah berbagai fungsi tool ETL.

Sangatlah penting untuk menguji berbagai fungsi tool ETL sebelum mendesain aliran proses ETL dan sebelum memutuskan bagaimana cara mengatur staging-area. Sebagai contoh, akan tidak berguna untuk menginstal tool ETL yang sangat populer tetapi tidak bisa membaca flat files di mainframe jika 90 persen dari data sumber ternyata ada dalam bentuk flat file di komputer/server mainframe. Oleh karena itu, ujilah berbagai fungsi tool ETL dan tentukan apakah kode tambahan harus ditulis untuk melakukan beberapa transformasi yang rumit dan panjang yang tidak bisa dilakukan oleh tool tersebut.

3. Desain aliran proses ETL.

Aspek yang paling menantang dari desain ETL adalah membuat aliran proses ETL yang efisien. Karena sebagian besar staging-data biasanya sangat kecil - hanya perlu beberapa jam saja per malam - maka proses ETL harus dirampingkan sebanyak mungkin. Itu berarti memecah-mecah proses ETL ke dalam komponen-komponen program kecil sehingga sebanyak mungkin dapat dijalankan secara paralel.

4. Desain program-program ETL.

Karena kebanyakan organisasi memerlukan beberapa tahun data historikal yang akan dimuat pada rilis aplikasi BI pertama, maka akan ada tiga set program ETL untuk dipertimbangkan: beban awal, beban historikal, dan beban incremental. Beban incremental mungkin akan menjadi beban delta dan karena itu akan menjadi yang paling rumit untuk di-desain. Buatlah modularisasi program-program ETL sebanyak mungkin, dan buatlah spesifikasi pemrograman untuk setiap modul program ETL.

5. Mengatur staging-area ETL.

Tentukan apakah Anda memerlukan staging-area yang ter-sentralisasi dengan menggunakan dedicated server atau apakah lebih masuk akal untuk menerapkan staging area yang ter-desentralisasi di lingkungan Anda. Faktir-faktor penentu adalah jenis dan lokasi file-file sumber dan database sumber, serta fungsi, kemampuan, dan persyaratan lisensi dari tool ETL.

Seri Siklus Hidup Proyek Pengembangan BI (Business Intelligence):

No comments:

Post a Comment