Minggu, 16 November 2014

Pertemuan 8
Resume Datawarehouse



•ETL singkatan dari Extract, Transform, dan Load. ETL adalah proses mengambil dan mengubah data dari source system dan memasukkannya ke dalam Data Warehouse.
•Ada beberapa prinsip dasar untuk dipahami ketika mengekstrak data dari source system untuk tujuan mengisi data warehouse.
• Pertama, volume data yang diambil besar, mungkin ratusan megabyte atau puluhan gigabyte. Sebuah sistem OLTP dirancang sehingga data tersebut diambil dalam potongan-potongan kecil, tidak dalam jumlah besar, sehingga anda harus berhati-hati tidak memperlambat Source System terlalu banyak.

•Dua prinsip penting lainnya adalah leakage (kebocoran) dan recoverability(pemulihan). Leakage terjadi saat proses ETL mengira telah mendownload semua data sepenuhnya dari Source System tetapi dalam kenyataannya telah melewatkan beberapa catatan. Sebuah proses ETL yang baik seharusnya tidak memiliki leakage. Recoverability berarti adalah proses ETL harus kuat sehingga dalam hal kegagalan, dapat direcover tanpa kehilangan atau kerusakan data.


•Ada beberapa Approach implementasi ETL. Approach tradisional untuk menarik data dari Source System, taruh dalam staging area dan kemudian mengubahnya dan memuatnya ke Warehouse
•server ETL melakukan transformasi dalam memori dan kemudian meng-update data warehouse secara langsung (tidak ada staging)
•Staging area adalah fisik atau file database. Menempatkan data ke dalam staging area berarti memasukkan ke dalam database atau menulis dalam file.


•Dalam Approach ETL, pada dasarnya menyalin Source System(OLTP) data ke dalam Data Warehouse dan mengubahnya di sana. Artinya kita tarik data dari source system, memuatnya ke dalam Data Warehouse, dan kemudian menerapkan transformasi dengan memperbarui data di warehouse.

EXTRACTION

•Data Extraction adalah proses pengambilan data yang diperlukan dari sumber datawarehouse dan selanjutnya dimasukkan pada staging area untuk diproses pada tahap berikutnya .

•Pada fungsi ini, kita akan banyak berhubungan dengan berbagai tipe sumberdata. Format data, mesin yang berbeda, software dan arsitektur yang tidak sama. Sehingga sebelum proses ini kita lakukan, sebaiknya perlu kita definisikan requirement terhadap sumber data yang akan kita butuhkan untuk lebih memudahkan pada extraction data ini.


TRANSFORMATION

•proses transaksional data disimpan dalam berbagai format sehingga jarang kita temui data yang konsisten antara aplikasi-aplikasi yang ada. Transformasi data ditujukan untuk mengatasi masalah ini.

Dengan proses transformasi data ini, kita melakukan standarisasi terhadap data pada satu format yang konsisten. Beberapa contoh ketidakkonsistenan data tersebut dapat diakibatkan oleh tipe data yang berbeda, data length dan lain sebagainya.

LOADING


•Tahapan beban data ke target akhir, biasanya data warehouse (DW). Tergantung pada persyaratan organisasi, proses ini sangat bervariasi. Beberapa data warehouse yang mungkin menimpa informasi yang ada dengan informasi kumulatif, sering memperbarui ekstrak data yang dilakukan secara harian, mingguan atau bulanan. DW lainnya (atau bahkan bagian lain dari DW yang sama) dapat menambahkan data baru dalam bentuk sejarah, misalnya, dengan jam (waktu).
•Waktu dan jangkauan untuk mengganti atau menambah data tergantung pada perancangan data warehouse pada waktu menganalisa keperluan informasi. Fase load berinteraksi dengan suatu database, constraint didefinisikan dalam skema database sebagai suatu trigger yang diaktifkan pada waktu melakukan load data (misalnya, uniqueness,referential, integrity, mandatory fields), yang juga berkontribusi terhadap kualitas kinerja keseluruhan data dari proses ETL.

Tidak ada komentar:

Posting Komentar