Senin, 08 Desember 2014

pertemuan 10 Resume Datawarehouse

DTS adalah kumpulan utilitas yang memungkinkan proses Extract, Transfom, dan Load data yang secara otomatis dari atau ke database. DTS memiliki fungsi untuk melakukan Export, Import dan Transport data yang beragam serta dari berbagai sumber data, contohnya data berasal dari SQL Server,Ms. Excel,Ms.Access. DTS juga menyediakan hubungan berupa ODBC (Open Database Connectivity) data source yang didukung oleh OLE DB Provider for ODBC dan service seperti Logging Package Execution Detile, Controlling Transaction dan Penanggunan Variable Global.

Fungsi lain dari DTS selain untuk melakukan import, export dan transport data yang beragam antara satu atau lebih sumber data, seperti misalnya SQL Server, Microsoft Excel atau Microsoft Access, DTS juga menyediakan hubungan berupa ODBC (Open Database Connectivity) data source yang disupport oleh OLE DB Provider for ODBC dan service seperti logging package execution details, controlling transactions dan penanganan variable global.

Conection Untuk Mengakses dan Memindahkan Data

Agar eksekusi DTS tasks dalam menyalin dan memindahkan data berjalan sukses, sebuah DTS package harus mempunyai hubungan yang valid antara sumber data asal dengan sumber data tujua. Ketika menciptakan sebuah package, user dapat mengkonfigurasikan hubungan dengan memilih jenis hubungan dari daftar yang tersedia pada OLE DB providers dan ODBC drivers. Jenis hubungan yang tersedia antara lain:

1. Microsoft Data Acces Component (MDAC) drivers

2. Microsoft Jet drivers

3. Other drivers

4. OLE DB CONNECTION

DTS ini ada pada SQL Server namun semenjak Microsoft SQL Server 2005 DTS digantikan oleh SQL Server Integration Services (SSIS). SSIS adalah Platform untuk membangun kinerja tinggi solusi integrasi data, termasuk ekstraksi, transformasi, dan load (ETL) paket untuk data warehousing. Walaupun demikian, DY|TS masih bisa diinstall sebagai tambahan packages dan dijalankan pada Microsoft SQL Server 2005 dan yang lebih baru.

Berikut adalah perbedaan DTS dan SSIS :

Data Tranformation Service (DTS)	SQL Server Integration Services (SSIS)
· Bagian dari Microsoft SQL Server 2000	· Bagian dari SQL Server 2005
· Menggunakan Activex Script	· Menggunakan Scripting Language
· Tidak ada cara cepat	· Memiliki cara cepat
· Transformasi data yang tersedia terbatas	· Transformasi data yang sanagat besar
· Tidak didukung oleh fungsi Business Intelegent	· Didukung oleh fungsi Business Intelegent
· Hanya bisa dikembangkan di server local	· Dapat dikembangkan di berbagai server menggunakan BIDS

Minggu, 23 November 2014

Pertememuan 9

Resume Datawarehouse

DATA QUALITY

(DATA WAREHOUSE)

Data Quality Critical

Why Is Data Quality So Critical?

• Meningkatkan kepercayaan diri dalam pengambilan keputusan

• Memperbaiki pelayanan kpd Customer

• Meningkatkan kesempatan untuk menghasilkan value yang lebih baik bagi pelayanan

• Mengurangi resiko dari keputusan yang sifatnya berbahaya

• Mengurangi biaya, terutama untuk pemasaran,

• Mengembangkan strategi untuk pembuatan keputusan,

• Meningkatkan produktivitas dengan memangkas beberapa proses

• Menghindari efek komplikasi dari data yang terkontaminasi

Data Accuracy VS Data Quality



Benefit of Improved Data Quality

•       Analysis with Timely Information

Maksudnya disini adalah dengan meningkatnya kualitas data, meningkat juga aktualitas data tersebut. Ini menyebabkan analisa yang nantinya akan dilakukan adalah dengan data dan informasi yang aktual. Tidak dengan data yang kadaluwarsa.

•       Better Cutomer Service

Contohnya pada Bank, jika ada seorang nasabah yang menanyakanbalance nya pada customer service. Customer Service menjawab bahwa hanya ada Rp. 15.000. Disini terlihat bahwa nasabah tersebut tidak mempunyai jumlah tabungan yang besar. Tapi siapa sangka Customer service telah mengecek bahwa nasabah dengan nama yang sama mempunyai 2 akun lagi, satu akun berisi Rp. 100.000.000 sedangkan yang satu lagi Rp. 500.000.000. Kesimpulannya, dengan kualitas data yang baik pelayanan pelanggan menjadi lebih baik.

•       Newer Opportunities

Kualitas data yang baik, akan menciptakan kesempatan-kesempatan baru. Salah satu contoh adalah pada bagian marketting. Marketting selalu menjual produk-produknya melintasi banyak kalangan / departemen. Dengan kualitas data yg baik, bagian marketting dapat memilih pembeli-pembeli dari suatu produk dan menentukan seluruh produk-produk lainnya yang mereka sukai untuk membelinya. Bagian marketing juga dapat mengadakan kampanye-kampanye yang menjadi sasaran penjualan. ini terbukti dengan kualitas data yang baik dapat menciptakan kesempatan2 baru.

•       Reduced Cost and Risk

Sudah jelas bahwa kualitas data yang baik akan mengurangi cost dan risiko. Misalnya apa yang terjadi jika data quality memiliki kualitas yang payah? Pasti itu akan menuntun pada konsekuensi bencana pada perusahaan. Contoh risiko yang dialami termasuk waktu yang terbuang , malfungsi dari proses dan sistem dan terkadang bahkan aksi legal dari pelanggan dan partner bisnis. Salah satu area yang dapat mengurangi cost adalah pada mengirim email pada customer, khususnya di bagian kampanye marketing. Jika alamat tidak lengkap, tidak akurat, atau duplikat , kebanyakan dari mailingsakan sia-sia.

•       Improved Productivity

Perusahaan mendapat pandangan informasi enterprise yang luas terhadap data warehouse. Ini adalah tujuan utama dari data warehouse. Contohnya pada company yang mempunyai pandangan luas terhadap pola pembayaran (purchasing). Perusahaan dapat menghasilkan prosedur dan strategi Purchasing yang lebih baik yang nantinya akan meningkatkan produktivitas.

•       Reliable Strategic Decision Making

Sudah jelas dengan data quality yang baik otomatis perusahaan dapat memperoleh pengambilan keputusan stratejik yang handal. Tidak ada data warehouse yang bisa menghasilkan value terhadap bisnis jika tidak dengan data yang bersih dan berkualitas tinggi.

DATA QUALITY CHALLENGES

1.       Sources of data pollutions (Sumber –sumber dari polusi data)

Banyak data yang telah tersimpan mengalami korup (corrupt) . Banyak hal yang menyebabkan data mangalami polusi sehingga kualitas data menjadi menurun.

·         System Conversions

Konversi sistem akan menyebabkan polusi data

·         Data Aging

Data mengalami kadulawrasa dan kehilangan makna dan signifikansi. Karena sudah bertahun2 tidak terpakai sedangkan sistem sudah berubah.

·         Heterogeneous System Integration

Adanya sistem2 yang beraneka ragam, tentunya akan mengakibatkan polusi data

·         Poor database design

Perancangan database yang buruk

·         Incomplete information at data entry

Tidak lengkapnya informasi sewaktu mengentri data

·         Input errors

Error dalam menginput

·         Internationalzation / Localization

Ketika sebuah perusahaan akan ekspan ke luar negeri, ini akan menjadi ancaman dari polusi data karena elemen data harus beradaptasi dengan nilai yang baru dan berbeda.

·         Fraud

Masih banyak inputan yang tidak benar / menipu.

·         Lack of Policies

Kurangnya kebijakan

2.       Validation names and addresses (pemvalidasian nama dan alamat)

Seringkali pada input data dalam database terjadi duplikasi antara nama dan alamat. Untk satu orang, record ganda dapat eksis di berbagai source system. Bakan dalam source system yang tunggal, record ganda juga bisa eksis untuk satu personal.

Berikut adalah masalah yang melekat ketika menginputkan nama-nama dan alamat-alamat :

•       No unique key

•       Many names on one lines

•       One name on two lines

•       Name and the address in a single line

•       Personal and company are mixed

•       Different addresses for the same person

•       Different names and spelling for the same customer

3.       Costs of poor Data Quality (biaya dari data yang berkualitas)

Salah satu tantangan dari data quality adalah biaya. Karena untuk melakukan pembersihan data dan meningkatkan kualitas data membutuhkan biaya dan usaha yang sangat besar. Solusinya adalah membuat estimasi dan permalan ketika perusahaan tidak mengimplementasi ataupun tidak memakai konsep data quality.

DATA QUALITY TOOLS

Tools untuk melakuakn cleansing data (pembersihan data) terdapat 2 cara yaitu :

1.       Data Error Discovery

2.       Data Correction

Data error discovery dan data correction adalah 2 bagian yang berbeda, sebagian besar DBMS sudah menggunakan 2 cara ini sebagai konsep pemgembagan tools mereka untuk meningkatkan kualitas datanya.

Data Error Discovery meliputi fungsi :

•       Mengidentifikasi duplikasi record dengan cepat dan mudah

•       Mengidentifikasi item data yang nilai-nilainya di luar jarak dari nilai legal domain

•       Menemukan inkonsistensi data

•       Memeriksa jarak dari nilai yang diijinkan

•       Mendeteksi inkonsistensi antar item-item data dari sumber yang berbeda

•       Mengijinkan user untuk mengidentifikasi dan mengukur masalah kualitas data

•       Memantau tren kualitas data dari waktu ke waktu

•       Melaporkan kepada user tentang kualitas data yang digunakan untuk analisis

•       Memperbaiki masalah dari referential integrity dari DBMS

Data Correction meliputi fungsi :

•       Menormalkan inkonsistensi data

•       Meningkatkan penggabungan data dari sumber data yang berbeda

•       Mengelompokkan dan menghubungkan data data customer yang memiliki “rumah” yang sama

•       Memberikan pengukuran bagi kualitas data

•       Memvalidasi nilai – nilai yang diijinkan

DATA QUALITY INITIATIVES

Banyak perusahaan masih bertanya2 apakah dengan banyak memperhatikan kualitas data akan membersihkan data atau tidak? Apakah dapat mengurangi biaya atau malah menambah biaya? Terus jika ya, bagian data mana yang mendapat prioritas tertinggi yang mana harus menerima teknik pembersihan data?

Yang paling penting adalah : Tentukan untuk apa data itu digunakan dan apa tujuan dari data tersebut.

Berikut adalah pertanyaan yang akan muncul ketika akan membangun Data cleansing (pembersihan data)

•       Which data to cleanse?

•       Where to cleanse?

Data yang akan masuk ke data warehouse sebelumnya adalah dari source system (operasional) kemudian menuju staging area, lalu masuk ke dalam data warehouse, begitu pula juga dengan pencemaran polusi data. Bisa saja polusi data terdapa dalam source system, staging are tempat load dan transform data, atau di data warehouse itu sendiri. Jadi, lebih baik selidiki source system terlebih dahulu kemudian naik ke staging area kemudian ke dalam data warehouse

•       How to cleanse?

Banyak vendor yang sdah menyediakan tools-tools untuk melakukan cleansing data. Beberapa tools sudah ada di pasaran tinggal kita memilih mana yang cocok untuk masalah yang dihadapi oleh company. Jika tidak ada tools yang dapat membuat usaha pada cleansing data, cara lain adalah menyewa programmer untuk memrogram sendiri sistem Data Cleansing yang dibutuhkan untuk company dan cocok untuk company.

•       How to discover the extent of data pollution?

•       Setting up a Data Quality Framework

Ketika sudah menemukan banyak tipe dari polusi data yang dialami, company perlu membuat berbagai keputusan untuk memulai pembersihan data. Company harus menggali kemungkinan sumber –sumber yang mengalami data corruption dan menentukan polusinya.

Dengan begitu, company dapat menetapkan framework yang dapat mengatasi polusi yang dialami. Pada dasarnya, framework tersebut memberikan dasar bagi peluncuran inisiatif kualitas data. Itu akan mewujudkan perencanaan sistematis untuk perusahaan. Framework menidentifikasi pemain-pemain, peran-perean mereka, dan tanggung jawab mereka. Singkatnya, framework mamandu kepada usaha peningkatan kualitas data.

Minggu, 16 November 2014

Pertemuan 8
Resume Datawarehouse

•ETL singkatan dari Extract, Transform, dan Load. ETL adalah proses mengambil dan mengubah data dari source system dan memasukkannya ke dalam Data Warehouse.
•Ada beberapa prinsip dasar untuk dipahami ketika mengekstrak data dari source system untuk tujuan mengisi data warehouse.
• Pertama, volume data yang diambil besar, mungkin ratusan megabyte atau puluhan gigabyte. Sebuah sistem OLTP dirancang sehingga data tersebut diambil dalam potongan-potongan kecil, tidak dalam jumlah besar, sehingga anda harus berhati-hati tidak memperlambat Source System terlalu banyak.

•Dua prinsip penting lainnya adalah leakage (kebocoran) dan recoverability(pemulihan). Leakage terjadi saat proses ETL mengira telah mendownload semua data sepenuhnya dari Source System tetapi dalam kenyataannya telah melewatkan beberapa catatan. Sebuah proses ETL yang baik seharusnya tidak memiliki leakage. Recoverability berarti adalah proses ETL harus kuat sehingga dalam hal kegagalan, dapat direcover tanpa kehilangan atau kerusakan data.

•Ada beberapa Approach implementasi ETL. Approach tradisional untuk menarik data dari Source System, taruh dalam staging area dan kemudian mengubahnya dan memuatnya ke Warehouse
•server ETL melakukan transformasi dalam memori dan kemudian meng-update data warehouse secara langsung (tidak ada staging)
•Staging area adalah fisik atau file database. Menempatkan data ke dalam staging area berarti memasukkan ke dalam database atau menulis dalam file.

•Dalam Approach ETL, pada dasarnya menyalin Source System(OLTP) data ke dalam Data Warehouse dan mengubahnya di sana. Artinya kita tarik data dari source system, memuatnya ke dalam Data Warehouse, dan kemudian menerapkan transformasi dengan memperbarui data di warehouse.

EXTRACTION

•Data Extraction adalah proses pengambilan data yang diperlukan dari sumber datawarehouse dan selanjutnya dimasukkan pada staging area untuk diproses pada tahap berikutnya .
•
•Pada fungsi ini, kita akan banyak berhubungan dengan berbagai tipe sumberdata. Format data, mesin yang berbeda, software dan arsitektur yang tidak sama. Sehingga sebelum proses ini kita lakukan, sebaiknya perlu kita definisikan requirement terhadap sumber data yang akan kita butuhkan untuk lebih memudahkan pada extraction data ini.

TRANSFORMATION

•proses transaksional data disimpan dalam berbagai format sehingga jarang kita temui data yang konsisten antara aplikasi-aplikasi yang ada. Transformasi data ditujukan untuk mengatasi masalah ini.
•
Dengan proses transformasi data ini, kita melakukan standarisasi terhadap data pada satu format yang konsisten. Beberapa contoh ketidakkonsistenan data tersebut dapat diakibatkan oleh tipe data yang berbeda, data length dan lain sebagainya.

LOADING

•Tahapan beban data ke target akhir, biasanya data warehouse (DW). Tergantung pada persyaratan organisasi, proses ini sangat bervariasi. Beberapa data warehouse yang mungkin menimpa informasi yang ada dengan informasi kumulatif, sering memperbarui ekstrak data yang dilakukan secara harian, mingguan atau bulanan. DW lainnya (atau bahkan bagian lain dari DW yang sama) dapat menambahkan data baru dalam bentuk sejarah, misalnya, dengan jam (waktu).
•Waktu dan jangkauan untuk mengganti atau menambah data tergantung pada perancangan data warehouse pada waktu menganalisa keperluan informasi. Fase load berinteraksi dengan suatu database, constraint didefinisikan dalam skema database sebagai suatu trigger yang diaktifkan pada waktu melakukan load data (misalnya, uniqueness,referential, integrity, mandatory fields), yang juga berkontribusi terhadap kualitas kinerja keseluruhan data dari proses ETL.

Minggu, 19 Oktober 2014

Pertemuan 6

Resume Datawarehouse

Prinsip - prinsip pemodelan dimensi

Conceptual Data Warehouses

Data Multidimensi

· Data multidimensi adalah “ketika kita dapat melihat sebuah data dari berbagai sudut pandang atau dimensi”.

· Sebagai contoh, penjualan buku dapat dilihat dari segi Buku, waktu, lokasi penjualan / toko dan sebagainya.

Design harus mencerminkan multi dimensional view

· Star Schema

· Snowflake Schema

Star Shema

Star schema merupakan struktuk logikal yang memiliki tabel fakta yang terdiri atas data faktual ditengahnya, dan dikelilingi oleh tabel-tabel dimensi yang berisi referensi data.

Jenis-jenis Star Schema

· Skema bintang (Star Schema) Sederhana

· Skema bintang (Star Schema) dengan banyak table fakta

Keuntungan & kerugian Star Schema

Keuntungan

· Lebih simple

· Mudah dipahami

· Hasil dari proses query juga relatif lebih cepat

Kerugian

· boros dalam space

Skema Snowflake

Skema Snowflake Merupakan varian dari skema bintang dimana table-table dimensi tidak terdapat data yang di denormalisasi. Dengan kata lain satu atau lebih table dimensi tidak bergabung secara langsung kepada table fakta tapi pada table dimensi lainnya. Sebagai contoh, sebuah dimensi yang mendeskripsikan produk dapat dipisahkan menjadi tiga table(snowflaked).

Keuntungan & Kerugian Snowflake Schema

Keuntungan

· Pemakaian space yang lebih sedikit

· Update dan maintenance yang lebih mudah

Kerugian

· Model lebih komplek dan rumit

· Proses query lebih lambat

· Performance yang kurang bagus

Combination Star Schema dengan Snowflake Schema

Keduanya merupakan model-model dimensional, perbedaannya terletak pada implementasi fisikal. Skema snowflake memberi kemudahan pada perawatan dimensi, dikarenakan strukturnya yang lebih normalisasi. Sedangkan skema bintang lebih efisien serta sederhana dalam membuat query dan mudah diakses secara langsung oleh pengguna.

Adapun StarFlake merupakan gabungan diantara keduanya. Keuntungan menggunakan masing-masing model tersebut dalam data warehouse antara lain :

· ˜Efisien dalam hal mengakses data.

· ˜Dapat beradaptasi terhadap kebutuhan-kebutuhan user.

· ˜Bersifat fleksibel terhadap perubahan yang terjadi khususnya perubahan yang mengarah pada perkembangan.

· ˜Memiliki kemampuan dalam memodelkan situasi bisnis secara umum.

· ˜Meskipun skema yang dihasilkan sangat kompleks, tetapi pemrosesan query dapat diperkirakan, hal ini dikarenakan pada level terendah, setiap table fakta harus di query secara independen.

Daftar Pustaka

· ˜Conolly,Thomas dan Begg Carolyn(2002). Database systems – A Practical Approach to Design, Implementation and Management, edisi-3. Addison Wesley Longman.Inc., USA

· ˜Fatansyah(2002). Buku Teks Ilmu Komputer – Basis Data, cetakan-4. Informatika

· ˜Inmon, W.H.(2002). Building the Data Warehouse,edisi-3. Wiley Computer Publishing.

· ˜Kimball,R.,Merz, R (1998). The Data Warehouse Lifecycle Toolkit. Expert Methods for Designing, Developing and Deploying Data Warehouses. Wiley Computer Publishing, Canada.

· Mcleod,Raymond(1996). Sistem Informasi Manajemen, Jilid-1. Terjemahan Teguh,H. PT. Prenhallindo, Jakarta.

· Nolan,Sean And Huguelet, Tom(2000).Microsoft SQL Server 7.0 Data Warehousing Training Kit. Microsoft Prees, USA

· ˜Poe, Vidette(1998). Building Data Warehouse for Decision Support, edisi-2. Prentice Hall.

All about my task