DATA QUALITY

(DATA WAREHOUSE)

Data Quality Critical

Why Is Data Quality So Critical?

• Meningkatkan kepercayaan diri dalam pengambilan keputusan

• Memperbaiki pelayanan kpd Customer

• Meningkatkan kesempatan untuk menghasilkan value yang lebih baik bagi pelayanan

• Mengurangi resiko dari keputusan yang sifatnya berbahaya

• Mengurangi biaya, terutama untuk pemasaran,

• Mengembangkan strategi untuk pembuatan keputusan,

• Meningkatkan produktivitas dengan memangkas beberapa proses

• Menghindari efek komplikasi dari data yang terkontaminasi

Data Accuracy VS Data Quality



Benefit of Improved Data Quality

•       Analysis with Timely Information

Maksudnya disini adalah dengan meningkatnya kualitas data, meningkat juga aktualitas data tersebut. Ini menyebabkan analisa yang nantinya akan dilakukan adalah dengan data dan informasi yang aktual. Tidak dengan data yang kadaluwarsa.

•       Better Cutomer Service

Contohnya pada Bank, jika ada seorang nasabah yang menanyakanbalance nya pada customer service. Customer Service menjawab bahwa hanya ada Rp. 15.000. Disini terlihat bahwa nasabah tersebut tidak mempunyai jumlah tabungan yang besar. Tapi siapa sangka Customer service telah mengecek bahwa nasabah dengan nama yang sama mempunyai 2 akun lagi, satu akun berisi Rp. 100.000.000 sedangkan yang satu lagi Rp. 500.000.000. Kesimpulannya, dengan kualitas data yang baik pelayanan pelanggan menjadi lebih baik.

•       Newer Opportunities

Kualitas data yang baik, akan menciptakan kesempatan-kesempatan baru. Salah satu contoh adalah pada bagian marketting. Marketting selalu menjual produk-produknya melintasi banyak kalangan / departemen. Dengan kualitas data yg baik, bagian marketting dapat memilih pembeli-pembeli dari suatu produk dan menentukan seluruh produk-produk lainnya yang mereka sukai untuk membelinya. Bagian marketing juga dapat mengadakan kampanye-kampanye yang menjadi sasaran penjualan. ini terbukti dengan kualitas data yang baik dapat menciptakan kesempatan2 baru.

•       Reduced Cost and Risk

Sudah jelas bahwa kualitas data yang baik akan mengurangi cost dan risiko. Misalnya apa yang terjadi jika data quality memiliki kualitas yang payah? Pasti itu akan menuntun pada konsekuensi bencana pada perusahaan. Contoh risiko yang dialami termasuk waktu yang terbuang , malfungsi dari proses dan sistem dan terkadang bahkan aksi legal dari pelanggan dan partner bisnis. Salah satu area yang dapat mengurangi cost adalah pada mengirim email pada customer, khususnya di bagian kampanye marketing. Jika alamat tidak lengkap, tidak akurat, atau duplikat , kebanyakan dari mailingsakan sia-sia.

•       Improved Productivity

Perusahaan mendapat pandangan informasi enterprise yang luas terhadap data warehouse. Ini adalah tujuan utama dari data warehouse. Contohnya pada company yang mempunyai pandangan luas terhadap pola pembayaran (purchasing). Perusahaan dapat menghasilkan prosedur dan strategi Purchasing yang lebih baik yang nantinya akan meningkatkan produktivitas.

•       Reliable Strategic Decision Making

Sudah jelas dengan data quality yang baik otomatis perusahaan dapat memperoleh pengambilan keputusan stratejik yang handal. Tidak ada data warehouse yang bisa menghasilkan value terhadap bisnis jika tidak dengan data yang bersih dan berkualitas tinggi.

DATA QUALITY CHALLENGES

1.       Sources of data pollutions (Sumber –sumber dari polusi data)

Banyak data yang telah tersimpan mengalami korup (corrupt) . Banyak hal yang menyebabkan data mangalami polusi sehingga kualitas data menjadi menurun.

·         System Conversions

Konversi sistem akan menyebabkan polusi data

·         Data Aging

Data mengalami kadulawrasa dan kehilangan makna dan signifikansi. Karena sudah bertahun2 tidak terpakai sedangkan sistem sudah berubah.

·         Heterogeneous System Integration

Adanya sistem2 yang beraneka ragam, tentunya akan mengakibatkan polusi data

·         Poor database design

Perancangan database yang buruk

·         Incomplete information at data entry

Tidak lengkapnya informasi sewaktu mengentri data

·         Input errors

Error dalam menginput

·         Internationalzation / Localization

Ketika sebuah perusahaan akan ekspan ke luar negeri, ini akan menjadi ancaman dari polusi data karena elemen data harus beradaptasi dengan nilai yang baru dan berbeda.

·         Fraud

Masih banyak inputan yang tidak benar / menipu.

·         Lack of Policies

Kurangnya kebijakan

2.       Validation names and addresses (pemvalidasian nama dan alamat)

Seringkali pada input data dalam database terjadi duplikasi antara nama dan alamat. Untk satu orang, record ganda dapat eksis di berbagai source system. Bakan dalam source system yang tunggal, record ganda juga bisa eksis untuk satu personal.

Berikut adalah masalah yang melekat ketika menginputkan nama-nama dan alamat-alamat :

•       No unique key

•       Many names on one lines

•       One name on two lines

•       Name and the address in a single line

•       Personal and company are mixed

•       Different addresses for the same person

•       Different names and spelling for the same customer

3.       Costs of poor Data Quality (biaya dari data yang berkualitas)

Salah satu tantangan dari data quality adalah biaya. Karena untuk melakukan pembersihan data dan meningkatkan kualitas data membutuhkan biaya dan usaha yang sangat besar. Solusinya adalah membuat estimasi dan permalan ketika perusahaan tidak mengimplementasi ataupun tidak memakai konsep data quality.

DATA QUALITY TOOLS

Tools untuk melakuakn cleansing data (pembersihan data) terdapat 2 cara yaitu :

1.       Data Error Discovery

2.       Data Correction

Data error discovery dan data correction adalah 2 bagian yang berbeda, sebagian besar DBMS sudah menggunakan 2 cara ini sebagai konsep pemgembagan tools mereka untuk meningkatkan kualitas datanya.

Data Error Discovery meliputi fungsi :

•       Mengidentifikasi duplikasi record dengan cepat dan mudah

•       Mengidentifikasi item data yang nilai-nilainya di luar jarak dari nilai legal domain

•       Menemukan inkonsistensi data

•       Memeriksa jarak dari nilai yang diijinkan

•       Mendeteksi inkonsistensi antar item-item data dari sumber yang berbeda

•       Mengijinkan user untuk mengidentifikasi dan mengukur masalah kualitas data

•       Memantau tren kualitas data dari waktu ke waktu

•       Melaporkan kepada user tentang kualitas data yang digunakan untuk analisis

•       Memperbaiki masalah dari referential integrity dari DBMS

Data Correction meliputi fungsi :

•       Menormalkan inkonsistensi data

•       Meningkatkan penggabungan data dari sumber data yang berbeda

•       Mengelompokkan dan menghubungkan data data customer yang memiliki “rumah” yang sama

•       Memberikan pengukuran bagi kualitas data

•       Memvalidasi nilai – nilai yang diijinkan

DATA QUALITY INITIATIVES

Banyak perusahaan masih bertanya2 apakah dengan banyak memperhatikan kualitas data akan membersihkan data atau tidak? Apakah dapat mengurangi biaya atau malah menambah biaya? Terus jika ya, bagian data mana yang mendapat prioritas tertinggi yang mana harus menerima teknik pembersihan data?

Yang paling penting adalah : Tentukan untuk apa data itu digunakan dan apa tujuan dari data tersebut.

Berikut adalah pertanyaan yang akan muncul ketika akan membangun Data cleansing (pembersihan data)

•       Which data to cleanse?

•       Where to cleanse?

Data yang akan masuk ke data warehouse sebelumnya adalah dari source system (operasional) kemudian menuju staging area, lalu masuk ke dalam data warehouse, begitu pula juga dengan pencemaran polusi data. Bisa saja polusi data terdapa dalam source system, staging are tempat load dan transform data, atau di data warehouse itu sendiri. Jadi, lebih baik selidiki source system terlebih dahulu kemudian naik ke staging area kemudian ke dalam data warehouse

•       How to cleanse?

Banyak vendor yang sdah menyediakan tools-tools untuk melakukan cleansing data. Beberapa tools sudah ada di pasaran tinggal kita memilih mana yang cocok untuk masalah yang dihadapi oleh company. Jika tidak ada tools yang dapat membuat usaha pada cleansing data, cara lain adalah menyewa programmer untuk memrogram sendiri sistem Data Cleansing yang dibutuhkan untuk company dan cocok untuk company.

•       How to discover the extent of data pollution?

•       Setting up a Data Quality Framework

Ketika sudah menemukan banyak tipe dari polusi data yang dialami, company perlu membuat berbagai keputusan untuk memulai pembersihan data. Company harus menggali kemungkinan sumber –sumber yang mengalami data corruption dan menentukan polusinya.

Dengan begitu, company dapat menetapkan framework yang dapat mengatasi polusi yang dialami. Pada dasarnya, framework tersebut memberikan dasar bagi peluncuran inisiatif kualitas data. Itu akan mewujudkan perencanaan sistematis untuk perusahaan. Framework menidentifikasi pemain-pemain, peran-perean mereka, dan tanggung jawab mereka. Singkatnya, framework mamandu kepada usaha peningkatan kualitas data.

Pertemuan 8
Resume Datawarehouse

•ETL singkatan dari Extract, Transform, dan Load. ETL adalah proses mengambil dan mengubah data dari source system dan memasukkannya ke dalam Data Warehouse.
•Ada beberapa prinsip dasar untuk dipahami ketika mengekstrak data dari source system untuk tujuan mengisi data warehouse.
• Pertama, volume data yang diambil besar, mungkin ratusan megabyte atau puluhan gigabyte. Sebuah sistem OLTP dirancang sehingga data tersebut diambil dalam potongan-potongan kecil, tidak dalam jumlah besar, sehingga anda harus berhati-hati tidak memperlambat Source System terlalu banyak.

•Dua prinsip penting lainnya adalah leakage (kebocoran) dan recoverability(pemulihan). Leakage terjadi saat proses ETL mengira telah mendownload semua data sepenuhnya dari Source System tetapi dalam kenyataannya telah melewatkan beberapa catatan. Sebuah proses ETL yang baik seharusnya tidak memiliki leakage. Recoverability berarti adalah proses ETL harus kuat sehingga dalam hal kegagalan, dapat direcover tanpa kehilangan atau kerusakan data.

•Ada beberapa Approach implementasi ETL. Approach tradisional untuk menarik data dari Source System, taruh dalam staging area dan kemudian mengubahnya dan memuatnya ke Warehouse
•server ETL melakukan transformasi dalam memori dan kemudian meng-update data warehouse secara langsung (tidak ada staging)
•Staging area adalah fisik atau file database. Menempatkan data ke dalam staging area berarti memasukkan ke dalam database atau menulis dalam file.

•Dalam Approach ETL, pada dasarnya menyalin Source System(OLTP) data ke dalam Data Warehouse dan mengubahnya di sana. Artinya kita tarik data dari source system, memuatnya ke dalam Data Warehouse, dan kemudian menerapkan transformasi dengan memperbarui data di warehouse.

EXTRACTION

•Data Extraction adalah proses pengambilan data yang diperlukan dari sumber datawarehouse dan selanjutnya dimasukkan pada staging area untuk diproses pada tahap berikutnya .
•
•Pada fungsi ini, kita akan banyak berhubungan dengan berbagai tipe sumberdata. Format data, mesin yang berbeda, software dan arsitektur yang tidak sama. Sehingga sebelum proses ini kita lakukan, sebaiknya perlu kita definisikan requirement terhadap sumber data yang akan kita butuhkan untuk lebih memudahkan pada extraction data ini.

TRANSFORMATION

•proses transaksional data disimpan dalam berbagai format sehingga jarang kita temui data yang konsisten antara aplikasi-aplikasi yang ada. Transformasi data ditujukan untuk mengatasi masalah ini.
•
Dengan proses transformasi data ini, kita melakukan standarisasi terhadap data pada satu format yang konsisten. Beberapa contoh ketidakkonsistenan data tersebut dapat diakibatkan oleh tipe data yang berbeda, data length dan lain sebagainya.

LOADING

•Tahapan beban data ke target akhir, biasanya data warehouse (DW). Tergantung pada persyaratan organisasi, proses ini sangat bervariasi. Beberapa data warehouse yang mungkin menimpa informasi yang ada dengan informasi kumulatif, sering memperbarui ekstrak data yang dilakukan secara harian, mingguan atau bulanan. DW lainnya (atau bahkan bagian lain dari DW yang sama) dapat menambahkan data baru dalam bentuk sejarah, misalnya, dengan jam (waktu).
•Waktu dan jangkauan untuk mengganti atau menambah data tergantung pada perancangan data warehouse pada waktu menganalisa keperluan informasi. Fase load berinteraksi dengan suatu database, constraint didefinisikan dalam skema database sebagai suatu trigger yang diaktifkan pada waktu melakukan load data (misalnya, uniqueness,referential, integrity, mandatory fields), yang juga berkontribusi terhadap kualitas kinerja keseluruhan data dari proses ETL.

All about my task

Minggu, 23 November 2014

DATA QUALITY

DATA QUALITY TOOLS

Minggu, 16 November 2014

Anjik Sukmaaji

OKK STIKOM Surabaya