Definisi Data Warehousing

Definisi data warehouse  yang saya sukai adalah definisi   dari Ralph Kimball di  edisi pertama dari The Data Warehouse Toolkit :

Sebuah data warehouse adalah salinan data transaksi yang strukturnya dioptimalkan untuk keperluan query dan pelaporan

Ralph menyatakan bahwa data warehouse adalah "salinan data transaksi yang strukturnya khusus untuk pertanyaan dan analisis." Dua dalih Saya  tentang  definisi Ralph's ini adalah:
  1.  Kadang-kadang non-data transaksi disimpan dalam data warehouse - walaupun mungkin 95-99% dari data biasanya adalah data-data transaksi. 
  2. Saya mengatakan "query dan pelaporan" bukannya "query dan analisa" karena output utama dari sistem data warehouse baik daftar tabel (query) dengan format minimal atau laporan dengan  format "resmi". Query-query dan laporan yang dihasilkan dari data yang disimpan dalam data warehouse mungkin atau tidak mungkin  digunakan untuk analisis. - Untuk beberapa informasi lebih lanjut tentang mengapa data transaksi disalin, Anda mungkin ingin melihat esai Kasus untuk Data Warehousing. Untuk mempelajari tentang keputusan-keputusan penting yang harus dibuat dalam menentukan struktur data warehouse, Anda mungkin ingin melihat esai Aspek Arsitektur Data Warehouse.

Yang saya sukai tentang definisi Ralph adalah apa yang ia tidak katakan.

Bentuk data yang disimpan tidak ada hubungannya dengan apakah sesuatu itu adalah datawarehouse.

Sebuah data warehouse dapat dinormalisasi atau tidak dinormalisasi. Ini bisa menjadi sebuah database relasional, multidimensional database, flat file, database hierarkis, objek database, dll Data warehouse sering memiliki data yang berubah. Dan data warehouse sering fokus pada kegiatan tertentu atau entitas.

Data Warehouse tidak harus untuk kebutuhan "pengambil keputusan" atau digunakan dalam proses pengambilan keputusan.

Tentu saja jika anda ingin mendefinisikan setiap pengguna sebagai pembuat keputusan dan semua aktivitas sebagai proses pengambilan keputusan, maka pernyataan saya salah. Tapi dalam pengalaman saya, yang sering menggunakan data warehouse adalah cukup biasa, pengambilan keputusan non-tujuan dan bukan untuk  membuat keputusan dengan efek luas (yang disebut keputusan "strategis" .). Bahkan, saya akan menegaskan bahwa sebagian besar dari data warehouse  digunakan untuk pemantauan pasca-keputusan tentang pengaruh suatu keputusan - atau, seperti beberapa orang mungkin mengatakan, untuk masalah "operasional". Omong-Omong, ini tidak menyatakan bahwa menggunakan data warehouse dalam proses pengambilan keputusan bukanlah hal yang bagus, yang memiliki potensi nilai kembali yang tinggi. Tapi nasehat saya  adalah bahwa meskipun  pers, vendor, dan banyak pakar industri menyuarakan peran data warehouse sebagai atau identik dengan  pengambilan keputusan, pagahal pada kenyataannya sampai sekarang juga kita tidak  tidak akan  pernah memiliki pemahaman yang jelas tentang pengambilan keputusan.
Comments