Nama : Ida Ayu Gde Widya Savitri
NIM : 1805551113
Matakuliah : Data Warehouse
Nama Dosen : I Putu Agus Eka Pratama, S.T., M.T.
Teknologi Informasi Fakultas Teknik
Model Pengembangan
Data Warehouse dan
Data Multi Dimensi pada Data Warehouse
Dalam database konvensional, terdapat
data-data transaksional yang mengutamakan perubahan data di dalamnya, namun tidak
ada data historis.
Sementara di data warehouse justru
sebaliknya, data historis diperhatikan, yang digunakan untuk kebutuhan analisa
data.
v
Data Mart merupakan sub bagian dari Data Warehouse
yang digunakan sebagai sebuah struktur data, yang di dalamnya memuat data, guna
memudahkan pengguna akhir (end user) dalam mengakses data dari Data Warehouse
sesuai kebutuhan ataupun untuk analisa data.
v
Data Mart merupakan unit (bagian) dari Data Warehouse
secara keseluruhan yang berada pada layer akses (Access Layer) berorientasikan
kepada spesifik proses bisnis dan kebutuhan dari unit organisasi tempat dimana
Data Warehouse tersebut diimplementasikan.
v
Apabila dianalogikan sebagai sebuah himpunan, maka
Data Mart adalah himpunan bagian dari sebuah himpunan semesta bernama Data Warehouse.
Sehingga apabila Data Warehouse memuat semua data sesuai kebutuhan dari
keseluruhan organisasi bersangkutan, maka Data Mart hanya spesifik memuat data
sesuai kebutuhan per unit atau departemen saja.
v
Contoh data mart dan data warehouse itu apa?
Jika casenya di unud, maka data warehouse adalah yang terpusat di usdi,
sedangkan data mart adalah yang ada di setiap fakultas (setiap fakultas bisa
saja akan membagi lagi ke dalam masing-masing prodi di bawahnya).
Model Pengembangan Data Warehouse
Terdapat 6 model pengembangan, yang bisa dikelompokkan menjadi yang tanpa
menggunakan User Feedback dan yang menggunakan User Feedback, yang dimana dari
2 kelompok ini sama-sama terdapat Top Down, Bottom Up, dan Parallel.
1.
Top Down tanpa User Fedback
2.
Bottom Up tanpa User Feedback
3.
Parallel tanpa User Feedback
4.
Top Down beserta User Feedback
5.
Bottom Up beserta User Feedback
6.
Parallel Beserta User Feedback
1.
Top Down Tanpa User Feedback
Model ini
merupakan model yang paling sederhana karena tidak melibatkan user feedback
dan hanya memiliki alur: sumber-sumber data (Data Sources) à
diteruskan ke Data Warehouse à diteruskan
(dipecah) ke dalam beberapa buah Data Mart. Model ini fokus kepada kemampuan
untuk dapat menjadikan pengguna bebas memperoleh data sesuai kebutuhan melalui
Data Mart (yang dialirkan dari Data Warehouse), tanpa melakukan pengubahan
apapun pada Data Warehouse itu sendiri. Penambahan data pada Data Mart, hanya dapat
dilakukan melalui Data Warehouse, dengan mengikuti aliran Extraction,
Transformation, Transportation (ETT) yaitu data diekstrak, data
ditransformasikan, lalu data diangkut (transportation)
2.
Bottom Up Tanpa User Feedback
Model ini kebalikan dari Top Down. Sesuai dengan
namanya, pengembangan dimulai dari bawah, dimana dua buah Data Mart atau lebih
dibentuk dari data – data yang berasal dari berbagai sumber data (Data
Sources).
a.
Tahap 1: ETT Terhadap Data Dari Sumber Data ke
Data Mart
ETT (Extraction,
Transformation, Transportation) pada sumber–sumber data ke masing–masing Data
Mart. Setiap Data Mart mengintegrasikan data–data dari berbagai sumber
tersebut.
b.
Tahap 2: ETT dari Data Mart ke Data Warehouse
Data dialirkan dari
masing–masing Data Mart ke Data Warehouse, dengan kembali menggunakan proses
ETT (Extraction, Transformation, Transportation) →data dari setiap Data Mart
kembali diintegrasikan di dalam Data Warehouse→dilakukan juga penghilangan
Redudancy pada data–data dari sejumlah Data Mart tersebut.
3.
Parallel Tanpa User Feedback
Model ini merupakan modifikasi
dari model Top Down, namun Data Mart tidak sepenuhnya bergantung kepada Data
Warehouse (dalam hal sumber data yang diperoleh) karena ada data model dari DW
yang diikuti oleh semua Data Mart.
Langkah 1: bangun Data Warehouse dari
berbagai sumber data → Di dalam Data Warehouse terdapat Data Model yang menjadi
acuan bagi model data untuk Data Mart–Data Mart yang dibentuk kemudian → Data
Model ikut mempengaruhi Data Mart.
Langkah 2: Data Mart yang terbentuk, ikut berperan di dalam membangun
Data Warehouse melalui integrasi di level data. Perhatikan bahwa Data Model itu
sudah ditentukan dari DW untuk semua Data Mart di bawahnya, lalu seperti biasanya
terdapat ETT.
Data Model adalah pemodelan data, semacam "role" yg harus diikuti oleh semua data mart agar "sama" dengan DW, data dari berbagai sumber data itu beragam formatnya, saat di DW, dia harus diseragamkan, ada menggunakan ETL atau ELT, tergantung pilih yang mana dulu disana. Untuk model pengembangan ini, data model dapat berupa role untuk format datanya seperti apa, besar data, jenis data, dan lainnya.
Mengapa panah dari DW ke DM hanya 1 arah/tidak bolak balik, apakah itu
artinya data yang masuk langsung ke data mart tidak di masukan juga ke dalam DW?
Dalam Paralel itu sudah ada "role"nya dalam bentuk data model yang berasal dari DW ke data mart, otomatis ada 1 panah searah. Data dari data mart bisa dimasukkan ke DW untuk model paralel tanpa user feedback ini jika diperlukan, namun bukan berarti data mart sepenuhnya bergantung kepada DW lagi seperti 2 model lainnya.
Masing masing model pengembangan itu sebenarnya difungsikan secara
khusus untuk apa?
untuk masing2 model pengembangan, itu bs dipilih sesuai dengan: 1. Kebutuhan instanasi/organisasi/pengguna, 2. Budget, 3. Ketersediaan Resource, dan 4. Case Studi atau latar belakang diperlukannya DW dalam instani tersebut.
Apakah bisa dalam satu dw menggunakan kombinasi top down dan button
up?
Bisa saja dibuatkan hybrid sepertiitu, 2-3 model digabungkan. apabila
diperlukan. namun effortnya akan beda dengan pemilihan 1 model namun sudah matang
keputusan pemilihannya
Selanjutnya, kelompok beserta user feedback. artinya, untuk 3 jenis
ini, sama saja dengan kelompok yang tanpa user feedback dari sisi hubungan
antara DW dan Data Mart serta bagaimana data-data itu mendapat perlakuan ETT. Bedanya
adalah pada "user feedback" yang dilibatkan disini, user feedback ini
diletakkan pada tatap muka aplikasi DW, dengan demikian, adanya user feedback
ini mempengaruhi bagaimana DW dan data mart yang dibangun tersebut untuk ke
depannya. Detail dari masing-masing kelompok besert user feedback antara lain
sebagai berikut.
4.
Top Down Beserta User Feedback
Sejumlah data dari berbagi sumber data membentuk Data
Warehouse → Data Warehouse menjadi pusat dari penggudangan data – data yang
berasal dari berbagai sumber data tersebut. Terjadi proses integrasi di level
data → memudahkan data – data disatukan ke dalam sebuah gudang data ini. Dari
Data Warehouse, dibentuk sejumlah Data Mart sesuai dengan kebutuhan pengguna. User
Feedback pada Data Mart, menjadi tolok ukur di dalam pengembangan berkelanjutan
pada Data Mart dan Data Warehouse itu sendiri. User Feedback mempengaruhi Data
Mart dan secara otomatis akan mempengaruhi Data Warehouse itu sendiri.
.Terdapat aliran bolak – balik dari User Feedback (pengguna) ke Data Mart dan
dari Data Mart ke Data Warehouse.
5.
Bottom Up Beserta User Feedback
Dibentuk terlebih
dahulu 2 Data Mart atau lebih, menggunakan data-data dari berbagai sumber data→digunakan
ETT (Extraction, Transformation, Transportation) untuk membantu pengumpulan
data, ekstraksi data, transformasi ke format data yang disepakati bersama di
dalam Data Mart, serta integrasi di level data itu sendiri. Lalu dibentuk Data
Warehouse dari Data Mart yang terbentuk → kembali menggunakan ETT untuk
mengintegrasikan data – data dari berbagai Data Mart tersebut ke dalam kesatuan
Data Warehouse. User Feedback diarahkan melalui tatap muka Data Warehouse, yang
berefek terhadap Data Mart – Data Mart yang membentuk Data Warehouse.
6.
Parallel Beserta User Feedback
Langkah awal: penentuan
aturan untuk model data dari Data Warehouse ke Data Mart yang terbentuk → Data
dari berbagai sumber data masuk ke Data Mart dan ke Data Warehouse. Data dari
sumber data yang menuju ke Data Mart saja yang akan melalui proses ETT
(Extraction, Transformation, Transportation). Data yang menuju ke Data
Warehouse, terlebih dahulu menuju ke Data Model dari Data Warehouse, untuk
menyeragaman format. Pada Data Warehouse tidak terjadi ETT, sebab Data
Warehouse menjadi pusat untuk model data enterprise, yang menjadi acuan bagi
Data Mart lainnya. Data Warehouse mengagregasikan data, memuat fungsi koordinasi
dan integratif untuk pengembangan ke depannya, termasuk juga manajemen data dan
informasi kepada pengguna. User Feedback dialirkan melalui tatap muka ke Data
Mart.
Data Relasional vs Data Multidimensional
Ø
Data Relasional atau Relational Data Modelling
(RDM) dipandang sebagai bentuk hubungan antar data (melalui tabel) yang
berelasi dalam struktur hirarkis dan berada pada 2 dimensi (baris dan kolom).
Ø
Ada 3 relasi yang dikenal: One to One, One to Many,
Many to Many
Ø
Dalam pengembangan perangkat lunak, untuk
database, digunakan desain pengembangan berupa Entity Relationship Management
(ERD).
Ø
Sudah dipastikan akan merupakan data
transaksional, manipulasi data, tanpa menyimpan data historis (2 dimensi).
Ø
Data relasional adalah data yang memiliki
hubungan antar satu sama lainnya, satu data akan berelasi dengan data lainnya
bisa menggunakan one to one, one to many, dan many to many. Dalam
pengimplementasiannya dapat menggunakan aplikasi software sqlyog atau phpMyAdmin.
One to One adalah relasi satu data hanya dengan satu data lainnya; One to Many
adalah relasi satu data dengan banyak data lainnya; dan Many to Many adalah
relasi banyak data dengan banyak data lainnya
Data Multi Dimensi
Data multi dimensi (Multi Dimensional Data atau MDD) →
model data fisik (Physical data Model) yang strukturnya dapat dilihat dari
berbagai sudut pandang (dimensi), dengan tiga buah bagian (Record atau baris,
Field atau kolom, dan layer), dengan objek – objek data multi dimensi di
dalamnya, yang atributnya dibedakan menjadi atribut dimensi dan atribut
pengukuran. Data multi dimensi, jika direpresentasikan ke dalam bentuk
koordinat, maka dapat ditunjukkan ke dalam tiga buah sumbu: X, Y, dan Z. Jika
dianalogikan dengan gambar bangun, maka data multi dimensi dapat diibaratkan
sebagai bangun ruang yang memiliki 3 dimensi (panjang, lebar, tinggi).
Data relasional yang ada dalam "tabel" dengan field "baris" dan "kolom" tersebut, kita ubah ke dalam "sudut pandang". Sudut pandang inilah yang disebut dimensi. Analoginya kalua di data relasional, kita belajar datanya dengan sumbu x dan y (baris dan kolom pada tabel di db), maka di data multi dimensi ini, misal 3 dimensi, kita kenal sumbunya x, y, dan z.
Misalkan saja dimensi yang digunakan untuk melihat data
mahasiswa adalah dimensi kelulusan, dimensi sidang TA, dan dimensi wisuda. Masing–masing
dari dimensi tersebut, akan membentuk Tabel Kelulusan, Tabel Sidang_TA, dan
Tabel Wisuda, dengan perincian sebagai berikut :
1. Tabel Kelulusan, Field : ID_Kelulusan (Primary
Key), NIM, Nama, Angkatan, IPK.
2. Tabel Sidang_TA, Field : ID_Sidang, NIM, Nama, Judul, Pembimbing,
Penguji, Kelulusan, Nilai.
3. Tabel Wisuda, Field : ID_Wisuda, NIM, Nama, Periode
Wisuda.
Ketiga buah dimensi di atas, dapat digunakan untuk melihat data mahasiswa
pada Tabel Mahasiswa.
Seperti ini jika diilustrasikan untuk menggambarkan bagaimana kita
(pengguna) melihat data- tsb dalam dimensi yang berbeda-beda, kalau sulit
membayangkan dalam "sumbu", kita coba ilustrasikan dalam bangun ruang
kubus
Untuk apa sih ada data multi dimensi dan untuk apa mereka dipandang seperti itu? untuk memudahkan analisa data. Konsep dasar dari DW kan analytical data, makanya dia mengutamakan data historis, beda dgn database biasa yg transaksional. Setelah dimodelkan ke multi dimensi seperti ini, maka data mudah untuk diiris (slicing) sesuai kebutuhan
itu kan dimensinya dari 3 tabel berbeda, lalu semuanya merujuk pada data yang dibutuhkan user? jadi bisa dikatakan user dapat data yang diinginkan (contoh data penerbangan) dari banyak tabel yang menyangkut ke data penerbangan?
Iya, dibuatkan "sudut pandang"nya dlm bentuk "dimensi" sesuai kebutuhan, jadi disini jangan berpikir "query" seperti transaksional dan relasional, tapi "slicing" data. Bahasa ilmiahnya pivoting yg dilakukan terhadap data-data beragam tersebut dan jumlahnya banyak. Slicing/pivoting, data itu dipilah yg sesuai dengan kebutuhan dari sekian banyaknya data yang sudah digudangkan, dibersihkan, disesuaikan dgn temanya. diambil dr subsetnya dari semesta data, dan tidak lagi dengan many to many atau bentuk relasi dari 3 tersebut, karena disini kita "mengubah paradigma" dari relasional ke multi dimensi. Misal 1 unud ini, dia kan ada banyak fakultas, tiap fakultas ada sekian prodi, setiap prodi punya angkatan mahasiswanya, setiap angkatan punya jumlah mahasiswanya, setiap mahasiswa dari setiap angkatan di setiap prodi pada setiap fakultas itu punya prestasi akademik masing-masing. Jadi misal perlu analisa data "kelulusan" dengan syarat: semua mahasiswa di unud, angkatan 2016, yang wisuda 2020 ini, semua prodi dan fakultas. Kira-kira lebih mudah slicing dengan data multi dimensi dari data warehouse (lebih cepat dan mudah untuk semua case yang diminta)
Referensi:
I Putu Agus Eka Pratama. Handbook Data Warehouse. Penerbit Informatika. Bandung. 2017