Minggu, 11 Oktober 2020

Model Pengembangan Data Warehouse dan Data Multi Dimensi

Nama              : Ida Ayu Gde Widya Savitri

NIM                : 1805551113

Matakuliah    : Data Warehouse

Nama Dosen : I Putu Agus Eka Pratama, S.T., M.T.

Teknologi Informasi Fakultas Teknik


Model Pengembangan Data Warehouse dan

Data Multi Dimensi pada Data Warehouse

 

Dalam database konvensional, terdapat data-data transaksional yang mengutamakan perubahan data di dalamnya, namun tidak ada data historis.

Sementara di data warehouse justru sebaliknya, data historis diperhatikan, yang digunakan untuk kebutuhan analisa data.

 

Data Mart

v Data Mart merupakan sub bagian dari Data Warehouse yang digunakan sebagai sebuah struktur data, yang di dalamnya memuat data, guna memudahkan pengguna akhir (end user) dalam mengakses data dari Data Warehouse sesuai kebutuhan ataupun untuk analisa data.

v Data Mart merupakan unit (bagian) dari Data Warehouse secara keseluruhan yang berada pada layer akses (Access Layer) berorientasikan kepada spesifik proses bisnis dan kebutuhan dari unit organisasi tempat dimana Data Warehouse tersebut diimplementasikan.

v Apabila dianalogikan sebagai sebuah himpunan, maka Data Mart adalah himpunan bagian dari sebuah himpunan semesta bernama Data Warehouse. Sehingga apabila Data Warehouse memuat semua data sesuai kebutuhan dari keseluruhan organisasi bersangkutan, maka Data Mart hanya spesifik memuat data sesuai kebutuhan per unit atau departemen saja.

v Contoh data mart dan data warehouse itu apa? Jika casenya di unud, maka data warehouse adalah yang terpusat di usdi, sedangkan data mart adalah yang ada di setiap fakultas (setiap fakultas bisa saja akan membagi lagi ke dalam masing-masing prodi di bawahnya).

 

Model Pengembangan Data Warehouse

Terdapat 6 model pengembangan, yang bisa dikelompokkan menjadi yang tanpa menggunakan User Feedback dan yang menggunakan User Feedback, yang dimana dari 2 kelompok ini sama-sama terdapat Top Down, Bottom Up, dan Parallel.

        1.     Top Down tanpa User Fedback

        2.     Bottom Up tanpa User Feedback

        3.     Parallel tanpa User Feedback

        4.     Top Down beserta User Feedback

        5.     Bottom Up beserta User Feedback

        6.     Parallel Beserta User Feedback


 

1.    Top Down Tanpa User Feedback

Model ini merupakan model yang paling sederhana karena tidak melibatkan user feedback dan hanya memiliki alur: sumber-sumber data (Data Sources) à diteruskan ke Data Warehouse à diteruskan (dipecah) ke dalam beberapa buah Data Mart. Model ini fokus kepada kemampuan untuk dapat menjadikan pengguna bebas memperoleh data sesuai kebutuhan melalui Data Mart (yang dialirkan dari Data Warehouse), tanpa melakukan pengubahan apapun pada Data Warehouse itu sendiri. Penambahan data pada Data Mart, hanya dapat dilakukan melalui Data Warehouse, dengan mengikuti aliran Extraction, Transformation, Transportation (ETT) yaitu data diekstrak, data ditransformasikan, lalu data diangkut (transportation)

 

2.    Bottom Up Tanpa User Feedback

Model ini kebalikan dari Top Down. Sesuai dengan namanya, pengembangan dimulai dari bawah, dimana dua buah Data Mart atau lebih dibentuk dari data – data yang berasal dari berbagai sumber data (Data Sources).

a.     Tahap 1: ETT Terhadap Data Dari Sumber Data ke Data Mart

ETT (Extraction, Transformation, Transportation) pada sumber–sumber data ke masing–masing Data Mart. Setiap Data Mart mengintegrasikan data–data dari berbagai sumber tersebut.

b.     Tahap 2: ETT dari Data Mart ke Data Warehouse

Data dialirkan dari masing–masing Data Mart ke Data Warehouse, dengan kembali menggunakan proses ETT (Extraction, Transformation, Transportation) →data dari setiap Data Mart kembali diintegrasikan di dalam Data Warehouse→dilakukan juga penghilangan Redudancy pada data–data dari sejumlah Data Mart tersebut.

 

3.    Parallel Tanpa User Feedback

Model ini merupakan modifikasi dari model Top Down, namun Data Mart tidak sepenuhnya bergantung kepada Data Warehouse (dalam hal sumber data yang diperoleh) karena ada data model dari DW yang diikuti oleh semua Data Mart.



Langkah 1: bangun Data Warehouse dari berbagai sumber data → Di dalam Data Warehouse terdapat Data Model yang menjadi acuan bagi model data untuk Data Mart–Data Mart yang dibentuk kemudian → Data Model ikut mempengaruhi Data Mart.

Langkah 2: Data Mart yang terbentuk, ikut berperan di dalam membangun Data Warehouse melalui integrasi di level data. Perhatikan bahwa Data Model itu sudah ditentukan dari DW untuk semua Data Mart di bawahnya, lalu seperti biasanya terdapat ETT.

 

Data Model adalah pemodelan data, semacam "role" yg harus diikuti oleh semua data mart agar "sama" dengan DW, data dari berbagai sumber data itu beragam formatnya, saat di DW, dia harus diseragamkan, ada menggunakan ETL atau ELT, tergantung pilih yang mana dulu disana. Untuk model pengembangan ini, data model dapat berupa role untuk format datanya seperti apa, besar data, jenis data, dan lainnya.

Mengapa panah dari DW ke DM hanya 1 arah/tidak bolak balik, apakah itu artinya data yang masuk langsung ke data mart tidak di masukan juga ke dalam DW?

Dalam Paralel itu sudah ada "role"nya dalam bentuk data model yang berasal dari DW ke data mart, otomatis ada 1 panah searah. Data dari data mart bisa dimasukkan ke DW untuk model paralel tanpa user feedback ini jika diperlukan, namun bukan berarti data mart sepenuhnya bergantung kepada DW lagi seperti 2 model lainnya.

Masing masing model pengembangan itu sebenarnya difungsikan secara khusus untuk apa?

untuk masing2 model pengembangan, itu bs dipilih sesuai dengan: 1. Kebutuhan instanasi/organisasi/pengguna, 2. Budget, 3. Ketersediaan Resource, dan 4. Case Studi atau latar belakang diperlukannya DW dalam instani tersebut.

Apakah bisa dalam satu dw menggunakan kombinasi top down dan button up?

Bisa saja dibuatkan hybrid sepertiitu, 2-3 model digabungkan. apabila diperlukan. namun effortnya akan beda dengan pemilihan 1 model namun sudah matang keputusan pemilihannya

 

Selanjutnya, kelompok beserta user feedback. artinya, untuk 3 jenis ini, sama saja dengan kelompok yang tanpa user feedback dari sisi hubungan antara DW dan Data Mart serta bagaimana data-data itu mendapat perlakuan ETT. Bedanya adalah pada "user feedback" yang dilibatkan disini, user feedback ini diletakkan pada tatap muka aplikasi DW, dengan demikian, adanya user feedback ini mempengaruhi bagaimana DW dan data mart yang dibangun tersebut untuk ke depannya. Detail dari masing-masing kelompok besert user feedback antara lain sebagai berikut.

 

4.    Top Down Beserta User Feedback

Sejumlah data dari berbagi sumber data membentuk Data Warehouse → Data Warehouse menjadi pusat dari penggudangan data – data yang berasal dari berbagai sumber data tersebut. Terjadi proses integrasi di level data → memudahkan data – data disatukan ke dalam sebuah gudang data ini. Dari Data Warehouse, dibentuk sejumlah Data Mart sesuai dengan kebutuhan pengguna. User Feedback pada Data Mart, menjadi tolok ukur di dalam pengembangan berkelanjutan pada Data Mart dan Data Warehouse itu sendiri. User Feedback mempengaruhi Data Mart dan secara otomatis akan mempengaruhi Data Warehouse itu sendiri. .Terdapat aliran bolak – balik dari User Feedback (pengguna) ke Data Mart dan dari Data Mart ke Data Warehouse.


5.    Bottom Up Beserta User Feedback

Dibentuk terlebih dahulu 2 Data Mart atau lebih, menggunakan data-data dari berbagai sumber data→digunakan ETT (Extraction, Transformation, Transportation) untuk membantu pengumpulan data, ekstraksi data, transformasi ke format data yang disepakati bersama di dalam Data Mart, serta integrasi di level data itu sendiri. Lalu dibentuk Data Warehouse dari Data Mart yang terbentuk → kembali menggunakan ETT untuk mengintegrasikan data – data dari berbagai Data Mart tersebut ke dalam kesatuan Data Warehouse. User Feedback diarahkan melalui tatap muka Data Warehouse, yang berefek terhadap Data Mart – Data Mart yang membentuk Data Warehouse.


6.    Parallel Beserta User Feedback

Langkah awal: penentuan aturan untuk model data dari Data Warehouse ke Data Mart yang terbentuk → Data dari berbagai sumber data masuk ke Data Mart dan ke Data Warehouse. Data dari sumber data yang menuju ke Data Mart saja yang akan melalui proses ETT (Extraction, Transformation, Transportation). Data yang menuju ke Data Warehouse, terlebih dahulu menuju ke Data Model dari Data Warehouse, untuk menyeragaman format. Pada Data Warehouse tidak terjadi ETT, sebab Data Warehouse menjadi pusat untuk model data enterprise, yang menjadi acuan bagi Data Mart lainnya. Data Warehouse mengagregasikan data, memuat fungsi koordinasi dan integratif untuk pengembangan ke depannya, termasuk juga manajemen data dan informasi kepada pengguna. User Feedback dialirkan melalui tatap muka ke Data Mart.

                                                 

Data Relasional vs Data Multidimensional

Ø  Data Relasional atau Relational Data Modelling (RDM) dipandang sebagai bentuk hubungan antar data (melalui tabel) yang berelasi dalam struktur hirarkis dan berada pada 2 dimensi (baris dan kolom).

Ø  Ada 3 relasi yang dikenal: One to One, One to Many, Many to Many

Ø  Dalam pengembangan perangkat lunak, untuk database, digunakan desain pengembangan berupa Entity Relationship Management (ERD).

Ø  Sudah dipastikan akan merupakan data transaksional, manipulasi data, tanpa menyimpan data historis (2 dimensi).

Ø  Data relasional adalah data yang memiliki hubungan antar satu sama lainnya, satu data akan berelasi dengan data lainnya bisa menggunakan one to one, one to many, dan many to many. Dalam pengimplementasiannya dapat menggunakan aplikasi software sqlyog atau phpMyAdmin. One to One adalah relasi satu data hanya dengan satu data lainnya; One to Many adalah relasi satu data dengan banyak data lainnya; dan Many to Many adalah relasi banyak data dengan banyak data lainnya

 

Data Multi Dimensi

Data multi dimensi (Multi Dimensional Data atau MDD) → model data fisik (Physical data Model) yang strukturnya dapat dilihat dari berbagai sudut pandang (dimensi), dengan tiga buah bagian (Record atau baris, Field atau kolom, dan layer), dengan objek – objek data multi dimensi di dalamnya, yang atributnya dibedakan menjadi atribut dimensi dan atribut pengukuran. Data multi dimensi, jika direpresentasikan ke dalam bentuk koordinat, maka dapat ditunjukkan ke dalam tiga buah sumbu: X, Y, dan Z. Jika dianalogikan dengan gambar bangun, maka data multi dimensi dapat diibaratkan sebagai bangun ruang yang memiliki 3 dimensi (panjang, lebar, tinggi).

Data relasional yang ada dalam "tabel" dengan field "baris" dan "kolom" tersebut, kita ubah ke dalam "sudut pandang". Sudut pandang inilah yang disebut dimensi. Analoginya kalua di data relasional, kita belajar datanya dengan sumbu x dan y (baris dan kolom pada tabel di db), maka di data multi dimensi ini, misal 3 dimensi, kita kenal sumbunya x, y, dan z.

 

Misalkan saja dimensi yang digunakan untuk melihat data mahasiswa adalah dimensi kelulusan, dimensi sidang TA, dan dimensi wisuda. Masing–masing dari dimensi tersebut, akan membentuk Tabel Kelulusan, Tabel Sidang_TA, dan Tabel Wisuda, dengan perincian sebagai berikut :

1. Tabel Kelulusan, Field : ID_Kelulusan (Primary Key), NIM, Nama, Angkatan, IPK.

2. Tabel Sidang_TA, Field : ID_Sidang, NIM, Nama, Judul, Pembimbing, Penguji, Kelulusan, Nilai.

3. Tabel Wisuda, Field : ID_Wisuda, NIM, Nama, Periode Wisuda.

Ketiga buah dimensi di atas, dapat digunakan untuk melihat data mahasiswa pada Tabel Mahasiswa.

 


 

Seperti ini jika diilustrasikan untuk menggambarkan bagaimana kita (pengguna) melihat data- tsb dalam dimensi yang berbeda-beda, kalau sulit membayangkan dalam "sumbu", kita coba ilustrasikan dalam bangun ruang kubus

 

Untuk apa sih ada data multi dimensi dan untuk apa mereka dipandang seperti itu? untuk memudahkan analisa data. Konsep dasar dari DW kan analytical data, makanya dia mengutamakan data historis, beda dgn database biasa yg transaksional. Setelah dimodelkan ke multi dimensi seperti ini, maka data mudah untuk diiris (slicing) sesuai kebutuhan

itu kan dimensinya dari 3 tabel berbeda, lalu semuanya merujuk pada data yang dibutuhkan user? jadi bisa dikatakan user dapat data yang diinginkan (contoh data penerbangan) dari banyak tabel yang menyangkut ke data penerbangan?

Iya, dibuatkan "sudut pandang"nya dlm bentuk "dimensi" sesuai kebutuhan, jadi disini jangan berpikir "query" seperti transaksional dan relasional, tapi "slicing" data. Bahasa ilmiahnya pivoting yg dilakukan terhadap data-data beragam tersebut dan jumlahnya banyak. Slicing/pivoting, data itu dipilah yg sesuai dengan kebutuhan dari sekian banyaknya data yang sudah digudangkan, dibersihkan, disesuaikan dgn temanya. diambil dr subsetnya dari semesta data, dan tidak lagi dengan many to many atau bentuk relasi dari 3 tersebut, karena disini kita "mengubah paradigma" dari relasional ke multi dimensi. Misal 1 unud ini, dia kan ada banyak fakultas, tiap fakultas ada sekian prodi, setiap prodi punya angkatan mahasiswanya, setiap angkatan punya jumlah mahasiswanya, setiap mahasiswa dari setiap angkatan di setiap prodi pada setiap fakultas itu punya prestasi akademik masing-masing. Jadi misal perlu analisa data "kelulusan" dengan syarat: semua mahasiswa di unud, angkatan 2016, yang wisuda 2020 ini, semua prodi dan fakultas. Kira-kira lebih mudah slicing dengan data multi dimensi dari data warehouse (lebih cepat dan mudah untuk semua case yang diminta)


Referensi:

I Putu Agus Eka Pratama. Handbook Data Warehouse. Penerbit Informatika. Bandung. 2017




Tidak ada komentar:

Posting Komentar

Cloud Computing

Nama               : Ida Ayu Gde Widya Savitri NIM                 : 1805551113 Matakuliah     : Data Warehouse Nama Dosen : I Putu A...