Kamis, 01 Oktober 2020

Arsitektur Data Warehouse, Staging Area, Data Mart, Sumber Data

 Nama              : Ida Ayu Gde Widya Savitri

NIM                : 1805551113

Matakuliah    : Data Warehouse

Nama Dosen : I Putu Agus Eka Pratama, S.T., M.T.

Teknologi Informasi Fakultas Teknik

 


“DW memiliki 6 sifat utama : subject oriented, integrated, process oriented, time variant, accessible, non volatile” – Bill Inmon

“DW mengumpulkan data dari sumber – sumber transaksional (OLTP) untuk kebutuhan query dan analisa data →OLAP” – Ralph Kimball

 

Dari kedua definisi tersebut, keduanya saling melengkapi satu sama lain dalam menyempurnakan teknologi data warehouse. Bill Inmon mengutarakan mengenai 6 sifat (karakteristik) utama pada data warehouse, yang mana 6 sifat tersebut kemudian diadopsi juga pada big data dengan penyesuaian. Sedangkan dari Ralph Kimball, menambahkan mengenai adanya query data pada data warehouse serta analisa data yang kemudian menekankan adanya OLAP (On Line Analytical Processing).

 

Data transaksional yang telah dibahas sebelumnya menggunakan OLTP. Kata kuncinya pada "T" (transactional), sedangkan pada data warehouse menggunakan OLAP, kata kuncinya pada "A" yaitu "analytical"

OLTP : On Line Transactional Processing → data-data transaksional

OLAP : On Line Analytical Processing → query dan analisa → memperhatikan historis data

 

Contohnya:

Sebuah database biasa, setiap entri data pada tabel di dalam DB akan dilakukan penumpukan data (timpa) apabila terjadi edit/update —> di sini adanya data apapun yang mengalami perubahan, dia akan menggantikan data sebelumnya.

Pada Data Warehouse, entry data ke n apabila dilakukan pengeditan/perubahan, akan disimpan sebagai entry ke n+1 dengan disertai catatan waktu, proses, dan subyeknya —> di bagian ini, apapun perubahan yang ada, dia tidak menggantikan data sebelumnya, dalam artian memperhatikan history data tersebut.

 

BASIC ARCHITECTURE

Dari sisi arsitektur, secara umum data warehouse ada 3, seperti gambar di bawah ini:


a.     Data Source (Sumber Data)

Berbagai data digital dari berbagai sumber data, diambil untuk dikumpulkan ke warehouse. Ada dari sistem, file, berkas, dokumen yang didigitalkan (scan, ketik ulang), flat file, dan lainnya. Data-data digital ini, format datanya beragam, sizenya juga beragam tapi mereka semua masih termasuk data terstruktur.

 

b.     Warehouse (Gudang Datanya)

Apa yg digudangkan di sini? Data-data digital tersebut, yang berasal dari berbagai sumber data dengan beragam format data. Seperti apa penggudangannya? Masing-masing data tersebut diambil dalam bentuk metadata, summary data, atau raw data.

Di bagian warehouse inilah terdapat "pengubahan" dari "transaksional" ke “analitikal" melalui OLTP ke OLAP. Metadata, summary data, atau raw data —> ini yang membantu ketika transaksional akan diubah ke bentuk historis data

 

c.     User (Penggunanya)

User terbagi menjadi 3 yaitu analyst (tugasnya menganalisa data), mining (memperoleh knowledge dari data sesuai pola, mining ini artinya menambang data), dan reporting (menyampaikan laporan berdasarkan hasil Analisa dan mining tersebut).

 

STAGING AREA ARCHITECTURE   


Konsep dasarnya adalah penambahan Staging Area untuk menampung data–data dari sumber data transaksional, sebelum diteruskan ke warehouse. Jadi data-data tersebut dirapikan, dibersihkan, dan disesuaikan dengan kebutuhan. Inilah yang kelak dikenal dengan data cleansing/cleaning dan etl/elt.

Logikanya seperti ini: sumber data —> staging area —> warehouse

Ketika data dirapikan, dibersihkan dan disesuaikan, itu maksudnya dari sekian banyak data, maka yang "relevan" dengan kebutuhan pengguna, yang sesuai, yang formatnya perlu 'dirapikan', itu yang dilakukan di sana

Secara teknis maka melalui komputasi dan modul

 

Apakah staging area itu sama dengan data cleansing?

Staging area itu dibuatkan "tempat"nya, sedangkan "data cleansing" salah satu prosesnya. Contohnya, di warung makan adalah tempatnya berkumpul orang-orang makan dan pedagang, ini ibarat data dari berbagai sumber data dan administrator serta softwarenya, serta salah satu kegiatannya adalah makan (kegiatan lainnya transaksi, misal bayar setelah pesan/makan)

 

Staging area ini dalam bentuk apa biasanya? Apakah program software atau seperti apa, dan cara dari staging area bisa terhubung ke data warehouse seperti apa?

Ketika masuk ke teknis, dia bisa modulah dengan software, bisa dimasukkan ke dalam procedure atau barisan code (jika coding), bisa dengan penambahan modul

 

DATA MART

Data Mart merupakan data-data dari berbagai sumber data tersebut yang dipecah pecah ke dalam beberapa sub dari data warehouse. Contohnya, Universitas Udayana punya 1 buah data warehouse di USDI, maka data mart adalah "sub" data warehouse di setiap fakultas

Konsep dasarnya adalah penambahan Data Mart untuk dikombinasikan dengan Staging Area. Arsitektur ini diperkenalkan oleh Oracle dan merupakan arsitektur yang paling banyak digunakan. Mengapa? 1. Kemampuan untuk memilah data sesuai kebutuhan 2. Kemampuan kostumisasi sesuai kebutuhan

 

Kira-kira apa saja data yang perlu ditaruh ke dalam data mart yang tersebar di sejumlah unit?

Data fakultas, kegiatan-kegiatan di universitas dan fakultas, data UKM yang dimana data data tersebut punya pengelompokannya sendiri tetapi tetap masih berhubungan dengan data univ, data mahasiswa, data matakuliah, data dosen, data jadwal, data nilai, apapun data yang memiliki klasifikasinya tersendiri.

Dalam case USDI misalnya ada data mart kemahasiswaan, dimana data yang disimpan seperti biodata mahasiswa, nilai-nilai mahasiswa, atau mungkin KRS-KRS mahasiswa. Data Mart kepegawaian juga sama, biodata pegawai, jabatan. Data Mart administrasi misalnya memuat tentang hal-hal berbau administrasi yang ada di Universitas Udayana (misalnya data fakultas, data UKM, dan lainnya)

 

SUMBER DATA

Sumber-sumber data pada data warehouse, dibagi 2 jenis berdasarkan “asal”nya

       a.     Internal, yaitu dari internal organisasi, semua data digital dan data yang dibuat digital yang ada atau berasal dari internal institusi/organisasi bersangkutan

       b.     Eksternal, yaitu dari luar jaringan, terhubung melalui internet ataupun cloud

Contoh dari data internal dan eksternal pada USDI:

          1.     Data internal di USDI adalah data mahasiswa dan dosen, sementara data eksternalnya itu data pembayaran UKT yang terhubung oleh Bank BNI.

          2.     Data internalnya seperti data dosen, mahasiswa, pegawai, sementara data eksternalnya surat-surat edaran yang berkaitan dengan pembelajaran atau SK-SK

          3.     Data internal di USDI seperti data mahasiswa dan dosen yang ada pada SIMAK, dan untuk yang external misalkan data mahasiwa dan dosen yang ada pada DIKTI

 

Referensi:

I Putu Agus Eka Pratama. Handbook Data Warehouse. Penerbit Informatika. Bandung. 2017





Tidak ada komentar:

Posting Komentar

Cloud Computing

Nama               : Ida Ayu Gde Widya Savitri NIM                 : 1805551113 Matakuliah     : Data Warehouse Nama Dosen : I Putu A...