Nama : Ida Ayu Gde Widya Savitri
NIM :
1805551113
Matakuliah : Data Warehouse
Nama Dosen : I Putu Agus Eka Pratama, S.T., M.T.
Teknologi Informasi Fakultas Teknik
“DW memiliki 6 sifat utama : subject
oriented, integrated, process oriented, time variant, accessible, non volatile”
– Bill Inmon
“DW mengumpulkan data dari sumber –
sumber transaksional (OLTP) untuk kebutuhan query dan analisa data →OLAP” –
Ralph Kimball
Dari kedua definisi tersebut, keduanya saling melengkapi satu sama lain
dalam menyempurnakan teknologi data warehouse. Bill Inmon mengutarakan mengenai
6 sifat (karakteristik) utama pada data warehouse, yang mana 6 sifat tersebut
kemudian diadopsi juga pada big data dengan penyesuaian. Sedangkan dari Ralph
Kimball, menambahkan mengenai adanya query data pada data warehouse serta
analisa data yang kemudian menekankan adanya OLAP (On Line Analytical
Processing).
Data transaksional yang telah dibahas sebelumnya menggunakan OLTP. Kata
kuncinya pada "T" (transactional), sedangkan pada data warehouse
menggunakan OLAP, kata kuncinya pada "A" yaitu "analytical"
OLTP : On Line Transactional Processing → data-data transaksional
OLAP : On Line Analytical Processing → query dan analisa → memperhatikan
historis data
Contohnya:
Sebuah database biasa, setiap entri data pada tabel di dalam DB akan
dilakukan penumpukan data (timpa) apabila terjadi edit/update —> di sini
adanya data apapun yang mengalami perubahan, dia akan menggantikan data
sebelumnya.
Pada Data Warehouse, entry data ke n apabila dilakukan pengeditan/perubahan,
akan disimpan sebagai entry ke n+1 dengan disertai catatan waktu, proses, dan
subyeknya —> di bagian ini, apapun perubahan yang ada, dia tidak menggantikan
data sebelumnya, dalam artian memperhatikan history data tersebut.
BASIC ARCHITECTURE
Dari sisi arsitektur, secara umum data warehouse ada 3, seperti gambar di bawah ini:
a.
Data Source (Sumber Data)
Berbagai data digital dari berbagai sumber data, diambil
untuk dikumpulkan ke warehouse. Ada dari sistem, file, berkas, dokumen yang
didigitalkan (scan, ketik ulang), flat file, dan lainnya. Data-data digital
ini, format datanya beragam, sizenya juga beragam tapi mereka semua masih termasuk
data terstruktur.
b.
Warehouse (Gudang Datanya)
Apa yg digudangkan
di sini? Data-data digital tersebut, yang berasal dari berbagai sumber data dengan
beragam format data. Seperti apa penggudangannya? Masing-masing data tersebut
diambil dalam bentuk metadata, summary data, atau raw data.
Di bagian warehouse
inilah terdapat "pengubahan" dari "transaksional" ke “analitikal"
melalui OLTP ke OLAP. Metadata, summary data, atau raw data —> ini yang
membantu ketika transaksional akan diubah ke bentuk historis data
c.
User (Penggunanya)
User terbagi
menjadi 3 yaitu analyst (tugasnya menganalisa data), mining (memperoleh
knowledge dari data sesuai pola, mining ini artinya menambang data), dan reporting
(menyampaikan laporan berdasarkan hasil Analisa dan mining tersebut).
STAGING AREA ARCHITECTURE
Konsep dasarnya adalah penambahan Staging Area untuk menampung data–data dari sumber data transaksional, sebelum diteruskan ke warehouse. Jadi data-data tersebut dirapikan, dibersihkan, dan disesuaikan dengan kebutuhan. Inilah yang kelak dikenal dengan data cleansing/cleaning dan etl/elt.
Logikanya seperti ini: sumber data —> staging area —> warehouse
Ketika data dirapikan, dibersihkan dan disesuaikan, itu maksudnya dari
sekian banyak data, maka yang "relevan" dengan kebutuhan pengguna, yang
sesuai, yang formatnya perlu 'dirapikan', itu yang dilakukan di sana
Secara teknis maka melalui komputasi dan modul
Apakah staging area itu sama dengan data cleansing?
Staging area itu dibuatkan "tempat"nya, sedangkan "data
cleansing" salah satu prosesnya. Contohnya, di warung makan adalah
tempatnya berkumpul orang-orang makan dan pedagang, ini ibarat data dari
berbagai sumber data dan administrator serta softwarenya, serta salah satu
kegiatannya adalah makan (kegiatan lainnya transaksi, misal bayar setelah
pesan/makan)
Staging area ini dalam bentuk apa biasanya? Apakah program
software atau seperti apa, dan cara dari staging area bisa terhubung ke data
warehouse seperti apa?
Ketika masuk ke teknis, dia bisa modulah dengan software, bisa dimasukkan
ke dalam procedure atau barisan code (jika coding), bisa dengan penambahan
modul
DATA MART
Data Mart merupakan data-data dari berbagai sumber data tersebut yang dipecah
pecah ke dalam beberapa sub dari data warehouse. Contohnya, Universitas Udayana
punya 1 buah data warehouse di USDI, maka data mart adalah "sub" data
warehouse di setiap fakultas
Konsep dasarnya adalah penambahan Data Mart untuk dikombinasikan dengan
Staging Area. Arsitektur ini diperkenalkan oleh Oracle dan merupakan arsitektur
yang paling banyak digunakan. Mengapa? 1. Kemampuan untuk memilah data sesuai
kebutuhan 2. Kemampuan kostumisasi sesuai kebutuhan
Kira-kira apa saja data yang perlu ditaruh ke dalam data mart yang tersebar
di sejumlah unit?
Data fakultas, kegiatan-kegiatan di universitas dan fakultas, data UKM
yang dimana data data tersebut punya pengelompokannya sendiri tetapi tetap
masih berhubungan dengan data univ, data mahasiswa, data matakuliah, data
dosen, data jadwal, data nilai, apapun data yang memiliki klasifikasinya
tersendiri.
Dalam case USDI misalnya ada data mart kemahasiswaan, dimana data yang
disimpan seperti biodata mahasiswa, nilai-nilai mahasiswa, atau mungkin KRS-KRS
mahasiswa. Data Mart kepegawaian juga sama, biodata pegawai, jabatan. Data Mart
administrasi misalnya memuat tentang hal-hal berbau administrasi yang ada di Universitas
Udayana (misalnya data fakultas, data UKM, dan lainnya)
SUMBER DATA
Sumber-sumber data pada data warehouse, dibagi 2 jenis berdasarkan “asal”nya
a. Internal, yaitu dari internal organisasi, semua
data digital dan data yang dibuat digital yang ada atau berasal dari internal
institusi/organisasi bersangkutan
b.
Eksternal, yaitu dari luar jaringan, terhubung
melalui internet ataupun cloud
Contoh dari data internal dan eksternal pada USDI:
1.
Data internal di USDI adalah data mahasiswa dan
dosen, sementara data eksternalnya itu data pembayaran UKT yang terhubung oleh Bank
BNI.
2.
Data internalnya seperti data dosen, mahasiswa,
pegawai, sementara data eksternalnya surat-surat edaran yang berkaitan dengan
pembelajaran atau SK-SK
3.
Data internal di USDI seperti data mahasiswa dan
dosen yang ada pada SIMAK, dan untuk yang external misalkan data mahasiwa dan
dosen yang ada pada DIKTI
Referensi:
I Putu Agus Eka Pratama. Handbook Data Warehouse. Penerbit Informatika.
Bandung. 2017
Tidak ada komentar:
Posting Komentar