ZSR-DWH

Firma
DITEC
Dátum realizácie
Dec 2018 - Jun 2020
Technológie
Oracle Select Architect Excel PLSQL ETL
Služby
rozvoj etl tranformácia

ŽSR - Datawarehouse

Na projekte ŽSR DWH som mal za úlohu postaviť ETL proces od staging vrstvy až po core vrstvu. Na backend sa zvolila databáza Oracle vzhľadom na jej využitie aj v iných projektoch firmy.Frontend resp BI sa v tej fáze ešte nevyvíjal. Na začiatku som vytvoril dB linky na všetky zdrojové databázové systémy ŽSR,ktorých bolo asi 8 a všetky sa nachádzali v Oracle.Následne sa cez MV potiahli dáta do staging vrstvy.Ďalšie úpravy sa v tejto vrstve už nerobili,len sa nastavili procedúry na refresh dát podľa naplnenia Mlogov. Všetky ostatné úpravy sa robili v tzv. transformačnej vrstve,kde boli zduplikované core tabuľky,ktoré sa pri procesovaní mazali a odchytávali zmenenové údaje ktoré išli do core vrstvy. Čo sa týka vnútornej logiky,tak som písal PLSql kód podľa zadania analýzy.Sekvenčný diagram bolo dosť zložito napísaný a tak bez priamej komunikácie s analytikom sa to dalo sotva pochopiť. Údaje,ktoré sa napríklad spracovali,boli údaje o odstavených vozidlách,o meškajúcich vlakoch,o efektivite práce rušňovodičov či o zozname staníc alebo prerábkach staníc a náhradných spojeniach. Každá z horeuvedených oblastí predstavovala jeden datamart, ku ktorej sa cez star diagram pripadali potrebné dimezionálne tabuľky. Optimalizácia skriptov sa robila cez indexi a pararelizmus hintov,ktorá pri zvolenom spracovaní nebola vždy dostačujúca.

Prínos pre firmu

Projekt ukázal,že RDBMS Oracle sa za v prípade menších alebo stredných tabuliek hodí aj na spracovanie etl procesov.Pri zložitejších dopytoch by som skôr volil od Oracle ODi resp in-memory tablespace alebo skúsil bulk insert processing.