Istrazivanje

O istraživanju

Dosadašnje spoznaje

Istraživanje koje se planira provesti nadograđuje se na projekt „Metode i modeli za dizajn i evoluciju skladišta podataka“, tj. predstavlja njegov prošireni pravac istraživanja. Glavni fokus postojećeg istraživanja je integracija skladišta podataka (SP) sa sustavom za upravljanje matičnim podacima, kako bi se povećala efikasnost evolucije podataka i sheme nad oba ova sustava. Pritom opseg istraživanja uključuje samo strukturirane izvore podataka nad relacijskim modelom podataka. U postojećem projektu razvijena je vlastita arhitektura predloženog rješenja, koja se sastoji od više slojeva za čuvanje podataka, te je izgrađen, testiran i validiran prototip sustava.

Problem koji se istražuje kod evolucije SP jest pamćenje promjena opsega te strukture podataka i metapodataka, u dužem vremenskom periodu, kako bi SP što kvalitetnije odgovorilo na korisničke zahtjeve za poslovnom analizom. Akademska zajednica je napravila određene korake prema rješavanju ovoga problema, ali prvenstveno u kontekstu evolucije višedimenzionalne sheme i područnih SP. Evolucija izvora podataka, kao i sistemskog kataloga SP sustava, još uvijek nudi široki prostor za daljnja istraživanja i pronalazak efikasnijih rješenja.

Relacijske baze podataka koriste se već desetljećima kao primarni izbor za pohranu podataka. Međutim, one su zasnovane na relacijskom modelu, koji u današnje doba nije više pogodan za pohranu velike količine raznovrsnih podataka (posebno nestrukturiranih podataka), generiranih od strane modernih aplikacija. Danas SP integrira brojne heterogene izvore podataka te je opseg SP sve širi, obuhvaća više novih vrsta izvora (poput mobilnih informacijskih sustava) i više tipova podataka (poput polustrukturiranog i nestrukturiranog teksta). Najčešći izvori podataka za SP su razni informacijski sustavi, različite baze podataka, brojne poslovne aplikacije (CRM, HRM, ERP), kao i brojni web izvori podataka (blogovi, društvene mreže, Wikipedija, web sjedišta i sl.).

Iz tih razloga sve je popularniji pristup kombiniranja relacijskih i NoSQL baza podataka u svakodnevnim aplikacijama, gdje NoSQL fleksibilna shema omogućuje bržu prilagodbu promjenjivim okruženjima i pohranu ogromne količine raznovrsnih podataka.

Obzirom da je područje evolucije SP veoma široko i problema je puno, rješenje izgrađeno u dosadašnjem istraživanju očekivano se mora dalje razvijati. Ono što vidimo kao nedostatke dosadašnjeg istraživanja su:

a) relativno mali skup definiranih promjena sheme,

b) relativno mali skup praktičnih primjera (poslovnih scenarija - case study),

c) ograničenje skupa izvora podataka na relacijske izvore,

d) repozitorij metapodataka prati samo faze integracije, a ne i dodatne korisne metapodatke, te

e) djelomično implementirani prototip rješenja.

Ovo su sve mogući pravci za višestruka nova istraživanja i kvalitetnija rješenja. U ovome trenutku prioritet bismo stavili na probleme navedene pod b) i c) te bi to bio i fokus našeg novog istraživanja.

Hipoteza i objašnjenje hipoteze istraživanja

Istraživanje je usmjereno na proučavanje područja i problema dizajna i evolucije SP koje integrira strukturirane i nestrukturirane izvore podataka te prati njihovu evoluciju (i podataka i sheme), kroz realne poslovne scenarije. U fokusu istraživanja je razvoj novog modela i prototipa temporalnog sistemskog kataloga, koji će efikasno pohranjivati i pratiti promjene i u podacima i u strukturi obje vrste izvora podataka.

Postavljene su 2 hipoteze:

H1. Novi temporalni sistemski katalog SP integrirat će metapodatke relacijskih i nestrukturiranih izvora podataka

Hipoteza će se smatrati potvrđenom ukoliko se definira i razvije model novog temporaliziranog sistemskog kataloga te se prema razvijenom modelu izradi verzija prototipa sustava u kojem sistemski katalog prikuplja i pohranjuje metapodatke o povezivanju shema repozitorija iz relacijskih i nestrukturiranih izvora te definirani upiti nad prototipom vraćaju isti skup rezultata.

Da bismo dokazali da vrijedi hipoteza provest ćemo dva testa na podatkovnoj razini cijelog prototipa:

a) upit nad sistemskim katalogom koji nam vraća podatke o povezivanju relacijskih i nestrukturiranih shema te

b) dva ekvivalentna upita nad izvorima podataka (relacijskim i nestrukturiranim) i područnim skladištima podataka koji nam vraćaju isti skup rezultata.

H2. Evolucija sheme SP provest će se isključivo uz nadogradnju (proširenje) postojeće sheme i bez gubitka informacija

Model smatramo trajnim iz dva razloga:

a) sve promjene nad podacima implementirane su u model samo kao dodavanja – nema gubitka podataka, i

b) sve promjene u shemi modela implementirane su kao jednostavna proširenja modela – nema gubitka sheme.

Hipoteza će se smatrati potvrđenom ukoliko se, prema izrađenom modelu i formaliziranom skupu promjena i poslovnih scenarija, pokaže da se evolucija sheme može provesti koristeći samo dvije osnovne operacije evolucije te da upiti provedeni nad različitim dijelovima arhitekture prototipa vraćaju isti ili veći skup rezultata.

Cilj istraživanja

Cilj istraživanja je razviti model i prototip temporalnog sistemskog kataloga koji čuva metapodatke SP sustava (od izvora podataka, preko centralnog SP pa do područnih SP) te je podržan realnim skupom poslovnih scenarija (case study-ja), u svrhu efikasnijeg pamćenja promjena u podacima i njihovim shemama. Pritom u opseg istraživanja ulaze i strukturirani izvori podataka (npr. relacijske baze podataka) i nestrukturirani izvori podataka (npr. NoSQL baze podataka/web izvori podataka).

Plan istraživanja (materijal i metode)

Planiraju se uvesti nove metode i pristupi za izgradnju temporalnog sistemskog kataloga SP sustava nove generacije. Učinkovitost metoda bit će testirana na modelu nove generacije sistemskog kataloga SP.

Razvijeni model temporaliziranog sistemskog kataloga bit će testiran kroz formalizaciju modela korištenjem načela teorije skupova, validaciju operacija evolucije nad modelom te definiciju pravila prevođenja i integracije shema izvora podataka u shemu modela sistemskog kataloga. Bit će osmišljen i realni skup poslovnih scenarija, koji će služiti za validaciju razvijenog prototipa predloženog rješenja.

Predviđa se ukupno 9 projektnih aktivnosti:

1. god.:

izrada dokumentacije o postojećim modelima sistemskih kataloga i integraciji strukturiranih i nestrukturiranih izvora podataka te prilagodba izabranih metoda i modela
izrada novog modela temporalnog sistemskog kataloga SP
testiranje i validacija modela temporalnog sistemskog kataloga SP

2. god.:

prikupljanje postojećih poslovnih scenarija i izrada dokumentacije
prilagodba poslovnih scenarija realnim trendovima
testiranje poslovnih scenarija nad modelom sistemskog kataloga

3. god.:

razvoj prototipa temporalnog sistemskog kataloga nove generacije SP
provedba benchmark testa nad razvijenim prototipom
testiranje poslovnih scenarija nad razvijenim prototipom

SPISK Portal

Izgradnja sistemskog kataloga nove generacije skladišta podataka

O istraživanju