A data integration mibenléte

Data integration. Van ilyen szó?

Igen, van, sőt ez a kifejezés egyelőre így ismeretes magyar nyelvi környezetben is. Szabad fordításban adat integráció, adat beépítés ál hozzá talán a legközelebb, de a pontos anyanyelvi meghatározást meghagynám inkább a fejlesztői szakmának. A data integration egy elég könnyen megérthető fogalom már annak is, aki valamennyire beszél angolul, akkor is, ha egyébként laikus a programozásban. Gyakorlatilag olyan esetekben beszélünk data integration folyamatokról, ha két különböző forrású adatbázist akarunk egyesíteni úgy, hogy a felhasználó számára mindez egyetlen platformon, egységesen jelenjen meg. Manapság egyre gyakrabban van rá szükség mind az üzleti, mind a tudományos életben. Például ha két különálló cég szeretné egyesíteni az adatbázisát, vagy ha tudományos területek kutatási eredményeit szeretnénk eltérő adatforrásokból összevetni. Napjainkban mind az adatok mennyisége, mind a szükséges megosztások gyakorisága nőttön nő. Egy kifejezetten komplex problémakör része, amely még sok megoldatlan kérdéssel küszködik.

Data integration elődje, az adatraktározás

Ahogy egyre növekedtek a létező adatbázisok és szükségessé vált ezek költöztetése, mozgatása, a nyolcvanas évekre megjelent a data integration igénye is. Az első ilyen meta adat alapú rendszert 1991-ben fejlesztette ki a Minnesotai Egyetem IPUMS néven (a mozaikszó az Integrated Public Use Microdata Series kifejezést takarja). Ez a rendszer az úgynevezett „data warehousing” azaz adat raktározási elven alapul. Ez mondhatni a data integration előszobája. Az adat raktározási folyamat annyit tesz, hogy a különböző, egymástól eltérő adatbázisok adatait kinyerik a létező rendszerből, átformálják és feltöltik egy új, egységes nézettel bíró rendszerbe, ezáltal a különböző forrású adatok egymással is kompatibilisek és összehasonlíthatók lesznek. A projekt maga jelentős lépésnek bizonyult, hiszen több ezer adatbázis átjárhatóságát mutatta meg és bebizonyította, hogy a nagy léptékű adat integráció igenis lehetséges. Az adatraktározás megközelítésével egy igen szoros adatkapcsolat jön létre, hiszen az adatokat már fizikailag is átköltöztették az új tárhelyre. Ennek előnye, hogy az adatok gyorsan és könnyen elérhetőek az adott rendszerben. Hátránya viszont, hogy a rendszer túl merev, ha folyton változó adatbázisok integrációjáról van szó. A fent említett adatok kinyerését, átformálását és feltöltését, az angol mozaikszó alapján ETL-re rövidített folyamatot minden egyes alkalommal újra el kell végezni egy sikeres szinkronizációhoz. Ez folyamatos idő és energia befektetést igényel. Az adatraktározás módszere szintén nehézségekbe ütközik, ha nem minden adatforrás bocsáthat rendelkezésre teljes adatbázist. Az üzleti életben, főleg olyan szolgáltatóiparok esetén, mint a turizmus, gyakran előfordul, hogy bizonyos adatok csak korlátozottan hozzáférhetők és az adott cég harmadik félnek nem adhatja ki őket. Így az ETL folyamat már az adatok kinyerésénél megbukik. Ezek a hiányosságok vezettek oda, hogy kialakuljon a data integration megközelítés.

Data integration mibenléte

2009 óta megfigyelhető trend a data integration megoldásoknál, hogy az adatok jelentősen lazábban kapcsolódnak és inkább egy olyan egységesített felületet létrehozása a fókusz, amely valós idejű adatokhoz fér hozzá mediált sémákon keresztül. Utóbbi kifejezés annyit tesz, hogy a különböző adatok formátumát a data integration egységesíti. Gondolhatunk itt például az Excel ilyen olyan dátumformátumaira, melyek közt váltani tudunk. Értelemszerűen ugyanabban a formátumban kell legyen minden adat, hogy a data integration után összehasonlíthatóak lehessenek. Az ugyanez idő tájt népszerűségre törő Szolgáltatásorientált architektúra nézeteivel ez a megközelítés tökéletesen egybe vág és jól alkalmazható megoldásként gyakran nyúltak a data integration ötletéhez a fejlesztők.

A data integration megoldatlan kérdései

2010 óta a data integration egyik kutatott témája az integráció szemantikai problémája. problémát nem is maga az integráció architektúrája okozza, hanem a különböző, heterogén adatbázisokból érkező elemek közti szemantikai eltérések. Ha két cég egyesíti az adatbázisát, bizonyos fogalmak és koncepciók értelemszerűen eltérő jelentéssel bírnak. Ilyen lehet például a „kereset” fogalma. Egyik esetben lehet dollárban megállapított értékről beszélünk, ami értelemszerűen egy az árfolyam ingadozással változó értéket jelent. Másik esetben lehet az értékesítések mennyiségében állapították meg a keresetet. A két érték nem összeegyeztethető, így hiába ment végbe a data integration és férünk hozzá egy ugyanazon rendszerben mindkét adathoz, értelmezni egy azon kontextusban mégse lehet a kettőt. Természetesen erre a problémára tettek már megoldási kísérleteket. Egyik legelterjedtebb stratégia ilyen helyzetekben ontológiákat létrehozni, melyek egyértelműen meghatározzák a sémákat és így segítsenek elkerülni a szemantikai konfliktusokat. Különböző kutatási eredmények összehasonlításakor bevett stratégia viszonyítási pontokat megállapítani és így azok révén összehasonlíthatóvá tenni az adatokat. Kihívást állít manapság még a szakma elé az adatkezelések során létrejövő elszigetelt adatcsoportok kezelése, ezek elkerülése. Nem véletlen, hogy ez egy külön szakma része, mely igen aktívan fejlődik és formálódik a mai napig.