Podejście cloud-first w budowaniu platformy danych

Dojrzałość organizacji polega nie tylko na tym, że korzysta z danych, ale w jaki sposób dąży do zwiększenia ich wiarygodności i wartości.

Ostatnie z tej serii wirtualne spotkanie w ramach dedykowanego Dyrektorom IT programu CLOUD SIG poświęcone było nowoczesnym sposobom gromadzenia i przetwarzania danych. Sposób funkcjonowania organizacji „data-driven” zmienia się w czasie - jej poziom dojrzałości rośnie wraz ze wzrostem wiarygodności i wartości wykorzystywanych danych. Od podstaw, czyli korzystania z danych poprzez wynikające z tego obserwacje i raporty, następnie dalsze analizy danych, wykorzystanie mechanizmów predykcyjnych, dochodzi się do istoty wykorzystania danych, czyli użycia ich do transformacji biznesowej i zarządzania operacyjnego.

- Te organizacje, które częścią transformacji uczyniły dane, rozwijają się szybciej stają się bardziej konkurencyjne na rynku – mówił Radosław Wojdowski z EY.

Po drodze nie brakuje wyzwań. Dotyczą one przede wszystkim radzenia sobie z wielką ilością danych, które pojawiają się w różnych formatach, trybach, miejscach. Problemem są też ich silosy, skutecznie utrudniające ujednolicanie informacji. Do tego dochodzi szybki rozwój technologii, a zwłaszcza implementowane innowacyjne rozwiązania, które wymuszają zmiany w zakresie przechowywania i przetwarzania danych. Sprawy nie ułatwia też postępująca entropia danych (ich duplikowanie i brak wiarygodności).

Odpowiedzią na to jest koncepcja platformy danych, która nie polega na wdrożeniu jednego konkretnego rozwiązania, ale na wykorzystaniu zróżnicowanego zestawu nowoczesnych narzędzi. Ma być ona kluczowa w przetwarzaniu danych (także w czasie rzeczywistym) i ich zaawansowanym wykorzystaniu. Wbudowane w nią zarządzanie metadanymi, jakością będzie zwiększać wiarygodność pozyskiwanych informacji.

Ważnym pytaniem jest to, gdzie umieścimy rozwiązanie do gromadzenia i przetwarzania danych. Klasycznym podejściem jest zbudowanie go równolegle do biznesu i systemów, którym trzeba zapewnić ciągłość działania. Obok działają zespoły od hurtowni danych, one gromadzą informację i się nią zajmują. To konsekwencja tego, że gdy wdraża się systemy, takie jak np. ERP, to o samych danych myśli się później.

- Gdy platformę danych umieścić się w centrum, z czym często mamy do czynienia w przypadku nowych systemów typu cloud native, to możemy wykorzystać mechanizmy zasilania danymi, który będą w czasie rzeczywistym, za pośrednictwem platformy dostarczać dane wszystkim zainteresowanym stronom – zauważył Radosław Wojdowski.

Jak do gromadzenia i przetwarzania danych podejść od strony architektonicznej? Jedną z tradycyjnych koncepcji jest użycie danych strukturalnych przetwarzanych w hurtowaniach danych - w celu raportowania i analizy. Inne polega na zbudowaniu on-prem repozytoriów typu data lakes do przetwarzania np. danych strumieniowych. Nowym podejściem jest właśnie stworzenie platformy danych łączącej zadania różnych rozwiązań.

Gdy będziemy myśleć o stworzeniu platformy danych, to chcielibyśmy, by wykorzystywała ona rozwiązania sprawdzone i dające się ponownie wykorzystywać. Żeby opierała się na skalowalnej infrastrukturze, umożliwiającej rozwój. Ułatwiała modelowanie, proaktywną analitykę oraz konfigurowanie i parametryzację przepływów. Często się wówczas okazuje, że wymogi, jakimi się kierujemy, prowadzą nas do chmury. Wśród pryncypiów, o których warto pamiętać myśląc o platformie danych są: podejście cloud-first, elastyczny, dostosowujący się potrzeb storage oraz narzędzia cloud-native.

- Jest jedno ale... Wybierając chmurę, chcielibyśmy uniknąć Cloud Vendor Lock-In, czyli związania się na dobre czy złe z jednym dostawcą. Chcielibyśmy mieć możliwość zbudowania planu wyjścia z danymi i przeniesienia się z jednej chmury do drugiej, nawet własnej. Dlatego preferujemy wykorzystywanie narzędzi typu open-source. Wielu klientów ma swoje systemy w kilku chmurach, a takie podejście pozwala nam uprościć ewentualne procesy migracji pomiędzy chmurami – twierdził Radosław Wojdowski

Na architekturę rozwiązania do przetwarzania i przechowywania danych - czy to w chmurze czy on-prem - składają się kolejne warstwy, szczegółowo omówione podczas warsztatu. Od źródeł danych, których liczba szybko rośnie (np.. za sprawą wdrożeń IoT) i sposobów zasilania danymi, przez warstwę przetwarzania danych (zarówno w trybie wsadowym i zdarzeniowo w czasie rzeczywistym), warstwę przechowywania danych (operacyjnych, analitycznych i zarchiwizowanych) po warstwę konsumpcji i prezentacji danych. W tej ostatniej następuje wizualizacja i raportowanie danych, a także ich wykorzystanie przez systemy zewnętrzne. Coraz częściej dane te są dostarczane i uzupełniane przez modele uczenia maszynowego.

Prezentowane praktyczne przykłady budowania tej architektury dotyczyły wdrożeń z sektora ubezpieczeniowego, podejścia cloud-first i najczęściej wybieranych platform chmurowych. Wdrożenie w AWS obejmowało wykorzystanie wielu elementów open-source, takich jak np. Spark i Kafka w warstwie zasilania danymi czy Delta Lake w warstwie przechowywania i procesowania. Drugim przykładem była podobna architektura zbudowana w oparciu o Microsoft Azure, na przykładzie której zostały omówione kolejne etapy wrażania, gdzie kolejne bardziej zaawansowane wersje dawały większe możliwości wykorzystania danych.

Materiał powstał na podstawie wirtualnego modułu tematycznego w ramach programu Cloud Special Interest Group, którego wykładowcą był: Radosław Wojdowski z firmy EY.

Po więcej informacji o programie zapraszamy na stronę www.cionet.com/pl/cloudsig

Podejście cloud-first w budowaniu platformy danych

Tutaj daj znać, jeśli chcesz otrzymywać od nas informacje o nowych inicjatywach

Digital Excellence Group

Skontaktuj się z nami