Project Maestro – pierwsze kroki Tableau w obszarze ETL

lis 13, 2017

Tableau

ETL

Tableau Desktop

banery data science

By utrzymać pozycję lidera w segmencie Business Intelligence, Tableau nieustannie zaskakuje swoich użytkowników kolejnymi udogodnieniami i możliwościami. Podążając zgodnie z trendami firma zdecydowała się w tym roku m. in na przejęcie ClearGraph i tym samym uzupełnienie swojego flagowego produktu o możliwości jakie oferuje natural language processing. Wśród wyczekiwanych nowości jest również owiany tajemnicą Project Maestro, który ma szansę na wywołanie niemałego zamieszania w świecie narzędzi ETL.

W jakim kierunku zmierza Tableau?

Organizowana rokrocznie przez amerykańskiego producenta konferencja – Tableau Conference to wydarzenie wyczekiwane przez całą branżę. To właśnie w jego ramach lider segmentu Business Intelligence prezentuje swoje nowości, zapowiada kierunki rozwoju i informuje o rozwiązaniach, nad którymi obecnie pracuje. Sama konferencja to również kilkaset godzin inspirujących sesji, spotkań z ekspertami, przed- i pokonferencyjne warsztaty szkoleniowe, egzaminy certyfikacyjne okaz doskonała okazja na międzynarodowy networking z ekspertami, partnerami i potencjalnymi klientami.

Nie inaczej było i tym razem w Las Vegas. Trwająca cztery dni konferencja (9-12 październik) obfitowała w wiele inspirujących wydarzeń i spotkań. Z punktu widzenia branży szczególnie istotne były wystąpienia CEO Tableau – Adama Selipsky’ego oraz innych ekspertów, wywodzących się ze struktur organizacji, którzy podzielili się swoimi spostrzeżeniami na temat przyszłości analizy i wizualizacji danych. Niewątpliwie tym, na co w tym roku czekali wszyscy, były szczegóły tyczące się najnowszej wersji oprogramowania – Tableau 10.5, która zgodnie z planami ma pojawić się na rynku jeszcze w 2017 roku.

Więcej informacji na temat Tableau 10.5: https://astrafox.pl/tableau-10-5/

Podczas Tableau Conference 2017 odbyło się również kilka spotkań poświęconych tajemniczemu póki co projektowi – Project Maestro, czyli inicjatywie mającej na celu uzupełnienie Tableau w narzędzia ETL (ang. Extract, Transform oraz Load). Konferencja posłużyła producentowi do praktycznego przetestowania szykowanego rozwiązania. W ramach tzw. Tableau Labs zainteresowani mieli bowiem możliwość przetestowania Project Maestro i podzielenia się własnymi spostrzeżeniami z zespołem programistów odpowiedzialnych za projekt. Dzięki ich zaangażowaniu i przetestowaniu narzędzia na własnych, przygotowanych wcześniej danych, istnieje duże prawdopodobieństwo, że szykowane rozwiązanie Tableau w obszarze ETL będzie jeszcze bardziej inteligentne i wydajne. W realizacji tego celu z pewnością posłużyły również wielogodzinne rozmowy gości konferencji z zespołem programistów odpowiedzialnych za Project Maestro na temat najważniejszych wyzwań związanych z przygotowaniem, zarządzaniem i czyszczeniem danych.

Project Maestro, czyli…?

Projekt Maestro budzi wiele emocji, jednak z uwagi na fakt, iż wciąż znajduje się w fazie testów i kolejnych modyfikacji, niełatwo powiedzieć czegokolwiek na temat jego możliwości, wad czy zalet. Z udostępnionych dotychczas przez Tableau Software informacji wynika jednak, iż Project Maestro będzie niezwykle funkcjonalnym i intuicyjnym w obsłudze narzędziem ETL. Czym jest ETL? Skrót pochodzi od ang. Extract, Transform and Load i obejmuje czynności związane z przekształceniem danych, a więc nadawaniem im ustandaryzowanej postaci (spójnej ze strukturą danych przechowywanych w firmowych bazach czy hurtowniach danych). Pierwszym etapem procesu jest pozyskanie danych z zewnętrznych źródeł (extract), kolejnym ich czyszczenie, filtrowanie i ewentualne nadawanie określonych reguł biznesowych (transform), zaś finalnym zasilanie hurtowni bądź bazy danych, stanowiących swoiste repozytorium danych dla wykorzystywanych w organizacji aplikacji Business Intelligence (load).

Podstawowym celem wykorzystania narzędzi ETL jest właściwe przygotowanie danych do dalszej pracy – ich oczyszczenie i sprowadzenie do wspólnego mianownika, co pozwala na przeprowadzenie mniej lub bardziej zaawansowanych działań analitycznych. Należy jednak zauważyć, że odpowiednio zaprojektowane procesy ETL pozwalają na utrzymanie aktualności danych będących w posiadaniu organizacji. Automatyzacja procesów biznesowych polega w tym przypadku na cyklicznym, odbywającym się zgodnie z ustalonym harmonogramem odświeżaniu firmowego repozytorium danych o dane pochodzące z wielu różnych źródeł zewnętrznych. Dzięki takiemu działaniu organizacja zyskuje szansę nie tylko na duże oszczędności czasu i pieniędzy, ale przede wszystkim na zapewnia sobie możliwość podejmowanie decyzji biznesowych w oparciu o najaktualniejsze w danym momencie dane. Szybka identyfikacja problemów, szans, zagrożeń czy zmieniających się trendów, pozwala osobom decyzyjnym na przygotowanie odpowiedniego planu działania, a w konsekwencji ograniczenie możliwych strat czy też wypracowanie przewagi konkurencyjnej.

Dostępne na rynku narzędzia ETL podzielić można na dwie podstawowe grupy: narzędzia oparte na skryptach i procedurach SQL oraz profesjonalne narzędzia dostarczane przez dostawców zewnętrznych. Zaletą tych pierwszych jest niewątpliwie fakt, iż nie generują one dodatkowych kosztów i tym samym cechują się wysoką dostępnością. Z drugiej jednak strony są stosunkowo prymitywne, ich administrowanie jest mocno utrudnione, a zaprojektowane bardzo czasochłonne. Gotowe rozwiązania ETL, dostane obecnie na rynku (np. Informatica PowerCenter, SAS ETL Studio, Pentaho Data Integration, AbInitio, Alteryx czy chociażby Oracle Warehouse Builder), są nieporównywalnie szybsze w implementacji, łatwiejsze w monitorowaniu i analizowaniu, a ponadto wyposażone w wiele dodatkowych funkcjonalności czy predefiniowanych połączeń do najróżniejszych źródeł danych. Ich implementacja w organizacji wiąże się jednak z niemałym kosztem, co stanowi ich najpoważniejszą wadę.

Project Maestro, zgodnie z zapowiedziami producenta, zaoferuje trzy skoordynowane widoki, dające pełny obraz danych, umożliwiające bezpośrednią interakcję z przepływem, profilem danych oraz danymi na poziomie wiersza. Rozwiązanie takie, w połączeniu z zaawansowanym algorytmami i podglądem dokonywanych zmian we wszystkich trzech widokach, pozwala na istotne usprawnienie pracy, a także znaczne skrócenie czasu niezbędnego do przygotowania danych do dalszych analiz. Na wspomnienie zasługują wspomniane już wbudowane algorytmy, które automatycznie identyfikują błędy i wartości odstające, a także wykorzystują rozmytą analizę skupień (ang. fuzzy clustering) i tym samym wykonują za analityka wiele powtarzalnych czynności związanych chociażby z poprawą błędów pisowni. Niezaprzeczalną zaletą Project Maestro jest ponadto fakt, iż dzieli on język i strukturę zarządzania z innymi narzędziami z portfolio producenta – Tableau Desktop, Tableau Server oraz Tableau Online, dzięki czemu przełączenie się z etapu przygotowania danych na etap ich analizy jest niezwykle szybkie i bezproblemowe.

Obrany przez Tableau kierunek rozwoju rodzi naturalne pytanie o przyszłość rynku narzędzi ETL.O ile Project Maestro nie zagrozi pozycji liderów, oferujących zaawansowane technologicznie i niestety dość kosztowne rozwiązania, o tyle pozycja drobnych graczy, którzy oferują narzędzia przystosowane do wykonywania prostych czynności (czyszczenia, filtrowania, łączenie w sposób liniowy i nieparametryczny), może być zagrożona. Mowa przede wszystkim o narzędziach, które nie oferują żadnych dodatkowych funkcjonalności poza czyszczeniem i przygotowywaniem danych do analizy. Mało prawdopodobne jest bowiem to, by organizacje inwestowały w dodatkowe oprogramowanie, jeśli posiadane narzędzie do wizualizacji danych, będące ostatnim ogniwem procesu analitycznego, będzie w stanie niezbędnej obróbki danych dokonać we własnym zakresie. O tym, że Tableau nie zagrozi pozycji liderów, wspominał w jednym z wywiadów David Menninger z Ventana Research, powołując się na bliskie relacje łączące Tableau z Alteryx oraz na szereg dodatkowych funkcjonalności oferowanych przez liderów takich jak chociażby wspomniany Alteryx (np. w obszarze analizy predykcyjnej czy geoprzestrzennej).

Nie ma jednak pewności, czy rzeczywiście taki scenariusz się zrealizuje, gdyż Project Maestro wciąż nie został zaprezentowany światu. Nie udostępniono również jego wersji beta, więc trudno przewidzieć finalne możliwości jakie zaoferuje i na ile będą się one różnić od tego, co zaprezentowano w ramach tegorocznej Tableau Conference. Zdaniem tych, którzy mieli okazję na krótkie przetestowanie narzędzia podczas październikowej konferencji w Las Vegas, Project Maestro, przynajmniej w początkowej fazie swojego rozwoju, będzie prostą aplikacją ETL o ograniczonych funkcjonalnościach, dostosowanych do możliwości i potrzeb nietechnicznych odbiorców. Narzędziem, którego obsługa będzie równie prosta i intuicyjna jak obsługa Tableau Desktop.