Współczesne przetwarzanie danych opiera się w głównej mierze na automatycznych procesach projektowanych przez specjalistów. Rozwój tzw. Big Data skupiającego się na dużych zbiorach rekordów, pogłębił jeszcze bardziej potrzebę posiadania wyspecjalizowanych narzędzi, które będą jednocześnie nie tylko potężne ale również wszechstronne. Dlatego preferowane są zazwyczaj dwa podejścia:
- używanie bezpośrednie języków programowania/analizy danych (z królującymi językami typu Python i R)
- używanie gotowych produktów, mających w domyśle zaoszczędzić czas nauki oraz czas budowy modeli, których przedstawicielem jest np: Alteryx
Do głównych zalet systemu Alteryx należą:
- wszechstronność – kilkadziesiąt narzędzi do analiz predykcyjnych, statystycznych i przestrzennych, a także duża liczba modułów służących do preprocessingu na każdym etapie
- możliwość przerabiania i łączenia wielu źródeł danych jednocześnie
- prostota i przejrzystość – współpracujemy z programem po przez predefiniowane bloki, które możemy zarówno specjalizować w wygodnych interfejsach graficznych jak i łączyć w kaskady tworząc złożone przepływy danych
- istnienie możliwości podglądu przetwarzanych danych po każdym z etapów i szybka weryfikacja wyników
- współpraca z narzędziami warstwy prezentacji danych oraz raportowania np: Tableau
Program Alteryx w obecnej formie istnieje od 2010 r. i jest jednym z najczęściej wybieranych rozwiązań z zakresu Data Science oraz Business Intelligence.
Opis zadania i danych
W tym miejscu pokażemy jak w szybki i przejrzysty sposób zbudować swój pierwszy przepływ danych przy użyciu programu Alteryx. Naszym zadaniem jest zaprojektowanie systemu który w każdej ze specyficznych grup wyliczy podstawowe parametry z dostępnych danych:
- wartość średnią
- wartość minimalną oraz maksymalną wraz z odpowiadającymi im polami identyfikującymi
Chcemy również otrzymać wszystkie wyniki w jednej, spójnej postaci tabelarycznej.
Jako przykładowy zbiór danych został wybrany zestaw o zużyciu energii przez budynki rządowe w Nowym Jorku. Dane możemy pobrać na stronie kaggle :
https://www.kaggle.com/residentmario/nyc-building-energy-usage
Specyfikując zadanie względem wybranego zbioru danych otrzymujemy:
- naszymi specyficznymi grupami będą dzielnice (atrybut Borough)
- obliczeniom poddajemy zużycie energii (atrybut FY15 Energy Usage (MMBTU) [Utility energy, excluding Fuel Oil])
- polami identyfikującymi dla wartości minimalnej i maksymalnej w każdej grupie będą nazwy budynków (atrybut Building Name)
Rozwiązanie zadania w systemie Alteryx
1. Na wstępie warto odnieść się do jednej z wymienionych zalet systemu Alteryx – dane po każdym z etapów można podglądać używając komponentu Browse z pakietu In/Out, dzięki czemu możemy w łatwy sposób weryfikować ewentualne błędy. Wystarczy podpiąć się wspomnianym narzędziem pod wyjście interesującego nas procesu.
2. Po otworzeniu programu Alteryx z górnego panelu o nazwie >In/Out wybieramy moduł Input Data i przeciągamy go do Workflow :