lis 20, 2024
Jak zautomatyzować raportowanie ESG
Automatyzacja raportowania ESG to klucz do efektywnego i zgodnego z regulacjami zarządzania danymi środowiskowymi, społecznymi i ładu korporacyjnego. Dowiedz się,...
paź 30, 2017
Współczesne przetwarzanie danych opiera się w głównej mierze na automatycznych procesach projektowanych przez specjalistów. Rozwój tzw. Big Data skupiającego się na dużych zbiorach rekordów, pogłębił jeszcze bardziej potrzebę posiadania wyspecjalizowanych narzędzi, które będą jednocześnie nie tylko potężne ale również wszechstronne. Dlatego preferowane są zazwyczaj dwa podejścia:
Do głównych zalet systemu Alteryx należą:
Program Alteryx w obecnej formie istnieje od 2010 r. i jest jednym z najczęściej wybieranych rozwiązań z zakresu Data Science oraz Business Intelligence.
Opis zadania i danych
W tym miejscu pokażemy jak w szybki i przejrzysty sposób zbudować swój pierwszy przepływ danych przy użyciu programu Alteryx. Naszym zadaniem jest zaprojektowanie systemu który w każdej ze specyficznych grup wyliczy podstawowe parametry z dostępnych danych:
Chcemy również otrzymać wszystkie wyniki w jednej, spójnej postaci tabelarycznej.
Jako przykładowy zbiór danych został wybrany zestaw o zużyciu energii przez budynki rządowe w Nowym Jorku. Dane możemy pobrać na stronie kaggle :
https://www.kaggle.com/residentmario/nyc-building-energy-usage
Specyfikując zadanie względem wybranego zbioru danych otrzymujemy:
1. Na wstępie warto odnieść się do jednej z wymienionych zalet systemu Alteryx – dane po każdym z etapów można podglądać używając komponentu Browse z pakietu In/Out, dzięki czemu możemy w łatwy sposób weryfikować ewentualne błędy. Wystarczy podpiąć się wspomnianym narzędziem pod wyjście interesującego nas procesu.
2. Po otworzeniu programu Alteryx z górnego panelu o nazwie >In/Out wybieramy moduł Input Data i przeciągamy go do Workflow :
3. Widzimy że pojawiła nam się informacja o błędzie – musimy teraz wybrać plik z danymi z którego chcemy skorzystać. W naszym przypadku będzie to DCAS_Managed_Building_Energy_Usage.csv
Klikamy lewym przyciskiem myszy na wybranym module i widzimy że otworzyło się nam po lewej stronie okno ze szczegółami. Wybieramy z niego przycisk rozwijany :
Następnie klikamy File -> DCAS_Managed_Building_Energy_Usage.csv (należy uprzednio znaleźć plik w odpowiednim folderze)
4. Z przybornika Preparation wybieramy narzędzie Select a następnie łączymy z Input Data. Po kliknięciu na ikonę podłączonego modułu wybieramy potrzebne nam pola Building Name, Borough oraz FY15 Energy Usage (…). Ostatni wymieniony parametr zmieniamy z typu V_String na Double (posłuży do obliczeń) oraz na jakąś przyjemniejszą nazwę np : Energy Usage w polu rename.
Z pakietu Transform wybieramy trzy obiekty Summarize i łączymy ze wstawionym modułem Select. Następnie przystępujemy do specjalizacji poszczególnych modułów po przez kliknięcie na nich i zmiany w lewym oknie:
a) Wartość maksymalna (Max) – Wybieramy Borough, a następnie klikamy Add -> GroupBy (zapewniamy w ten sposób grupowanie po dzielnicach). Musimy jeszcze znaleźć maksymalną wartość zużycia energii w każdej grupie. W tym celu wybieramy parametr Energy Usage oraz używamy Add -> Max.
b) Wartość średnia (Avg) – analogicznie jak wyżej grupujemy po Borough i znajdujemy średnie zużycie energii w każdej grupie przez wybór Energy Usage a następnie Add -> Numeric -> Avg
c) Wartość minimalna (Min) – procedura analogiczna jak w a)
5. Musimy teraz znaleźć nazwy obiektów odpowiadające maksymalnemu i minimalnemu zużyciu energii w każdej grupie. W tym celu możemy zastosować element z Join z pakietu Join, który pozwoli przy pomocy łączenia typu inner join znaleźć odpowiednie rekordy (mamy pewność że nie będzie wartości pustych, ponad to operacje min/max nie powodują zmian wartości, więc możemy porównywać liczby zmiennoprzecinkowe):
6. Musimy w tej chwili zająć się zmianą nazw budynków na bardziej adekwatne przed kolejnymi złączeniami. W tym celu pobieramy z pakietu Preparation dwa obiekty Select i łączymy je z wcześniejszymi obiektami typu Join (jako wyjście wybieramy inner join oznaczone przez J):
W lewej części okna zmieniamy w polu Rename w odpowiednich obiektach Select nazwy Building Name na Building with max energy usage oraz Building Name na Building with min energy usage.
7. Mamy obecnie trzy zbiory, musimy wykonać więc jeszcze dwa złączenia.
a) Niech pierwszym będzie złączenie wartości maksymalnych ze średnimi. W tym celu bierzemy nowy element Join i podpinamy się jak niżej:
W wybranym elemencie specyfikujemy że chcemy złączyć oba zbiory po atrybucie Borough. Następnie wybieramy kolumny Borough, Max_Energy usage, Building with max energy usage oraz Avg_Energy usage.
b) Ostatnim złączeniem jest unifikacja powyższej relacji z wartościami minimalnymi. Wybieramy nowy Join i łączymy jak na rysunku:
Wybieramy w lewym oknie złączenie w obu przypadkach po Borough a następnie zaznaczamy pola Min_Energy usage, Max_Energy usage, Building with min energy usage, Building with max energy usage, Borough, Avg_Energy usage :
Możemy także w celu zapewnienia odpowiedniej kolejności atrybutów, wybrać każdy z nich i strzałkami przesuwać w górę lub w dół (koło panelu Options)
8. Ostatnim elementem procesu jest decyzja o losie przygotowanych danych. W naszym przypadku chcemy je zapisać do zewnętrznego pliku dajmy na to .csv. W tym celu z przybornika In/Out wybieramy obiekt Output Data i łączymy do naszego ostatniego elementu :
W lewym oknie wybieramy nazwę pliku (np: Output) oraz format zapisu Comma-Delimited Text Files :
Po uruchomieniu programu zieloną strzałką w górnym panelu i otworzeniu utworzonego pliku otrzymujemy :
Bibliografia:
https://www.youtube.com/user/alteryx
https://community.alteryx.com/?_ga=2.12983863.1474708735.1508949154-1124299137.1508949154
lis 20, 2024
Automatyzacja raportowania ESG to klucz do efektywnego i zgodnego z regulacjami zarządzania danymi środowiskowymi, społecznymi i ładu korporacyjnego. Dowiedz się,...
lis 14, 2024
Kalkulacje Level of Details (LOD) w Tableau to zaawansowane narzędzie, które pozwala na kontrolowanie poziomu szczegółowości analizy danych. Dzięki kalkulacjom...
paź 29, 2024
Wersje Power BI Pro i Power BI Premium różnią się funkcjami, zasobami i modelem licencjonowania, co ma kluczowe znaczenie przy...