Szanowni Państwo, Droga Publiczności!
Mam niecodzienną okazję rozpocząć wpis na blogu Astrafox słowami konferansjera, ponieważ temat dzisiejszego artykułu jest bardzo silnie związany z imprezą Party With Data, którą organizowaliśmy 21 czerwca w restauracji The Place w Warsaw Spire. Była to kolejna edycja tej imprezy, podczas której odbył się finał konkursu Data Champion Competition, który w tym roku zorganizowaliśmy przy współpracy z firmą LifeTube.
Marka ta jest największą jednonarodową siecią YouTube w Europie, która zrzesza najpopularniejszych youtuberów w kraju. Jest to również bardzo szybko rozwijająca się firma, która przekonuje coraz więcej marek o wartości dodanej wynikającej z współpracy z influencerami, ale przede wszystkim, jest to zespół wspaniałych ludzi, którzy o YouTube wiedzą wszystko.
Dlatego też zdecydowaliśmy się, by zaprosić LifeTube do współpracy przy organizacji konkursu. Poprosiliśmy o udostępnienie części danych z kanałów, którymi się na co dzień opiekują. Na odpowiedź nie musieliśmy długo czekać, ponieważ okazało się, że analiza danych z YouTube stanowi pewne wyzwanie, które przy wykorzystaniu technologii proponowanych przez Astrafox może odbywać się dużo szybciej i sprawniej.
Ostatnim etapem współpracy, którego mieliście Państwo okazję być świadkami podczas finału Data Champion Competition, była wizualizacja w Tableau. Dzisiaj natomiast zajrzymy za kulisy, czyli tam, gdzie pierwsze skrzypce grał Alteryx. Szybko się bowiem okazało, że stworzenie jednego, prostego data set’u będzie wymagało nieco pracy, ponieważ LifeTube współpracuje z ponad 400 kanałami, a dane z każdego z nich YouTube udostępnia w postaci oddzielnego pliku *.xlsx. Tabele zawierają bardzo dużo zmiennych, a wśród nich te, które chcemy i możemy udostępnić. Dataset należy uzupełnić o dodatkowe dane, istotne w analizie z punktu widzenia LifeTube. Pikanterii całej sytuacji dodaje fakt, że LifeTube bazuje na innych niż YouTube kategoriach kanałów, które jak nietrudno się domyślić, stanowiły oddzielne pliki.
W tym miejscu pojawia się nasz główny bohater – Alteryx.
Wykorzystanie Alteryx do stworzenia tego prostego modelu było dla mnie oczywiste. O ile w codziennej pracy budujemy dużo bardziej skomplikowane projekty, to lider rankingu Data Science wg Garnera pomógł przede wszystkim w zapanowaniu nad danymi z wielu źródeł jak i w tym, że po stworzeniu modelu mogliśmy dalej dyskutować nad finalną zawartością udostępnianego źródła. Ewentualne zmiany wiązały się z kliknięciem w odpowiednie check-boxy w narzędziu ‘Select’, a co za tym idzie, mógł je wprowadzać każdy, a nie tylko osoba, która cały proces okodowała i zna jego strukturę.
Ponieważ budowę całego Workflow omówiłem podczas webinaru, który zamieszczamy na dole artykułu, to tutaj skupię się na poszczególnych narzędziach, które zostały użyte w tym projekcie i pokażę jak w prosty sposób je wykorzystać.