Jak zbudować portfolio badacza danych [artykuł]

sty 5, 2018

Data Science

Data Driven

Branża Data Science, podobnie jak branża artystyczna, bardzo często wymaga od kandydatów zainteresowanych pracą uprzedniego zaprezentowania portfolio. To właśnie na jego podstawie oceniane są kompetencje kandydata i jego predyspozycje do objęcia wymagającej roli badacza danych. Co powinno być zawarte w portfolio badacza danych? Jak je stworzyć i w jakiej formie, by przykuć zainteresowanie rekruterów i zwiększyć swoje szanse na znalezienie wymarzonej pracy?

Czym jest portfolio badacza danych i jaką pełni rolę?

Od badaczy danych rynek wymaga naprawdę niemało. Data Scientist, niczym człowiek renesansu, musi bowiem łączyć w sobie wiele kompetencji – zarówno tych twardych, typowo technicznych jak i całej palety kompetencji miękkich, dzięki którym może się doskonale komunikować i rozumieć potrzeby zgłaszane przez biznes. Biorąc pod uwagę powyższe, proces rekrutacyjny dla specjalistów zajmujących się zaawansowanymi analizami danych różni się nieznacznie od procesów rekrutacyjnych na nieco bardziej standardowe stanowiska. Ubieganie się o stanowisko badacza danych wymaga bowiem od kandydata ponadprzeciętnego zaangażowania i odpowiedniego przygotowania. Obowiązek ten ciąży również na rekruterze, który bez odpowiedniej wiedzy i zrozumienia branży nie będzie w stanie podczas stosunkowo krótkiej rozmowy lub na bazie dokumentów aplikacyjnych zweryfikować kompetencji kandydata i na tej podstawie zadecydować o jego dalszych losach. Co stanowi główną przeszkodę? Niewątpliwie o klasie badacza danych świadczą jego dotychczasowe osiągnięcia i zrealizowane projekty. Biegłość w zakresie programowania, znajomość narzędzi wizualizacji danych i zagadnień statystycznych, choć bardzo pożądane, są niewiele warte, jeśli problemem będzie ich właściwe wykorzystanie w realiach biznesowych. Brak zrozumienia biznesu oraz słabo rozwinięte umiejętności komunikacyjne stanowią zwykle najtrudniejsze do przeskoczenia przeszkody – i to zarówno dla badaczy danych jak i menadżerów zespołów analitycznych.

Jak zatem weryfikowane są kompetencje badaczy danych? Podobnie jak w przypadku branży artystycznej standardem jest dziś portfolio stanowiące suplement do CV. Czym jest portfolio i co powinno się w nim znaleźć? Portfolio to nic innego teczka, choć w przypadku badaczy danych bardziej jej wirtualny odpowiednik, zawierająca przykłady zrealizowanych prac. Rodzaj wizytówki, która potwierdza kwalifikacje i zawodowe sukcesy kandydata. Podobnie jak CV, tak i portfolio powinno być dopracowane, spójne i profesjonalne. To właśnie na bazie tych dwóch dokumentów rekruter, a częściej hiring manager (ze względu na posiadane kompetencje i umiejętności), decyduje o zaproszeniu kandydata na ewentualną rozmowę rekrutacyjną. Pobieżna analiza dokumentów aplikacyjnych zajmuje wprawnemu rekruterowi zwykle kilka minut (najczęściej zaledwie 3 minuty), stąd też tak istotne jest właściwe ich przygotowanie i zawarcie w nich najważniejszych informacji.

Podstawą tworzenia dobrego portfolia, które zwiększy szanse na znalezienie zatrudnienie w obszarze Data Science, jest niewątpliwie znajomość wymagań zgłaszanych przez rynek czy ewentualnie konkretnego pracodawcę – o kompetencjach niezbędnych każdemu badaczowi danych pisaliśmy w jednym z wcześniejszych postów (link). Do podstawowych umiejętności, jakich rynek oczekuje od badaczy danych, a tym samym podstawowych umiejętności, które powinny być wyraźnie podkreślone w portfolio, zalicza się:

– wysoko rozwinięte zdolności komunikacyjne;
– umiejętność pracy zarówno samodzielnie jak i w grupie;
– zdolność do podejmowania inicjatywy;
– umiejętności techniczne;
– zdolność do wyciągania wniosków na podstawie danych.

Biorąc pod uwagę powyższe, konieczne przy tworzeniu portfolio są rozsądek, planowanie oraz wnikliwa selekcja zrealizowanych projektów. Znaleźć w nim powinny się wyłącznie te projekty, które potwierdzają posiadane kompetencje techniczne, umiejętność czytania danych z uwzględnieniem kontekstu biznesowego oraz prezentowania wyników przeprowadzonych działań analitycznych w jasny i przejrzysty sposób. Umiejętność opowiadania historii z danymi w tle to wbrew pozorom i panującemu przekonaniu kluczowa kompetencja badacza danych. Bez niej nie byłby on w stanie zaprezentować wyników swojej pracy i przekonać przedstawicieli biznesu do wyciągniętych wniosków. Odpowiednio prowadzona narracja, tycząca się dokonanych analiz i badań, powinna obejmować kontekst, zaobserwowane zjawisko (np. spadek przychodów firmy), przyczyny jego wystąpienia, a także rekomendowane działania, które pozwolą zniwelować skutki bądź zabezpieczyć się przed ich ponownym wystąpieniem. Z punktu widzenia biznesu wnioski wyciągnięte z działań analitycznych stanowią kluczową wartość dodaną płynącą z zatrudnienia w organizacji badacza danych, stąd też nikogo nie powinien dziwić tak duży nacisk na zdolności komunikacyjne oraz praktykę biznesową.

W analogiczny sposób jak konkretny problem biznesowy potraktowane powinno być portfolio badacza danych. Musi opowiadać historię. Historię, którą „kupi” hiring manager i będzie w stanie na jej podstawie ocenić posiadane przez kandydata kompetencje. Odpowiednie zaprezentowanie problemu biznesowego, kontekstu oraz przeprowadzonych podczas analizy kroków, potwierdzi posiadane zdolności komunikacyjne. Wyciągnięte wnioski oraz rekomendowane działania stanowić będą z kolei potwierdzenie wiedzy i doświadczenia biznesowego analityka, jego umiejętności technicznych oraz kompetencji w zakresie wizualizacji danych.

Jak i gdzie zrealizować pierwsze projekty?

Absolwenci wiodących uniwersytetów, zwykle tych zagranicznych, gdyż polski rynek Data Science znajduje się w stosunkowo wczesnym stadium rozwoju przez co oferta edukacyjna jest wciąż mocno ograniczona, nie mają większych problemów ze znalezieniem pierwszego zatrudnienia. Dyplom szanowanej uczelni otwiera wiele drzwi, gdyż stanowi dla większości pracodawców wystarczające potwierdzenie posiadanych przez kandydata kompetencji i umiejętności. Brak takiego dokumentu nie przekreśla jednak szans na znalezienie wymarzonej pracy w obszarze analizy danych. Wiąże się jedynie z koniecznością udowodnienia przyszłemu pracodawcy posiadanych kompetencji w inny sposób. Niewątpliwie jednym z najskuteczniejszych będzie przygotowanie atrakcyjnego portfolio. Zadanie na pozór proste, jednak rzeczywistość pokazuje, że wielu analitykom przysparza sporo problemów, o czym świadczyć mogą rozliczne dyskusje i pytania publikowane na różnego rodzaju forach dyskusyjnych czy tematycznych grupach w serwisach społecznościowych. Jak zrealizować pierwszy projekt analityczny? Gdzie szukać profesjonalnych wskazówek? W jakiej formie przygotować portfolio? To tylko niektóre z wątpliwości towarzyszących aspirującym badaczom danych.

Realizacja własnego projektu analitycznego powinna być poprzedzona gruntownym planowaniem. Właściwy wybór problemu biznesowego to niewątpliwie klucz do sukcesu. Musi być on z jednej strony wymagający, by w jak największym stopniu podkreślać kompetencje i umiejętności analityka, a z drugiej ciekawy i intrygujący. Strategia taka pozwoli przykuć uwagę rekrutera i zmusić go do bliższego zapoznania się z finalnymi wnioskami czy rekomendowanymi w podsumowaniu projektu działaniami. Pomysłu na własny projekt, a także danych niezbędnych do jego realizacji, szukać można na wiele sposobów i w różnych miejscach, jednak szczególnie pomocna może okazać się platforma stworzona z myślą o analitykach danych – Kaggle.

Promujący się hasłem „The Home of Data Science & Machine Learning” portal to doskonałe miejsce w sieci dla wszystkich analityków chcących się uczyć, poszerzać horyzonty w obszarze Data Science, dyskutować i inspirować się nieszablonowymi pomysłami pasjonatów danych z całego świata. Kaggle to również ogromna baza konkursów dla analityków, w których nagrodami są pokaźne kwoty (przekraczające nawet 1 mln dolarów!). Ich organizatorami są zarówno niewielkie organizacje jak i instytucje państwowe czy duże koncerny, poszukujący rozwiązań dla konkretnych problemów biznesowych, z którymi w codziennej pracy może spotkać się każdy badacz danych. Pośród aktywnych obecnie konkursów znaleźć można między innymi konkursy na stworzenie algorytmu służącego wycenie nieruchomości, algorytmu sugerującego optymalną cenę produktów sprzedawanych online czy też algorytmów zwiększających skuteczność rozpoznawania wielu schorzeń, w tym raka płuc czy chorób serca. Analizując tematy konkursów opublikowanych w Kaggle i studiując dokładnie ich opisy można nie tylko znaleźć pomysł na własny projekt, ale również lepiej zrozumieć potrzeby i oczekiwania przedstawicieli biznesu. Warto pamiętać, że umiejętność dostrzegania pośród danych biznesowej wartości to kluczowa i niezwykle ceniona przez rynek kompetencja badacza danych.

Dostępne w serwisie konkursy, nawet jeśli nie są interesujące dla aspirującego badacza danych, mogą okazać się bardzo wartościowe z innego powodu. Oferują bowiem dostęp do danych, które mogą stanowić wartościową podstawę do realizacji własnych projektów. Naturalnie nie jest to jedyny sposób na dotarcie do ciekawych danych analitycznych. W dedykowanej zakładce „Datasets” dostępnych jest na dzień dzisiejszy kilka tysięcy najróżniejszych zestawów danych do bezpłatnego wykorzystania przy realizacji własnych projektów. Znaleźć pośród nich można chociażby dane na temat światowego terroryzmu, przestępczości, zanieczyszczenia środowiska, historycznych danych dotyczących kursów walut, cen akcji itd. Stanowią one prawdziwą kopalnię informacji i wręcz niekończące się źródło pomysłów na własne projekty.

Jak jeszcze wykorzystać Kaggle w kontekście budowania portfolio? Udział w konkursach organizowanych w serwisie wiąże się z uzyskiwaniem ocen i zajmowaniem określonych pozycji w rankingu generalnym. Odpowiednia ilość zrealizowanych projektów i uzyskanych medali pozwala na pięcie się po szczeblach i uzyskiwanie kolejnych poziomów zaawansowania (Novices, Contributors, Experts, Masters czy Grandmasters). Mocny profil w Kaggle bardzo często stanowi wystarczające dla pracodawców potwierdzenie posiadanych kompetencji. Warto zatem angażować się w organizowane w serwisie konkursy i aktywnie uczestniczyć w prowadzonych dyskusjach.

Naturalnie Kaggle to nie jedyny serwis, w którym Data Scientist może stworzyć własne portfolio i być dzięki niemu dostrzeżonym przez hiring mnagerów. Alternatywę stanowić może doskonale znany programistom serwis GitHub. By jednak przejść do tworzenia w nim własnego portfolio, konieczne jest posiadanie przynajmniej kilku gotowych projektów, którymi chcielibyśmy się pochwalić. Ciekawe i godne uwagi rozwiązanie, jakie równie często jest wykorzystywane do przeprowadzania statystycznych analiz danych i prezentowania ich wyników stanowi Jupyter Notebook (Project Jupyter). To nic innego jak przeglądarkowe środowisko służące do pisania skryptów we wszystkich językach programowania, w tym R, Python, Javascript czy chociażby Ruby. Autorskie projekty analityczne można również prezentować na własnym blogu. Wybór tej formy prezentacyjnej pozostawia autorowi dużą swobodę w zakresie kreacji oraz samej zawartości. Portfolio w takiej formie może bowiem obejmować nie tylko zrealizowane projekty, ale również eksperckie artykuły dotyczące Big Data, opinie i komentarze autora dotyczące rynkowych trendów i narzędzi analitycznych, wskazówki i profesjonalne rady dla analityków danych itd. Bogaty w treści i materiały blog daje szansę potencjalnym pracodawcom na znacznie lepsze poznanie jego autora oraz dokonanie jego pełniejszej oceny pod kątem prowadzonych rekrutacji.

Jakich błędów unikać?

Stworzenie dobrego portfolio niewątpliwie wymaga umiejętności spojrzenia na własne dokonania z perspektywy przyszłego pracodawcy czy rekrutera. Postawienie się w jego pozycji pozwala na realną ocenę własnego profilu zawodowego i posiadanych kompetencji. By jednak realizacja takiego scenariusza była możliwa, konieczne jest umieszczenie w portfolio starannie wyselekcjonowanych projektów – najlepiej kilku projektów średniej wielkości. Te zbyt duże i złożone, a także te przesadnie małe, nie sprawdzają się zwykle najlepiej, gdyż nie pozwalają efektywnie zaprezentować wszystkich posiadanych umiejętności. Wybór projektów jest kluczowy również z innego względu. Różne projekty prezentują bowiem różne kompetencje. Chcąc specjalizować się w konkretnej dziedzinie lub starając się o swoją pierwszą pracę w obszarze Data Science, warto skoncentrować się na projektach potwierdzających wyłącznie kluczowe kompetencje – np. umiejętność czyszczenia danych, ich wizualizowania czy ewentualnie znajomość Machine Learning. Pobieżna znajomość wielu zagadnień i narzędzi lub co gorsza naginanie faktów to działania, które bardzo szybko zostaną zweryfikowane, stąd należy unikać takich działań. Szczególnie w początkowej fazie kariery rozsądniej jest skupić się na jak najlepszym opanowaniu kluczowych kompetencji i właściwym ich zaprezentowaniu w portfolio. Wraz z rosnącym doświadczeniem zawodowym oraz zdobywaniem kolejnych umiejętności, powinno być ono modyfikowane i uzupełniane o projekty, które w pełniejszy sposób opisują poziom kompetencji kandydata. I właśnie w takim momencie rozwoju zawodowego, po zgromadzeniu pierwszych doświadczeń zawodowych, można rozważyć zaprezentowanie w portfolio dużych projektów typu end to end, które potwierdzają wysoki poziom zaawansowania kandydata i biegłość w zastosowaniu najróżniejszych technik i narzędzi analitycznych czy wizualizacyjnych.