Absolwenci wiodących uniwersytetów, zwykle tych zagranicznych, gdyż polski rynek Data Science znajduje się w stosunkowo wczesnym stadium rozwoju przez co oferta edukacyjna jest wciąż mocno ograniczona, nie mają większych problemów ze znalezieniem pierwszego zatrudnienia. Dyplom szanowanej uczelni otwiera wiele drzwi, gdyż stanowi dla większości pracodawców wystarczające potwierdzenie posiadanych przez kandydata kompetencji i umiejętności. Brak takiego dokumentu nie przekreśla jednak szans na znalezienie wymarzonej pracy w obszarze analizy danych. Wiąże się jedynie z koniecznością udowodnienia przyszłemu pracodawcy posiadanych kompetencji w inny sposób. Niewątpliwie jednym z najskuteczniejszych będzie przygotowanie atrakcyjnego portfolio. Zadanie na pozór proste, jednak rzeczywistość pokazuje, że wielu analitykom przysparza sporo problemów, o czym świadczyć mogą rozliczne dyskusje i pytania publikowane na różnego rodzaju forach dyskusyjnych czy tematycznych grupach w serwisach społecznościowych. Jak zrealizować pierwszy projekt analityczny? Gdzie szukać profesjonalnych wskazówek? W jakiej formie przygotować portfolio? To tylko niektóre z wątpliwości towarzyszących aspirującym badaczom danych.
Realizacja własnego projektu analitycznego powinna być poprzedzona gruntownym planowaniem. Właściwy wybór problemu biznesowego to niewątpliwie klucz do sukcesu. Musi być on z jednej strony wymagający, by w jak największym stopniu podkreślać kompetencje i umiejętności analityka, a z drugiej ciekawy i intrygujący. Strategia taka pozwoli przykuć uwagę rekrutera i zmusić go do bliższego zapoznania się z finalnymi wnioskami czy rekomendowanymi w podsumowaniu projektu działaniami. Pomysłu na własny projekt, a także danych niezbędnych do jego realizacji, szukać można na wiele sposobów i w różnych miejscach, jednak szczególnie pomocna może okazać się platforma stworzona z myślą o analitykach danych – Kaggle.
Promujący się hasłem „The Home of Data Science & Machine Learning” portal to doskonałe miejsce w sieci dla wszystkich analityków chcących się uczyć, poszerzać horyzonty w obszarze Data Science, dyskutować i inspirować się nieszablonowymi pomysłami pasjonatów danych z całego świata. Kaggle to również ogromna baza konkursów dla analityków, w których nagrodami są pokaźne kwoty (przekraczające nawet 1 mln dolarów!). Ich organizatorami są zarówno niewielkie organizacje jak i instytucje państwowe czy duże koncerny, poszukujący rozwiązań dla konkretnych problemów biznesowych, z którymi w codziennej pracy może spotkać się każdy badacz danych. Pośród aktywnych obecnie konkursów znaleźć można między innymi konkursy na stworzenie algorytmu służącego wycenie nieruchomości, algorytmu sugerującego optymalną cenę produktów sprzedawanych online czy też algorytmów zwiększających skuteczność rozpoznawania wielu schorzeń, w tym raka płuc czy chorób serca. Analizując tematy konkursów opublikowanych w Kaggle i studiując dokładnie ich opisy można nie tylko znaleźć pomysł na własny projekt, ale również lepiej zrozumieć potrzeby i oczekiwania przedstawicieli biznesu. Warto pamiętać, że umiejętność dostrzegania pośród danych biznesowej wartości to kluczowa i niezwykle ceniona przez rynek kompetencja badacza danych.
Dostępne w serwisie konkursy, nawet jeśli nie są interesujące dla aspirującego badacza danych, mogą okazać się bardzo wartościowe z innego powodu. Oferują bowiem dostęp do danych, które mogą stanowić wartościową podstawę do realizacji własnych projektów. Naturalnie nie jest to jedyny sposób na dotarcie do ciekawych danych analitycznych. W dedykowanej zakładce „Datasets” dostępnych jest na dzień dzisiejszy kilka tysięcy najróżniejszych zestawów danych do bezpłatnego wykorzystania przy realizacji własnych projektów. Znaleźć pośród nich można chociażby dane na temat światowego terroryzmu, przestępczości, zanieczyszczenia środowiska, historycznych danych dotyczących kursów walut, cen akcji itd. Stanowią one prawdziwą kopalnię informacji i wręcz niekończące się źródło pomysłów na własne projekty.
Jak jeszcze wykorzystać Kaggle w kontekście budowania portfolio? Udział w konkursach organizowanych w serwisie wiąże się z uzyskiwaniem ocen i zajmowaniem określonych pozycji w rankingu generalnym. Odpowiednia ilość zrealizowanych projektów i uzyskanych medali pozwala na pięcie się po szczeblach i uzyskiwanie kolejnych poziomów zaawansowania (Novices, Contributors, Experts, Masters czy Grandmasters). Mocny profil w Kaggle bardzo często stanowi wystarczające dla pracodawców potwierdzenie posiadanych kompetencji. Warto zatem angażować się w organizowane w serwisie konkursy i aktywnie uczestniczyć w prowadzonych dyskusjach.
Naturalnie Kaggle to nie jedyny serwis, w którym Data Scientist może stworzyć własne portfolio i być dzięki niemu dostrzeżonym przez hiring mnagerów. Alternatywę stanowić może doskonale znany programistom serwis GitHub. By jednak przejść do tworzenia w nim własnego portfolio, konieczne jest posiadanie przynajmniej kilku gotowych projektów, którymi chcielibyśmy się pochwalić. Ciekawe i godne uwagi rozwiązanie, jakie równie często jest wykorzystywane do przeprowadzania statystycznych analiz danych i prezentowania ich wyników stanowi Jupyter Notebook (Project Jupyter). To nic innego jak przeglądarkowe środowisko służące do pisania skryptów we wszystkich językach programowania, w tym R, Python, Javascript czy chociażby Ruby. Autorskie projekty analityczne można również prezentować na własnym blogu. Wybór tej formy prezentacyjnej pozostawia autorowi dużą swobodę w zakresie kreacji oraz samej zawartości. Portfolio w takiej formie może bowiem obejmować nie tylko zrealizowane projekty, ale również eksperckie artykuły dotyczące Big Data, opinie i komentarze autora dotyczące rynkowych trendów i narzędzi analitycznych, wskazówki i profesjonalne rady dla analityków danych itd. Bogaty w treści i materiały blog daje szansę potencjalnym pracodawcom na znacznie lepsze poznanie jego autora oraz dokonanie jego pełniejszej oceny pod kątem prowadzonych rekrutacji.