Data Scientist – kompetencje i kwalifikacje [artykuł]

sie 16, 2017

Data Science

banery data science

Zdaniem dziennikarzy Harvard Business Review data scientist to najgorętsza profesja XXI wieku. Opinię tę podzielają autorzy ankiety Glassdor Survey „25 Best Jobs in America”, w której jasno wskazują, że badacz danych będzie wkrótce najbardziej poszukiwanym zawodem w Stanach Zjednoczonych. Zgodnie z szacunkami, do 2020 roku deficyt na specjalistów zajmujących się analizą danych osiągnie w skali całego globu poziom 4 milionów. Czym zajmuje się data scientist i jakie kompetencje są mu niezbędne w codziennej pracy?

Kim jest i czym zajmuje się Data Scientist?

Najogólniej rzecz ujmując data scientist to wykwalifikowany specjalista, który miliony rekordów tworzących firmową bazę danych potrafi przełożyć na wymierne korzyści biznesowe. Dostrzeżenie potencjału drzemiącego w gromadzonych przez firmy danych oraz umiejętność ich przetwarzania nie są jednak tak prostym zadaniem, jak mogłoby się wydawać. Rozwój nowoczesnych technologii oraz powszechna dostępność do Internetu i przenośnych urządzeń, mogących się z nim łączyć, sprawiają, że każdego dnia produkowane są miliony nowych i nierzadko niezwykle cennych z punktu widzenia biznesu informacji. By sprawnie i skutecznie wyciągać z nich wnioski i prezentować je w postaci odpowiadającej oczekiwaniom biznesu, warto rozważyć zatrudnienie eksperta łączącego w jednej osobie szereg interdyscyplinarnych kompetencji.

Pomimo faktu, iż data scientist zajmuje się analizowaniem dużych zbiorów danych (Big Data), nie należy roli tej utożsamiać z profesją analityka danych. Analityk zajmuje się bowiem analizami standardowych zbiorów, zaś badacz danych mierzyć się musi z ogromnymi bazami danych, pozbawionymi struktury, a dodatkowo narastającymi w czasie rzeczywistym. Poruszanie się po tak niestabilnej materii wiąże się z nieskończoną niemalże liczbą korelacji i możliwości interpretacyjnych. Zadaniem badacza danych staje się tym samym nie tylko wielowymiarowa analiza oraz atrakcyjna wizualizacja danych, ale przede wszystkim dobór odpowiedniej metodologii badania, wybór właściwej koncepcji i hipotezy, które będą niosły za sobą korzyści dla biznesu. Sprostanie takim oczekiwaniom jest niezwykle trudne, dlatego też badaczowi danych konieczne są nie tylko zdolności analityczne, znajomość języków programowania czy świadomość ograniczeń narzędzi IT, ale również doskonała intuicja, dociekliwość oraz doskonałe zdolności komunikacyjne.

Obszary biznesowe zgłaszające zapotrzebowanie na badaczy danych

Jeszcze kilka lat temu nikt nie słyszał o data science, zaś rynek nie zgłaszał zapotrzebowania na specjalistów łączących w sobie kompetencje statystyka, informatyka i badacza trendów. Co zatem doprowadziło do zmiany w tym obszarze? Pojawienie się nowej profesji to przede wszystkim znak czasów. Efekt nadejścia doby big data i tym samym zmiany podejścia organizacji do tematu zarządzania danymi, a także uświadomienia sobie wartości, jaka w nich drzemie. Między innymi z tych względów podmioty traktujące dane jako istotne aktywa, przetwarzające każdego dnia ich duże zbiory i w oparciu o nie rozwiązujące złożone problemy biznesowe, zaczęły dostrzegać konieczność zatrudnienia specjalisty data science.

Umiejętne przetwarzanie danych oraz trafne wnioskowanie na ich podstawie pozwala na skuteczne budowanie przewagi konkurencyjnej. Przyczynia się do koniecznego z ekonomicznego punktu widzenia przeorganizowania modeli biznesowych, badania nowych obszarów działalności czy skutecznego wdrożenia na rynek nowych produktów. Może ponadto prowadzić do redukcji kosztów działalności, będących pochodną, chociażby reorganizacji procesów czy optymalizacji łańcucha dostaw. Biznesowa wartość data science, a co za tym idzie nowe możliwości rozumienia biznesu to niestety wciąż potencjał dostrzegany przez niewielki odsetek organizacji. Mimo iż data science to temat intensywnie eksplorowany przez światowych liderów branży finansowej, ubezpieczeniowej, transportowej, medycznej czy handlowej, doskonale zdających sobie sprawę, iż nadszedł czas organizacji sterowanych danymi, wiele podmiotów wciąż opiera się przed wdrożeniem koniecznych zmian i włączeniem do swoich struktur komórek odpowiedzialnych za wielowymiarowe badanie danych. Sytuacja ta jednak dynamicznie się zmienia, a będące liderem pod względem wykorzystania big data firmy amerykańskie, coraz częściej naśladowane są przez organizacje na całym świecie. Świadczyć może o tym, chociażby stale rosnące zapotrzebowanie na specjalistów data science, oraz postępująca specjalizacja, która przestała być już typowa wyłącznie dla rynku pracy w Stanach Zjednoczonych.

Spoglądając na rynek szeroko rozumianej analizy danych, można wskazać kilka typów stanowisk, które stanowią zaczątek postępującej specjalizacji w obszarze data science:

  • Data Scientist (Badacz Danych);
  • Data and Analytics Manager (Manager Zespołu Analityków);
  • Data Architect (Architekt Danych);
  • Data Engineer (Inżynier Danych);
  • Statistician (Statystyk);
  • Database Administator (Administrator Baz Danych);
  • Business Analyst (Analityk Biznesowy);
  • Data Analyst (Analityk Danych).

Każda z powyższych ścieżek kariery wymaga nieco innych kwalifikacji i predyspozycji, a co za tym idzie, wiąże się z odmiennym wynagrodzeniem. Na szczycie piramidy wynagrodzeń znajduje się data scientist, którego wynagrodzenie jest zwykle 100 % wyższe aniżeli wynagrodzenie plasującego się najniżej w hierarchii analityka danych. Systematycznie rozrastające się zespoły analityków i badaczy danych już teraz skutkują powstawaniem zupełnie nowych ról – nie tylko zarządczych (Data Science Project Manager), ale również odpowiedzialnych za koordynowanie przebiegu realizowanych projektów (Data Science Coordinator). Biorąc pod uwagę dynamikę zmian zachodzących na rynku oraz ogromne i stale rosnące zapotrzebowanie na specjalistów zajmujących się danymi, można przypuszczać, iż tworzenie nowych ról oraz ich postępująca specjalizacja będzie czymś naturalnym.

Kluczowe obszary kompetencyjne

Objęcie stanowiska badacza danych to zadanie niełatwe, gdyż stawiane przed potencjalnym kandydatem wymagania są niewątpliwie bardzo wysokie. Warto jednak podkreślić, iż termin data scientist bardzo często jest nadużywany i wykorzystywany do podniesienia atrakcyjności typowych stanowisk analitycznych. Praktyki tego typu stosowane są m. in. w Polsce, stąd też różnice w wymaganiach stawianych przez konkretne organizacje mogą okazać się dość zaskakujące.

Jakie zatem kompetencje i predyspozycje powinny cechować idealnego kandydata na stanowisko badacza danych? Do najważniejszych obszarów kompetencyjnych data scientist zaliczyć należy:

1) Znajomość matematyki i statystyki

Pierwszym i niezwykle istotnym obszarem kompetencyjnym jest niewątpliwie znajomość matematyki i przynajmniej podstaw statystyki. Odpowiednie podłoże teoretyczne jest niezwykle pomocne w pracy badacza danych czy nawet analityka, dlatego warto zadbać o właściwe przygotowanie. Wprawdzie wielu potencjalnych pracodawców mile widziałoby w swoich kręgach ekspertów z doktoratem, jednak jego brak wcale nie przekreśla szans na karierę w obszarze data science. Analizy, statystyki czy algebry liniowej nauczyć się można chociażby dzięki otwartym kursom online. Niezwykle przydatne będzie ponadto poznanie zagadnień związanych z algorytmami oraz machine learning (uczenie maszynowe). Zaawansowana wiedza w tych obszarach jest niewątpliwie cenna i pomocna, jednak znacznie bardziej cenione jest dobre zrozumienie poszczególnych technik oraz umiejętność ich właściwego doboru w zależności o rodzaju rozwiązywanego problemu.

2) Zdolności z zakresu wizualizacji danych

Umiejętność analizowania danych i wyciągania na ich podstawie wniosków niosących wartość dla biznesu to jedno, jednak niezwykle istotne jest także ich atrakcyjne zaprezentowanie przedstawicielom biznesu. To, co dla badacza danych wydawać się będzie oczywiste i widoczne na pierwszy rzut oka, dla osób nietechnicznych, podejmujących w organizacji decyzję, może nie być tak jasne i klarowne. Między innymi z tego względu większość podmiotów wymaga od kandydatów przynajmniej podstawowej znajomości narzędzi służących do wizualizowania danych tj. Flare, D3.js, Spotfire, R Markdown czy Tableau. Prezentacja danych i wniosków stanowi zwieńczenie pracy badacza, dlatego dobrze jest zadbać o to, by przybrała ona postać atrakcyjnego dokumentu, przejrzystego dashboardu czy ewentualnie interaktywnej prezentacji.

3) Znajomość bazy danych i data munging

Badania danych niewątpliwie wiąże się pojęciem baz danych, dlatego też ich znajomość jest wręcz obowiązkowa. Wysokiej klasy data scientist powinien sprawnie posługiwać się różnymi bazami danych tj. MySQL, MongoDB , Postgres czy Cassandra, a także być zaznajomionym z zagadnieniem data mugingu. Co kryje się pod tym pojęciem? Nic innego jak czyszczenie danych, a więc wydobywanie ich z większych zbiorów i doprowadzenie do formy, która umożliwia dalszą pracę na zbiorze. Odpowiednie przygotowanie danych to jedna z podstawowych czynności poprzedzających przystąpienie do analizy, stąd też posiadanie takiej umiejętności jest koniecznością. W dobie Big Data niezwykle istotna jest również znajomość narzędzi umożliwiających przeprowadzanie obliczeń na dużych zbiorach danych. Z tego względu dobrze widziana jest znajomość takich narzędzi i frameworków jak np. Spark, Hadoop czy MapReduce.

4) Znajomość języków programowania

Kolejny obszar kompetencyjny stanowią języki programowania, które w pracy data scientist odgrywają bardzo istotną rolę. Większość pracodawców wymaga znajomości kilku z nich, jednak biegła znajomość jednego języka programowania np. R lub Python jest w zupełnie wystarczająca, by rozpocząć pracę w obszarze badania danych i być w stanie rozwiązać wiele biznesowych problemów.

5) Posiadanie ponadprzeciętnych zdolności komunikacyjnych

Mogłoby się wydawać, że wysokie kompetencje komunikacyjne w kontekście badacza danych nie są konieczne, jednak rzeczywistość pokazuje, że jest zupełnie odwrotnie. Nie da się ukryć, iż codzienna praca wykonywana przez data scientist pozostaje dla większości pracowników organizacji czymś zupełnie abstrakcyjnym. Zarządzający dostrzegają wprawdzie drzemiącą w niej wartość, jednak również nie posiadają kompetencji umożliwiających pełne zrozumienie poszczególnych kroków wykonywanych podczas analizy danych. Biorąc pod uwagę powyższe, zdolności komunikacyjne oraz umiejętność prostego i zwięzłego przekazywania wniosków płynących z przeprowadzonych analiz staje się jedną z najważniejszych kompetencji w tym zawodzie. Wysokie kompetencje komunikacyjne ułatwiają ponadto analizę potrzeb biznesowych, przeprowadzenie wywiadu z klientem i tym samym pełne zrozumienie jego potrzeb i oczekiwań.

Nie da się nie zauważyć, że wymagania poszczególnych podmiotów stawianych przed kandydatami na stanowisko data scientist mogą się istotnie od siebie różnić. W dużej mierze jest to efekt wspomnianej już specjalizacji i pojawiania się coraz bardziej niszowych stanowisk, a także specyfiki konkretnego obszaru biznesowego. Nieustanne zmiany, a także postępujący rozwój technologii pozwala przypuszczać, iż zjawisko to będzie się tylko nasilać i tym samym zmuszać badaczy danych do nieustannego samorozwoju, poszerzania swoich kompetencji o nowe umiejętności, nauki nowych języków programowania oraz obsługi jeszcze bardziej zaawansowanych narzędzi.

Gdzie zdobyć pierwsze doświadczenie?

Chęć rozpoczęcia swojej kariery w obszarze data science wymaga przygotowania planu, pozwalającego na zdobycie w określonym czasie przynajmniej podstawowych umiejętności, które są szczególnie pożądane przez lokalny rynek pracy. Cel ten realizować można na kilka różnych sposobów. Do niedawna studia poświęcone tematyce big data czy data science były domeną wyłącznie amerykańskich uniwersytetów, jednak dziś bez większych trudności podobne specjalizacje znaleźć można także na polskich uczelniach. Studia w takich dziedzinach oferują m. in.: Politechnika Warszawska, Szkoła Główna Handlowa, Szkoła Główna Gospodarstwa Wiejskiego, Uniwersytet Ekonomiczny w Poznaniu czy Uniwersytet Ekonomiczny we Wrocławiu.

Niezbędną wiedzę zdobyć można również poprzez uczestnictwo w najróżniejszych kursach stacjonarnych oraz internetowych. Szczególnie interesujące dla przyszłych badaczy danych mogą być rozliczne portale MOOC’s (Massive Open Online Courses), oferujące szeroki wybór bezpłatnych kursów o różnych stopniach zaawansowania, przygotowanych we współpracy z wiodącymi uniwersytetami z całego świata. Do najpopularniejszych platform tego typu zalicza się m. in. Coursera, EdX czy Udacity. Dostęp do materiałów edukacyjnych jest wprawdzie bezpłatny, jednak chęć uzyskania certyfikatu, potwierdzającego ukończenie kursu, wiąże się z koniecznością poniesienia dodatkowych kosztów w wysokości oscylującej zwykle w granicach kilkudziesięciu dolarów. Koszt odbycia stacjonarnego szkolenia o zbliżonej tematyce niewątpliwie byłby wielokrotnie wyższy, dlatego też popularność portali MOOC’s nikogo nie powinna dziwić.

W zdobyciu pierwszych praktycznych doświadczeń w obszarze data science lub machine learning pomóc mogą chociażby praktyki i staże, aczkolwiek w ich przypadku wymagane jest najczęściej posiadanie przynajmniej podstawowej wiedzy teoretycznej oraz umiejętności programowania. Co więcej, oferty tego typu nie pojawiają się zbyt często, dlatego też warto pomyśleć o alternatywnym rozwiązaniu. Może nim być chociażby internetowy portal kaggle.com, będący nie tylko bazą ofert dla specjalistów data science, ale też platformą wymiany doświadczeń oraz rywalizacji. W serwisie można bowiem znaleźć bazę konkursów polegających na stworzeniu modelu lub algorytmu spełniającego określone założenia. Zdobywanie doświadczenia w ten sposób to nie tylko doskonały sposób na podniesienie swoich kompetencji, ale również szansa na niemałe pieniądze – pula nagród w poszczególnych konkursach liczona jest przeważnie w dziesiątkach tysięcy dolarów. Co ciekawe, rzadkością nie są konkursy z pulą nagród przekraczającą milion dolarów.