Objęcie stanowiska badacza danych to zadanie niełatwe, gdyż stawiane przed potencjalnym kandydatem wymagania są niewątpliwie bardzo wysokie. Warto jednak podkreślić, iż termin data scientist bardzo często jest nadużywany i wykorzystywany do podniesienia atrakcyjności typowych stanowisk analitycznych. Praktyki tego typu stosowane są m. in. w Polsce, stąd też różnice w wymaganiach stawianych przez konkretne organizacje mogą okazać się dość zaskakujące.
Jakie zatem kompetencje i predyspozycje powinny cechować idealnego kandydata na stanowisko badacza danych? Do najważniejszych obszarów kompetencyjnych data scientist zaliczyć należy:
1) Znajomość matematyki i statystyki
Pierwszym i niezwykle istotnym obszarem kompetencyjnym jest niewątpliwie znajomość matematyki i przynajmniej podstaw statystyki. Odpowiednie podłoże teoretyczne jest niezwykle pomocne w pracy badacza danych czy nawet analityka, dlatego warto zadbać o właściwe przygotowanie. Wprawdzie wielu potencjalnych pracodawców mile widziałoby w swoich kręgach ekspertów z doktoratem, jednak jego brak wcale nie przekreśla szans na karierę w obszarze data science. Analizy, statystyki czy algebry liniowej nauczyć się można chociażby dzięki otwartym kursom online. Niezwykle przydatne będzie ponadto poznanie zagadnień związanych z algorytmami oraz machine learning (uczenie maszynowe). Zaawansowana wiedza w tych obszarach jest niewątpliwie cenna i pomocna, jednak znacznie bardziej cenione jest dobre zrozumienie poszczególnych technik oraz umiejętność ich właściwego doboru w zależności o rodzaju rozwiązywanego problemu.
2) Zdolności z zakresu wizualizacji danych
Umiejętność analizowania danych i wyciągania na ich podstawie wniosków niosących wartość dla biznesu to jedno, jednak niezwykle istotne jest także ich atrakcyjne zaprezentowanie przedstawicielom biznesu. To, co dla badacza danych wydawać się będzie oczywiste i widoczne na pierwszy rzut oka, dla osób nietechnicznych, podejmujących w organizacji decyzję, może nie być tak jasne i klarowne. Między innymi z tego względu większość podmiotów wymaga od kandydatów przynajmniej podstawowej znajomości narzędzi służących do wizualizowania danych tj. Flare, D3.js, Spotfire, R Markdown czy Tableau. Prezentacja danych i wniosków stanowi zwieńczenie pracy badacza, dlatego dobrze jest zadbać o to, by przybrała ona postać atrakcyjnego dokumentu, przejrzystego dashboardu czy ewentualnie interaktywnej prezentacji.
3) Znajomość bazy danych i data munging
Badania danych niewątpliwie wiąże się pojęciem baz danych, dlatego też ich znajomość jest wręcz obowiązkowa. Wysokiej klasy data scientist powinien sprawnie posługiwać się różnymi bazami danych tj. MySQL, MongoDB , Postgres czy Cassandra, a także być zaznajomionym z zagadnieniem data mugingu. Co kryje się pod tym pojęciem? Nic innego jak czyszczenie danych, a więc wydobywanie ich z większych zbiorów i doprowadzenie do formy, która umożliwia dalszą pracę na zbiorze. Odpowiednie przygotowanie danych to jedna z podstawowych czynności poprzedzających przystąpienie do analizy, stąd też posiadanie takiej umiejętności jest koniecznością. W dobie Big Data niezwykle istotna jest również znajomość narzędzi umożliwiających przeprowadzanie obliczeń na dużych zbiorach danych. Z tego względu dobrze widziana jest znajomość takich narzędzi i frameworków jak np. Spark, Hadoop czy MapReduce.
4) Znajomość języków programowania
Kolejny obszar kompetencyjny stanowią języki programowania, które w pracy data scientist odgrywają bardzo istotną rolę. Większość pracodawców wymaga znajomości kilku z nich, jednak biegła znajomość jednego języka programowania np. R lub Python jest w zupełnie wystarczająca, by rozpocząć pracę w obszarze badania danych i być w stanie rozwiązać wiele biznesowych problemów.
5) Posiadanie ponadprzeciętnych zdolności komunikacyjnych
Mogłoby się wydawać, że wysokie kompetencje komunikacyjne w kontekście badacza danych nie są konieczne, jednak rzeczywistość pokazuje, że jest zupełnie odwrotnie. Nie da się ukryć, iż codzienna praca wykonywana przez data scientist pozostaje dla większości pracowników organizacji czymś zupełnie abstrakcyjnym. Zarządzający dostrzegają wprawdzie drzemiącą w niej wartość, jednak również nie posiadają kompetencji umożliwiających pełne zrozumienie poszczególnych kroków wykonywanych podczas analizy danych. Biorąc pod uwagę powyższe, zdolności komunikacyjne oraz umiejętność prostego i zwięzłego przekazywania wniosków płynących z przeprowadzonych analiz staje się jedną z najważniejszych kompetencji w tym zawodzie. Wysokie kompetencje komunikacyjne ułatwiają ponadto analizę potrzeb biznesowych, przeprowadzenie wywiadu z klientem i tym samym pełne zrozumienie jego potrzeb i oczekiwań.
Nie da się nie zauważyć, że wymagania poszczególnych podmiotów stawianych przed kandydatami na stanowisko data scientist mogą się istotnie od siebie różnić. W dużej mierze jest to efekt wspomnianej już specjalizacji i pojawiania się coraz bardziej niszowych stanowisk, a także specyfiki konkretnego obszaru biznesowego. Nieustanne zmiany, a także postępujący rozwój technologii pozwala przypuszczać, iż zjawisko to będzie się tylko nasilać i tym samym zmuszać badaczy danych do nieustannego samorozwoju, poszerzania swoich kompetencji o nowe umiejętności, nauki nowych języków programowania oraz obsługi jeszcze bardziej zaawansowanych narzędzi.