Obalamy największe mity związane z Data Science

lut 13, 2018

Business Intelligence

Data Science

Analiza Danych

Branża Data Science cieszy się dużym zainteresowaniem mediów, od momentu uznania przez Harvard Busness Review zawodu badacza danych najseksowniejszym na świecie. Tysiące artykułów, które opublikowano od tamtego czasu przedstawia zawód Data Scientist jako pracę marzeń. Profesję dostępną wyłącznie dla wąskiej grupy wybitnych specjalistów, którzy za swoje starania otrzymują niezwykle konkurencyjne wynagrodzenie. Czy rzeczywiście tak jest?

10 najczęściej powielanych mitów dotyczących Data Science Przeglądając branżowe blogi (listę tych najlepszych znajdziecie tu), a także profile społecznościowe branżowych influencerów (listę tych, których warto śledzić publikowaliśmy tu) natrafić można na wiele publikacji poświęconych wyobrażeniom związanym z pracą badacza danych i mitów jakie wokół niej narosły na przestrzeni lat. Ciekawe dyskusje i próby wyjaśnienia czym tak naprawdę zajmuje się Data Scientist i jak bardzo wyobrażenie na temat jego codziennych obowiązków odbiega od realiów znaleźć można również na przeróżnych forach dyskusyjnych. O jakich wyobrażeniach i mitach mowa? Wbrew pozorom jest ich naprawdę sporo, ale skupimy się na obaleniu kilku najpowszechniejszych.

#1 Data Scientist jest niczym jednorożec

Nie da się ukryć, że wymagania stawiane przed potencjalnymi kandydatami na stanowisko badacza danych są bardzo wysokie (link). Niewątpliwie ciężko jest znaleźć kogoś, kto niczym człowiek renesansu łączy w sobie tak wiele interdyscyplinarnych kompetencji technicznych, a ponadto może się pochwalić doskonałymi zdolnościami komunikacyjnymi i świadomością biznesową. Między innymi z tego względu zwykło się uważać, że badacz danych jest niczym jednorożec. Każdy o nim słyszał, ale nikomu nie udaje się go znaleźć. Rzeczywistość pokazuje jednak, że sytuacja nie jest aż tak tragiczna. Dynamicznie rosnąca popularność rynku Big Data przekłada się nie tylko na wzrost świadomości i zainteresowania biznesu zaawansowanymi metodami analizy danych, ale również skłania wielu matematyków, statystyków, specjalistów Business Intelligence czy programistów do poszerzenia swoich kompetencji. W efekcie baza potencjalnych kandydatów na objęcie stanowiska badacza danych jest naprawdę niemała. Co więcej, pozytywny wpływ na pomyślne i szybsze niż dotychczas zamykanie procesów rekrutacyjnych ma również postępująca w branży specjalizacja, która istotnie skraca listę wymagań.

#2 Data Science to chwilowa moda

Dane stanowią kluczową wartość dla firm i wszystko wskazuje na to, że z każdym kolejnym rokiem wolumen gromadzonych danych będzie jeszcze większy. Bez specjalistów, doskonale poruszających się w obszarze Big Data, dostrzeżenie pośród milionów rekordów realnej wartości dla biznesu nie będzie możliwe. Myli się zatem ten, kto uważa, że zawód badacza danych to chwilowa moda. Koncentracja na danych będzie postępować, tak w kontekście ich gromadzenia, analizy jak i właściwego zabezpieczenia, stąd też znacznie bardziej prawdopodobny scenariusz stanowi pojawianie się coraz to nowych, wąskich specjalizacji w tym obszarze. Rosnąca liczba otwartych pozycji w wielu organizacjach oraz coraz bogatsza oferta edukacyjna to kolejne argumenty, które pozwalają obalić ten często powtarzany mit.

#3 Data science to profesja zarezerwowana dla ludzi z tytułem doktora

Przeglądając oferty pracy adresowane do badaczy danych często pośród stawianych wymagań pojawia się konieczność posiadania tytułu doktora. Choć niewątpliwie doktorat stanowi istotny atut i ułatwia staranie się o pracę w charakterze Data Scientist, nie jest wcale niezbędny. Znacznie bardziej kluczowe są kompetencje techniczne oraz miękkie, aczkolwiek nie należy generalizować. Wiele zależy od konkretnej roli oraz potrzeb organizacji, która decyduje się na zatrudnienie badacza danych.

#4 Badanie danych bez zaawansowanych i kosztownych narzędzi jest niemożliwe

Konieczność zatrudnienia badacza danych pojawia się zwykle w momencie, gdy organizacja zaczyna mieć do czynienia z Big Data. Kiedy kończy się Data a zaczyna Big Data? Istnieje wiele definicji Big Data, a tym samym wiele sposobów na określenie „momentu przejścia”. Najszybszą i najłatwiejszą metodą jest zapewne opieranie się na ocenie wydajności wykorzystywanych narzędziach analitycznych. Jeśli dotychczas stosowane rozwiązania przestają się sprawdzać i zmuszają organizację do poszukiwania alternatywnych ścieżek, można zakładać, iż organizacja wkracza właśnie w świat Big Data. O ile sama koniczność sięgnięcia po nowe, znacznie bardziej wydajne i funkcjonalne narzędzia, jest czymś naturalnym i koniecznym, nie należy zakładać, iż badanie danych bez zaawansowanych i zwykle dość kosztownych systemów jest niemożliwe. Dobry badacz danych będzie w stanie wiele swoich działań przeprowadzić przy pomocy prostego arkusza kalkulacyjnego. Mimo iż zajmuje się on najczęściej poważnymi i złożonymi problemami biznesowymi, sposoby ich rozwiązania wcale nie muszą być przesadnie złożone. Konieczny jest przede wszystkim pomysł, umiejętność dostrzeżenia biznesowej wartości w danych i wykorzystanie takiej metody, która pozwoli w możliwie najkrótszym czasie dostarczyć biznesowi pożądanych informacji.

#5 Data Science to domena dużych korporacji

Przyjęło się sądzić, że wyspecjalizowane role analityczne to domena dużych korporacji. W dużej mierze jest to prawda. Międzynarodowe koncerny posiadają ogromne bazy danych, które każdego dnia zasilane są kolejnymi milionami rekordów. Konieczne jest tym samym w ich przypadku posiadanie rozbudowanych zespołów analityków i badaczy danych, którzy przy pomocy zaawansowanych zwykle narzędzi dokonują ich gruntownej analizy i wizualizacji. Nie oznacza to jednak, że mniejsze organizacje nie dostrzegają realnych korzyści biznesowych skrywanych w firmowych bazach danych i nie mierzą się z wyzwaniami, jakie niesie za sobą Big Data. Wręcz przeciwnie! Wiele niewielkich podmiotów, w tym chociażby serwisy i sklepy internetowe każdego dnia analizują dane generowane przez użytkowników – liczby odwiedzin, konwersję, obejrzane produkty, moment porzucenia koszyka zakupów… Analiza takich danych pozwala nie tylko trafiać do większej liczby potencjalnych klientów, ale też skutecznie monetyzować ruch i planować działania marketingowe. Data Science znajduje tym samym szerokie zastosowanie wszędzie tam, gdzie decyzje opierane są na danych – bez względu na wielość i skalę działania organizacji.

#6 Znajomość statystyki to kluczowa kompetencja badacza danych

Niewątpliwie znajomość statystyki jest bardzo pomocna w codziennej pracy badacza danych, jednak nie zawsze stanowi kluczową kompetencję. W wielu przypadkach w zupełności wystarcza znajomość podstawowych pojęć. Istnieje przecież możliwość szybkiego odświeżenia sobie wiedzy bądź też pozyskania nowej na potrzeby realizacji konkretnego projektu. Jak pokazują realia, wielu badaczy danych to specjaliści wywodzący się z biznesu. Wprawdzie zgromadzenie kompetencji technicznych niezbędnych przy analizie danych jest czasochłonne i wymaga ogromnego wysiłku, aczkolwiek znacznie łatwiej jest pozyskać takie umiejętności niż nauczyć się od zera rozumieć biznes. Bez zdolności identyfikowania potrzeb biznesowych niezwykle trudno jest dostrzegać problemy i poszukiwać dla nich rozwiązań.

#7 Kompleksowe rozwiązania są lepsze od prostych

Wysokie wymagania stawiane badaczom danych rodzą przekonanie, iż wszelkie działania jakie podejmują są niezwykle złożone i skomplikowane. W wielu przypadkach rzeczywiście tak jest, aczkolwiek wiele problemów biznesowych rozwiązywanych przy pomocy analizy danych nie wymaga zastosowania złożonych, kompleksowych i niezwykle skomplikowanych rozwiązań. Data Scientist musi być świadomy tego, że za każdym projektem, w jaki jest angażowany, stoją konkretne cele biznesowe i zwykle niemałe pieniądze. Konieczne jest zatem znalezienie rozwiązania, które będzie możliwie najprostsze, łatwe we wdrożeniu, a tym samym tanie. Jak każdy projekt, tak i projekt w obszarze Big Data, musi zostać zakończony w określonym czasie, przy określonych zasobach i w założonym budżecie. Jeśli do rozwiązania konkretnego problemu wystarczy Excel, nie należy się obawiać jego zastosowania.

#8 Data Science wymaga dużych inwestycji

Mit ten po części związany jest z mitem numer 4. Znaczną część działań analitycznych przeprowadzić można przy pomocy narzędzi, które na ogół są już w organizacji dostępne, aczkolwiek w pewnym momencie napotka się zwykle pewne ograniczenia. Im większy wolumen danych do przetworzenia, tym większe prawdopodobieństwo szybkiego napotkania problemów z nadmiernym obciążeniem lub ograniczeniami narzędzia. Konieczność sięgnięcia po bardziej zaawansowane rozwiązania wiąże się wprawdzie ze sporym wydatkiem, aczkolwiek wcale nie musi być to duża inwestycja. Na rynku dostępnych jest dziś wiele rozwiązań – zarówno bardzo kosztowych jak i przystępnych cenowo, wymagających przeorganizowania całej architektury systemowej jak i stanowiących łatwe we wdrożeniu, doskonałe uzupełnienie obecnie stosowanych rozwiązań. Konieczne jest jedynie przeanalizowanie dostępnych opcji i wybór spośród nich tej, która zapewni najwyższy poziom efektywności i umożliwię realizację założonych przez organizację celów.

#9 Praca badacza danych to praca marzeń

Wysokie zarobki, możliwość pracy z nowoczesnymi technologiami oraz wpływania na kluczowe decyzje podejmowane w organizacji to niewątpliwie atuty pracy badacza danych. Należy mieć jednak świadomość tego, iż praca ta nie polega tylko i wyłącznie na analizowaniu danych. Można wręcz powiedzieć, że analiza danych stanowi tylko niewielką część codziennych obowiązków badacza. Najwięcej czasu pochłania to, czego każdy Data Scientist wolałby uniknąć – gromadzenie i czyszczenie danych. Według wielu przedstawicieli zawodu czynności te pochłaniają zdecydowaną większość czasu przeznaczonego na rozwiązanie zidentyfikowanego problemu biznesowego. Co warto podkreślić, praca ta ma zwykle charakter projektowy, a więc wiąże się z koniecznością odbywania wielu spotkań, dyskutowania i poszukiwania rozwiązań, a ponadto cechuje się dużą zmiennością. Każdy kolejny projekt to nowe ustalenia, nowe problemy i wyzwania – z pewnością nie każdy odnajdzie się w takim środowisku pracy.

#10 Data Science is not a science

Zwykło się mawiać, iż: Data Science is not a science  – it’s an art. Zdanie w tej kwestii są mocno podzielone. Wielu uważa, że Data Scientist to prawdziwy magik, artysta, który przy pomocy dostępnych narzędzi jest w stanie dostrzec w milionach rekordów informacje niezbędne do podejmowania kluczowych decyzji biznesowych. I w dużej mierze tak właśnie jest. Konkretny problem można bowiem zinterpretować na wiele różnych sposobów i tylko od badacza danych zależeć będzie, którą możliwość dostrzeże lub świadomie wybierze. Z drugiej jednak strony nie można powiedzieć, że Data Science jest nauką. Jedynie się na niej opiera – sięga chociażby po zagadnienia matematyczne i statystyczne, by przy ich pomocy poszukiwać efektywnych sposobów wyciągania wniosków opartych na danych. Bez względu na to po której stronie sporu się opowiemy, z każdym kolejnym rokiem Data Science będzie odgrywać coraz większą rolę, zatem już dziś warto zadbać o właściwe zrozumienie korzyści i wyzwań jakie za sobą niesie.