Certyfikacja w obszarze Data Science [artykuł]

gru 3, 2017

ETL

R

Tableau

Business Intelligence

Data Science

Alteryx

banery data science

Rynek pracy i zgłaszane przez niego potrzeby, – szczególnie w obszarze IT – nierzadko rozwijają się znacznie dynamiczniej, aniżeli oferta edukacyjna uniwersytetów i szkół. Sposobem na wypełnienie tej luki i pozyskania niezbędnych na ryku kompetencji jest w takich sytuacjach ukończenie specjalistycznych szkoleń, koncentrujących się na określonych zagadnieniach i kończących się uzyskaniem cenionego przez rynek certyfikatu. Jakie certyfikaty mogą pomóc w rozwoju kariery badacza danych? Gdzie ich szukać i jak wybierać?

Kompetencje niezbędne badaczowi danych

Profesja badacza danych jest dziś niezwykle pożądana, bardzo dobrze opłacana, ale jednocześnie wymagająca. Data Scientist to prawdziwy człowiek renesansu. Musi bowiem posiadać nie tylko szeroką wiedzę z zakresu matematyki i statystyki, rozwinięte zdolności analityczne i biegle obsługiwać bazy danych, ale również posiadać szereg innych istotnych kompetencji. Mowa chociażby o obsłudze narzędzi ETL, znajomości narzędzi i frameworków takich jak chociażby Spark czy Hadoop, które doskonale radzą sobie z ogromnymi zbiorami danych, a także umiejętności wizualizowania danych i tworzenia przejrzystych dashboardów. Doskonały warsztat techniczny to jednak nie wszystko. Pożądane są ponadto wysoko rozwinięte zdolności komunikacyjne, ułatwiające analizę potrzeb biznesowych, a ponadto wiedza i praktyka biznesowa. Zrozumienie specyfiki branży oraz skuteczne identyfikowanie problemów biznesowych niewątpliwie przekładają się na analizy i wnioski niosące realną wartość dla biznesu.

Warto jednak zauważyć, iż dynamiczny rozwój Big Data, rosnąca liczba danych, będących w posiadaniu organizacji, a także rosnąca świadomość wartości, jaka w nich drzemie, prowadzi do postępującej specjalizacji profesji badacza danych. Nie bez znaczenia jest również fakt, iż znalezienie fachowców, skupiających w jednej osobie szereg tak różnorodnych kompetencji jest ogromnym wyzwaniem. Między innymi z tych względów coraz częściej zespoły analityczne tworzone są nie tylko przez analityków i badaczy danych, ale również specjalistów w węższych dziedzinach – statystyków, architektów danych czy analityków biznesowych. Każda z tych ról wymaga posiadania nieco innych kompetencji, nie tak szerokich jak w przypadku Data Scientist, aczkolwiek zdecydowanie pogłębionych.

Więcej o kompetencjach i specjalizacji w obszarze Data Science przeczytasz tu: https://astrafox.pl/data-science-kompetencje/

Certyfikaty, które warto posiadać

#1 Tableau – Qualified Associate & Certified Professional

Pośród kompetencji, jakie posiadać powinien każdy Data Scientist, wymienia się m. in. wizualizowanie danych. Raportowanie czy też tworzenie przejrzystych kokpitów managerskich to zwieńczenie każdego procesu analitycznego. Stanowią one podsumowanie najważniejszych wniosków i umożliwiają przedstawicielom biznesu podejmowanie kluczowych decyzji. Jednym z najczęściej wykorzystywanych przez organizacje narzędzi do wizualizacji danych jest Tableau. Warto zatem zatroszczyć się o posiadanie odpowiednich certyfikatów, które potwierdzą biegłość w obsłudze narzędzia i pozwolą wyróżnić się na tle konkurencji.

W ofercie Tableau znaleźć można dwa rodzaje certyfikatów Qualified Associate oraz Certified Professional, które mogą potwierdzać posiadane kompetencje w zakresie obsługi Tableau Dekstop bądź Tableau Server. Chcąc zdobyć certyfikat Qualified Associate, potwierdzający biegłość w obsłudze Tableau Desktop, należy liczyć się z kosztem 250 dolarów i koniecznością poświęcenie około 5 miesięcy na odpowiednie przygotowanie się do egzaminu (ważność egzaminu wynosi dwa lata). Jego zdobycie otwiera możliwość przystąpienia do egzaminu Certified Professional. Kosztuje on 600 dolarów i wymaga poświecenia kilku kolejnych miesięcy na przygotowania (jego ważność wynosi trzy lata). Analogiczne zasady certyfikacji tyczą się Tableau Server, jednak w tym przypadku koszty wynoszą odpowiednio 250 dolarów i 800 dolarów.

By odpowiednio przygotować się do egzaminu, warto zastosować się do wskazówek opublikowanych na oficjalnej stronie internetowej Tableau i przejść wszystkie rekomendowane szkolenia online. Dobrym pomysłem będzie również udział w profesjonalnym szkoleniu stacjonarnym. Bezpośredni kontakt z doświadczonym trenerem to przede wszystkim szansa na bieżące wyeliminowanie wszelkich swoich wątpliwości i omówienie napotkanych problemów.

O kursie Astrafox przygotowującym do certyfikacji Tableau przeczytasz tu: https://astrafox.pl/certyfikacja-z-tableau/

 

#2 Alteryx – Alteryx Product Certification Program

Biorąc pod uwagę fakt, iż analiza danych poprzedzona jest zwykle ich integracją i czyszczeniem, badacz danych powinien posiadać również kompetencje w tym obszarze. Narzędzi, które pozwalają w efektywny sposób przygotowywać dane do późniejszej analizy jest wiele, jednak pośród najlepszych wymieniany jest Alteryx. Nie dość, że oferuje szereg możliwości, pozwala zaoszczędzić sporo czasu i doskonale współpracuje z Tableau – Alteryx jest oficjalnym partnerem giganta z Seattle.

Program certyfikacyjny Alteryx wdrożony został we wrześniu bieżącego roku, jednak prace nad jego rozwojem wciąż trwają. Alteryx Certification Program docelowo oferować będzie 5 ścieżek certyfikacyjnych:

– Designer Core (aktualnie dostępna)
– Designer Advanced (planowana na Q1 2018)
– Designer Expert (planowana na Q2 2018)
– Alteryx Server Administration (planowana na Q2 2018)
– Alteryx Connect Administration (planowana na Q2 2018)

Jedyny dostępny póki co certyfikat – Designer Core, przeznaczony jest dla początkujących użytkowników narzędzia i koncentruje się przede wszystkim na łączeniu danych, typach danych, podstawowym ich przygotowaniu i mieszaniu, analizie opisowej, prostych makrach i aplikacjach analitycznych oraz danych wyjściowych. Sam egzamin jest bezpłatny i składa się z 80 pytań, na które należy odpowiedzieć w czasie 2 godzin. Próg zaliczeniowy ustanowiono na poziomie 80%.

 

#3 Cloudera – Cloudera Certified Associate & Professional

Praca w obszarze Data Science niewątpliwie wymaga biegłego poruszania się w świecie Big Data. Cloudera, jako podmiot specjalizujący się w tworzeniu oprogramowania typu open source przetwarzającego ogromne ilości danych (Hadoop), oferuje kilka interesujących ścieżek certyfikacyjnych, które pozwolą się wyróżnić i zdobyć pożądane na rynku kwalifikacje. Dostępne możliwości certyfikacyjne dzielą się na dwie grupy:

– Cloudera Certified Professional (CCP)
– Cloudera Certified Associate (CCA)

W grupie CCP dostępny jest obecnie wyłącznie jeden certyfikat – CCP Data Engineer, jednak przeznaczony jest on dla doświadczonych inżynierów danych,  którzy chcą wzbogacić swoje kompetencje o przetwarzanie, przekształcanie, przechowywanie i analizę danych w środowisku CDH firmy Cloudera. Z uwagi na poziom zaawansowania, przystąpienie do egzaminu warto poprzedzić gruntownym przygotowaniem. Pomocne z pewnością będzie dedykowane szkolenie: Cloudera Developer Training for Spark and Hadoop. Koszt egzaminu to 400 dolarów.

Znacznie większy wybór certyfikatów znaleźć można w drugiej grupie – Cloudera Certified Associate. Są to: CCA Spark i Hadoop Developer, potwierdzający kompetencje w zakresie przetwarzania, transformowania i procesowania danych przy użyciu Apache Spark i podstawowych narzędzi Cloudera Enterprise, CCA Data Analyst, potwierdzający zdolności analityczne w zakresie ładowania, transformacji i modelowania danych Hadoop w celu zdefiniowania relacji i wyciągnięcia sensownych wyników z nieprzetworzonych danych wejściowych oraz CCA Administrator, potwierdzający kluczowe kompetencje systemowe i administratorskie. Do każdego egzaminu przypisane jest dedykowane szkolenie, które pozwala odpowiednio się do niego przygotować, a same egzaminy składają się z 8-12 praktycznych zadań, na rozwiązanie których przewidziano 120 minut. Próg zaliczeniowy wynosi 70%, zaś koszt 295 dolarów.

 

#4 SAS – Certified Data Scientist

Interesującą ścieżkę certyfikacyjną posiada również SAS (Statistical Analysis System), jeden ze światowych liderów w obszarze analizy danych. Podmiot oferuje wiele certyfikatów, jednak z perspektywy badacza danych szczególnie interesujący będzie SAS Certified Data Scientist. Jego uzyskanie, a raczej nadanie, wiąże się z koniecznością uprzedniego zdania dwóch innych egzaminów: SAS Certified Advanced Analytics Professional oraz SAS Certified Big Data Professional.

Pierwszy podzielony jest na trzy części (trzy oddzielne egzaminy):

– Predictive Modeling Using SAS Enterprise Miner (250 dolarów)
– SAS Advanced Predictive Modeling (180 dolarów)
– SAS Text Analytics, Time Series, Experimentation and Optimization (180 dolarów)

Drugi składa się z kolei z dwóch egzaminów:

– SAS Big Data Preparation, Statistics, and Visual Exploration (180 dolarów)
– SAS Big Data Programming and Loading (180 dolarów)

Uzyskanie egzaminu SAS Certified Data Scientist jest tym samym niezwykle wymagające, czasochłonne i niestety kosztowne. Warto jednak podjąć wyzwanie, gdyż posiadanie certyfikatu potwierdza biegłość w obszarze manipulowania i wydobywania wartość z dużych zbiorów danych za pomocą różnych narzędzi SAS, opracowywaniu rekomendacji biznesowych za pomocą złożonych modeli uczenia maszynowego, a następnie ich wdrażaniu na dużą skalę, korzystając z elastycznego, niezawodnego środowiska SAS.

 

#5 Microsoft Professional Program Certificate in Data Science

Z pewnością nie wszyscy mają świadomość, iż certyfikację w obszarze Data Science oferuje również Microsoft. W ofercie giganta z Redmond znaleźć można wiele interesujących szkoleń w obszarze analizy danych, a także dedykowany badaczom danych certyfikat Microsoft Professional Program Certificate in Data Science. Jego uzyskanie nie jest jednak prostym zadaniem, gdyż wymaga wcześniejszego ukończenia 10 kursów. Ich ukończenie pozwala na zdobycie wielu pożądanych na rynku kompetencji, zapoznania się z kluczowymi technologiami i językami programowania: T-SQL, Python, R, PowerBI, Microsoft Excel, HDInsight, Spark oraz Azure Machine Learning. Wszystkie 10 szkoleń, które należy ukończyć, by stać się posiadaczem certyfikatu Microsoft, znaleźć można w serwisie edX. Wprawdzie udostępniane są bezpłatnie, jednak chęć uzyskania certyfikatu, poświadczającego ukończenie konkretnego szkolenia wiąże się z opłatą w wysokości około 100 dolarów. Zgromadzenie wszystkich 10 certyfikatów pozwala na uzyskanie Microsoft Professional Program Certificate in Data Science. Ukończenie tak kompleksowej ścieżki edukacyjnej wiąże się z koniecznością poświecenia ponad 100 godzin na intensywną naukę.

Alternatywę dla kompleksowej ścieżki edukacyjnej w obszarze data science stanowić mogą certyfikaty MCSA (Microsoft Certified Solutions Associate) w nieco węższych dziedzinach: Machine Learning, Data Management and Analytics czy chociażby Data Engineering with Azure. Koszt każdego z egzaminów mieści się zwykle w przedziale od 100 do 200 dolarów.

 

#6 Platformy MOOC (ang. Massive Open Online Course)

Współpracująca z Microsoft platforma edukacyjna edX to nie jedyna tego typu strona internetowa, którą warto odwiedzić w poszukiwaniu wartościowych kursów dostarczanych przez wiodące organizacja i najlepsze uniwersytety z całego świata. Szeroki wybór atrakcyjnych szkoleń w obszarze Data Science oferuje również Coursera. Godne uwagi są przede wszystkim wszystkie szkolenia autorstwa współzałożyciela platformy i profesora Uniwersytetu Stanforda – Andrew Ng. Poza uczeniem maszynowym i uczeniem głębokim, badacz danych powinien również posiadać kompetencje w zakresie programowania w Python i R, dlatego warto zapoznać się z ofertą certyfikatów oferowanych przez University of Michigan oraz Johns Hopkins University. Gdzie jeszcze warto skierować swoje kroki w poszukiwaniu wartościowych certyfikatów? Możliwości jest naprawdę sporo, jednak szczególną uwagę warto zwrócić na Udacity. Platforma oferuje zarówno niezależne szkolenia w wielu obszarach związanych z Data Science jak i niezwykle interesujące, stworzone we współpracy z rynkowymi liderami programy szkoleniowe – nanodeegre. Mowa chociażby o programach adresowanych do analityków biznesowych, analityków danych czy inżynierów uczenia maszynowego, które powstały we współpracy z takimi firmami jak: Tableau, Alteryx czy chociażby Kaggle.