7 stron, które powinien znać każdy analityk danych [lista]

gru 21, 2017

Data Science

R

Tableau

Szkolenie

Internet stanowi jedno z podstawowych źródeł wiedzy we współczesnym świecie. Trzeba jednak poświęcić sporo czasu, by pośród masy informacji znaleźć te najbardziej wartościowe i autentyczne. Nie inaczej jest w przypadku poszukiwania wartościowych publikacji na temat Big Data i Data Science. Liczba serwisów poruszających tą tematykę jest ogromna, jednak tylko część z prezentuje wysoki poziom. Które strony każdy analityk powinien dodać do ulubionych i systematycznie odwiedzać?

O Big Data pisze się w ostatnich latach bardzo dużo i nic nie wskazuje na to, by tendencja ta miała się w najbliższej przyszłości zmienić. Szeroko rozumiana analiza danych to temat niezwykle nośny i interesujący. Z jednej strony służy mu dobra prasa (Data Scientist to zdaniem „Harvard Business Review” najseksowniejszy zawód XXI wieku), zaś z drugiej wymierne korzyści płynące z umiejętnego wykorzystania danych będących w posiadaniu organizacji. Biorąc pod uwagę fakt, iż rynek Big Data jest stosunkowo młody i podlega dynamicznym zmianom, nieustanne poszerzanie horyzontów w tej dziedzinie staje się dla analityków danych wręcz koniecznością.

Możliwości poszerzania wiedzy na temat analizy czy badania danych jest stosunkowo wiele, jednak podstawę stanowią przede wszystkim możliwości oferowane przez Internet. Oferta edukacyjne uczelni wyższych, w szczególności w Polsce, jest niezwykle uboga i wciąż zbyt mało elastyczna, by nadążać za zmieniającymi się potrzebami rynku. Z pomocą przychodzą m.in. edukacyjne platformy MOOC (ang. Massive Open Online Course), które znacznie szybciej odpowiadają na pojawiające się potrzeby edukacyjne i oferują wartościowy content w bardzo wygodnej dla użytkownika formie. Argumentami przemawiającymi na korzyść platform MOOC są ponadto przystępne ceny oferowanych kursów oraz możliwość nauki w dowolnym czasie i w dogodnym dla kursanta tempie.

Jakie inne alternatywy warto wziąć pod uwagę? Niemniej wartościowe źródło wiedzy stanowią branżowe serwisy internetowe oraz blogi prowadzone przez światowe autorytety w swoich dziedzinach. To właśnie na takich stronach znaleźć można wszelkie rynkowe nowinki, interesujące raporty i analizy, inspirujące wywiady, a także ciekawostki i przykłady rozwiązań wielu realnych problemów biznesowych. Należy być jednak świadomym tego, że nie każdy blog poświęcony tematyce Big Data czy Data Science oferuje wartościowe treści. Pochodną ogromnego zainteresowanie analizą danych jest niemała i stale rosnąca liczbą serwisów internetowych poruszających tematy z nią związane. Jak pośród takiej masy odnaleźć prawdziwe perełki? Poniżej prezentujemy subiektywne zestawienie 7 stron internetowych, które systematycznie odwiedzać powinien każdy analityk danych.

#1 KDnuggets

KDnuggets to jedna z wiodących stron internetowych poświęcona zagadnieniom takim jak: Big Data, Data Science czy Machine Learning. Za jej powstanie odpowiada Gregory Piatetsky-Shapiro – jeden z największych influencerów w branży (więcej o ekspertach Data Science, których warto śledzić przeczytasz tu). Z jakich powodów KDnuggets cieszy się tak dużym uznaniem? Powodów jest co najmniej kilka. Niewątpliwie jest to prawdziwa kopalnia wiedzy, zarówno dla tych, którzy dopiero zaczynają swoją przygodę z analizą danych jak i tych, którzy posiadają już spory bagaż doświadczeń. KDnuggets to codzienna porcja informacji ze świata Big Data, wartościowe raporty, przydatne podczas rozwiązywania wielu problemów biznesowych oraz praktyczne wskazówki publikowane przez branżowe autorytety. To jednak nie wszystko, gdyż strona internetowa Gregory’ego Piatetsky-Shapiro prezentuje również niezwykle szerokie walory edukacyjne. Mowa nie tylko o wartościowych publikacjach, ale również o licznych webinarach i tutorialach, bazie najlepszych kursów i szkoleń, a także zapowiedziach wartościowych konferencji, zaplanowanych są na najbliższe tygodnie. Coś dla siebie znajdą tu również analitycy poszukujący odpowiedniej dla siebie ścieżki certyfikacyjnej w konkretnej dziedzinie, a także chętni do uczestnictwa w lokalnych warsztatach i spotkaniach z pasjonatami i przedstawicielami branży Big Data.

KDnuggets to ponadto ogromna baza ofert pracy oraz firm związanych z Big Data, Data Mining, Machine Learning czy Data Science. Obie zakładki są na bieżąco aktualizowane, stąd też analitycy i badacze danych planujący pierwszy bądź kolejny krok w swojej karierze bez większych trudności znajdą tu mnóstwo różnorodnych możliwości. Co istotne, publikowane w serwisie oferty pracy nie ograniczają się jedynie do rynku amerykańskiego. Coś dla siebie znajdą tu również analitycy chcący rozwijać się na terenie Europy czy Azji.

#2 What’s The Big Data?

Kolejna strona, którą warto dodać do ulubionych to What’s The Big Data? Przyrównując ją do KDnuggets, można powiedzieć, iż jest to raczej niewielki hobbystyczny blog. Rzeczywiście treści jest stosunkowo niewiele, jednak ich jakość rekompensuje tę niewielką wadę. Twórcą bloga jest Gil Press, który posiada wieloletnie doświadczenie w obszarze analizy danych i marketingu, które zdobywał m.in. w Digital Equipment Corporation oraz EMC Corporation. Od kilkunastu lat pracuje na własny rachunek jako konsultant w branży marketingowej, badaniach rynku i analizie danych. Swym bogatym doświadczeniem i własnymi przemyśleniami na temat Big Data, Internet of Things, Artificial Intelligence i innych technologicznych trendów dzieli się nie tylko na swym prywatnym blogu, ale również na łamach magazynu Forbes, z którym związany jest od 2012 roku. Jakie materiały znaleźć można na What’s The Big Data? Tematy podejmowane przez Gila są niezwykle różnorodne, gdyż obejmują zarówno Big Data jak i bezpieczeństwo cybernetyczne, robotyzację procesów, uczenie maszynowe, transformację cyfrową i wiele innych. Szczególnie interesująca jest dedykowana zakładka z linkami do wywiadów przeprowadzonych z praktykami biznesu. Studiując jej zawartość, można dowiedzieć się, jak planowano i przeprowadzono procesy cyfryzacji w poszczególnych organizacjach, jakie wyzwania i zagrożenia niesie za sobą taka reorganizacja czy wreszcie, jakie korzyści może przynieść oparcie kluczowych decyzji w organizacji na analizie danych. Każdy analityk zdoła znaleźć tu cenne wskazówki i informacje podane w bardzo przystępny sposób.

#3 Kaggle

Zdecydowanie najefektywniejszą formą nauki jest praktyka i uczenie się na własnych błędach. Czytanie kolejnych książek i artykułów, tworzonych z myślą o przyszłych badaczach danych nie przyniesie tak dobrych efektów jak połączenie teorii z rozwiązywaniem prawdziwych problemów biznesowych w praktyce. Bez umiejętności przełożenia posiadanej wiedzy i kompetencji technicznych na realia biznesowe odniesienie sukcesu w obszarze Data Science nie będzie możliwe. I właśnie z tego powodu w sieci pojawił się serwis Kaggle. Powstał w 2010 roku, a od 2017 roku znajduje się w bogatym portfolio Google. Wśród szerszego grona internautów nie jest on szczególnie rozpoznawalny, jednak z pewnością znać powinien go każdy analityk. Mimo swego niszowego, analitycznego charakteru posiada aż kilkaset tysięcy zarejestrowanych użytkowników.

Czym jest Kaggle i jakie możliwości edukacyjne oferuje? To nic innego jak serwis crowdsourcingowy adresowany do analityków danych i specjalistów uczenia maszynowego. Platforma konkursowa, która przyciąga firmy z całego świata. Nagrodą dla autora najlepszego rozwiązania konkretnego problemu biznesowego są zwykle niemałe pieniądze. Bywa, że pula nagród w pojedynczym konkursie przekracza milion dolarów! Jak pokazują statystyki serwisu, wysokie nagrody i rywalizacja skutecznie wzmacniają kreatywność analityków danych i pozwalają na znalezienie skutecznych rozwiązań najróżniejszych problemów biznesowych. Angażując się w dostępne w serwisie konkursy można przyczynić się m. in. do zwiększenia skuteczności badań raka płuc czy chorób serca, wspomóc Departament Bezpieczeństwa Wewnętrznego w USA w skuteczniejszym rozpoznawaniu zagrożeń na lotniskach czy też wspomóc osoby planujące zakup nieruchomości w skutecznej ocenie wartości konkretnego domu czy mieszkania. Kilkaset dostępnych obecnie konkursów to doskonała okazja na sprawdzenie swoich możliwości i poddanie ich ocenie specjalistów. Bezcenna, szczególnie dla początkujących badaczy danych, będzie również możliwość uświadomienia sobie, jak istotną rolę odgrywają dane w dzisiejszym świecie i jak wiele różnorodnych problemów można przy ich pomocy rozwiązać.

Pisząc o Kaggle wspomnieć należy również o kilku innych zaletach serwisu. Mowa chociażby o dostępności stosunkowo prostych, wyłączonych z konkursów zadaniach, które przeznaczone są dla początkujących. To doskonały sposób na zdobycie pierwszych doświadczeń w obszarze Data Science i sprawdzenie się w praktyce. Kaggle oferuje ponadto wiele ciekawych zestawów danych, które można bezpłatnie wykorzystać przy realizacji własnych projektów. Każdego miesiąca serwis nagradza 3 nowo dodane bazy danych (łączna pula nagród wynosi 10 000 dolarów), więc o ich dynamiczny przyrost i dużą różnorodność nie należy się martwić.

#4 Simply Statistics

Od badaczy danych wymaga się znajomości statystyki, dlatego też w zestawieniu nie mogło zabraknąć bloga, który traktuje o technikach statystycznych i głębokich analizach danych. Simply Statistics, doskonale spełnia te kryteria. Blog prowadzony jest przez trzech profesorów biostatystyki: Jeffa Leek i Rogera Peng, związanych z Johns Hopkins Bloomberg School of Public Health oraz Rafa Irizarry, pracującego na Harvard and The Dana-Farber Cancer Institute. Ogromne doświadczenie, tytuły i wiodące uniwersytety, na których zatrudnieni są autorzy bloga, mogą budzić obawy o wysoki poziom skomplikowania prezentowanych treści. Zmartwienia te są jednak zupełnie niepotrzebnie. Sugeruje to zarówno nieprzypadkowo wybrany tytuł bloga jak i zapewnienia trójki redaktorów o silnej tendencji do unikania wszelkich niepotrzebnych komplikacji.

Poza wartościowymi postami na temat analizy danych i zastosowaniu technik statystycznych na blogu Simply Statistics znaleźć można również linki do wartościowych szkoleń online, live streamingi z cyklicznie organizowanych konferencji oraz wywiady z przedstawicielami biznesu.

#5 R-bloggers

Zastosowanie języka R w obszarze analizy danych jest niezwykle powszechne, dlatego też warto zaznajomić się z jego strukturą i możliwościami wykorzystania. O jego sile świadczyć może, chociażby fakt, iż wykorzystują go największe korporacje (m.in. Google, Linkedin czy Facebook), a producenci pakietów statystycznych i innych narzędzi analitycznych (m.in. SAS, Tableau czy Statistica) oferują mechanizmy doskonale współpracujące z R.

R-bloggers to platforma, która agreguje treści publikowane na anglojęzycznych blogach poświęconych językowi R. Wykorzystanie takiej formuły pozwala na zapoznanie się w jednym miejscu z wartościowymi artykułami publikowanymi przez ekspertów z całego świata – w dotarciu do tych szczególnie atrakcyjnych pozwalają rankingi najpopularniejszych postów. Naturalnie to nie wszystko, co można tu znaleźć. Godna uwagi jest przede wszystkim zakładka edukacyjna, która opisuje krok po kroku, jak nauczyć się programować w R, gdzie szukać wartościowych informacji oraz jak zaplanować naukę. Analitycy, którzy znają już R, mogą z kolei skorzystać z bogatej bazy ofert pracy z całego świata.

#6 Edwin Chen’s Blog

Ostatni anglojęzyczny blog, o którym warto wspomnieć w kontekście rekomendowanych analitykom danych, nie należy do najczęściej aktualizowanych, jednak każdy z udostępnionych tu postów prezentuje bardzo wysoką wartość merytoryczną i praktyczną stronę analizy danych. Autor – Edwin Chen – w swoich obszernych i bogato ilustrowanych artykułach koncentruje się przede wszystkim na matematyce, uczeniu maszynowym i wizualizacji danych. Ze względu na poziom, jaki reprezentuje Edwin Chen’s Blog, powinien się on spotkać z zainteresowaniem badaczy danych z ugruntowaną wiedzą i większym doświadczeniem zawodowym.

#7 Astrafox

Oczywiście w zestawieniu nie mogło zabraknąć bloga Astrafox, który ma wiele do zaoferowania przede wszystkim w kontekście wizualizacji danych, ich czyszczenia i przygotowywania do analizy, a także zastosowania języka R i możliwości jego połączenia z Tableau. Czego można się dowiedzieć z udostępnionych na stronie artykułów i cyklicznie odbywających się webinarów? Między innymi tego, jak skrócić czas przygotowania i analizy danych o 80%, jak zastosować Tableau w controllingu, jak połączyć Tableau i R w celu usprawnienia procesu prognozowania, jak wykorzystać analizę geograficzną w organizacji i jak przewidzieć rentowność projektów z wykorzystaniem Tableau i Alteryx.