10 darmowych baz danych dla Data Scientist

Sebastian Wareluk

wrz 7, 2017

Tableau

Business Intelligence

Data Science

W dzisiejszym wpisie poruszymy temat ogólnodostępnych danych, które możemy znaleźć w internecie i wykorzystać w swoich pracach. Co ciekawe, jest to zagadnienie bardzo aktualne zarówno wśród osób które zaczynają swoją przygodę w świecie wizualizacji danych jak i dla profesjonalistów, którzy chcą wzbogacić swoje raporty o jakiś kontekst, np. demograficzny czy ekonomiczny.

Z pewnością każdy kto zdecydował się na samodzielne rozwijanie swoich umiejętności w takich narzędziach jak Tableau, na pewnym etapie rozwoju zastanawiał się gdzie może znaleźć dane, które posłużą mu do celów szkoleniowych. Dlatego dzisiaj, dla wszystkich tych których fascynuje odkrywanie Świata przez pryzmat danych, zaprezentujemy 10 popularnych źródeł z których możemy czerpać darmowe data set’y.

1. Zasoby Tableau

Duża większość użytkowników stawiała swoje pierwsze kroki w pracy z aplikacją w oparciu o excelowy ‘Sample superstore’, który mamy do dyspozycji już w chwili instalacji programu. Jest to doskonała baza do odkrywania funkcjonalności i możliwości Tableau. Jej niewątpliwą zaletą jest to, że dostępne w internecie tutoriale, w dużej części bazują właśnie na niej. To dobre rozwiązanie dla początkujących, którzy bez obaw o kompatybilność bazy danych mogą skupić się na samej treści szkolenia.
Jednak zasoby Tableau to nie tylko Superstore. Na portalu Tableau Public, w zakładce „Resources” znajdziemy dział „Sample Data Sets”. To dodatkowe darmowe bazy, podzielone na kategorie takie jak: Government, Science, Lifestyle, Technology czy Health. Pliki są dostępne przeważnie w formatach .xlsx i .csv, wraz z krótkimi opisami czego dotyczą zawarte w nich dane. To bardzo wartościowe zasoby, umożliwiające również naukę użytkownikom z różnych branż w oparciu o bazy które będą lepiej korespondowały z ich codzienną pracą.

2. Makeover Monday

Prawdziwą kopalnią danych które można wykorzystać głównie pod kątem szkoleniowym, jest serwis http://www.makeovermonday.co.uk/. Witryna jest prowadzona przez specjalistów w zakresie wizualizacji danych w Tableau – Evę Murray i Andy Kriebel’a. Poza dostępem do prawie stu archiwalnych plików, możemy liczyć na feedback do naszych prac i uczestniczyć w cotygodniowym warsztacie.
Założenie serwisu jest proste: w każdą niedzielę w zakładce „Data sets” zamieszczana jest nowa wizualizacja lub dashboard, plik z danymi oraz link do oryginalnego artykułu przy którym je pierwotnie opublikowano. Na podstawie tych materiałów, uczestnicy z pełną dowolnością przerabiają wizualizację w taki sposób, żeby jeszcze ciekawiej zaprezentować udostępnione dane. Ponieważ jednym z celów warsztatów jest optymalizacja czasu pracy, serwis rekomenduje zarezerwowanie sobie jednej godziny na wprowadzenie potrzebnych zmian. Gotowe prace zamieszczone na Tableau Public, udostępniamy przez Twittera z hashtagiem #MakeoverMonday. Prace uczestników są komentowane podczas cotygodniowego webinarium oraz w artykułach na blogach Evy i Andy’ego. Makeover Monday to świetna okazja do rozwoju pod okiem najlepszych specjalistów od Tableau na świecie.

3. Data.gov

W kolejnych punktach poruszę kwestie bardzo obszernych źródeł danych, które są udostępniane przez instytucje rządowe lub globalne organizacje. Pierwszym serwisem o którym nie sposób nie wspomnieć jest data.gov. W ramach „Open data”, umożliwia wgląd i pobranie prawie 200 tys. zestawów danych, pogrupowanych tematycznie w 14 głównych kategoriach takich jak klimat, edukacja, ekosystemy, finanse, energia czy badania i nauka.
Open data jest darmowym, publicznie dostępnym zasobem, który stanowi niezwykle ważny element amerykańskiego biznesu. Na zgromadzonych tu danych bazują procesy decyzyjne organizacji, planowane są działania marketingowe oraz prowadzone są badania rynku na podstawie których rozwija się nowe produkty i usługi. Zasoby Federal Open Data pozwalają również na lepsze targetowanie inwestycji czy wspieranie innowacji. Znajdziemy tu nie tylko dane dotyczące całego kraju, ale również takie, które dotyczą pojedynczych miast. Poniżej zamieszczamy przykładowy dashboard, wykonany na podstawie danych Chicago Police Department, dostępnych za pośrednictwem data.gov.

Link: https://public.tableau.com/views/crimes_15/Dashboard?:embed=y&:display_count=yes

4. GUS

Nie zawsze jednak będziemy zainteresowani danymi zagranicznymi. Bardziej tożsame z perspektywy naszego biznesu i co za tym idzie bardziej pobudzające wyobraźnie mogą być dla nas informacje dotyczące Polski. Tutaj z pomocą przychodzi Główny Urząd Statystyczny, który część swoich danych udostępnia do publicznego użytku.
Na szczególną uwagę zasługuje Bank Danych Lokalnych, za pośrednictwem którego dotrzemy do informacji dotyczących takich dziedzin jak gospodarka, fundusze publiczne, narodowe spisy powszechne, ochrona zdrowia i wiele innych. Przechodząc przez kolejne kroki tworzenia extractu wybieramy kategorię i podkategorię danych, zakres lat, oraz poziom podziału terytorialnego. Na ostatnim etapie, dane możemy wyeksportować do pliku .xls i .csv. Bazy udostępniane przez nasze rodzime instytucje niestety nie są aż tak bogate w dane jak te zza oceanu, jednak warto je mieć na uwadze, kiedy przyjdzie nam tworzyć raporty w odniesieniu do regionów z obszaru Polski.

5. World Bank

Jedną z instytucji o zasięgu globalnym która oferuje bezpłatny dostęp do swoich baz danych jest Bank Światowy. Na stronie https://data.worldbank.org/, mamy możliwość wyszukiwania interesujących nas danych hasłowo, korzystając z wyszukiwarki lub przeglądając katalog według kraju lub wskaźnika.
Alternatywnie strona oferuje również szereg skrótów do najważniejszych zasobów, takich jak World Development Indicators czy Global Consumption Database. WDI to zbiór, który przedstawia najbardziej aktualne i dokładne dane dotyczące globalnego rozwoju, obejmując szacunki krajowe, regionalne i globalne. Z poziomu przeglądarki możemy przygotować extract interesujących nas danych w pożądanym zakresie czasowym.
Warto również zajrzeć do ‘Open Data Catalog’, gdzie znajdziemy listę najbardziej popularnych i najczęściej przeglądanych danych w serwisie. To doskonałe materiały, które poza wartością szkoleniową mogą nam pomóc w zbudowaniu merytorycznego kontekstu do prezentacji, w której będziemy pokazywać analizy danych pochodzących z naszej organizacji.

6. OECD (Organizacja Współpracy Gospodarczej i Rozwoju)

Budowanie kontekstu dla danych prezentowanych w obrębie story w Tableau, może się okazać bardzo istotnym elementem kiedy naszym celem jest na przykład pokazanie skali jakiegoś zjawiska. Kolejnym zbiorem który oferuje nam dane mogące posłużyć do tego celu jest baza danych OECD.
Pod adresem http://stats.oecd.org/ znajdziemy bardzo obszerne dane związane głównie z ekonomią i gospodarką, ale nie tylko. Kompleksowe zbiory obejmują informacje dotyczące wielu innych dziedzin takich jak ochrona zdrowia, środowisko, rozwój, finanse, transport itp. Podobnie jak w przypadku Banku Światowego, z poziomu przeglądarki stworzymy extract, który standardowo możemy wyeksportować w formatach xlsx i csv.
Wracając do tematu kontekstowego dashboardu o którym wspominałem w poprzednim punkcie – wyobraźmy sobie, że mamy za zadanie stworzyć story, na temat wydatków w Stanach Zjednoczonych w jednym z obszarów finansowania służby zdrowia. Jeśli nie jesteśmy przekonani co do tego, czy nasi odbiorcy są zorientowani w skali budżetu USA w stosunku do innych krajów, możemy właściwą prezentację poprzedzić bardzo prostym dashboardem stworzonym właśnie na podstawie wyciągu danych z bazy OECD. Jego przygotowanie jest bardzo szybkie, jednak daje pewien szerszy pogląd na kolejne elementy prezentacji.

Link: https://public.tableau.com/views/Samplecontextdashboard/Context?:embed=y&:display_count=yes

7. WHO (Światowa Organizacja Zdrowia)

Jeśli jesteśmy zainteresowani danymi dotyczącymi stanu zdrowia ludności, koniecznie musimy odwiedzić stronę World Health Organization. W swoim serwisie http://apps.who.int/gho/data/node.imr w obrębie zasobów Global Health Obserwatory WHO udostępnia dane dotyczące zdrowia mieszkańców wszystkich 194 państw członkowskich. Do dyspozycji mamy ponad 1000 wskaźników związanych z najważniejszymi zagadnieniami zdrowotnymi takimi jak śmiertelność, żywienie wśród dzieci, zdrowie reprodukcyjne, szczepienia, HIV/AIDS, gruźlica, malaria, choroby niezakaźne czy ich czynniki ryzyka.
Większość dostępnych baz jest na bieżąco aktualizowana o cyklicznie zbierane nowe dane. Te zaś są gromadzone w oparciu o sprawdzone metodologie w taki sposób, żeby możliwie najlepiej opisywały omawiane zjawiska.

8. Global Terrorism Database

Inną ciekawą bazą danych jest dostępna pod adresem https://www.start.umd.edu/gtd/ Global Terrorism Database. To bardzo aktualne źródło, zawierające informacje o incydentach o podłożu terrorystycznym, które miały miejsce we wszystkich krajach świata, na przestrzeni lat 1970 -2016. Baza ma charakter open-source i jest cały czas rozwijana. O jej unikalności stanowi fakt, że zawiera dużo szczegółowych informacji na temat każdego rekordu, takich jak motyw ataku, rodzaj użytej broni, cel, liczba ofiar itd. To również doskonały materiał z którym można zgłębiać swoje umiejętności developerskie w Tableau – pozwoli nam na zaprojektowanie wielu ciekawych wizualizacji, nie zabraknie również danych do stworzenia bogatych w informacje dashboardów czy story. GTD jest dość popularnym źródłem wśród użytkowników Tableau, dlatego jeśli zabraknie nam pomysłu na interpretacje danych, możemy poszukać inspiracji w galerii Tableau Public. Z łatwością znajdziemy prace bazujące na tym data secie a autorzy części z nich udostępniają również do pobrania całe workbooki.

9. Web Data Conenctors

Dzięki Web Data Connectors, możemy łączyć się z bardzo wieloma ciekawymi źródłami danych, które niejednokrotnie zaskoczą nas tym, do jakich informacji możemy dotrzeć z poziomu Tableau. Pokażemy dzisiaj 4 naszym zdaniem najciekawsze connectory, zaczynając od serwisów społecznościowych. Zanim jednak przejdziemy do sedna, w telegraficznym skrócie przypomnimy jak z nich korzystać.

Po otworzeniu Tableau, mamy do wyboru opcje połączenia z danymi z plików lub połączenie z serwerem. Na liście serwerowej, wybieramy opcje „Web Data Connector”. Wyświetli się nowe okno, w którym aplikacja poprosi nas o wklejenie linku do connectora. Dalsze kroki są już zależne od konkretnego typu połączenia. Natomiast postępując zgodnie z instrukcjami na ekranie, będziemy musieli zalogować się na swoje konto do serwisu z którym się łączymy lub wybrać zakres interesujących nas danych. Po zaimportowaniu danych do Tableau naszym oczom ukaże się znajomy już widok wyboru tabel.

Facebook

Z Facebookiem połączymy się za pomocą dwóch connectorów udostępnionych przez autora bloga tableujunkie.com:

http://files.tableaujunkie.com/facebooksearch/userfeedwebconnect.html

http://files.tableaujunkie.com/facebooksearch/pagefeedwebconnect.html

Pierwszy z nich pozwoli nam pobrać informacje o naszym osobistym wallu, drugi natomiast dostarczy danych o fanpage’u. Żeby jednak pobrać dane dotyczące fanpage’a, musimy być jego administratorem, bo Tableau w pierwszej kolejności poprosi nas o zalogowanie do konta użytkownika. W kolejnym kroku, będziemy mogli wybrać interesującą nas pozycję z listy zarządzanych spod danego konta stron.
Jakie dane udostępnia Facebook? W przypadku konta osobistego są to informacje skupione na wallu użytkownika. Ilość i rodzaj postów, ilość polubień, komentarzy i udostępnień, informacje o użytkownikach którzy zareagowali na nasze aktywności oraz o tych, którzy coś na naszym wallu opublikowali. Dodatkowo dowiemy się o rodzaju publikowanej treści i o tym, jak nasza aktywność rozkładała się w czasie.
Connector do fanpage’a to głównie statystyki strony – całkowita ilość polubień oraz ilość nowych polubień, i reakcje fanów na nasze posty. W przeciwieństwie do kont użytkowników nie zidentyfikujemy tu nikogo z imienia i nazwiska.

Twitter
Kolejnym naszym źródłem może być Twitter. Pochodzący również z tableaujunkie.com connector nie wymaga logowania do konta użytkownika, natomiast umożliwia pobieranie informacji o pojedynczych hashtagach lub wzmiankach. Choć istnieje pewne ograniczenie generowanych rekordów, to z zaimportowanych danych dowiemy się o ilości tweetów na dany temat, strefach czasowych użytkowników, ilości retweetów, czy ilości followersów tweetującej osoby.
Twitter WDC: http://files.tableaujunkie.com/twittersearch/twitterwebconnect.html

Spotify
Swoje dane udostępniają nie tylko portale społecznościowe, ale również takie serwisy jak Spotify. Połączenie z kontem użytkownika umożliwi nam dostęp do tabel takich jak: ‘Albums’, ‘Artists’, ‘Top Artists’, ‘Top Tracks’ i ‘Tracks’. Tabele oczywiście możemy ze sobą dowolnie łączyć a dane w nich zawarte umożliwią nam stworzenie spektakularnego dashboardu mówiącego o naszych muzycznych upodobaniach. Poza standardowymi danymi które znamy z aplikacji Spotify, na poziomie każdego utworu, będziemy mieli do dyspozycji takie informacje jak:

  • Acousticness
  • Danceability
  • Energy
  • Instrumentalness
  • Liveness
  • Loudness
  • Song Duration
  • Speechiness
  • Tempo
  • Valeance

Spotify WDC: http://spotify-wdc.azurewebsites.net/

Interworks
Ostatnim connectorem który pokrótce omówimy, jest produkt firmy Interworks. Umożliwia on połączenie Tableau z wieloma źródłami danych, między innymi z zasobami Socrata – największej obecnie firmy zajmującej się przetwarzaniem amerykańskich danych rządowych, czyniąc je bardziej użytecznymi i łatwiejszymi do analizy.
Connector sam w sobie oferuje połączenie z tak ogromną ilością baz danych, że mógłby być tematem osobnego artykułu. Jednak dzisiaj skupimy się tylko na najważniejszej kwestii, mianowicie na instrukcji połączenia, ponieważ w tym przypadku proces wygląda nieco inaczej niż powyżej.
Sam connector uruchamiamy tak jak wszystkie poprzednie, ale wykorzystując link Interworks:
https://wdc.interworks.com/

Wybieramy opcję Socrata, i w następnym kroku będziemy musieli podać adres i symbol interesującej nas bazy danych.
Żeby uzyskać te informacje, wchodzimy na stronę www.opendatanetwork.com. Możemy tu znaleźć multum informacji na każdy temat, a przeszukiwanie zasobów ułatwi nam mapa kategorii na dole strony.

Po wyborze interesującego nas tematu, strona wyświetli listę baz danych które znajdują się w jej zasobach. Kiedy wejdziemy na stronę konkretnej bazy, URL w pasku adresu przeglądarki przybierze formę podobną do poniższego przykładu. Jego końcówka, będzie zawierała źródło i symbol, których będziemy potrzebowali w Tableau.

Wracamy do samego connectora i wklejamy namiary bazy kolejno do pola „Socrata site” i „Dataset ID”. Następnie zatwierdzamy, klikając „Get data”. Jeśli wszystko przebiegło poprawnie, Tableau zacznie przetwarzać zapytanie. Po zakończeniu, naszym oczom ukaże się znany już widok wyboru tabel.
Jeśli zaś chodzi o same bazy danych, to pod wcześniej wspomnianym adresem www.opendatanetwork.com znajdziemy obszerny zbiór będący w dyspozycji Sorcata. Nie będziemy dzisiaj robić przeglądu tych źródeł, natomiast za całą pewnością warto się z nimi zapoznać samodzielnie i przetestować działanie WDC.

10. Dane są niemal wszędzie

Wizualizacja danych to nie tylko umiejętność którą możemy wykorzystywać na co dzień w pracy ale i coś w czym wiele osób odnajduje swoją pasję, bardzo dobrze się przy tym bawiąc. Świadczą o tym tysiące rozmaitych prac w galerii Tableau Public, które w pewnej części mimo braku zastosowania biznesowego po prostu pokazują pomysłowość autora i potencjał Tableau. Źródłem danych do takich wizualizacji może być dosłownie wszystko, nawet tekst książki. Przykłady? Oto jeden z wielu:

Link: https://public.tableau.com/views/PanTadeusz/Dashboard2?:embed=y&:display_count=yes&publish=yes

Przedstawione w niniejszym artykule serwisy internetowe udostępniające dane do publicznego, darmowego użytku, stanowią pewną sugestię z naszej strony odnośnie tego, gdzie można znaleźć ciekawe i wartościowe zasoby mogące posłużyć do nauki bądź pracy przy wizualizacji danych. Poza jednym przypadkiem (GTD), naszą ambicją nie było wskazanie gotowych baz, a jedynie źródeł w których można je samodzielnie znaleźć. Dlatego zapewne mogą się zdarzyć sytuacje, w których nie wszystkie zasoby będą zgodne z opisami lub dostępne pod linkami które wskazuje dany serwis. Warto jednak wykorzystać powyższe wskazówki i poświęcić trochę czasu na znalezienie interesujących nas data setów. Każda praktyka, nawet taka w której tworzymy dashboardy nie mają żadnego odniesienia do naszego codziennego biznesu niesie ze sobą ogromną wartość. Zarówno w zakresie zdobywania nowych umiejętności w Tableau jak i przede wszystkim poznawania Świata z perspektywy danych.

Link do Tableau Trial: http://tableau.astrafox.pl/pobierz_Tableau