Kim jest Data Scientist?
Zwrot „Data Scientist” został użyty po raz pierwszy w 2008 roku na Facebooku i Linkedinie przez DJ Patila i Jeffa Hammerbachera do określenia swojego zawodu. Od tamtej pory hasło „Data Scientist” znacznie zyskało na popularności, a na rynku pracy pojawił się nowy tytuł zawodowy.
W języku polskim funkcjonuje kilka tłumaczeń „Data Scientista”, jednak zdecydowanie popularniejsza jest oryginalna wersja. Data Scientist jest tłumaczony jako danolog, naukowiec danych lub też mistrz danych. Ostatnie z wspomnianych brzmi szczególnie zagadkowo, więc kim właściwie jest ten mistrz danych? W dalszej części artykułu pozwolę sobie używać angielskiej wersji, która brzmi zdecydowanie poważniej.
W dużym skrócie, Data Scientist jest nowym rodzajem analityka danych, który wykorzystuje w swojej pracy matematykę, statystykę i informatykę. Śledzi i zna najnowsze technologie, posiada umiejętności logicznego myślenia, zna języki programowania, a wzory matematyczne i modele statystyczne go nie przerażają. Jest to współczesny rodzaj statystyka, który przy wykorzystaniu odpowiednich narzędzi komputerowych potrafi przetwarzać ogromne ilości danych. Zakres wiedzy Data Scientista obejmuje również dziedziny, z których pochodzą analizowane przez niego dane. Jest to osoba elastyczna, charakteryzująca się ponadprzeciętnymi zdolnościami analitycznymi, która bardzo często jest łącznikiem pomiędzy środowiskiem specjalistów (informatyków i statystyków), a środowiskiem biznesowym (zarządem itp.).
W zasadzie odpowiedź na tytułowe pytanie została udzielona, jednak myślę, że warto przyjrzeć się bliżej pracy Data Scientista. Czym dokładnie się zajmuje? Z jakich narzędzi korzysta? Jakie są perspektywy zawodu? Zapraszam do przeczytania niniejszego artykułu.
Czym zajmuje się Data Scientist?
Data Scientist współpracuje z zarządem organizacji, który przekazuje mu cele biznesowe. Gdy cele są już określone, to Data Scientist ustala w jaki sposób można wykorzystać dane do ich osiągnięcia. Do jego obowiązków należy między innymi zbieranie oraz przetwarzanie dużych ilości danych, zarządzanie bazami danych oraz ich tworzenie, szukanie zależności i wyciąganie wniosków. Poniżej przedstawiony jest przykładowy dzień pracy Data Scientista:
1. Spotkanie z zarządem/klientem, zapoznanie się z celem biznesowym
2. Zebranie odpowiednich danych
3. Przetworzenie danych w celu uzyskania odpowiedniej struktury
4. Przeprowadzenie analizy statystycznej, znalezienie trendów i zależności
5. Stworzenie modelu uczenia maszynowego
6. Wizualizacja danych oraz wyciągnięcie odpowiednich wniosków
7. Prezentacja wyników pracy
Z jakich narzędzi korzysta Data Scientist?
Python | Scala | R – języki programowania znajdują bardzo szerokie zastosowanie. Przy ich użyciu dane mogą być zbierane, przetwarzane, analizowane i wizualizowane. Przy wykorzystaniu języków programowania tworzy się również modele uczenia maszynowego, które są coraz bardziej istotną częścią Data Science.
SQL – jest to uniwersalny język zapytań, który służy do komunikacji z systemami zarządzania relacyjnymi bazami danych. Za pomocą SQLa można tworzyć nowe bazy danych, dodawać do nich nowe rekordy oraz usuwać inne. Najistotniejszą funkcją jest możliwość wyciągania z relacyjnych baz danych odpowiednich informacji oraz ich przetwarzanie. Przykładowymi systemami zarządzania relacyjnymi bazami danych mogą być: MySQL, PostgreSQL, Oracle Database, Snowflake Database.
Tableau | PowerBI | Excel – są to narzędzia do wizualizowania danych. Prostota obsługi oraz intuicyjność przyczynia się do tego, że tworzenie wizualizacji w omawianych narzędziach przebiega znacznie szybciej niż przy wykorzystaniu języków programowania. Można skorzystać z gotowych wzorców, wykresy są estetyczne oraz można je w prosty sposób dostosowywać do własnych potrzeb.
Spark | Hadoop – są to narzędzia do przetwarzania dużych zbiorów danych, które znacznie przyspieszają ten proces. Spark został stworzony w Scali, a Hadoop w Javie, jednak z obu narzędzi można korzystać przy pomocy Pythona i R. Do tego celu stworzone zostały specjalne interfejsy, np. PySpark oraz RSpark.
Umiejętności oraz cechy charakteru Data Scientista
Znajomość narzędzi byłaby bezużyteczna, gdyby Data Scientist nie posiadał odpowiednich umiejętności. O jakich umiejętnościach mowa?
Umiejętność przetwarzania danych – dane mogą pochodzić z różnych źródeł, które mogą charakteryzować się różną strukturą oraz jakością danych. Bywa też tak, że dane nie posiadają żadnej struktury, z czym Data Scientist też musi sobie poradzić. Odpowiednie przygotowanie danych – ustrukturyzowanie, oczyszczenie oraz sprawdzenie kompletności – jest kluczowe i znacznie ułatwia dalszą pracę.
Umiejętność rozwiązywania problemów – jest to podstawa pracy Data Scientista z tego względu, że dane bardzo często wykorzystywane są do rozwiązywania problemów klientów/organizacji. Nieodłączną częścią programowania jest tworzenie, znajdowanie oraz poprawianie błędów, więc omawiana umiejętność jest również bardzo przydatna podczas pracy z językami programowania.
Umiejętność odpowiedniego stosowania matematyki i statystyki – testów oraz metod statystycznych jest wiele, jednak są one użyteczne tylko wtedy, gdy zastosujemy je w odpowiedni sposób – do odpowiedniego przypadku, do odpowiednich danych, w odpowiednim czasie. Nieumiejętne stosowanie matematyki i statystyki mogłoby skończyć się błędnymi wnioskami, które nie przybliżyłyby klienta do celu.
Dobrze rozwinięte umiejętności interpersonalne – kontakty z ludźmi są codziennością w pracy Data Scientista, więc wymagane są dobre zdolności komunikacyjne. Data Scientist podczas swojej pracy rozmawia nie tylko ze specjalistami, ale również z osobami, dla których specjalistyczny język będzie niezrozumiały. Umiejętności interpersonalne stają się coraz ważniejsze dla pracodawców, więc warto nad nimi pracować.
Umiejętność prezentacji wyników analizy – każda analiza traci swoją wartość, gdy nie jesteśmy w stanie przedstawić wyników w przystępny sposób. Osoby nietechniczne mogą nie zrozumieć specjalistycznego języka oraz rozbudowanych wykresów, więc wnioski trzeba przekazać w możliwie jak najprostszy sposób. Do omawianego podpunktu wlicza się również umiejętnośc przemawiania przed grupą ludzi, co wielu osobom może sprawiać trudnosć.
Można wyróżnić również cechy charakteru, które znacznie ułatwiają pracę Data Scientista. Należą do nich:
– wrodzona ciekawość,
– dokładność
– cierpliwość,
– kreatywność,
– pewność siebie,
– sceptyczne nastawienie.
Jaka jest różnica pomiędzy Data Scientist, a Data Analyst?
Oba zawody łączy analiza danych, jednak wspomnianych terminów nie można stosować zamiennie. Istnieje spora różnica pomiędzy Data Scientistem, a Data Analystem.
Do obowiązków Data Analysta należy przede wszystkim analiza danych. Zazwyczaj nie jest on pośrednikiem pomiędzy zarządem organizacji, a specjalistami. Nie formułuje samodzielnie celów, a pomaga w ich realizacji. Można uznać, że zakres obowiązków Data Scientista jest znacznie szerszy i jest to rola przeznaczona dla bardziej doświadczonych pracowników w branży Data Science.
Data Scientist zajmuje się również uczeniem maszynowym, co zazwyczaj nie należy do obowiązków Data Analysta.
Oba zawody łączy część analizy, wizualizacji oraz prezentacji danych. Bardzo często Data Scientist nadzoruje tę część projektu lub też bierze w niej czynny udział. Do niedawna Data Scientist rozumiany był ogólnie jako pracownik w branży Data Science, ale wraz z upływem czasu wyróżniono inne role zajmujące się konkretnymi zadaniami, pośród których znalazł się również Data Analyst.
Data Scientist jest osobą elastyczną, bardziej doświadczoną, posiadającą wiedzę z zakresu Data Science oraz dziedziny, której dotyczą dane. Zakres obowiązków Data Analysta obejmuje głównie analizę danych, a wraz ze zdobywanym doświadczeniem i umiejętnościami, Data Analyst może awansować na Data Scientista.
Perspektywy Data Scientista
Według Platformy Przemysłu Przyszłości, do 2025 roku generować będziemy 175 zetabajtów danych. Odpowiada to 197 032 483 697 460 000 megabajtom. Dla porównania, zdjęcie robione smartfonem waży ok. 2 megabajty.
W roku 2022 wygenerujemy 60-80 zetabajtów danych. Znaczna część z nich niesie ze sobą wartościowe informacje, które przy wykorzystaniu odpowiednich narzędzi mogą zostać wydobyte. Wydobywanie wartościowych informacji z ogromnych ilości danych należy do obowiązków Data Scientista, przez co zapotrzebowanie na jego usługi jest już bardzo duże. W ciągu najbliższych lat generowane dane wzrosną ponad dwukrotnie, a razem z generowanymi danymi wzrośnie zapotrzebowanie na Data Scientistów.
Ważnym aspektem jest również dynamiczny rozwój sztucznej inteligencji, w szczególności branży uczenia głębokiego. W ciągu najbliższych lat zapotrzebowanie na specjalistów uczenia maszynowego zdecydowanie wzrośnie, a Data Scientist z pewnością zalicza się do tego grona.
Według Ogólnopolskiego Badania Wynagrodzeń, przeciętne zarobki Data Scientista w styczniu 2022 roku wynosiły od 7 330 zł do 12 090 zł.
Podsumowanie
Data Scientist to elastyczna osoba, posiadająca wiedzę z zakresu matematyki, statystyki i informatyki. Zajmuje się przetwarzaniem i analizowaniem danych, a dodatkowo rozwojem sztucznej inteligencji. Data Scientist zna najnowsze technologie, potrafi rozwiązywać skomplikowane problemy i sprawnie komunikować się z nietechnicznymi osobami. Można stwierdzić, że jest to rodzaj nowoczesnego statystyka.
W swojej pracy korzysta z wielu narzędzi komputerowych, które umożliwiają przetwarzanie i analizę ogromnych ilości danych. Do narzędzi wykorzystywanych przez Data Scientista można zaliczyć:
– języki programowania (Python, R, Scala)
– język zapytań SQL
– narzędzia służące do wizualizacji danych (Tableau, PowerBI, Excel)
– narzędzia służące do przetwarzania dużych ilości danych (Hadoop, Spark)
Data Scientist powinien charakteryzować się wrodzoną ciekawością, sceptycznością, dokładnością, kreatywnością oraz pewnością siebie. Do zestawu umiejętności dobrego Data Scientista zaliczyć można:
– umiejętności przetwarzania danych
– umiejętności analityczne
– zdolność rozwiązywania problemów
– umiejętność odpowiedniego stosowania matematyki i statystyki
– dobrze rozwinięte umiejętności interpersonalne
– umiejętność prezentacji wyników analizy
Ilość generowanych danych wzrasta z roku na rok, a razem z nią zapotrzebowanie na Data Scientistów na rynku pracy. Ofert pracy dla Data Scientistów nie brakuje, a będzie ich jeszcze więcej. Jest to również bardzo dobrze płatny zawód, który daje poczucie bezpieczeństwa i stabilności.
Data Scientist z pewnością zalicza się do zawodów przyszłości, więc warto związać z nim swoją karierę zawodową. Jest to wszechstronna osoba posiadająca szeroki zakres umiejętności, więc droga do uzyskania omawianego tytułu zawodowego nie jest prosta. Podczas nauki napotkamy wiele trudności, jednak jest to wysiłek, który zapewni nam ciekawą i dobrze płatną pracę, z wieloma możliwościami rozwoju oraz poczuciem bezpieczeństwa i stabilności. Zapraszam do zapoznania się z artykułem: Jak zostać Data Scientist?, w którym przedstawione są konkretne działania i przykładowa ścieżka rozwoju. Pomocne mogą okazać się również nasze szkolenia, podczas których poznasz narzędzia wykorzystywane przez Data Scientistów, wyrobisz poprawne nawyki podczas pracy z danymi i zdobędziesz wartościową wiedzę z branży Data Science.