Czym jest Data Science?
Data Science jest hasłem, które w ostatnich latach znacząco zyskało na popularności. W języku polskim możemy również spotkać się z terminem „danologia”, jednak zdecydowanie popularniejsza jest angielska wersja. Z nazwy możemy wywnioskować, że jest to branża zajmująca się danymi.
Źródło danych: Google Trends
Ilość generowanych danych wzrasta wykładniczo z roku na rok, do czego przyczynia się każdy z nas – komentując posty na Facebooku, wstawiając zdjęcia na Instagramie, wyrażając swoją opinię na Twitterze, korzystając z kart lojalnościowych sklepów spożywczych, dokonując transakcji kartą płatniczą.
Dane, które generujemy, są bardzo wartościowe dla biznesu. Dzięki nim biznes jest w stanie poznać nasze preferencje, przekonania oraz potrzeby. Tworzone są nawet modele predykcyjne, które z dużym prawdopodobieństwem są w stanie określić czy jesteśmy w danym momencie w ciąży. Posiadając wspomniane informacje, zdecydowanie prościej jest dotrzeć do klienta – w odpowiednim momencie zaproponować zniżkę na konkretne produkty, zareklamować pieluchy lub też przesłać spersonalizowaną ulotkę.
W ostatnich latach problemem stała się ilość generowanych danych – jest ich tak dużo, że człowiek bez pomocy komputera nie jest w stanie ich odpowiednio przetwarzać. Do wyciągania wartościowych wniosków na podstawie dużej ilości danych potrzebujemy osoby, która posiada wiedzę z zakresu matematyki, statystyki oraz programowania. Można stwierdzić, że Data Science jest połączeniem wspomnianych trzech dziedzin, jednak byłoby to znaczne uproszczenie. W tym artykule rozwiniemy pojęcie Data Science, dzięki czemu zrozumiesz czym właściwie jest ta branża.
Źródło danych: S. Mohanty, S. Routray
Definicja
Jak podaje angielska Wikipedia, Data Science rozumiane jest jako interdyscyplinarna dziedzina, która korzysta z naukowych metod, procesów, algorytmów i systemów do wydobywania wartościowej wiedzy z danych.
Mówiąc prościej, Data Science można rozumieć jako dziedzinę, która korzysta z metod statystycznych oraz języków programowania w celu wydobywania wartościowych informacji z danych.
Dane mogą pochodzić z różnych miejsc i dotyczyć różnych zagadnień. Do ich zrozumienia oraz wyciągnięcia odpowiednich wniosków wymagana jest również wiedza z konkretnej dziedziny, której dane dotyczą. Data Science przetwarza dane związane z bankowością, logistyką, branżą e-commerce, medycyną, astronomią oraz wieloma innymi.
Czym właściwie są dane? Z pewnością każdy z nas jest tego świadomy, jednak podanie definicji mogłoby sprawić pewne trudności. Dla ścisłości, warto ponownie przytoczyć angielską Wikipedię, która określa dane jako fakty, statystyki oraz informacje (często numeryczne), na podstawie których możemy wnioskować i podejmować decyzje.
Krótka historia branży Data Science
Pierwszy raz terminu „Data Analysis”, który obecnie rozumiany jest jako „Data Science”, użyto na początku lat 60. XX wieku. John Tukey zaczął rozważać czy jego przedmiotem zainteresowań jest wciąż statystyka i matematyka, a może za sprawą komputerów jest to już inna dziedzina. Wykorzystywanie komputerów w matematyce i statystyce znacząco zmieniło charakter pracy we wspomnianych dziedzinach, co można uznać za początek branży Data Science.
W drugiej połowie XX wieku ilość generowanych i przetwarzanych danych wzrastała z roku na rok, a termin „Data Science” pojawiał się coraz częściej w pracach naukowych. W 1999 roku Jacob Zahavi zauważył, że tradycyjne metody statystyczne radzą sobie dobrze z małą ilością danych, jednak zaczynają pojawiać się problemy z większymi zbiorami. Ówczesne zbiory danych zaczęły przerastać możliwości konwencjonalnych metod statystycznych, przez co zaistniała konieczność stworzenia nowych narzędzi do przetwarzania danych, do czego wykorzystano komputery.
W 2002 roku swoją działalność rozpoczęło czasopismo Data Science Journal. Pierwszy opublikowany artykuł dotyczył problemów z opisywaniem systemów danych, ich publikacji w Internecie oraz problemów prawnych. Data Science Journal działa nieprzerwanie od 2002 roku i jest obecnie najpopularniejszym czasopismem dotyczącym branży Data Science.
DJ Patil i Jeff Hammerbacher w 2008 roku użyli zwrotu „Data Scientist” do określenia swojego zawodu na Linkedinie oraz Facebooku. Od tego czasu określenie Data Scientist zaczęło znacznie zyskiwać na popularności.
W 2013 roku IBM opublikowało raport, z którego wynika, że 90% kiedykolwiek wygenerowanych danych pochodziło z poprzednich dwóch lat.
W 2015 roku Google zwiększyło liczbę projektów wykorzystujących uczenie głębokie do ponad 2700. Wcześniej uważano, że AI (Artificial Intelligence) wykorzystywane jest sporadycznie. Był to przełomowy rok dla rozwoju sztucznej inteligencji, która obecnie jest jedną z najważniejszych części Data Science.
Obecnie komputery są nieodłączną częścią danych, a zapotrzebowanie na specjalistów w branży Data Science wzrasta z roku na rok. Ilość wytwarzanych danych stale wzrasta, co stwarza kolejne problemy, a jednocześnie zmusza nas do rozwoju technologii, żeby sprostać nowym wyzwaniom.
Biorąc pod uwagę rozwój Data Science w ciągu ostatnich kilkunastu lat, ciężko jest sobie wyobrazić jak omawiana branża może wyglądać za 10 lat. Czy autonomiczne samochody zastąpią kierowców zawodowych? Czy samoobsługowe kasy zmniejszą liczbę etatów w sklepach spożywczych? Czy każdy z nas będzie posiadał robota-asystenta, który będzie pomagał w naszych codziennych obowiązkach? Wizja takiego świata wciąż może wydawać się abstrakcyjna, jednak z każdym rokiem staje się to coraz bardziej realne, za co odpowiada rozwój branży Data Science. Jedno jest pewne: Data Science jest przyszłościową dziedziną, która może – i najprawdopodobniej to zrobi – zrewolucjonizować dotychczasowy świat.
Data Analyst, Data Engineer, Machine Learning Engineer, Data Scientist – kim są?
W branży Data Science wyróżniamy kilka ról, które odpowiadają za konkretne zadania:
Data Scientist (mistrz danych) jest mózgiem projektów w branży Data Science. Data Scientistów charakteryzuje rozległa wiedza z zakresu matematyki, statystyki i programowania. Są oni wszechstronni, a w swojej pracy wykorzystują wiele narzędzi. Data Scientista trudno jest objąć jedną definicją z tego względu, że obecnie każdy potencjalny pracodawca rozumie tę rolę inaczej. Jest to osoba, która jest bardzo elastyczna i posiada ogólną wiedzę dotyczącą branży Data Science – potrafi zbierać, przetwarzać, analizować oraz wizualizować dane, a dodatkowo posiada wiedzę i umiejętności z zakresu sztucznej inteligencji. Do niedawna Data Scientist rozumiany był jako pracownik branży Data Science, jednak wraz z rozwojem technologii zaczęły powstawać nowe role, które specjalizują się w konkretnych zadaniach. Jeżeli chciałbyś dowiedzieć się więcej o roli Data Scientista, to zapraszam do zapoznania się z innym artykułem.
Data Analyst (analityk danych) zajmuje się wydobywaniem intersujących nas danych oraz ich analizą. Analizę kończy raport, który pomaga w wyciągnięciu wniosków oraz w podjęciu odpowiednich decyzji (np. biznesowych). Data Analyst korzysta z narzędzi takich jak: SQL, Tableau, Python, R, Excel.
Data Engineer (inżynier danych) zbiera, przetwarza oraz odpowiednio organizuje dane. Jego zadaniem jest tworzenie oprogramowania do przetwarzania danych i projektowanie oraz utrzymywanie baz danych. Celem Data Engineera jest to, żeby pozostali członkowie zespołu mieli szybki i łatwy dostęp do uporządkowanych danych. Przykładowe narzędzia wykorzystywane przez Data Engineera to: Python, R, Spark, SQL.
Machine Learning Engineer (inżynier uczenia maszynowego) to osoba, która uczy komputery podejmowania prawidłowych decyzji na podstawie wprowadzonych danych. Machine Learning Engineera w najprostszy sposób można rozumieć jako osobę, która zajmuje się rozwojem sztucznej inteligencji oraz uczy komputery podejmowania samodzielnych decyzji. Inżynierowie uczenia maszynowego wykorzystują w swojej pracy przede wszystkim języki programowania.
Data Science Lifecycle
Sposób pracy nad projektami Data Science przedstawiono na poniższej grafice. Jest to uogólnienie, które dobrze ukazuje charakter projektów w branży Data Science.
Pierwszym etapem zawsze jest zrozumienie problemu. Jest to bardzo ważny etap, który wpływa na charakter pracy w dalszych etapach projektu. Jeżeli problem nie zostanie odpowiednio zrozumiany, to projekt może zakończyć się niepowodzeniem. Każdy z członków zespołu musi rozumieć sens swoich działań, więc na tym etapie angażowani są wszyscy – od Data Analysta po Machine Learning Engineera.
W drugim etapie zbiera się i przygotowuje dane do dalszej analizy. Dane mogą pochodzić z różnych źródeł, a każde źródło może charakteryzować się inną strukturą oraz jakością. Na potrzeby dalszej analizy, dane muszą zostać ujednolicone, dzięki czemu praca w dalszych etapach projektu będzie znacznie ułatwiona. Po ujednoliceniu danych trzeba również sprawdzić ich prawidłowość – czy nie ma w nich błędów oraz czy dane są kompletne. Jest to etap, którym zajmuje się Data Engineer.
Trzecim etapem jest analiza danych. W tym etapie należy przyjrzeć się danym, wyliczyć miary statystyczne, przeprowadzić testy statystyczne oraz znaleźć pewne zależności. Jest to zadanie, którym zajmuje się Data Analyst oraz Data Scientist.
Po przeprowadzeniu analizy, można przejść do uczenia maszynowego. Jest to czwarty etap, w którym Machine Learning Engineer i Data Scientist dobierają odpowiednie algorytmy i uczą komputer odpowiadać na konkretne pytania. Jest to zabieg, który pozwala na automatyzację procesu analizy, co jest bardzo przydatne w przypadku cyklicznych analiz. Etap ten nie jest wymagany w każdym projekcie – niektóre analizy przeprowadzane są jednorazowo, więc nauka komputerów nie jest wymagana.
Ostatnim etapem jest wizualizacja danych i wyciągnięcie odpowiednich wniosków. Człowiekowi zdecydowanie prościej zrozumieć liczby przedstawione na wykresach, więc odpowiednia wizualizacja danych jest bardzo istotna. Jest to etap, w którym wyciągnięte wnioski powinny rozwiązać problem z początku cyklu. Możliwe, że nasze wnioski stworzą kolejne problemy wymagające rozwiązania, dzięki czemu cykl rozpocznie się od początku. Jest to etap, w którym udział bierze Data Scientist, Data Analyst oraz Machine Learning Engineer.
Kto z tego korzysta?
Trudność tego pytania wynika z faktu, że obecnie ciężko jest znaleźć dziedzinę życia, w której Data Science nie miałoby zastosowania. Data Science wykorzystuje się w sektorze finansowym, logistyce, handlu, służbie zdrowia, edukacji, astronomii, meteorologii itd. Pomyśl o jakiejkolwiek branży i z pewnością znajdziesz kwestię, którą Data Science mogłoby ulepszyć.
Przykłady zastosowań:
– wychwytywanie prób oszustw w bankowości,
– zarządzanie ryzykiem w bankowości,
– tworzenie inteligentnych chatbotów,
– tworzenie autonomicznych samochodów,
– określanie preferencji klientów,
– oferowanie klientom spersonalizowanych ofert promocyjnych,
– automatyzacja raportów,
– wspomaganie decyzji inwestycyjnych na giełdzie,
– prognozowanie pogody,
– przetwarzanie ogromnych ilości danych astronomicznych.
Czy Data Science jest dla mnie?
Wiemy już, że do pracy w branży Data Science niezbędna będzie znajomość języków programowania, odpowiednich narzędzi do przetwarzania danych, matematyki i statystyki. Osoba, która chciałaby związać swoją karierę z Data Science, musi charakteryzować się również innymi umiejętnościami i predyspozycjami. Wymienione poniżej zdolności są bardzo przydatne w pracy z danymi:
– zdolności analityczne,
– dokładność,
– cierpliwość,
– dobrze rozwinięte umiejętności interpersonalne,
– wrodzona ciekawość.
Zdobądź praktyczne umiejętności w obszarze statystycznej analizy danych!
Podsumowanie
Data Science to branża, która zajmuje się przetwarzaniem i analizą danych z wykorzystaniem metod statystycznych, języków programowania oraz zaawansowanych narzędzi komputerowych. Jest to względnie nowa branża, która ma przed sobą świetlaną przyszłość.
Do niedawna analizy danych przeprowadzali statystycy. Wkroczenie w erę informacji przyczyniło się do rozwoju i popularyzacji technologii komputerowych, przez co ilość generowanych danych w ostatnich kilkudziesięciu latach znacznie wzrosła (i wciąż wzrasta). Tradycyjne metody statystyczne przestały radzić sobie z ogromnymi zbiorami danych, więc do przeprowadzania analiz zaczęto używać komputerów. W ten sposób powstała nowa dziedzina, która łączy ze sobą informatykę i statystykę – Data Science.
Zawód osoby pracującej w branży Data Science do niedawna określany był terminem Data Scientist. Obecnie w Data Science wyróżniamy znacznie więcej ról, które odpowiadają za konkretne zadania – od Data Analystów po Machine Learning Engineerów. Termin Data Scientist jest wciąż szeroko wykorzystywany i najczęściej oznacza wszechstronną osobę, która posiada rozległą wiedzę z zakresu statystyki, programowania i uczenia maszynowego.
Data Science znajduje zastosowania w wielu – a możliwe, że we wszystkich – dziedzinach życia. Dane w XXI wieku niosą ze sobą wiele wartościowych informacji, na podstawie których można np. wspomagać podejmowanie decyzji biznesowych oraz lepiej docierać do klientów. Data Science zajmuje się również ułatwianiem naszego codziennego życia – np. rozwija autonomiczne samochody oraz ulepsza wirtualnych asystentów (Siri, Asystent Google).
Dane określane są jako ropa naftowa XXI wieku. Ilość generowanych danych z roku na rok stale wzrasta, co przyczynia się do wzrostu zapotrzebowania na specjalistów z branży Data Science. Ofert pracy dla specjalistów Data Science jest bardzo dużo, a w najbliższych latach będzie jeszcze więcej. Praca w Data Science oferuje ciekawe wyzwania, brak monotonii, możliwości rozwoju oraz wysokie zarobki. Czy warto rozważyć pracę jako specjalista Data Science? Zdecydowanie tak.
Nie wiesz od czego zacząć? Zapraszam do zapoznania się z innymi artykułami, które wskażą Ci przykładową drogę do branży Data Science – Jak zostać Data Scientist? | Jak zostać Data Analyst?. Oferujemy również szkolenia, podczas których zdobędziesz wartościową wiedzę oraz poznasz narzędzia wykorzystywane w branży, więc zapraszam do zapoznania się z naszą ofertą.