Data ScienceJęzyk programowania R - szkolenia

Tidyverse w R – Efektywna praca z danymi dla Data Science

Poziom kursu: Podstawowy
Cena za uczestnika: 2 200,00 zł netto
Czas trwania: 2 dni

Interesują Cię inne szkolenia? Zobacz więcej

Zapisz się

Zapytaj o szkolenie zamknięte

Terminarz szkoleń

Nie pasuje Ci żaden termin? Napisz do nas!

Zapisz więcej osób

Taniej w grupie

O szkoleniu

Data Science to ekscytująca dziedzina której celem jest transformacja surowych danych w wiedzę istotną z punktu widzenia biznesu. Import, czyszczenie, transformacja i wizualizacja danych to zestaw kroków bez których nie możemy przeprowadzić procesu data science a które są szalenie ważne z punktu widzenia produktywności i efektywności całego procesu.

Tidyverse to zestaw pakietów w R zaprojektowanych z myślą o Data Science. Stworzone przez Hadleya Wickhama tworzą spójne i efektywne środowisko do pracy z danymi. Wspólna filozofia, składnia i struktura zadecydowały o sukcesie tych pakietów. Krótko po wprowadzeniu pakiety z rodziny Tidyverse stały się standardem wykorzystywanym przez społeczność Data Science na całym świecie.

Przy współpracy z praktykami Data Science zaprojektowaliśmy szkolenie które skupia się na wykorzystaniu pakietu Tidyverse. W formie warsztatu omawiamy i prezentujemy rozwiązania najczęściej spotykanych problemów w pracy z danymi. W szkoleniu wykorzystane zostaną dwa duże zbiory danych surowych które w trakcie szkolenia przygotujesz i przeanalizujesz pod okiem doświadczonego trenera.

Dla kogo jest to szkolenie?

Szkolenie z uwagi na zaawansowany poziom dedykujemy osobom które potrafią programować w R i mają doświadczenie w Data Science. W szczególności szkoleniem powinny zainteresować się osoby na stanowiskach Data Scientists, Analityk danych oraz Inżynier danych.

Czego się nauczę?

Po ukończeniu szkolenia uczestnik będzie potrafił:

Zaplanować i wdrożyć efektywny proces przetwarzania danych krok po kroku zaczynając od surowych danych do pierwszych insightów
Dowiesz się jak importować i łączyć dane z różnych źródeł za pomocą kilku linijek kodu
Poznasz najważniejsze elementy struktury danych tibble zaprojektowanej specjalnie na potrzeby tidyverse
Nauczysz się jak poprawnie reprezentować dane w pamięci przy zachowaniu spójności
Poznasz najlepsze sposoby transformacji zbioru danych w tym między innymi filtrowania, tworzenia zmiennych, przekodowania, obliczeń w grupach
Nauczysz się sprawnie pracować na różnych typach danych w szczególności factor, string i date time
Poznasz efektywne funkcje programistyczne pozwalające wykonać powtarzalne zadania bez wykorzystania pętli
Dowiesz się jak wyodrębnić informacje z danych za pomocą efektownych wizualizacji korzystając z ggplot2

Plan szkolenia

1. Omówienie zadań w Data Science i wprowadzenie do tidyverse

Jak wykorzystać najlepsze pakiety w R do rozwiązania wielu problemów w Data Science?
Reprezentacja danych i wspólne API wielu pakietów w tidyverse
Przedstawienie pakietów z tidyverse:
- Import danych – readr, readxl, haven, jsonlite, xml2, httr, rvest, DBI
- Struktura danych – tibble
- Przetwarzanie danych – dplyr, tidyr, stringr, forcats,lubridate, hms, blob
- Eksploracja i wizualizacja – ggplot2
- Programowanie – purr, magrittr, glue

2. Importowanie i łączenie danych – readr, readxl, haven, jsonlite, xml2, httr, rvest, DBI

Importowanie danych w formie tabelarycznej – csv, tsv, fwf, txt
Importowanie danych z arkusza kalkulacyjnego – xls, xlsx
Importowanie danych z źródeł – JSON, XML, Web API, Web scraping
Łączenie z bazami danych SQL, NoSQL
Łączenie tablic danych za pomocą klucza – mutate(), inner_join(), outer_join()
Łączenie tablic po obserwacjach – semi_join(), anti_join()
Operacje na zbiorach – intersect(), union(), setdiff()
Rozwiązywanie problemów przy łączeniu danych

3. Struktura danych – tibble

Tibble – nowy data frame dla tidyverse
Różnice pomiędzy tibble a data frame
Tworzenie i konwersja na format tibble
Zalety korzystania z tibble

4. Porządkowanie danych – tidyr

Sposoby organizacji i reprezentacji danych
Koncepcja tidy data i najlepszy sposób reprezentacji danych
spread() – zmiana reprezentacji tabeli z długiej na szeroką
gather() – łączenie kolumn dla tej samej zmiennej w jedną
separate() – ekstrakcja danych z kolumny z wieloma wartościami
unite() – łączenie danych w wielu kolumn w jedną

5. Przetwarzanie i przygotowanie tabeli danych – dplyr

Filtrowanie wartości – filter()
Przegrupowanie wartości – arrange()
Wybór zmiennych – select()
Dodawanie nowy zmiennych – mutate(), transmute()
Operacje na grupach – groupby()
Tabele przestawne – summary()
Rozszerzenia funkcji dplyr – _at, _all, _if, _each

6. Przetwarzanie i przygotowanie zmiennych

stringr – praca z danymi tekstowymi (strings)
forcats – praca z danymi jakościowymi wielomianowymi (factors)
lubridate – praca z danymi typu data, data-czas

7. Programowanie funkcyjne – purr

Przetwarzanie potokowe z magrittr pipe %>% oraz %>T%
Tworzenie czytelnego kodu z pomocą rodziny funkcji map()
Rodzina funkcji walk
Inne użyteczne funkcje zastępujące pętle ja keep(), discard() some(), every(), detect()

8. Wizualizacja z ggplot2

Deklaratywna koncepcja tworzenia wykresów
Mapowanie danych na wykresie za pomocą aesthetics
Tworzenie wykresów dla pogrupowanych danych
Reprezentacja danych na wykresie za pomocą geoms
System współrzędnych i jego formatowanie

9. Podsumowanie

Dobre praktyki czyli jak połączyć wszystkie elementy i zbudować elegancki pipeline
EDA case study

Brałeś udział w szkoleniu?
Oceń nas i napisz opinię.

Dodaj opinię Google

Tidyverse w R – Efektywna praca z danymi dla Data Science

Poziom kursu

Cena za uczestnika

2 200,00 zł netto

Czas trwania

2 dni

Terminarz szkoleń

Taniej w grupie

O szkoleniu

Dla kogo jest to szkolenie?

Czego się nauczę?

Plan szkolenia

1. Omówienie zadań w Data Science i wprowadzenie do tidyverse

2. Importowanie i łączenie danych – readr, readxl, haven, jsonlite, xml2, httr, rvest, DBI

3. Struktura danych – tibble

4. Porządkowanie danych – tidyr

5. Przetwarzanie i przygotowanie tabeli danych – dplyr

6. Przetwarzanie i przygotowanie zmiennych

7. Programowanie funkcyjne – purr

8. Wizualizacja z ggplot2

9. Podsumowanie