Data ScienceR

Tidyverse w R – Efektywna praca z danymi dla Data Science

03 - 04 paź 2024

Online

2 200,00 zł netto / osobę
Nie pasuje Ci żaden termin? Napisz do nas!
Zapisz więcej osób

Taniej w grupie

  • 3 osoby - 10% zniżki
  • 4 osoby - 15% zniżki
  • 5 osób - 20% zniżki
  • 6 osób - 25% zniżki
  • 7 osób - 30% zniżki
  • O szkoleniu

    Data Science to ekscytująca dziedzina której celem jest transformacja surowych danych w wiedzę istotną z punktu widzenia biznesu. Import, czyszczenie, transformacja i wizualizacja danych to zestaw kroków bez których nie możemy przeprowadzić procesu data science a które są szalenie ważne z punktu widzenia produktywności i efektywności całego procesu.

    Tidyverse to zestaw pakietów w R zaprojektowanych z myślą o Data Science. Stworzone przez Hadleya Wickhama tworzą spójne i efektywne środowisko do pracy z danymi. Wspólna filozofia, składnia i struktura zadecydowały o sukcesie tych pakietów. Krótko po wprowadzeniu pakiety z rodziny Tidyverse stały się standardem wykorzystywanym przez społeczność Data Science na całym świecie.

    Przy współpracy z praktykami Data Science zaprojektowaliśmy szkolenie które skupia się na wykorzystaniu pakietu Tidyverse. W formie warsztatu omawiamy i prezentujemy rozwiązania najczęściej spotykanych problemów w pracy z danymi. W szkoleniu wykorzystane zostaną dwa duże zbiory danych surowych które w trakcie szkolenia przygotujesz i przeanalizujesz pod okiem doświadczonego trenera.

    Dla kogo jest to szkolenie?

    Szkolenie z uwagi na zaawansowany poziom dedykujemy osobom które potrafią programować w R i mają doświadczenie w Data Science. W szczególności szkoleniem powinny zainteresować się osoby na stanowiskach Data Scientists, Analityk danych oraz Inżynier danych.

    Czego się nauczę?

    Po ukończeniu szkolenia uczestnik będzie potrafił:

    • Zaplanować i wdrożyć efektywny proces przetwarzania danych krok po kroku zaczynając od surowych danych do pierwszych insightów
    • Dowiesz się jak importować i łączyć dane z różnych źródeł za pomocą kilku linijek kodu
    • Poznasz najważniejsze elementy struktury danych tibble zaprojektowanej specjalnie na potrzeby tidyverse
    • Nauczysz się jak poprawnie reprezentować dane w pamięci przy zachowaniu spójności
    • Poznasz najlepsze sposoby transformacji zbioru danych w tym między innymi filtrowania, tworzenia zmiennych, przekodowania, obliczeń w grupach
    • Nauczysz się sprawnie pracować na różnych typach danych w szczególności factor, string i date time
    • Poznasz efektywne funkcje programistyczne pozwalające wykonać powtarzalne zadania bez wykorzystania pętli
    • Dowiesz się jak wyodrębnić informacje z danych za pomocą efektownych wizualizacji korzystając z ggplot2
    • Jak wykorzystać najlepsze pakiety w R do rozwiązania wielu problemów w Data Science?
    • Reprezentacja danych i wspólne API wielu pakietów w tidyverse
    • Przedstawienie pakietów z tidyverse:
      • Import danych – readr, readxl, haven, jsonlite, xml2, httr, rvest, DBI
      • Struktura danych – tibble
      • Przetwarzanie danych – dplyr, tidyr, stringr, forcats,lubridate, hms, blob
      • Eksploracja i wizualizacja – ggplot2
      • Programowanie – purr, magrittr, glue
    • Importowanie danych w formie tabelarycznej – csv, tsv, fwf, txt
    • Importowanie danych z arkusza kalkulacyjnego – xls, xlsx
    • Importowanie danych z źródeł – JSON, XML, Web API, Web scraping
    • Łączenie z bazami danych SQL, NoSQL
    • Łączenie tablic danych za pomocą klucza – mutate(), inner_join(), outer_join()
    • Łączenie tablic po obserwacjach – semi_join(), anti_join()
    • Operacje na zbiorach – intersect(), union(), setdiff()
    • Rozwiązywanie problemów przy łączeniu danych
    • Tibble – nowy data frame dla tidyverse
    • Różnice pomiędzy tibble a data frame
    • Tworzenie i konwersja na format tibble
    • Zalety korzystania z tibble
    • Sposoby organizacji i reprezentacji danych
    • Koncepcja tidy data i najlepszy sposób reprezentacji danych
    • spread() – zmiana reprezentacji tabeli z długiej na szeroką
    • gather() – łączenie kolumn dla tej samej zmiennej w jedną
    • separate() – ekstrakcja danych z kolumny z wieloma wartościami
    • unite() – łączenie danych w wielu kolumn w jedną
    • Filtrowanie wartości – filter()
    • Przegrupowanie wartości – arrange()
    • Wybór zmiennych – select()
    • Dodawanie nowy zmiennych – mutate(), transmute()
    • Operacje na grupach – groupby()
    • Tabele przestawne – summary()
    • Rozszerzenia funkcji dplyr – _at, _all, _if, _each
    • stringr – praca z danymi tekstowymi (strings)
    • forcats – praca z danymi jakościowymi wielomianowymi (factors)
    • lubridate – praca z danymi typu data, data-czas
    • Przetwarzanie potokowe z magrittr pipe %>% oraz %>T%
    • Tworzenie czytelnego kodu z pomocą rodziny funkcji map()
    • Rodzina funkcji walk
    • Inne użyteczne funkcje zastępujące pętle ja keep(), discard() some(), every(), detect()
    • Deklaratywna koncepcja tworzenia wykresów
    • Mapowanie danych na wykresie za pomocą aesthetics
    • Tworzenie wykresów dla pogrupowanych danych
    • Reprezentacja danych na wykresie za pomocą geoms
    • System współrzędnych i jego formatowanie
    • Dobre praktyki czyli jak połączyć wszystkie elementy i zbudować elegancki pipeline
    • EDA case study