Apache SparkData Science

Machine Learning z Apache Spark

24 - 26 lip 2024

Online

3 600,00 zł netto / osobę
Nie pasuje Ci żaden termin? Napisz do nas!
Zapisz więcej osób

Taniej w grupie

  • 3 osoby - 10% zniżki
  • 4 osoby - 15% zniżki
  • 5 osób - 20% zniżki
  • 6 osób - 25% zniżki
  • 7 osób - 30% zniżki
  • O szkoleniu

    Szkolenie Machine learning z Apache Spark zostało stworzone z myślą o doświadczonych data scientists którzy chcą rozszerzyć swój warsztat narzędziowy o technologię Apache Spark  i wykorzystać jej potenciał w maszynowym uczeniu na dużych zbiorach danych. Swoim zakresem szkolenie obejmuje krótkie wprowadzenie do Spark, ETL, przygotowanie danych , wstępną analizę budowę modeli maszynowego uczenia, ewaluacje i cross walidacje.

    Dla kogo jest to szkolenie?

    Grupą docelową dla szkolenia Machine Learning z Apache Spark są doświadczeni Data Scientists którzy chcą nauczyć się pracować z dużymi zbiorami danych przy pomocy technologii Apache Spark.

    Czego się nauczę?

    Po ukończeniu szkolenia:

    • Nauczysz się przygotowywać zapytania i tworzyć DataFrames w Spark
    • Dowiesz się jak poprawić wydajność korzystając z cache i poznasz najlepsze praktyki
    • Poznasz sposoby rozwiązywania problemów przy przetwarzaniu pracy w Spark
    • Dowiesz się jak przeprowadzić proces ETL z różnych zbiorów danych
    • Znajdziesz rozwiązania na problemy takie jak braki w danych, imputacja, filtrowanie
    • Przeprowadzisz wstępną analizę danych obliczając podstawowe statystyki, zidentyfikujesz problemy jakości danych
    • Przeprowadzisz konieczne transformacje na danych przed uczeniem takie jak standaryzacja, normalizacja, przekodowanie czy binaryzacja.
    • Nauczysz się budować proces maszynowego uczenia dla problemów z nadzorem i bez nadzoru
    • Zbudujesz modele maszynowego uczenia do problemów prognozowania, klasyfikacji, segmentacji czy wykrywania anomalii
    • Nauczysz się budować modele uczenia takie jak regresja liniowa, logistyczna, drzewa decyzyjne, K-NN, Naive Bayes, drzewa decyzyjne z wykorzystaniem boostingu, Sieci neuronowe, metody klastrowania K-means, Clara, hierarchiczne metody, SOM, PCA
    • Dowiesz się jak stworzyć procedurę uczenia zawierającą wszystkie niezbędne elementy: transformacje, estymacje i ewaluację modeli
    • Nauczysz się jak tuningować parametry algorytmów maszynowego uczenia przy pomocy cross walidacji
    • Przegląd technologii Big data
    • Podstawy programowania w Scala
    • Rozpoczynamy pracę z Spark
    • Model programowania w Spark
    • Wykonanie aplikacji
    • Interfejs API i Notebook
    • Caching
    • Problemy maszynowego uczenia
    • Uczenie z nadzorem i bez nadzoru
    • ML krok po kroku
    • Bias vs Variance
    • Ewaluacja algorytmu
    • Cross walidacja
    • Miary dopasowania dla różnych problemów
    • Przykłady zastosowań metod ML
    • Rodzaje modeli ML
    • Komponenty systemu maszynowego uczenia
      • Pozyskanie i przechowywanie danych
      • Czyszczenie danych i transformacje
      • Uczenie modelu
      • Wdrożenie i integracja modelu
      • Monitorowanie
    • Architektura systemu maszynowego uczenia
    • Łaczenie z danymi
    • Eksploracja i wizualizacja danych
    • Przetwarzanie i transformacje zbioru
    • Dobór zmiennych użytecznych w analizie
    • Rodzaje modeli regresji
    • Dobór zmiennych
    • Uczenie modelu na zbiorze treningowym
    • Ewaluacja modelu, MSE, RMSE
    • Tuningowanie za pomocą cross walidacji
    • Przegląd algorytmów klasyfikacji
    • Trenowanie modelu klasyfikacji
    • Ewaluacja i miary jakości
    • Tuningowanie parametrów
    • Ewaluacja modelu, miary trafności, ROC
    • Tuningowanie parametrów
    • Rodzaje algorytmów klastrowania obserwacji
    • Dobór zmiennych do problemu
    • Uczenie modelu bez nadzoru
    • Ewaluacja algorytmu
    • Tuningowanie parametrów
    • Rodzaje algorytmów rekomendacyjnych
    • Dobór zmiennych
    • Uczenie modelu rekomendacyjnego
    • Ewaluacja modelu
    • Wdrożenie modelu rekomendacji
    • Metodologia uczenia na danych tekstowych
    • Przekształcanie danych tekstowych do formy TF-IDF
    • Uczenie modelu
    • Ewaluacja
    • Metody redukcji wymiaru: PCA, SVD, Faktoryzacja, Klastrowanie
    • Aplikacja metod redukcji w Spark
    • Uczenie w czasie rzeczywistym
    • Streaming
    • Tworzenie aplikacji z Spark Streaming
    • Uczenie online
    • Ewaluacja modelu