Apache SparkData Science

Machine Learning z Apache Spark

Poziom kursu: Średniozaawansowany
Cena za uczestnika: 3 600,00 zł netto
Czas trwania: 3 dni

Interesują Cię inne szkolenia? Zobacz więcej

Zapisz się

Zapytaj o szkolenie zamknięte

Terminarz szkoleń

Nie pasuje Ci żaden termin? Napisz do nas!

Zapisz więcej osób

Taniej w grupie

O szkoleniu

Szkolenie Machine learning z Apache Spark zostało stworzone z myślą o doświadczonych data scientists którzy chcą rozszerzyć swój warsztat narzędziowy o technologię Apache Spark i wykorzystać jej potenciał w maszynowym uczeniu na dużych zbiorach danych. Swoim zakresem szkolenie obejmuje krótkie wprowadzenie do Spark, ETL, przygotowanie danych , wstępną analizę budowę modeli maszynowego uczenia, ewaluacje i cross walidacje.

Dla kogo jest to szkolenie?

Grupą docelową dla szkolenia Machine Learning z Apache Spark są doświadczeni Data Scientists którzy chcą nauczyć się pracować z dużymi zbiorami danych przy pomocy technologii Apache Spark.

Czego się nauczę?

Po ukończeniu szkolenia:

Nauczysz się przygotowywać zapytania i tworzyć DataFrames w Spark
Dowiesz się jak poprawić wydajność korzystając z cache i poznasz najlepsze praktyki
Poznasz sposoby rozwiązywania problemów przy przetwarzaniu pracy w Spark
Dowiesz się jak przeprowadzić proces ETL z różnych zbiorów danych
Znajdziesz rozwiązania na problemy takie jak braki w danych, imputacja, filtrowanie
Przeprowadzisz wstępną analizę danych obliczając podstawowe statystyki, zidentyfikujesz problemy jakości danych
Przeprowadzisz konieczne transformacje na danych przed uczeniem takie jak standaryzacja, normalizacja, przekodowanie czy binaryzacja.
Nauczysz się budować proces maszynowego uczenia dla problemów z nadzorem i bez nadzoru
Zbudujesz modele maszynowego uczenia do problemów prognozowania, klasyfikacji, segmentacji czy wykrywania anomalii
Nauczysz się budować modele uczenia takie jak regresja liniowa, logistyczna, drzewa decyzyjne, K-NN, Naive Bayes, drzewa decyzyjne z wykorzystaniem boostingu, Sieci neuronowe, metody klastrowania K-means, Clara, hierarchiczne metody, SOM, PCA
Dowiesz się jak stworzyć procedurę uczenia zawierającą wszystkie niezbędne elementy: transformacje, estymacje i ewaluację modeli
Nauczysz się jak tuningować parametry algorytmów maszynowego uczenia przy pomocy cross walidacji

Plan szkolenia

1. Wprowadzenie do Spark

Przegląd technologii Big data
Podstawy programowania w Scala
Rozpoczynamy pracę z Spark
Model programowania w Spark
Wykonanie aplikacji
Interfejs API i Notebook
Caching

2. Wprowadzenie do Machine Learning

Problemy maszynowego uczenia
Uczenie z nadzorem i bez nadzoru
ML krok po kroku
Bias vs Variance
Ewaluacja algorytmu
Cross walidacja
Miary dopasowania dla różnych problemów

3. Projektowanie modelu maszynowego uczenia

Przykłady zastosowań metod ML
Rodzaje modeli ML
Komponenty systemu maszynowego uczenia
- Pozyskanie i przechowywanie danych
- Czyszczenie danych i transformacje
- Uczenie modelu
- Wdrożenie i integracja modelu
- Monitorowanie
Architektura systemu maszynowego uczenia

4. Pozyskanie, przetwarzanie i przygotowanie danych w Spark

Łaczenie z danymi
Eksploracja i wizualizacja danych
Przetwarzanie i transformacje zbioru
Dobór zmiennych użytecznych w analizie

5. Budowa modelu dla problemu prognozowania

Rodzaje modeli regresji
Dobór zmiennych
Uczenie modelu na zbiorze treningowym
Ewaluacja modelu, MSE, RMSE
Tuningowanie za pomocą cross walidacji

6. Budowa modelu dla problemów klasyfikacji

Przegląd algorytmów klasyfikacji
Trenowanie modelu klasyfikacji
Ewaluacja i miary jakości
Tuningowanie parametrów
Ewaluacja modelu, miary trafności, ROC
Tuningowanie parametrów

7. Budowa modeli dla problemów klastrowania

Rodzaje algorytmów klastrowania obserwacji
Dobór zmiennych do problemu
Uczenie modelu bez nadzoru
Ewaluacja algorytmu
Tuningowanie parametrów

8. Budowa systemów rekomendacyjnych

Rodzaje algorytmów rekomendacyjnych
Dobór zmiennych
Uczenie modelu rekomendacyjnego
Ewaluacja modelu
Wdrożenie modelu rekomendacji

9. Algorytmy i uczenie maszynowe na danych tekstowych

Metodologia uczenia na danych tekstowych
Przekształcanie danych tekstowych do formy TF-IDF
Uczenie modelu
Ewaluacja

10. Metody redukcja wymiaru problemów w Spark

Metody redukcji wymiaru: PCA, SVD, Faktoryzacja, Klastrowanie
Aplikacja metod redukcji w Spark

11. ML w czasie rzeczywistym z Spark Streaming

Uczenie w czasie rzeczywistym
Streaming
Tworzenie aplikacji z Spark Streaming
Uczenie online
Ewaluacja modelu

Brałeś udział w szkoleniu?
Oceń nas i napisz opinię.

Dodaj opinię Google

Machine Learning z Apache Spark

Poziom kursu

Cena za uczestnika

3 600,00 zł netto

Czas trwania

3 dni

Terminarz szkoleń

Taniej w grupie

O szkoleniu

Dla kogo jest to szkolenie?

Czego się nauczę?

Plan szkolenia

1. Wprowadzenie do Spark

2. Wprowadzenie do Machine Learning

3. Projektowanie modelu maszynowego uczenia

4. Pozyskanie, przetwarzanie i przygotowanie danych w Spark

5. Budowa modelu dla problemu prognozowania

6. Budowa modelu dla problemów klasyfikacji

7. Budowa modeli dla problemów klastrowania

8. Budowa systemów rekomendacyjnych

9. Algorytmy i uczenie maszynowe na danych tekstowych

10. Metody redukcja wymiaru problemów w Spark

11. ML w czasie rzeczywistym z Spark Streaming