Apache SparkProgramowanie

Wprowadzenie do Apache Spark

17 - 17 kwi 2024

Online

1 700,00 zł netto / osobę
Nie pasuje Ci żaden termin? Napisz do nas!
Zapisz więcej osób

Taniej w grupie

  • 3 osoby - 10% zniżki
  • 4 osoby - 15% zniżki
  • 5 osób - 20% zniżki
  • 6 osób - 25% zniżki
  • 7 osób - 30% zniżki
  • O szkoleniu

    Apache Spark to platforma klastrowego przetwarzania danych w szczególności tych określanych mianem Big Data. Spark w przeciwieństwie do Hadoop wykorzystuje przetwarzanie danych w koncepcji in-memory co sprawia że jest wydajniejszy i świetnie sprawdza się na dużych zbiorach danych.

    Szkolenie wprowadzenie do platformy Spark przedstawia podstawy pracy na dużych zbiorach danych. W programie zaprezentowane zostały najważniejsze elementy projektu Spark w tym między innymi API, podstawowe narzędzia jak SQL, możliwości streamingu czy wykorzystania Spark w maszynowym uczeniu.

    Dla kogo jest to szkolenie?

    Szkolenie zostało zaprojektowane jako praktyczne wprowadzenie i przegląd możliwości Apache Spark. Grupą docelową szkolenia są inżynierowie danych analitycy, inżynierowie oprogramowania, menadżerowie IT oraz data scientists którzy dostrzegają potrzebę i korzyści płynące z wykorzystania technologii Spark do analizy danych.

    Czego się nauczę?

    Po ukończeniu szkolenia:

    • Zidentyfikujesz możliwości i potencjał Spark które mogą przynieść korzyści w twojej organizacji
    • Poznasz terminologię i technologie powiązane bezpośrednio z Apache Spark
    • Nauczysz się pracować z danymi tworząc zapytania na dużych zbiorach danych wykorzystując Spark SQL oraz DataFrames
    • Przetworzysz i zmodyfikujesz zadania typu ETL korzystając z API Spark, DataFrames oraz Resilient Distributed Datasets(RDD)
    • Nauczysz się korzystać z interfejsu administratora
    • Znajdziesz odpowiedzi na nurtujące Cię pytania i dowiesz się gdzie szukać pomocy
    • Czym jest Apache Spark
    • Dlaczego Spark?
    • Szanse i korzyści
    • Komponenty Spark vs Hadoop
    • Środowisko Spark
    • Korzystanie z shell Spark
    • Resilient distributed datasets RDD
    • Programowanie funkcyjne w Spark
    • Struktura i tworzenie RDD z plików
    • Transformacje, operacje, przekształcenia danych
    • Key-Value RDD
    • Interaktywne zapytania z użyciem RDD
    • Tworzenie DataFrames
    • Tworzenie zapytań na DataFrames i wykorzystanie Spark SQL
    • Caching
    • Generowanie raportów
    • Directed acyclic Graph
    • Partitions and Shuffles
    • Wydajność, wykorzystanie pamięci
    • Źródła i zadania
    • Tworzenie Dstreams ze źródeł, API
    • Operacje na Dstream
    • Podstawy ML z interfejsem Spark
    • Przykład maszynowego uczenia z Spark MLib