Plan szkolenia
1. Spark
○ Wprowadzenie do BigData
○ Architektura i zastosowania Apache Spark
○ Środowisko i uruchamianie aplikacji, cykl życia aplikacji
2. Structured API
○ Charakterystyka rozproszonych zbirów danych, Datasets, DataFrames,
SQL Tables
○ Architektura przetwarzani danych w klastrze
○ Praca z danymi, transformacje, typy, schematy, rekordy, kolumny, agregacje,
łączenia
○ Praca ze źródłami danych, pliki, CSV, JSNO, bazy danych SQL
○ Wykorzystanie Spark SQL
3. RDDs
○ Charakterystyka i przypadki użycia Low-Level API
○ Współpraca z DataFrames i Datasets
○ Praca z RDDs, transformacje, akcje, agregacje
○ Broadcast variables i współdzielenie
4. Stream Processing
○ Charakterystyka przetwarzania strumieniowego w Spark
○ Praca ze Streaming API, Structured Streaming
○ Przetwarzanie Event-Time i Stateful
5. Machine Learning
○ Charakterystyka procesu zaawansowanej analizy w Spark
○ Charakterystyka mechanizmu
○ Machine Learning
○ Praca z biblioteką MLib