- Регистрация
 - 27 Авг 2018
 
- Сообщения
 - 47,045
 
- Реакции
 - 948,130
 
- Тема Автор Вы автор данного материала? |
 - #1
 
		
		
		
			Голосов: 0
		
	
			
				
					
	ОПИСАНИЕ:
Практический курс по Big Data. Часть 3. RT, NoSQL, Data layout, Kafka [bigdata team]
Вы научитесь работать с потоковой обработкой данных, познакомитесь с Kafka и Spark Structured Streaming, освоите NoSQL поверх больших данных, подружите Spark с Cassandra.
В этом модуле вы изучите:
- подходы к Realtime-обработке;
 - гарантии обработки, переход от одной гарантии к другой, архитектуры "Лямбда" и "Каппа";
 - Spark Streaming vs. Spark RDD, Spark Structured Streaming vs. Spark DataFrames, DStream;
 - архитектура Kafka, Kafka Streams, репликация в Kafka. Отличие Kafka от классических очередей;
 - семантики доставки сообщений, сжатие данных в Kafka, синхронная и асинхронная репликация.
 - отличия Key-Value хранилищ от реляционных БД;
 - компактификация и её виды, CQLSH;
 - архитектура Cassandra;
 - обеспечение надёжности и высокодоступности в Key-Value хранилищах;
 - интеграция Spark с Cassandra.
 - как бороться с Data Skew с помощью MapReduce подходов в разных фреймворках;
 - trade-off между CPU и IO-bound приложениями, подходы к сжатию в Big Data, горячие и холодные данные;
 - форматы данных в Big Data: ORC vs Parquet, Avro,
 
СКАЧАТЬ: