Выберите городМосква
Москва
Екатеринбург
Тюмень
Санкт-Петербург
Сочи
Тбилиси
Москва+7 495 231-23-51
Екатеринбург
Тюмень
Санкт-Петербург
Тбилиси
Личный кабинет
Выберите городМосква
Москва
Екатеринбург
Тюмень
Санкт-Петербург
Сочи
Тбилиси
Москва+7 495 231-23-51
Екатеринбург
Тюмень
Санкт-Петербург
Тбилиси
Big Data
HDDEНовый

Практический курс Hadoop для инженеров данных

Вендор
Тип курса
Авторский
Длительность
40 ак. часов
Ближайшая дата
Отсутствует
Стоимость
90 000.00 RUB
Формируем расписание курса
Оставьте заявку, и мы проинформируем вас когда все будет готово.
Описание

Data Lake (озеро данных) — это метод хранения данных в натуральном (сыром, «RAW») виде: в разных схемах и форматах, от blob-объектов до различных файлов. Корпоративное озеро данных позволяет предприятию иметь логически определенное, единое хранилище всех данных в организации (enterprise data), чтобы использовать их для построения аналитических отчетов, моделей машинного обучения и других прикладных задач.

Обычно Data Lake включает структурированную информацию из реляционных баз данных (строки и колонки), полуструктурированные файлы (CSV, логи, XML, JSON), неструктурированные (почтовые сообщения, документы, pdf) и даже бинарные данные (видео, аудио, графические изображения). Помимо необработанных исходных данных (RAW data), озеро данных также может содержать и предварительно обработанную (transformed) информацию.

За эффективную организацию процессов загрузки информации в озеро или корпоративное хранилище данных (КХД) и выгрузки оттуда нужных сведений отвечают инженеры данных (Data Engineer). Сегодня в большинстве случаев Data Lake строится с помощью компонентов экосистемы Apache Hadoop и сопутствующих технологий Big Data: Spark, Pig, Sqoop, Hive, Flume, NiFi, Kafka, Cloudera Impala. Как успешно использовать все эти инструменты для создания уникального конвейера сбора и обработки данных (pipeline), вы узнаете на нашем 5-дневном обучающем курсе-тренинге «Hadoop для инженеров данных».

5-дневный практический тренинг по batch/streaming обработке потоков данных средствами Apache FlumeKafkaSqoopHive, Spark для организации озера данных (Data Lake) на кластере Hadoop и процессов ETL/ELT

Соотношение теории к практике 40/60

Данный курс  включает теоретические знания и практические навыки планирования, формирования и сопровождения Hadoop Data Lake (озеро данных). Рассматриваются примеры интеграции, настройки и обслуживания конвейеров данных (pipelines) из традиционных источников: корпоративные базы данных, web-логи, файловые системы, интернет, транзакции и пр.  для последующего анализа больших данных.

На практике вы развернете собственный кластер Hadoop в облаке Amazon Web Services (AWS) и локальной кластерной системе с использованием дистрибутивов  Cloudera Hadoop,  HortonWorks Data Platform и ArenadataHadoop. Создадите свой data pipeline с помощью Apache Spark, Pig, Sqoop, Hive, Flume, NiFi для SQL-аналитики данных на Cloudera Impala. Изучите особенности импорта/экспорта данных и построения распределенных Big Data систем потоковой обработки событий (Event Processing System) на базе Apache Kafka.

Примечание: с 1 января 2021 года данный курс проводится в объединенном формате по дистрибутивам Hadoop версии 3  компаний Cloudera. Для корпоративного формата обучения возможна выделенная программа по одной версии дистрибутива Hadoop (уточняйте у менеджера).

Профиль аудитории

Курс Hadoop для инженеров данных ориентирован на специалистов по работе с большими данными, которые отвечают за настройку и сопровождение ввода данных в Data Lake и хотят получить теоретические знания и практические навыки по подготовке массивов Big Data и специфике процессов ETL/ELT в кластерах Hadoop. Также на нашем курсе Data Engineer освоит тонкости организации pipelines в Hadoop, Batchstream и realtime процессинга больших данных с использованием компонентов экосистемы Хадуп.

Необходимая подготовка

Предварительный уровень подготовки:

  • Знание базовых команд Linux (опыт работы с командной строкой, файловой системой , POSIX, текстовыми редакторами vinano)
  • Начальный опыт работы с SQL
Программа курса
  1. Основные концепции Hadoop и Data Lake

    • Основы Hadoop. Жизненный цикл аналитики больших данных. Хранение, накопление, подготовка и процессинг больших данных.  Тенденции развития Hadoop.
    • Организация хранения данных в Hadoop Data Lake 
    • Архитектура HDFS. Операции чтения и записи, назначения HDFS. Блоки HDFS. Основные команды работы с HDFS.
    • Ведение в MapReduce. Компоненты MapReduce. Работа программы MapReduce. Архитектура YARN. Способы обработки распределенных данных с использованием Apache SparkYARN и MapReduce v2/v3.
    • Управление ресурсами и очередями задач. FIFO/Capacity/Fair scheduler.
  2. Инструменты управления кластером

    • Выполнение базовых операций с Cloudera Manager.
    • Настройка компонент Apache ZooKeeper.
    • Создание и управление запросами и данными с использованием сервиса Hue.
  3. Хранение данных в HDFS

    • Хранение файлов в HDFS: сжатие, sequence файлы. Формат AVROORCParquet.
    • Введение в Apache Pig: формат хранения данных, сложные и вложенные типы данных, синтаксис Pig Latin, оптимизация операций Join.
  4. Импорт/экспорт  данных в кластер Hadoop — формирование Data Lake

    • Импорт и обработка данных в кластере Hadoop
    • Интеграция с реляционными базами данных
    • Структура хранения данных в таблицах
    • Сравнительная характеристика решений Hadoop SQL
    • Введение в Sqoop: импорт и экспорт данных Sqoop, формат файлов, инкрементальный импорт
  5. Apache Hive

    • Введение в Hive: структура Hive таблиц, синтаксис HiveQL, формат хранения файлов,  работа с внешними и внутренними таблицами Hive, оптимизация Join операций. Операции импорта и экспорта данных и взаимодействия с внешними источниками. Настройка производительности
    • Hive LLAP, Hive on Spark/Tez
  6. Cloudera Impala

    • Введение в Cloudera Impala: архитектура и компоненты, Impala синтаксис, типы данных, написание запросов, загрузка данных, взаимодействие  SparkHive
    • Оптимизация Impala запросов
  7. Потоковые данные в Data Lake

    • Event Processing System. Импорт потоковых данных в кластер
    • Использование Kafka для работы с потоковыми данными
    • Использование Flume  для работы с потоковыми данными
    • Интеграция Flume + Kafka
    • Процессинг данных с использование Apache NiFi

Cписок практических занятий: 

  • Автоматическая установка 3-узлового кластера в облаке Amazon Web Services с использованием Cloudera Manager/HortonWorks и выполнение базовых операций с кластером Hadoop и HDFS (опционально)
  • Управление очередями ресурсами и запуском задач с использованием YARN 
  • Использование Apache Pig для подготовки данных, операции JOIN
  • Использование Apache Hive для анализа данных
  • Оптимизация запросов JOIN в Apache Hive
  • Настройка partition и bucket в Apache Hive
  • Инкрементальный импорт/экспорт данных с помощью Apache Sqoop
  • SQL аналитика данных с помощью Cloudera Impala
  • Импорт данных с помощью Apache Flume
  • Построение Event Processing System с использованием Apache Flume и Kafka
  • Создание и управление запросами sqoopMapReduceHiveImpala с использованием веб-интерфейса
  • Построение Dataflow с использованием Apache NiFi (опционально)
FAQ

По окончании обучения слушатели получают либо Сертификат Учебного Центра о прохождении курса, либо Удостоверение о повышении квалификации, зарегистрированное в ФРДО (Федеральный реестр сведений о документах об образовании и (или) о квалификации, документах об обучении). Для получения Свидетельства необходимо, чтобы длительность обучения превышала 16 академических часов, а также необходимо предоставить оригинал Диплома о профессиональном или высшем образовании государственного образца.

Помимо этого, по факту прохождения авторизованных курсов вендоров Cisco, Postgres, AstraLinux, Microsoft, ICAgile выдается электронный сертификат вендора.

Возьмите паспорт и Диплом об окончании профессионального или высшего образования. Диплом понадобится для получения Удостоверения о повышении квалификации (в случае отсутствия Диплома, по окончании курса будет выдан Сертификат Учебного Центра, подтверждающий факт пройденного обучения).

За несколько дней до начала обучения (обычно за неделю) все слушатели получают приглашение по указанной электронной почте (если обучение заказывалось централизованно, ваш персональный мейл могли не передать - обратитесь к специалисту вашей организации, кто заказывал курсы, приглашение есть у него). В приглашении указан адрес и прочая полезная для слушателя информация. Если вы не получили приглашение – обратитесь к нам любым удобным для вас способом, и мы сообщим адрес и продублируем приглашение на вашу почту.

В основном корпусе в Москве по адресу Дербеневская набережная д.7 стр.5, БЦ «Оазис», парковки, к сожалению, нет. Зато есть муниципальная платная парковка на всех прилегающих улицах.

По поводу остальных филиалов и корпусов – уточняйте информацию у наших менеджеров. Мы постараемся сделать всё возможное для вашего комфортного обучения.

Да, во время занятий для слушателей всегда доступны чай, кофе, прохладительные напитки и орешки, печеньки и другие снеки на кофе-брейках. Помимо этого, в обеденный перерыв будет предложен полноценный горячий обед.

Наш центр работает с корпоративными и частными клиентами. Для каждой категории клиентов мы разработали различные варианты сотрудничества, позволяющие гибко подходить к ценообразованию и вариантам оплаты.

Обо всех специальных условиях читайте в разделе Спецпредложения.

Недостаточно информации? Напишите нам, и мы сделаем вам предложение, от которого невозможно отказаться.

Не нашли подходящиего курса?
Оставьте заявку на обучение для вашей организации
Подпишитесь и будьте в курсе
Информация о новинках, скидках и акциях. Уже более 36 000 подписчиков!