Главная
Все курсы
Big Data
Практический курс Hadoop для инженеров данных - обучение Big Data

HDDE

Практический курс Hadoop для инженеров данных - обучение Big Data

Вендор

Big Data

Тематика

Big Data и машинное обучение

Тип курса

Авторский

Длительность

40 ак. часов

Стоимость

128 400 RUB

Скидка 10%
для физ. лиц

Описание

5-дневный практический тренинг по batch/streaming обработке потоков данных средствами Apache Airflow, Spark, Flume, Kafka, Sqoop, Hive для организации озера данных (Data Lake) на кластере Hadoop версии 3 и процессов ETL/ELT.

Что такое Data Lake и зачем это нужно бизнесу

Data Lake (озеро данных) — это метод хранения данных в натуральном (сыром, «RAW») виде: в разных схемах и форматах, от blob-объектов до различных файлов. Корпоративное озеро данных позволяет предприятию иметь логически определенное, единое хранилище всех данных в организации (enterprise data), чтобы использовать их для построения аналитических отчетов, моделей машинного обучения и других прикладных задач.

Обычно Data Lake включает структурированную информацию из реляционных баз данных (строки и колонки), полуструктурированные файлы (CSV, логи, XML, JSON, AVRO, Parquet, ORC), неструктурированные (почтовые сообщения, документы, pdf) и даже бинарные данные (видео, аудио, графические изображения). Помимо необработанных исходных данных (RAW data), озеро данных также может содержать и предварительно обработанную (transformed) информацию.

За эффективную организацию процессов загрузки информации в озеро или корпоративное хранилище данных (КХД) и выгрузки оттуда нужных сведений отвечают инженеры данных (Data Engineer). Сегодня в большинстве случаев Data Lake строится с помощью компонентов экосистемы Apache Hadoop и сопутствующих технологий Big Data: Spark, Pig, Sqoop, Hive, Flume, Flink, Airflow, NiFi, Kafka, Cloudera Impala. Как успешно использовать все эти инструменты для создания уникального конвейера сбора и обработки данных (pipeline), вы узнаете на нашем 5-дневном обучающем курсе-тренинге «Hadoop для инженеров данных».

Что представляют собой курсы Hadoop для инженеров данных

Продолжительность: 5 дней, 40 академических часов

Соотношение теории к практике 40/60

Данный курс включает теоретические знания и практические навыки планирования, формирования и сопровождения Hadoop Data Lake (озеро данных). Рассматриваются примеры интеграции, настройки и обслуживания конвейеров данных (pipelines) из традиционных источников: корпоративные базы данных, web-логи, файловые системы, интернет, транзакции и пр. для последующего анализа больших данных.

На практике вы будете использовать выделенный кластер Hadoop в облаке Amazon Web Services (AWS) на базе дистрибутива Cloudera Data Platform (CDP) Private Cloud ( замена дистрибутива HortonWorks) или Arenadata Hadoop. Создадите свой data pipeline с помощью Apache Spark, Airflow, Sqoop, Hive, Flume, NiFi, Kafka. Изучите особенности импорта/экспорта данных и построения распределенных Big Data систем потоковой обработки событий (Event Processing System) на базе Apache Kafka.

Кому полезен курс

Курс Hadoop для инженеров данных ориентирован на специалистов по работе с большими данными, которые отвечают за настройку и сопровождение ввода данных в Data Lake и хотят получить теоретические знания и практические навыки по подготовке массивов Big Data и специфике процессов ETL/ELT в кластерах Hadoop. Также на нашем курсе Data Engineer освоит тонкости организации pipelines в Hadoop, Batch, stream и real—time процессинга больших данных с использованием компонентов экосистемы Хадуп.

Необходимая подготовка

Предварительный уровень подготовки:

Знание базовых команд Linux (опыт работы с командной строкой, файловой системой , POSIX, текстовыми редакторами vi, nano)
Начальный опыт работы с SQL

Программа курса

1. Основные концепции Hadoop и Data Lake

· Основы Hadoop. Основные компоненты, парадигма, история и тенденции развития

· Современные хранилища данных, Data Lake, его архитектура

2. Map Reduce и Yarn

· Ведение в MapReduce. Этапы выполнения задачи в MapReduce и подход к программированию

· Архитектура и задачи YARN. Управление ресурсами и очередями задач, FIFO/Capacity/Fair scheduler

3. Хранение данных в HDFS

· Архитектура HDFS. Операции чтения и записи, блоки HDFS

· Основные команды работы с HDFS

· Дополнительные возможности и особенности HDFS

4. Импорт/экспорт данных в кластер Hadoop — формирование Data Lake

· Импорт и обработка данных в кластере Hadoop

· Интеграция с реляционными базами данных

· Структура хранения данных в таблицах

· Введение в Sqoop: импорт и экспорт данных из реляционных источников

5. Apache Hive

· Введение в Hive и соответствие DDL операций структуре хранения

· Работа с внешними и внутренними таблицами Hive

· Партиционирование данных

· Hive LLAP, Hive on Spark/Tez

· Хранение данных в HDFS: сжатие и форматы файлов (AVRO, ORC, Parquet)

6. Основы Apache Spark

· Архитектура и состав Apache Spark

· Основные абстракции (Dataframe, RDD)

· Spark SQL

· Ввод и вывод данных в Apache Spark

7. Введение в Cloudera Impala

· Введение в Cloudera Impala: особенности архитектура и компоненты

· Взаимодействие Spark, Hive

8. Введение в Apache HBase

· Архитектура и состав Apache HBase

· Основные абстракции и язык запросов

9. Введение в Apache Kafka

· Архитектура и состав Apache Kafka

· Партиции, топики, управление смещением

· Основные API

10. Введение в Apache Airflow

· Архитектура и состав Apache Airflow

· Основные абстракции (DAG, оператор, сенсор)

· Основные операторы (Bash Operator, Python Operator)

Cписок практических занятий:

· Выполнение и анализ работы Map Reduce приложений

· Особенности запуска задач и использование командной строки YARN

· Работа с HDFS (интерфейс командной строки)

· Импорт/экспорт данных с помощью Apache Sqoop

· Использование Apache Hive для анализа данных

· Обработка данных с использованием Structured API Apache Spark

· Сравнение производительности SQL движков (Hive, Spark, Impala)

· Работа в командной строке с Apache HBase

· Использование Consumer и Producer API в Apache Kafka

· Построение Workflow с использованием Apache Airflow

! Данный курс может быть заказан согласно 44-ФЗ, 223-ФЗ (закупка, аукцион, запрос котировок, конкурсные процедуры)

Слушатели рекомендуют нас

5.0

FAQ

Онлайн обучение реализуется в Системе Дистанционного Обучения УЦ Микротест — Mirapolis и проходит в реальном времени с преподавателем. За несколько дней до начала обучения вы получаете необходимые ссылки для подключения к курсу и доступ к Личному кабинету.

Более подробно вы можете ознакомиться с информацией на странице дистанционного обучения.

Если у вас остались вопросы, то обратитесь к нам любым удобным для вас способом (тел. +7(495) 231-23-51 или training@training-microtest.ru), и мы ответим на все ваши вопросы.

Очное обучение проходит на территории Учебного центра Микротест по адресу: Москва, Дербеневская наб. д. 7 стр.5, 5 этаж.

За несколько дней до начала обучения участник получает приглашение, в котором указан адрес места проведения и другая полезная информация для обучения.

Если вы не получили приглашение — обратитесь к нам любым удобным для вас способом (тел. +7(495) 231-23-51 или training@training-microtest.ru), и мы ответим на ваши вопросы и продублируем приглашение на вашу почту.

Обучение проходит в реальном времени с преподавателем, вы можете задавать свои вопросы и разбирать интересные кейсы сразу в процессе обучения.
Вашу учебную группу будет сопровождать координатор, которому можно задавать организационные вопросы.
Если вы по каким-то причинам пропустили онлайн-занятие, то все записи будут доступны 24/7 в вашем личном кабинете в Системе Дистанционного Обучения. Также вы можете их использовать для закрепления материала.
Дополнительно для вашего удобства мы создаем чат в Telegram вашей группы, где вы сможете задавать вопросы преподавателю, координатору и обмениваться опытом с коллегами по обучению.

По итогу прохождения обучения слушатели получают либо Сертификат Учебного центра о прохождении курса, либо Удостоверение о повышении квалификации, зарегистрированное в ФРДО (Федеральный реестр сведений о документах об образовании и (или) о квалификации, документах об обучении).

Помимо этого, по факту прохождения авторизованных курсов вендоров Eltex, PostgresPro, Astra Linux, QTECH, АЭРОДИСК и др. выдается электронный сертификат вендора.

В основном корпусе в Москве по адресу Дербеневская набережная д.7 стр.5, БЦ «Оазис», парковки, к сожалению, нет. Зато есть муниципальная платная парковка на всех прилегающих улицах.

По поводу остальных филиалов и корпусов — уточняйте информацию у наших менеджеров. Мы постараемся сделать всё возможное для вашего комфортного обучения.

Да, во время занятий для слушателей всегда доступны чай, кофе, печенье и другие снеки на кофе-брейках. Помимо этого, в обеденный перерыв будет предложен полноценный горячий обед.

Наш центр работает с корпоративными и частными клиентами. Для каждой категории клиентов мы разработали различные варианты сотрудничества, позволяющие гибко подходить к ценообразованию и вариантам оплаты.

Обо всех специальных условиях читайте в разделе Спецпредложения или обратитесь к нам любым удобным для вас способом (тел. +7(495) 231-23-51 или training@training-microtest.ru)

Также подпишитесь на новости нашего учебного центра, где вы первыми узнаете про интересные предложения от нас.

Не нашли подходящиего курса?

Оставьте заявку на обучение для вашей организации

Почему выбирают обучение у нас

Техническая
экспертиза

Эксперты в обучении:

Сети передачи данных и связь
ОС Linux и платформы виртуализации
Центры обработки данных и СХД

Опытные преподаватели с мультивендорной экспертизой

Расширенный лабораторный полигон для практики

Подготовка ИТ-специалистов по государственным профессиональным стандартам

Образовательный девелопер

Проектирование и реализация мультивендорных образовательных решений, программ «под ключ»

Разработка и реализация технологических решений для оценки компетенций: тесты, лабораторные полигоны и стенды

Большой опыт создания технологических партнерств с ИТ-вендорами, дистрибьюторами и крупными интеграторами

Пул экспертов в управлении образовательными проектами + разработчики, методологи, педагогические дизайнеры

Узнать подробнее про Учебный центр

Специальные предложения

Скидки физическим лицам

Скидка 10% для физических лиц на любой курс.

Подробнее

Скидка для новых клиентов

Первый раз в УЦ Микротест? Для Вас подарок! Скидка 10% на первый курс.

Воспользоваться