УЦ Микротест - источник ваших знаний
 
Личный кабинет Вход / Регистрация
 
 
 
  Вход Регистрация
Логин*
E-mail, указанный при регистрации
Пароль* не помню
 
Войти как пользователь
Вы можете войти на сайт, если вы зарегистрированы на одном из этих сервисов:
 
 
0 позиций

       +7 (495) 231 23 51 Москва

       +7 (964) 778 99 27 Москва

       Дербеневская наб. д.7 стр. 5

Учебный центр Микротест / Расписание курсов / Microsoft / Big Data / Инженерия данных в Microsoft HD Insight

Курс Инженерия данных в Microsoft HD Insight (Код: 20775)

Microsoft

 


Основная цель курса - дать студентам возможность планировать и реализовывать рабочие процессы с большими данными в HDInsight.

Курс длится 40 академических часов


Аудитория

Основная аудитория этого курса - инженеры данных, архитекторы данных, ученые данных и разработчики данных, которые планируют внедрить рабочие процессы обработки больших данных в HDInsight.

Необходимая подготовка
  • Опыт программирования на R и знакомство с распространенными R-пакетами.
  • Знание общих статистических методов и лучших методов анализа данных.
  • Базовые знания операционной системы Microsoft Windows и ее основных функций.
  • Знание реляционных баз данных.
Цели курса
По окончании курса слушатели научатся:
  • Разворачивать кластеры HDInsight.
  • Авторизовать пользователей для доступа к ресурсам.
  • Загружать данные в HDInsight.
  • Устранять неполадки HDInsight.
  • Внедрять пакетные решения.
  • Разрабатывать пакетные решений ETL для больших данных с помощью Spark
  • Анализ данных с помощью Spark SQL.
  • Анализ данных с помощью Hive и Phoenix.
  • Описывать Stream Analytics.
  • Реализовывать Spark Streaming с помощью API DStream.
  • Разрабатывать решения для обработки больших данных в реальном времени с помощью Apache Storm.
  • Строить решения, использующие Kafka и HBase.

Подробная программа курса

Содержание

Модуль 1. Начало работы с HDInsight

Этот модуль представляет Hadoop, парадигму MapReduce и HDInsight.

Занятия

  • Что такое большие данные?
  • Введение в Hadoop
  • Работа с функцией MapReduce
  • Представляем HDInsight

Лабораторная работа: работа с HDInsight

  • Подготовьте кластер HDInsight и запустите задания MapReduce

После прохождения этого модуля студенты смогут:

  • Понимать Hadoop, MapReduce и HDInsight.
  • Использовать сценарии для подготовки кластера HDInsight.
  • Запускать программу MapReduce с подсчетом слов, используя PowerShell.

Модуль 2: Развертывание кластеров HDInsight

Этот модуль содержит обзор типов кластеров Microsoft Azure HDInsight, а также создание и обслуживание кластеров HDInsight. Модуль также демонстрирует, как настроить кластеры с помощью действий сценария через портал Azure, Azure PowerShell и интерфейс командной строки Azure (CLI). Этот модуль включает в себя лабораторные работы, которые предоставляют шаги для развертывания и управления кластерами.

Занятия

  • Определение типов кластеров HDInsight
  • Управление кластерами HDInsight с помощью портала Azure
  • Управление кластерами HDInsight с помощью Azure PowerShell

Лабораторная работа: управление кластерами HDInsight с помощью портала Azure

  • Создайте кластер HDInsight, который использует хранилище Data Lake Store
  • Настройте HDInsight с помощью действий сценария
  • Удалить кластер HDInsight

После прохождения этого модуля студенты смогут:

  • Определять типы кластеров HDInsight
  • Управлять кластерами HDInsight с помощью портала Azure.
  • Управлять кластерами HDInsight с помощью Azure PowerShell.

Модуль 3: Авторизация пользователей для доступа к ресурсам

Этот модуль предоставляет обзор не связанных с доменом и присоединенных к домену кластеров Microsoft HDInsight, а также создание и настройка присоединенных к домену кластеров HDInsight. Модуль также демонстрирует, как управлять присоединенными к домену кластерами, используя пользовательский интерфейс управления Ambari и пользовательский интерфейс администратора Ranger. Этот модуль включает в себя лабораторные занятия, которые будут содержать инструкции по созданию и управлению присоединенными к домену кластерами.

Занятия

  • Недоменные присоединенные кластеры
  • Настройка присоединенных к домену кластеров HDInsight
  • Управление присоединенными к домену кластерами HDInsight

Лабораторная работа: авторизация пользователей для доступа к ресурсам

  • Подготовьте лабораторную среду
  • Управление присоединенным кластером без домена

После прохождения этого модуля студенты смогут:

  • Определять характеристики недоменных и присоединенных к домену кластеров HDInsight.
  • Создавать и настраивать присоединенные к домену кластеры HDInsight с помощью Azure PowerShell.
  • Управлять присоединенным к домену кластером, используя пользовательский интерфейс управления Ambari и пользовательский интерфейс администратора Ranger.
  • Создавать политики Hive и управлять разрешениями пользователей.

Модуль 4: Загрузка данных в HDInsight

Этот модуль представляет собой введение в загрузку данных в хранилище BLOB-объектов Microsoft Azure и хранилище озера данных Microsoft Azure. В конце этого урока вы узнаете, как использовать несколько инструментов для передачи данных в кластер HDInsight. Вы также узнаете, как загружать и преобразовывать данные, чтобы сократить время выполнения запроса.

Занятия

  • Хранение данных для обработки HDInsight
  • Использование инструментов загрузки данных
  • Максимизация ценности от сохраненных данных

Лабораторная работа: загрузка данных в вашу учетную запись Azure

  • Загрузить данные для использования с HDInsight

После прохождения этого модуля студенты смогут:

  • Знать архитектуру ключевых решений для хранилищ HDInsight.
  • Использовать инструменты для загрузки данных в кластеры HDInsight.
  • Сжимать и сериализировать загруженные данные для сокращения времени обработки.

Модуль 5: Устранение неполадок HDInsight

В этом модуле вы узнаете, как интерпретировать журналы, связанные с различными службами кластера Microsoft Azure HDInsight, для устранения проблем, которые могут возникнуть у вас с этими службами. Вы также узнаете о Operations Management Suite (OMS) и его возможностях.

Занятия

  • Анализ журналов HDInsight
  • Журналы YARN
  • Куча свалок
  • Комплект управления операциями

Лабораторная работа: устранение неполадок HDInsight

  • Анализ журналов HDInsight
  • Анализировать журналы YARN
  • Мониторинг ресурсов с помощью Operations Management Suite

После прохождения этого модуля студенты смогут:

  • Находить и анализировать журналы HDInsight.
  • Использовать журналы YARN для устранения неполадок приложения.
  • Понимать и включать дампы кучи.
  • Описывать, как OMS можно использовать с ресурсами Azure.

Модуль 6: Внедрение пакетных решений

В этом модуле вы рассмотрите реализацию пакетных решений в Microsoft Azure HDInsight с использованием Hive и Pig. Вы также обсудите подходы к эксплуатации конвейера данных, которые доступны для больших нагрузок данных в стеке HDInsight.

Занятия

  • Хранилище Apache Hive
  • Запросы данных HDInsight с использованием Hive и Pig
  • Операционализировать HDInsight

Лабораторная работа: внедрение пакетных решений

  • Развертывание кластера HDInsight и хранилища данных
  • Используйте передачу данных с кластерами HDInsight
  • Запрос данных кластера HDInsight

После прохождения этого модуля студенты смогут:

  • Понимать Apache Hive и сценарии, в которых он может быть использован.
  • Запускать пакетные задания, используя Apache Hive и Apache Pig.
  • Объяснять возможности Microsoft Azure фабрики данных и Apache Oozie - и как они могут управлять и автоматизировать рабочие процессы с большими данными.

Модуль 7. Разработка пакетных решений ETL для больших данных с помощью Spark

Этот модуль предоставляет обзор Apache Spark, описывая его основные характеристики и ключевые функции. Прежде чем начать, полезно понять базовую архитектуру Apache Spark и различные доступные компоненты. В модуле также объясняется, как проектировать решения для извлечения, преобразования, загрузки (ETL) для больших данных с помощью Spark в HDInsight. Последний урок включает в себя некоторые рекомендации по улучшению производительности Spark.

Занятия

  • Что такое Spark?
  • ETL в Spark
  • Производительность Spark

Лабораторная работа: разработка пакетных решений ETL для больших данных с помощью Spark.

  • Создайте кластер HDInsight с доступом к хранилищу озера данных
  • Использование кластера HDInsight Spark для анализа данных в хранилище озера данных
  • Анализ журналов веб-сайтов с использованием специальной библиотеки с кластером Apache Spark в HDInsight
  • Управление ресурсами для кластера Apache Spark в Azure HDInsight

После прохождения этого модуля студенты смогут:

  • Описывать архитектуру Spark в HDInsight.
  • Описывать различные компоненты, необходимые для приложения Spark в HDInsight.
  • Определять преимущества использования Spark для процессов ETL.
  • Создавать код Python и Scala в программе Spark для приема или обработки данных.
  • Определять настройки кластера для оптимальной производительности.
  • Отслеживать и отлаживать задания, запущенные в кластере Apache Spark в HDInsight.

Модуль 8: Анализ данных с помощью Spark SQL

Этот модуль описывает, как анализировать данные с помощью Spark SQL. В нем вы сможете объяснить различия между RDD, наборами данных и фреймами данных, определить варианты использования между итеративными и интерактивными запросами и описать лучшие практики для кэширования, разбиения на разделы и персистентности. Вы также узнаете, как использовать записные книжки Apache Zeppelin и Jupyter, выполнять аналитический анализ данных, а затем удаленно отправлять задания Spark в кластер Spark.

Занятия

  • Реализация итерационных и интерактивных запросов
  • Выполнить исследовательский анализ данных

Лабораторная работа: выполнение аналитического анализа данных с использованием итерационных и интерактивных запросов

  • Создайте приложение машинного обучения
  • Используйте zeppelin для интерактивного анализа данных
  • Просмотр и управление сессиями Spark с помощью Livy

После прохождения этого модуля студенты смогут:

  • Реализовывать интерактивные запросы.
  • Выполнять исследовательский анализ данных.

Модуль 9: Анализ данных с помощью Hive и Phoenix

В этом модуле вы узнаете о выполнении интерактивных запросов с использованием Interactive Hive (также известного как Hive LLAP или Live Long and Process) и Apache Phoenix. Вы также узнаете о различных аспектах выполнения интерактивных запросов с использованием Apache Phoenix с HBase в качестве основного механизма запросов.

Занятия

  • Реализуйте интерактивные запросы для больших данных с помощью интерактивного улья.
  • Выполните исследовательский анализ данных с помощью Hive
  • Выполнять интерактивную обработку с использованием Apache Phoenix

Лабораторная работа: анализ данных с помощью Hive и Phoenix

  • Реализуйте интерактивные запросы для больших данных с интерактивным Hive
  • Выполните исследовательский анализ данных с помощью Hive
  • Выполнять интерактивную обработку с использованием Apache Phoenix

После прохождения этого модуля студенты смогут:

  • Реализовывать интерактивные запросы с интерактивным Hive.
  • Выполнять исследовательский анализ данных, используя Hive.
  • Выполнять интерактивную обработку с использованием Apache Phoenix.

Модуль 10: Потоковая аналитика

Служба Microsoft Azure Stream Analytics имеет некоторые встроенные функции и возможности, которые делают ее столь же простой в использовании, как и гибкая служба потоковой обработки в облаке. Вы увидите, что использование Stream Analytics для ваших потоковых решений имеет ряд преимуществ, которые вы обсудите более подробно. Вы также сравните функции Stream Analytics с другими службами, доступными в стеке Microsoft Azure HDInsight, такими как Apache Storm. Вы узнаете, как развернуть задание Stream Analytics, подключить его к концентратору событий Microsoft Azure для получения данных в реальном времени и выполнить запрос Stream Analytics, чтобы получить представление с низкой задержкой. После этого вы узнаете, как можно отслеживать задания Stream Analytics при развертывании и использовании в рабочих настройках.

Занятия

  • Потоковая аналитика
  • Обработка потоковых данных из потоковой аналитики
  • Управление заданиями потоковой аналитики

Лабораторная работа: внедрение Stream Analytics

  • Обработка потоковых данных с помощью потоковой аналитики
  • Управление заданиями потоковой аналитики

После прохождения этого модуля студенты смогут:

  • Описывать потоковую аналитику и ее возможности.
  • Обрабатывать потоковые данные с помощью потоковой аналитики.
  • Управлять заданиями потоковой аналитики.

Модуль 11: Реализация потоковых решений с Kafka и HBase

В этом модуле вы узнаете, как использовать Kafka для создания потоковых решений. Вы также узнаете, как использовать Kafka для сохранения данных в HDFS с помощью Apache HBase, а затем запросить эти данные.

Занятия

  • Построение и развертывание кластера Kafka
  • Публикация, использование и обработка данных с использованием кластера Kafka
  • Использование HBase для хранения и запроса данных

Лабораторная работа: внедрение потоковых решений с Kafka и HBase

  • Создайте виртуальную сеть и шлюз
  • Создать грозовой кластер для Кафки
  • Создать производителя Кафки
  • Создать клиентскую топологию потокового процессора
  • Создание панели мониторинга Power BI и набора потоковых данных
  • Создать кластер HBase
  • Создайте потоковый процессор для записи в HBase

После прохождения этого модуля студенты смогут:

  • Создавать и разворачивать кластер Kafka.
  • Публиковать данные в кластере Kafka, использовать данные из кластера Kafka и выполнять потоковую обработку с использованием кластера Kafka.
  • Сохранять потоковые данные в HBase и выполнять запросы с использованием HBase API.

Модуль 12. Разработка решений для обработки больших данных в реальном времени с помощью Apache Storm

Этот модуль объясняет, как разрабатывать решения для обработки больших данных в реальном времени с помощью Apache Storm.

Занятия

  • Сохранять долгосрочные данные
  • Потоковые данные с помощью Storm
  • Создание топологий Storm
  • Настройте Apache Storm

Лабораторная работа: разработка решений для обработки больших данных в реальном времени с помощью Apache Storm

  • Потоковые данные с помощью Storm
  • Создание штормовых топологий

После прохождения этого модуля студенты смогут:

  • Сохранять долгосрочные данные.
  • Выполнять потоковую передачу данных с помощью Storm.
  • Создавать топологию Storm.
  • Настраивать Apache Storm.

Модуль 13: Создание приложений Spark Streaming

Этот модуль описывает Spark Streaming; объясняет, как использовать дискретизированные потоки (DStreams); и объясняет, как применять концепции для разработки приложений Spark Streaming.

Занятия

  • Работа с Spark Streaming
  • Создание Spark структурированных потоковых приложений
  • Постоянство и визуализация

Лабораторная работа: создание приложения Spark Streaming

  • Установка необходимого программного обеспечения
  • Создание инфраструктуры Azure
  • Строительство искрового потокового трубопровода

После прохождения этого модуля студенты смогут:

  • Описывать Spark Streaming и как это работает.
  • Использовать дискретизированные потоки (DStreams).
  • Работать с операциями со скользящим окном.
  • Применять концепции для разработки приложений Spark Streaming.
  • Описывать структурированные потоки.

Скрыть подробную программу курса

Заказать обучение «Инженерия данных в Microsoft HD Insight (20775)» можно, кликнув на удобную дату его проведения, по почте training AT training-microtest DOT ru или по одному из телефонов, указанных в разделе Контакты.



 
 
Заказать
Добавить отзыв Вы сможете после регистрации на нашем сайте

Зарегистрироваться или авторизоваться