Выберите городМосква
Москва
Алматы
Екатеринбург
Тюмень
Новосибирск
Сочи
Москва
Алматы
Екатеринбург
Тюмень
Новосибирск
Сочи
Личный кабинет СДО
Выберите городМосква
Москва
Екатеринбург
Тюмень
Сочи
Москва+7 495 231-23-51
Екатеринбург
Тюмень
Сочи
SPARK

Анализ данных с помощью современного Apache Spark

Вендор
Тематика
Тип курса
Авторский
Длительность
32 ак. часов
Ближайшая дата
01 дек 2025
Стоимость
96 000 RUB
96 000 RUB
Описание

8-дневный курс обучения по использованию распределенной платформы Apache Spark для работы с большими массивами данных, в том числе — неструктурированных и потоковой обработки информации.

Вы пройдете путь от основ архитектуры Spark до работы с продвинутыми компонентами, такими как GraphX, ML, Structured Streaming и Delta Lake. Программа охватывает как классические подходы (RDD, DataFrames, Spark SQL), так и актуальные тренды: интеграцию с Kubernetes, pandas API в Spark и управление данными через Delta Lake.


О продукте

Apache Spark — это Big Data фреймворк с открытым исходным кодом для распределённой пакетной и потоковой обработки данных (в том числе неструктурированных и слабоструктурированных), входящий в экосистему проектов Hadoop.

Spark состоит из следующих компонентов:

  • Ядро (Core Spark), включающее Spark SQL — возможность аналитической обработки данных с помощью SQL-запросов;
  • Streaming — надстройка для обработки потоковых данных;
  • ML — набор библиотек для подготовки данных и машинного обучения (Machine Learning);
  • GraphX — модуль распределённой обработки графов.

Благодаря такому разнообразию инструментов интерактивной аналитики данных, Спарк активно используется в системах интернета вещей (IoT/IIoT), а также в различных бизнес-приложениях, в т.ч. для машинного обучения. Например, для прогнозирования оттока клиентов и оценки финансовых рисков.

Современный Apache Spark может работать как в среде кластера Hadoop под управлением YARN, так и без компонентов ядра Hadoop, в частности, с использованием Kubernetes в качестве системы управления кластером. Спарк поддерживает несколько популярных распределённых систем хранения данных (HDFS и совместимые с HDFS файловые системы, объектное хранилище Amazon S3), а также может работать с Delta Lake. Apache Spark предоставляет языковые API для часто используемых в области Big Data языков программирования: Java, Scala, Python и R, в современных версиях добавлен Pandas API, возможность работы со Spark Connect, полезная при использовании территориально или сетево удаленных кластеров. Во время курса мы подробно разберем эти и другие особенности современного Apache Spark.


О курсе

Курс обучения  содержит теоретический минимум, необходимый для эффективного использования всех компонентов Apache Spark: от основ RDD до современных инструментов (Delta Lake, Spark on Kubernetes).

Практическая часть включает запуск и настройку компонентов, работу в среде Jupyter Notebook, прикладное использование Спарк для разработки собственных распределенных приложений пакетной и потоковой обработки информации и анализа больших данных.

Кому полезен курс
  • Data Engineers и аналитики, работающие с большими данными.
  • Разработчики, желающие создавать масштабируемые ETL-процессы и ML-модели.
  • Архитекторы, планирующие внедрение Spark в облачные среды (Kubernetes)
Необходимая подготовка
  • Знание базовых команд Linux (опыт работы с командной строкой, файловой системой, POSIX)
  • Начальный опыт программирования (Python)
  • Начальный опыт в экосистеме Hadoop
Программа курса

1. Обзор Apache Spark

    • Архитектура Spark. Обзор компонентов Spark и их назначения

2. Основные абстракции Apache Spark

    • Трансформации и действия, Lazy Evaluation

3. Знакомство с Dataframes

    • Structured API и основная абстракция Spark – Dataframe

4. Знакомство со Spark RDD

    • Low Level API, использование Resilient Distributed Dataset

5. Apache Spark SQL

    • Получение данных из SQL-источников и обработка данных с помощью Spark SQL
    • Отправка данных в SQL СУБД и работа с Hive QL
    • Spark SQL и Hadoop

6. Работа с источниками данных

    • Ввод и вывод в Apache Spark
    • Работа с файлами и базами данных

7. Производительность и параллелизм в Apache Spark

    • Планы выполнения запроса: логические и физические

8. Конфигурирование Apache Spark

    • Принципы конфигурирования и основные настройки

9. Spark Streaming и Structured Streaming

    • Виды потоковой обработки в Apache Spark
    • Особенности исполнения streaming кода
    • Checkpoint в Spark Streaming

10. GraphX и ML

    • Место и особенности графовых моделей в программировании
    • Задачи машинного обучения и проблематика больших данных
    • Основные возможности Spark ML

11. Обработка слабоструктурированных данных

    • Работа с JSON и XML файлами, особенности и возможности

12. Современный Spark

    • pandas API в spark
    • Spark Connect: долгоживущие сессии
    • Spark on Kubernetes (будущее в настоящем)
    • Delta Lake — технологическая основа LakeHouse

! Данный курс может быть заказан согласно 44-ФЗ, 223-ФЗ (закупка, аукцион, запрос котировок, конкурсные процедуры)

Доступные формы обучения
Описание фомата

Дистанционное (онлайн) обучение проводится с применением Системы Дистанционного обучения УЦ Микротест - системы Mirapolis. По форме и содержанию дистанционное обучение полностью совпадает с аналогичными очными курсами.

Занятие длится 8 академических часов в день, стандартное время проведения обучения с 10:00 до 17.00.

Обучение проходит в реальном времени с преподавателем. В процессе обучения вы сможете задавать вопросы – в чате или голосом во время занятия. В зависимости от программы курса, каждому студенту предоставляется доступ к стенду с лабораторными работами. Для закрепления материала курса вам будут доступны записи прошедших вебинаров в вашем личном кабинете в ЛК Mirapolis.

Данный формат обучения позволяет существенно сократить командировочные издержки.

Расписание курса
Выберите удобную для вас дату
дек 2025
01 дек - 08 дек
Москва
Дистанционная Дистанционная
Преподаватель курса
Ожидается назначение
Стоимость
96 000 RUB
Если в расписании нет удобных для Вас дат, напишите нам - мы разработаем удобные варианты специально для Вас!
Слушатели рекомендуют нас
5.0
5.0
FAQ

Онлайн обучение реализуется в Системе Дистанционного Обучения УЦ Микротест — Mirapolis и проходит в реальном времени с преподавателем. За несколько дней до начала обучения вы получаете необходимые ссылки для подключения к курсу и доступ к Личному кабинету.

Более подробно вы можете ознакомиться с информацией на странице дистанционного обучения.

Если у вас остались вопросы, то обратитесь к нам любым удобным для вас способом (тел. +7(495) 231-23-51 или training@training-microtest.ru), и мы ответим на все ваши вопросы.

Очное обучение проходит на территории Учебного центра Микротест по адресу: Москва, Дербеневская наб. д. 7 стр.5, 5 этаж.

За несколько дней до начала обучения участник получает приглашение, в котором указан адрес места проведения и другая полезная информация для обучения.

Если вы не получили приглашение — обратитесь к нам любым удобным для вас способом (тел. +7(495) 231-23-51 или training@training-microtest.ru), и мы ответим на ваши вопросы и продублируем приглашение на вашу почту.

  1. Обучение проходит в реальном времени с преподавателем, вы можете задавать свои вопросы и разбирать интересные кейсы сразу в процессе обучения.
  2. Вашу учебную группу будет сопровождать координатор, которому можно задавать организационные вопросы.
  3. Если вы по каким-то причинам пропустили онлайн-занятие, то все записи будут доступны 24/7 в вашем личном кабинете в Системе Дистанционного Обучения. Также вы можете их использовать для закрепления материала.
  4. Дополнительно для вашего удобства мы создаем чат в Telegram вашей группы, где вы сможете задавать вопросы преподавателю, координатору и обмениваться опытом с коллегами по обучению.

По итогу прохождения обучения слушатели получают либо Сертификат Учебного центра о прохождении курса, либо Удостоверение о повышении квалификации, зарегистрированное в ФРДО (Федеральный реестр сведений о документах об образовании и (или) о квалификации, документах об обучении).

Помимо этого, по факту прохождения авторизованных курсов вендоров Eltex, PostgresPro, Astra Linux, QTECH, АЭРОДИСК и др. выдается электронный сертификат вендора.

В основном корпусе в Москве по адресу Дербеневская набережная д.7 стр.5, БЦ «Оазис», парковки, к сожалению, нет. Зато есть муниципальная платная парковка на всех прилегающих улицах.

По поводу остальных филиалов и корпусов — уточняйте информацию у наших менеджеров. Мы постараемся сделать всё возможное для вашего комфортного обучения.

Да, во время занятий для слушателей всегда доступны чай, кофе, печенье и другие снеки на кофе-брейках. Помимо этого, в обеденный перерыв будет предложен полноценный горячий обед.

Наш центр работает с корпоративными и частными клиентами. Для каждой категории клиентов мы разработали различные варианты сотрудничества, позволяющие гибко подходить к ценообразованию и вариантам оплаты.

Обо всех специальных условиях читайте в разделе Спецпредложения или обратитесь к нам любым удобным для вас способом (тел. +7(495) 231-23-51 или training@training-microtest.ru)

Также подпишитесь на новости нашего учебного центра, где вы первыми узнаете про интересные предложения от нас.

Не нашли подходящиего курса?
Оставьте заявку на обучение для вашей организации
Почему выбирают обучение у нас
Техническая
экспертиза

Эксперты в обучении:

  • Сети передачи данных и связь
  • ОС Linux и платформы виртуализации
  • Центры обработки данных и СХД

Опытные преподаватели с мультивендорной экспертизой

Расширенный лабораторный полигон для практики

Подготовка ИТ-специалистов по государственным профессиональным стандартам

Образовательный девелопер

Проектирование и реализация мультивендорных образовательных решений, программ «под ключ»

Разработка и реализация технологических решений для оценки компетенций: тесты, лабораторные полигоны и стенды

Большой опыт создания технологических партнерств с ИТ-вендорами, дистрибьюторами и крупными интеграторами

Пул экспертов в управлении образовательными проектами + разработчики, методологи, педагогические дизайнеры

Подпишитесь и будьте в курсе
Информация о новинках, скидках и акциях. Уже более 36 000 подписчиков!