Выберите городМосква
Москва
Екатеринбург
Тюмень
Санкт-Петербург
Сочи
Тбилиси
Москва+7 495 231-23-51
Екатеринбург
Тюмень
Санкт-Петербург
Тбилиси
Личный кабинет
Выберите городМосква
Москва
Екатеринбург
Тюмень
Санкт-Петербург
Сочи
Тбилиси
Москва+7 495 231-23-51
Екатеринбург
Тюмень
Санкт-Петербург
Тбилиси
Big Data
DPREP

ПОДГОТОВКА ДАННЫХ ДЛЯ DATA MINING НА PYTHON

Вендор
Тематика
Тип курса
Авторский
Формы обучения
Смешанная
СмешаннаяСмешанная
Длительность, формат и расписание ежедневных занятий для каждого курса индивидуальны и будут высланы каждому слушателю до начала обучения.
Длительность
32 ак. часов
Ближайшая дата
01 июн. / Москва
Стоимость
48 000.00 RUB
48 000.00 RUB
Описание

Подготовка данных выполняется при загрузке информации в корпоративное озеро (Data Lake), интеллектуальном анализе данных (Data Mining) и моделировании в рамках машинного обучения (Machine Learning). Вообще процесс сбора и подготовки данных – один из самых трудоемких и сложных этапов в анализе информации, который занимает до 80% времени.

Статистические методики и специальное программное обеспечение позволяют значительно сократить временные и финансовые затраты всех этих процессов, а также повысить качество конечных результатов.

 

Профиль аудитории

Курс по подготовке данных к Data Mining ориентированы на статистиков, исследователей, начинающих Data Scientist’ов, специалистов по машинному обучению, архитекторов Data Lake, аналитиков и инженеров данных, которые отвечают за сбор, подготовку и очистку Big Data.

Также курс “Подготовка данных для Data Mining на Python” будет полезен специалистам по работе с большими данными, разработчикам и руководителям, которые хотят понять подходы к подготовке данных для решения бизнес-задач с помощью Machine Learning и получить практические навыки в этой области

Необходимая подготовка
  • опыт программирования на языке Python;
  • знание основ математического анализа и математической статистики;
Цели курса

Если вы хотите разобраться с основами Data Mining и научиться самостоятельно формировать датасеты для машинного обучения, а также освоить инструменты Apache Spark и Python для статистической обработки больших данных, вам необходим этот курс подготовка данных для Data Mining

Программа курса

1. ПРОДВИНУТЫЕ ВОЗМОЖНОСТИ БИБЛИОТЕК ЯЗЫКА PYTHON ДЛЯ ОБРАБОТКИ И ВИЗУАЛИЗАЦИИ ДАННЫХ

Цель: познакомить участников с продвинутыми возможностями основных библиотек языка Python для обработки и визуализации данных и сформировать необходимые навыки по работе с данными в рассматриваемых библиотеках

Теоретическая часть:

  • изучение возможностей библиотек языка Python для обработки (Pandas, NumPy, SciPy, Sklearn) и визуализации (matplotlib, seaborn) данных.
  • обзор основных приемов по работе с данными:
    • первичный анализ данных
    • получение описательных статистик
    • изменение типа данных
    • построение сводных таблиц
    • визуализация статистических характеристик данных (гистограммы, графики плотностей распределений, тепловые карты, «ящики с усами» и «виолончели»)

Практическая часть: решение практических задач обработки и визуализации данных на примере табличных данных.

2. БИБЛИОТЕКИ PYTHON В КОРРЕКТИРОВАНИИ ТИПИЧНЫХ ОСОБЕННОСТЕЙ В ДАННЫХ

Цель: познакомить участников с основными особенностями в данных, с которыми приходится сталкиваться в реальных задачах, и научить успешно их корректировать с использованием библиотек языка Python. Продемонстрировать применение указанных подходов в случае промышленного варианта подготовки данных на примере использования Apache Spark (PySpark).

Теоретическая часть:

  • обзор типичных особенностей в данных и подходов к их корректировке:
    • отсутствующие значения
    • выбросы
    • дубликаты
  • подготовка данных для использования в алгоритмах машинного обучения:
    • нормализация числовых данных
    • преобразование категориальных значений
    • работа с текстовыми данными

Практическая часть: подготовка «сырых» данных для использования в алгоритме машинного обучения с подробным анализом влияния каждой особенности датасета на конечный результат работы алгоритма

3. ПОДХОДЫ К ПОСТРОЕНИЮ ДОПОЛНИТЕЛЬНОГО ПРИЗНАКОВОГО ПРОСТРАНСТВА НА ОСНОВЕ ИСХОДНЫХ ДАННЫХ

Цель: познакомить участников с основными подходами получения дополнительных и наиболее значимых характеристик из исходных данных. Продемонстрировать влияние дополнительных признаков на улучшение метрик качества работы алгоритмов машинного обучения с использованием библиотеки Sklearn

Теоретическая часть:

  • обзор подходов формирования дополнительного признакового пространства и выбора наиболее значимых характеристик
    • увеличение размерности исходного признакового пространства
      • постановка задачи в случае обучения с учителем – с использованием целевой переменной
      • постановка задачи в случае обучения без учителя
    • уменьшение размерности исходного признакового пространства
  • подробный анализ задачи увеличения размерности исходного признакового пространства в случае обучения с учителем:
    • статистические методы фильтрации признаков в задачах классификации и регрессии
    • методы машинного обучения как инструменты для получения наиболее значимых признаков в данных

 Практическая часть: решение прикладной задачи построения дополнительного признакового пространства и получения наиболее значимых признаков с подробным анализом влияния рассмотренных теоретических подходов на конечный результат работы алгоритмов машинного обучения

4. ПРОЕКТНАЯ РАБОТА

Цель: закрепить полученные слушателями курса знания по подготовке данных.

Теоретическая часть: краткий обзор пройденного материала со ссылками на рабочие блокноты, в которых решалась та или иная задача подготовки данных.

Практическая часть: самостоятельное решение задачи подготовки датасета для машинного обучения с использованием собственной базы данных или на лабораторном наборе от организаторов курса. Итоговый разбор работ слушателей курса.

Доступные формы обучения
Описание фомата

Смешанное обучение совмещает в себе очные и дистанционные форматы. Часть программы студенты могут пройти удаленно, а часть – в учебном центре. Некоторые темы в программе не требуют личного присутствия обучающегося, а более сложные для объяснения элементы (в основном уровня advanced) рассматриваются непосредственно в аудитории-лаборатории. Практические занятия проходят под руководством опытного инструктора на территории учебного центра, в то время как теорию обучающиеся проходят в удаленной форме под дистанционным контролем.

Длительность, формат и расписание ежедневных занятий для каждого курса индивидуальны и будут высланы каждому слушателю до начала обучения.

Смешанный формат позволяет оптимизировать процесс обучения и сократить время на ежедневную логистику «до» и «от» учебного центра в часы пик.

Расписание курса
Выберите удобную для вас дату
июн. 2021
01 - 04 июн.
Москва
СмешаннаяСмешанная
Преподаватель курса
Ожидается назначение
Стоимость
48 000.00 RUB
Если в расписании нет удобных для Вас дат, напишите нам - мы разработаем удобные варианты специально для Вас!
FAQ

По окончании обучения слушатели получают либо Сертификат Учебного Центра о прохождении курса, либо Удостоверение о повышении квалификации, зарегистрированное в ФРДО (Федеральный реестр сведений о документах об образовании и (или) о квалификации, документах об обучении). Для получения Свидетельства необходимо, чтобы длительность обучения превышала 16 академических часов, а также необходимо предоставить оригинал Диплома о профессиональном или высшем образовании государственного образца.

Помимо этого, по факту прохождения авторизованных курсов вендоров Cisco, Postgres, AstraLinux, Microsoft, ICAgile выдается электронный сертификат вендора.

Возьмите паспорт и Диплом об окончании профессионального или высшего образования. Диплом понадобится для получения Удостоверения о повышении квалификации (в случае отсутствия Диплома, по окончании курса будет выдан Сертификат Учебного Центра, подтверждающий факт пройденного обучения).

За несколько дней до начала обучения (обычно за неделю) все слушатели получают приглашение по указанной электронной почте (если обучение заказывалось централизованно, ваш персональный мейл могли не передать - обратитесь к специалисту вашей организации, кто заказывал курсы, приглашение есть у него). В приглашении указан адрес и прочая полезная для слушателя информация. Если вы не получили приглашение – обратитесь к нам любым удобным для вас способом, и мы сообщим адрес и продублируем приглашение на вашу почту.

В основном корпусе в Москве по адресу Дербеневская набережная д.7 стр.5, БЦ «Оазис», парковки, к сожалению, нет. Зато есть муниципальная платная парковка на всех прилегающих улицах.

По поводу остальных филиалов и корпусов – уточняйте информацию у наших менеджеров. Мы постараемся сделать всё возможное для вашего комфортного обучения.

Да, во время занятий для слушателей всегда доступны чай, кофе, прохладительные напитки и орешки, печеньки и другие снеки на кофе-брейках. Помимо этого, в обеденный перерыв будет предложен полноценный горячий обед.

Наш центр работает с корпоративными и частными клиентами. Для каждой категории клиентов мы разработали различные варианты сотрудничества, позволяющие гибко подходить к ценообразованию и вариантам оплаты.

Обо всех специальных условиях читайте в разделе Спецпредложения.

Недостаточно информации? Напишите нам, и мы сделаем вам предложение, от которого невозможно отказаться.

Не нашли подходящиего курса?
Оставьте заявку на обучение для вашей организации
Подпишитесь и будьте в курсе
Информация о новинках, скидках и акциях. Уже более 36 000 подписчиков!