Почему для того, чтобы работать с Big Data, надо быть немного сумасшедшим

Введение в машинное обучение I

Теория:

Основные понятия машинного обучения;

Классификация задач;

Понятие объекта и признака;

Извлечение, отбор и преобразование признаков.

Практическая часть:

Знакомство с основными библиотеками Python для анализа данных (в том числе визуализации) и машинного обучения: NumPy, SciPy, Pandas, Matplotlib;

Обзор Jupyter Notebooks как средства подачи материала, включающего код;

Знакомство с прочими инструментами анализа данных — язык R.

Введение в машинное обучение II

Теория:

Оценка качества алгоритмов;

Понятие переобучения и борьба с ним;

Процесс разработки алгоритма под конкретную задачу;

Практическая часть.

Практическая часть:

Знакомство с библиотекой машинного обучения Scikit-Learn.

Обучение с учителем I

Теория:

Введение в supervised learning;

Задачи классификации и регрессии;

Линейные методы классификации;

Машина опорных векторов.

Практическая часть:

Примеры решения задач классификации и регрессии — наборы данных UCI, прогнозирование склонности к оттоку.

Обучение с учителем II

Теория:

Нейронные сети;

Построение ансамблей алгоритмов;

Boosting & Bagging.

Практическая часть:

Примеры решения задач классификации и регрессии — наборы данных UCI, прогнозирование прибыли ресторана.

Обучение без учителя

Теория:

Введение в unsupervised learning;

Задача кластеризации — алгоритм k-means;

Иерархическая кластеризация;

Спектральная кластеризация;

Плотностные методы кластеризации;

Методы снижения размерности пространства признаков: кластеризация, метод главных компонент (PCA);

Поиск аномалий в данных.

Практическая часть:

Пример поиска аномалий в данных;

Решение задачи телематики (определение профиля вождения), кластеризации городов по социально-экономическим показателям.

Обнаружение знаний в данных (Pattern Mining)

Теория:

Поиск частых множеств (товаров) и ассоциативные правила;

Алгоритмы Apriori и FP-growth;

Поиск частых, сильно разделяющих паттернов (frequent diverse patterns и emerging patterns);

Поиск паттернов с ограничениями (constraints);

Поиск частых последовательностей;

Поиск частых подграфов.

Практическая часть:

Знакомство с инструментом SPMF;

Анализ последовательностей на примере демографических данных.

Анализ социальных сетей

Теория:

Введение в теорию графов;

Классические алгоритмы на графах;

Поиск в ширину и поиск в глубину;

Алгоритм PageRank;

Применение машинного обучения в графовых задачах;

Алгоритмы поиска связных компонет в графе;

Обнаружение групп в соцсетях;

Практическая часть:

Решение задачи рекомендации друзей в социальных сетях (Link Prediction);

Обзор инструмента Gephi.

Рекомендательные системы

Теория:

Введение в коллаборативную фильтрацию;

Item-Based и User-Based подходы к задаче рекомендации. Выбор меры сходства;

Оценка качества рекомендательной системы;

Рекомендации на основе ассоциативных правил;

Методы на основе матричной факторизации (SVD, PLSA, LDA, BMF);

Мультимодальная кластеризация и рекомендации в фолксономиях.

Практическая часть:

Case-study: рекомендация радиостанций;

Пример построения рекомендательной системы фильмов с Apache Spark MLlib на данных MovieLens.

Обработка текстов

Теория:

Задачи обработки естественного языка (NLP);

Предобработка текстов: лемматизация, стемминг, синтаксический и морфологический анализ;

Модели представления текстов: мешок слов, VSM, синтаксические деревья;

Современные методы: word2vec, topic modeling.

Практическая часть:

Поиск ключевых слов, определение сходства документов, кластеризация текстов, поиск похожих слов.

Введение в анализ больших данных

Теория:

Распределенное хранение данных;

Инструменты анализа больших данных;

Реализация алгоритмов машинного обучения в парадигме MapReduce;

Data Mining на больших данных;

Машинное обучение: подход MapReduce;

Машинное обучение: онлайн-обучение;

Стохастический градиентный спуск;

Концепция вычислений в памяти и устойчивых распределенных наборов данных (RDD);

Обзор инструмента Apache Spark.

Практическая часть:

Анализ логов с Apache Spark.

Машинное обучение на больших данных, анализ больших графов

Теория:

Обзор библиотек MLlib и GraphX Apache Spark;

Реализация алгоритмов на графах в парадигме MapReduce;

Методы оценки сходства больших графов (соцсетей).

Практическая часть:

Пример решения задачи классификации со Spark MLlib;

Обзор графовых алгоритмов в Spark GraphX.

Полная программа курса

© Habrahabr.ru