Почему для того, чтобы работать с Big Data, надо быть немного сумасшедшим
Введение в машинное обучение I
Теория:
• Основные понятия машинного обучения;
• Классификация задач;
• Понятие объекта и признака;
• Извлечение, отбор и преобразование признаков.
Практическая часть:
• Знакомство с основными библиотеками Python для анализа данных (в том числе визуализации) и машинного обучения: NumPy, SciPy, Pandas, Matplotlib;
• Обзор Jupyter Notebooks как средства подачи материала, включающего код;
• Знакомство с прочими инструментами анализа данных — язык R.
Введение в машинное обучение II
Теория:
• Оценка качества алгоритмов;
• Понятие переобучения и борьба с ним;
• Процесс разработки алгоритма под конкретную задачу;
• Практическая часть.
Практическая часть:
• Знакомство с библиотекой машинного обучения Scikit-Learn.
Обучение с учителем I
Теория:
• Введение в supervised learning;
• Задачи классификации и регрессии;
• Линейные методы классификации;
• Машина опорных векторов.
Практическая часть:
• Примеры решения задач классификации и регрессии — наборы данных UCI, прогнозирование склонности к оттоку.
Обучение с учителем II
Теория:
• Нейронные сети;
• Построение ансамблей алгоритмов;
• Boosting & Bagging.
Практическая часть:
• Примеры решения задач классификации и регрессии — наборы данных UCI, прогнозирование прибыли ресторана.
Обучение без учителя
Теория:
• Введение в unsupervised learning;
• Задача кластеризации — алгоритм k-means;
• Иерархическая кластеризация;
• Спектральная кластеризация;
• Плотностные методы кластеризации;
• Методы снижения размерности пространства признаков: кластеризация, метод главных компонент (PCA);
• Поиск аномалий в данных.
Практическая часть:
• Пример поиска аномалий в данных;
• Решение задачи телематики (определение профиля вождения), кластеризации городов по социально-экономическим показателям.
Обнаружение знаний в данных (Pattern Mining)
Теория:
• Поиск частых множеств (товаров) и ассоциативные правила;
• Алгоритмы Apriori и FP-growth;
• Поиск частых, сильно разделяющих паттернов (frequent diverse patterns и emerging patterns);
• Поиск паттернов с ограничениями (constraints);
• Поиск частых последовательностей;
• Поиск частых подграфов.
Практическая часть:
• Знакомство с инструментом SPMF;
• Анализ последовательностей на примере демографических данных.
Анализ социальных сетей
Теория:
• Введение в теорию графов;
• Классические алгоритмы на графах;
• Поиск в ширину и поиск в глубину;
• Алгоритм PageRank;
• Применение машинного обучения в графовых задачах;
• Алгоритмы поиска связных компонет в графе;
• Обнаружение групп в соцсетях;
Практическая часть:
• Решение задачи рекомендации друзей в социальных сетях (Link Prediction);
• Обзор инструмента Gephi.
Рекомендательные системы
Теория:
• Введение в коллаборативную фильтрацию;
• Item-Based и User-Based подходы к задаче рекомендации. Выбор меры сходства;
• Оценка качества рекомендательной системы;
• Рекомендации на основе ассоциативных правил;
• Методы на основе матричной факторизации (SVD, PLSA, LDA, BMF);
• Мультимодальная кластеризация и рекомендации в фолксономиях.
Практическая часть:
• Case-study: рекомендация радиостанций;
• Пример построения рекомендательной системы фильмов с Apache Spark MLlib на данных MovieLens.
Обработка текстов
Теория:
• Задачи обработки естественного языка (NLP);
• Предобработка текстов: лемматизация, стемминг, синтаксический и морфологический анализ;
• Модели представления текстов: мешок слов, VSM, синтаксические деревья;
• Современные методы: word2vec, topic modeling.
Практическая часть:
• Поиск ключевых слов, определение сходства документов, кластеризация текстов, поиск похожих слов.
Введение в анализ больших данных
Теория:
• Распределенное хранение данных;
• Инструменты анализа больших данных;
• Реализация алгоритмов машинного обучения в парадигме MapReduce;
• Data Mining на больших данных;
• Машинное обучение: подход MapReduce;
• Машинное обучение: онлайн-обучение;
• Стохастический градиентный спуск;
• Концепция вычислений в памяти и устойчивых распределенных наборов данных (RDD);
• Обзор инструмента Apache Spark.
Практическая часть:
• Анализ логов с Apache Spark.
Машинное обучение на больших данных, анализ больших графов
Теория:
• Обзор библиотек MLlib и GraphX Apache Spark;
• Реализация алгоритмов на графах в парадигме MapReduce;
• Методы оценки сходства больших графов (соцсетей).
Практическая часть:
• Пример решения задачи классификации со Spark MLlib;
• Обзор графовых алгоритмов в Spark GraphX.
Полная программа курса