[Перевод] Список ресурсов по машинному обучению. Часть 220.02.2016 13:03

Продолжим (1, 2) рассматривать тему машинного обучения. Вашему вниманию вторая часть (первая тут) адаптированной подборки полезных материалов.

Разное

Список: отличные фреймворки, библиотеки и приложения машинного обучения;
Список: отличные библиотеки и другие ресурсы для визуализации данных;
Awesome Data Science: материалы по науке о данных;
Data Science Masters: обучающие материалы и литература по даталогии;
Cross Validated: FAQ по машинному обучению;
Список: университетские курсы, связанные с машинным обучением;
Quora: алгоритмы машинного обучения, которые нужно понимать;
Статья: разница между линейно независимыми, ортогональными и некоррелированными переменными;
Список: концепции и алгоритмы машинного обучения;
Презентации: различные темы;

Презентация: лекции MIT по машинному обучению;
Статья: сравнение алгоритмов обучения с учителем;
Статья: основы науки о данных;
Статья: три ошибки в машинном обучении, которые стоит избегать;
TheAnalyticsEdge: лекции с примерами;

Интервью

Quora: как студенту подготовиться к интервью на должность специалиста по работе с данными;
Quora: с чего начать знакомство с машинным обучением;
Quora: FAQ по интервью на должность специалиста по работе с данными;
Quora: самые важные навыки для специалиста по обработке данных;

Искусственный интеллект

Репозиторий: список ресурсов по искусственному интеллекту;
edX: курс по искусственному интеллекту от Дэна Клейна и Питера Аббеля;
Udacity: курс Питера Норвига и Себастьяна Труна;
TED Talks: искусственный интеллект;

Генетические алгоритмы

Wiki: генетические алгоритмы;
Outlace: простая реализация генетических алгоритмов на Python (часть 1);
Outlace: простая реализация генетических алгоритмов на Python (часть 2);
ai-junkie: о генетических алгоритмах простым языком;
Wiki: генетическое программирование;
GitHub: генетическое программирование на Python;
Quora: генетические алгоритмы и генетическое программирование;

Статистика

Stat Trek: все о статистике и вероятностях;
Intro2stats: изучайте статистику с помощью Python;
Statistics for Hackers: презентация от Джейка Вандерпласа;
Online Statistics Book: интерактивный мультимедийный курс по статистике;
Статья: что такое выборочное распределение;
Обучение: программа углубленного изучения статистики;
Обучение: статистика и вероятность;
Обучение: алгебра матриц;
Форум: что такое несмещенная оценка;
Wiki: критерий согласия;
Статья: что такое квантиль-квантиль графики;

Полезные блоги

Блог Эдвина Чена: блог о математике, статистике, машинном обучении и науке о данных;
Data School: даталогия для начинающих;
ML Wave: изучение машинного обучения;
Karpathy: блог о глубоком обучении и науке о данных;
Colah: отличный блог о нейронных сетях;
Блог Алекса Минаара: блог о машинном обучении и программировании;
Statistically Significant: блог Эндрю Ландграфа о науке о данных;
Simply Statistics: блог ведут три профессора биостатистики;
Yanir Seroussi: блог о науке о данных и не только;
fastML: доступным языком о машинном обучении;

Trevor Stephens: персональная страница Тревора Стефенса;
Kaggle: все об обработке и анализе данных;
Outlace: блог студента о машинном обучении;
r4stats: все о науке о данных и R;
Variance Explained: блог Дэвида Робинсона;
AI Junkie: блог об искусственном интеллекте;

Ресурсы на Quora

Kaggle Competitions

Статья: как (почти) выиграть Kaggle Competitions;
Статья: применение сверточных нейронных сетей для расшифровки сигналов ЭЭГ;
Статья: разбор Facebook Recruiting III;
Статья: предсказание коэффициента CTR с помощью динамического машинного обучения;

Шпаргалки

Классификация

Статья: помогает ли балансировка классов улучшить результаты работы классификатора;
Quora: преимущества различных алгоритмов классификации;
Статья: ROC-анализ;
Статья: матрица неточностей — терминология;

Линейная регрессия

Статья: условия применения линейной регрессии;
duke.edu: все о линейной регрессии;
Data School: применение и оценка результатов линейной регрессии;
ResearchGate: что, если зависимая переменная не имеет нормального распределения;
Wiki: мультиколлинеарность;
Статья: мультиколлинеарность и фактор инфляции дисперсии (VIF);
Статья: регуляризация и выбор переменных с помощью метода эластичных нейронных сетей;

Логистическая регрессия

Wiki: логистическая регрессия;
Статья: геометрическая интерпретация логистической регрессии;
FAQ: что такое псевдо R-квадрат;

Проверка модели с помощью повторной выборки

Wiki: повторная выборка/ресэмплинг;
Chioka: хорошие материалы по перекрестной проверке;
Эндрю Ын: предотвращение переобучения при перекрестной проверке;
Гевин Коули: влияние переобучения и систематических ошибок отбора на оценку эффективности модели;
Эндрю Мур: перекрестная проверка для выявления и предотвращения переобучения;
Wiki: статистический бутстрэп;
Бутстрэп: анимации;
Пример: статистический бутстрэп;

Глубокое обучение

Список: руководства, проекты и сообщества по глубокому обучению;
Deeplearning4j: ресурсы по глубокому обучению;
Стэнфорд: интересные проекты по глубокому обучению и обработке естественного языка;
Статья: ключевые концепции глубокого обучения;
Статья: обработка естественного языка с применением глубоких сетей на Torch;
Стэнфорд: руководство по глубокому обучению;
Quora: FAQ по глубокому обучению;
Google: страничка, посвященная глубокому обучению;
Reddit: сабреддит по глубокому обучению;
Reddit: еще один сабреддит;

Статья: где изучать глубокое обучение;
NVidia: концепции глубокого обучения;
Intro2deeplearning: глубокое обучение и Python;
Intro2deeplearning: отличная презентация;
Оксфорд: видео с лекциями 2015 года;
Видео: Deep Learning Summer School 2015;
Список: программное обеспечение для глубокого обучения;
Статья: нейронные сети с точки зрения программиста;
Kdnuggets: топ-5 работ по глубокому обучению;
Видео: Джеффри Хинтон о глубоком обучении;
Deeplearning: лучшие материалы по глубокому обучению;
Deeplearning: все о машинном обучении;

Deeplearning: ПО для машинного обучения;
Deeplearning4j: руководство по библиотеке;
Статья: поразительное руководство по глубокому обучению;
Статья: основы глубокого обучения;
Стэнфорд: статья по глубокому обучению;
Deeplearning: руководства по глубокому обучению;
Статья: нейронный машинный перевод с применением GPU (Часть 1);
Статья: нейронный машинный перевод с применением GPU (Часть 1);
Статья: нейронный машинный перевод с применением GPU (Часть 1);
Deep Speech: распознавание речи с применением GPU-системы для обучения глубоких нейронных сетей;

Фреймворки для глубокого обучения

FastML: Torch или Theano;
Deeplearning4j: Dl4j, Torch7 или Theano;
Список: библиотеки для глубокого обучения;
Theano: Python-библиотека;
Статья: знакомство с Theano;
Theano: руководство;
Theano: еще одно руководство;
Theano: применение логистической регрессии для классификации цифр;
Theano: многослойный перцептрон;
Theano: сверточные нейронные сети;

Theano: рекуррентная нейронная сеть;
Theano: LSTM-сети для анализа эмоциональной окраски высказываний;
Theano: ограниченная машина Больцмана;
Theano: глубокие сети доверия;
Theano: еще руководства;
Torch: еще одна библиотека для машинного обучения;
Руководство: машинное обучение в Torch;
Статья: знакомство с Torch;
Репозиторий: обучающие материалы по Torch;
Репозиторий: отличные материалы по Torch;

Оксфорд: лекции по машинному обучению с использованием Torch;
Torch: небольшой обзор;
Torch: подсказки и советы;
Torch: обработка естественного языка с помощью глубоких нейронных сетей;
Caffe: глубокое обучение для решения задач компьютерного зрения с Caffe и cuDNN;
TensorFlow: библиотека машинного обучения от Google;
TensorFlow: примеры для начинающих;
Репозиторий: материалы для изучения TensorFlow;
TensorFlow: бенчмарки;

Нейронные сети прямого распространения

Руководство: реализация нейронной сети;
Статья: ускорение работы нейронной сети с помощью Theano и GPU;
Статья: основы нейронных сетей;
Статья: метод обратного распространения ошибки;
AI Junkie: нейронная сеть на C++;
Code Project: нейронные сети для начинающих;
Презентация: алгоритмы регрессии и классификации;
Статья: знакомство с нейронными сетями;

Рекуррентные и LSTM-сети

Awesome-rnn: список ресурсов;
Руководство: рекуррентная нейронная сеть (Часть 1);
Руководство: рекуррентная нейронная сеть (Часть 2);
Руководство: рекуррентная нейронная сеть (Часть 3);
Статья: обработка естественного языка, рекуррентные сети и представления;
Статья: эффективность рекуррентных нейронных сетей;
Deeplearning4j: введение в рекуррентные нейронные сети;
Deeplearning4j: введение в LSTM-сети;
Статья: применение рекуррентных нейронных сетей;
Статьи: оптимизация производительности рекуррентных сетей;

Пример: простая рекуррентная нейронная сеть;
Статья: генерация кликбейт-заголовков с помощью рекуррентных нейронных сетей;
Презентация: использование рекуррентных сетей для текстового анализа;
Статья: использование рекуррентных нейронных сетей для машинного перевода;
Keras: создание музыки с помощью рекуррентных нейронных сетей;
Keras: использование рекуррентных нейронных сетей для генерации диалога;
Статья: введение в LSTM-сети;
Статья: LSTM-сети;
Deeplearning4j: LSTM-сети для новичков;
Статья: реализация LSTM-сети с нуля;

GitHub: символьная модель языка и её реализация char-rnn в Torch;
GitHub: применение LSTM-сетей для расшифровки сигналов ЭЭГ;
Статья: применение LSTM-сетей для анализа текстов на Theano;
Статья: применение глубокого обучения для анализа изображений;
Google: компьютер отвечает на email с помощью LSTM;
Google: LSTM-сети значительно повышают эффективность голосового поиска;
Deeplearning: еще одна статья на тему голосового поиска;
NVidia: обработка естественного языка с помощью LSTM-сетей на Torch;
Torch: анализ изображений с помощью сверточных и LSTM-сетей;
Сравнение: LSTM или управляемые рекуррентные модули (GRU);
Wiki: рекурсивные нейронные сети;
Deeplearning4j: рекурсивная тензорная нейронная сеть (RNTN);
Deeplearning4j: использование word2vec, глубоких сетей доверия и RNTN для анализа текста;

Ограниченная машина Больцмана

Deeplearning4j: руководство для начинающих по ограниченной машине Больцмана;
Deep Learning: еще одно хорошее руководство;
Статья: введение в ограниченные машины Больцмана;
Джеффри Хинтон: руководство по обучению ограниченных машин Больцмана;
GitHub: ограниченные машины Больцмана на R;
Deeplearning4j: руководство по созданию глубоких сетей доверия;

Автокодировщики

Эндрю Ын: разреженные автокодировщики;
Deeplearning4j: руководство по глубоким автокодировщикам;
Deep Learning: шумоподавляющие автокодировщики;
Deep Learning: вложенные шумоподавляющие автокодировщики;

Сверточные сети

Awesome Deep Vision: список ресурсов по машинному зрению;
Deeplearning4j: введение в сверточные нейронные сети;
Статья: применение сверточных сетей для обработки естественного языка;
Стэнфорд: применение сверточных сетей для распознавания образов;
Стэнфорд: библиотека JavaScript для работы со сверточными сетями;
Статья: применение сверточных сетей для распознавания лиц;
Статья: создание классификатора фотографий;
Kaggle: интервью с Яном Лекуном;
Статья: визуализация сверточных сетей;

Обработка естественного языка

Статья: обновление ЛРД-модели в реальном времени;
Статья: обновление ЛРД-модели в реальном времени со Spark;
Статья: ЛРД на Scala (Часть 1);
Статья: ЛРД на Scala (Часть 2);
Статья: сегментация ленты событий Twitter с применением тематического моделирования;
Статья: построение тематической модели подписчиков в Twitter;
Google: word2vec;
Wiki: модель bag-of-words;
Статья: тщательный анализ моделей skip-gram;
Руководство: skip-gram-моделирование;

Kaggle: векторное представление слов;
Статья: как работать с word2vec;
Deeplearning4j: алгоритм word2vec;
Quora: как работает word2vec;
Quora: об архитектурах CBOW и skip-gram простыми словами;
Quora: в чем разница между BOW и CBOW;
Quora: что лучше для word2vec — CBOW или skip-gram;
Wiki: расстояние Левенштейна;

Статья: классификация текстов с помощью модели bag-of-words;
Статья: изучение языка с помощью методов обработки естественного языка и обучения с подкреплением;
Kaggle: векторное представление слов и bag-of-words (Часть 1);
Kaggle: векторное представление слов и bag-of-words (Часть 2);
Kaggle: векторное представление слов и bag-of-words (Часть 3);
Руководство: предсказание слов в обработке естественного языка;
Статья: подробнее о skip-gram-моделировании;

Компьютерное зрение

Метод опорных векторов

Статья: сравнение метода опорных векторов и нейронных сетей;
Статья: алгоритмы оптимизации в методе опорных векторов;
LIBSVM: библиотека для классификации методом опорных векторов;

Quora: что такое ядра в машинном обучении;
Quora: гауссово ядро в методе опорных векторов;
Wiki: шкалирование по Платту;
Статья: калибровка классификаторов с использованием шкалирования по Платту;

Обучение с подкреплением

Деревья решений

Статья: использование суррогатов с целью улучшения неполных наборов данных;
Статья: деревья решений;
Wiki: отсечение ветвей деревьев решений;
Wiki: процесс обратный отсечению ветвей;
Сравнение: алгоритмы CART и CTREE;
Сравнение: алгоритмы CHAID и CART;

Сравнение: алгоритмы CART и CHAID;
Статья: еще одно сравнение различных алгоритмов;
Wiki: рекурсивное секционирование;
Статья: алгоритм CART;
CART: оценка важности переменной;
FAQ: рекурсивное секционирование;
Статья: пакет party в R;
Wiki: автоматический детектор взаимодействия Хи-квадрат (CHAID);
Статья: введение в CHAID;
Руководство: CHAID;

MARS

Wiki: многомерные адаптивные регрессионные сплайны (MARS);

Вероятностные деревья решений

Статья: байесовское обучение в вероятностных деревьях решений;
Статья: вероятностные деревья;

Случайный лес

GitHub: список ресурсов по теме случайного леса;
Kaggle: настройка параметров алгоритма случайного леса;
Презентация: ошибка out-of-bag;
Статья: оценка алгоритмов случайного леса для анализа выживаемости;
FAQ: случайный лес;

Алгоритмы бустинга деревьев

Композиционное обучение

Стэкинг

Статья: стэкинг, блендинг и многоярусное обобщение;
Статья: многоярусное обобщение;
Статья: когда следует применять многоярусное обобщение;
Статья: многоярусное обобщение;

Размерность Вапника — Червоненкиса

Wiki: размерность Вапника — Червоненкиса;
Quora: интуитивно понятное объяснение размерности Вапника — Червоненкиса;
Видео: что такое размерность Вапника — Червоненкиса;
Статья: знакомство с размерностью Вапника — Червоненкиса;
FAQ: размерность Вапника — Червоненкиса;

Байесовские методы машинного обучения

GitHub: знакомство с байесовскими методами машинного обучения;
Видео: должны ли все методы машинного обучения быть байесовскими;
Руководство: байесовская оптимизация;
Статья: байесовский вывод и глубокое обучение;
Статья: байесовская статистика простыми словами;
GitHub: фильтры Калмана и Байеса на Python;
Wiki: цепь Маркова;

Частичное обучение

Оптимизация

Статья: оптимизация портфеля активов на R с применением квадратичного программирования;
Статья: алгоритмы оптимизации в машинном обучении;
Видео: алгоритмы оптимизации в машинном обучении;
Статья: алгоритмы оптимизации в анализе данных;
Видео: лекции по оптимизации;
Статья: алгоритмы оптимизации для метода опорных векторов;
Статья: взаимосвязь проблем оптимизации и машинного обучения;

Дополнительно

GitHub: коллекция руководств по использованию R в науке о данных.

P.S. В нашем блоге мы пишем о разработке систем связи и о первых шагах на пути к продвинутому программированию. Впереди еще много интересного, подписывайтесь и не пропускайте наши новые материалы, друзья.