Подборка рабочих примеров обработки данных

Привет, читатель.

По стопам моего первого поста подборки датасетов для машинного обучения — сделаю подборку относительно свежих датасетов с рабочими примерами по обработке данных. Ведь ни для кого не секрет, что обучение на хороших примерах проходит эффективнее и быстрее. Посмотрим, что интересного нам смогут показать одни из лучших примеров по обработке данных.

Схема работы с текущим постом унаследуется от моего поста про лучшие блокноты по ML и DS, а именно — сохранил в закладки → передал коллеге.

+ бонус в конце статьи — крутой курс от ФПМИ МФТИ.

image

Итак, давайте приступим.

Подборка датасетов с рабочими примерами обработки данных:


Suicide Rates Overview 1985 to 2016 — сравнение социально-экономической информации с показателями самоубийств по годам и странам.

Примеры обработки:


Spotify’s Worldwide Daily Song Ranking — ежедневный рейтинг 200 самых прослушиваемых песен в 53 странах с 2017 и 2018 годов пользователями Spotify.

Пример обработки:


Crimes in Boston — записи из Бостонской системы отчетов о происшествиях с преступностью, включающая в себя происшествия, и информацию о том когда и где оно произошло.

Пример обработки:


Google Play Store Apps — категории, рейтинги, размер всех приложений Google Play.

Пример обработки:


Pokémon for Data Mining and Machine Learning — статистика и особенности покемонов;

Пример обработки:


A Million News Headlines — данные заголовков новостей, опубликованных за последние 15 лет.

Пример обработки:


Airplane Crashes Since 1908 — полная история авиакатастроф по всему миру, с 1908 года по настоящее время.

Пример обработки:


News Headlines Dataset For Sarcasm Detection — высококачественный набор данных для задачи обнаружения сарказма.

Пример обработки:


Historical Air Quality — данные о качестве воздуха, собранные на наружных мониторах по всей территории США.

Пример обработки:


Nutrition Facts for McDonald’s Menu — анализ питания каждого пункта меню в McDonald’s США.

Пример обработки:


LEGO Database — детали / комплекты / цвета и запасы каждого официального набора LEGO в базе данных Rebrickable.

Пример обработки:


Global Commodity Trade Statistics — объемы импорта и экспорта для 5000 товаров в большинстве стран мира за последние 30 лет.

Пример обработки:


Crime in India — полная информация о различных аспектах преступлений, совершенных в Индии с 2001 года.

Пример обработки:


Predicting a Pulsar Star — данные по пульсарам, собранные во время обзора Вселенной.

Примеры обработки:


French employment, salaries, population per town — данные, показывающие равенство и неравенство во Франции.

Пример обработки:


United States Census — данные переписи в США.

Пример обработки:


California Housing Prices — цена на жилье в Калифорнии.

Пример обработки:


US Unemployment Rate by County, 1990–2016 — данные по безработице министерства труда США.

Пример обработки:


World of Warcraft Avatar History — набор записей, которые детализируют информацию о персонажах игрока в игре с течением времени.

Пример обработки:


The Gravitational Waves Discovery Data — данные о событиях гравитационных волн GW150914.

Пример обработки:


Бонус!


А бонусом у нас сегодня будет прекрасный курс по Deep Learning, рассчитанный на старшеклассников, интересующихся программированием и математикой, а также студентов, которые хотят начать заниматься глубоким обучением.

Цель курса — познакомить с основными принципами глубокого обучения (нейронных сетей) в интерактивном формате и на примере практических задач.

Программа курса


  1. Python: основы, Google Colab;
  2. Введение в линейную алгебру. Векторы. Матрицы и операции с ними. Библиотека NumPy;
  3. Библиотеки Pandas и MatPlotlib. Основы машинного обучения;
  4. Элементы теории оптимизации. Градиент. Градиентный спуск. Линейные модели;
  5. Введение в глубокое обучение. Перцептрон. Нейрон с сигмоидой (и другими функциями активации). Основы ООП в Python;
  6. Библиотека PyTorch. Многослойные нейросети;
  7. Обучение нейронных сетей на практике. Cifar10, notMNIST;
  8. Сверточные нейросети. Сверточный слой. Пулинг слой;
  9. Практика обучения нейросетей. Классификация дорожных знаков;
  10. Transfer Дearning. Популярные в Computer Vision архитектуры;
  11. Сегментация картинок. U-Net;
  12. Участие в соревнованиях на Kaggle;
  13. Object Detection. YOLOv3;
  14. Классический GAN. Нейронный перенос стиля;
  15. Базовые методы обработки текста;
  16. Word Embeddings;
  17. Рекуррентные нейронные сети;
  18. LSTM, GRU ячейки;
  19. Языковые модели;
  20. Машинный перевод;
  21. Text2Speech;
  22. SuperResolution.


Также вы можете заглянуть на Youtube-канал Deep Learning School. Там много отличных видео ;)

На этом наша короткая подборка примеров обработки данных подошла к концу. Надеюсь вы узнали для себя что-нибудь новое. Как принято на Хабре, понравился пост — поставь плюс. Не забудьте поделиться с коллегами. Также, если у вас есть то, чем вы можете поделиться сами — пишите в комментариях. Больше информации о машинном обучении и Data Science на Хабре и в телеграм-канале Нейрон (@neurondata).

Всем знаний!

© Habrahabr.ru