Обзор наиболее интересных материалов по анализу данных и машинному обучению №5 (7 — 21 июля 2014)

сегодня в 13:47

Представляю очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения (в том числе Deep Learning). Как всегда есть материалы по алгоритмам машинного обучения. Несколько практических статей по популярному пакету для машинного обучения Scikit-Learn для Python. Есть статьи, посвященные практическому применению языка R. Некоторое количество материалов посвящено теме Data Engineering. Присутствуют интересные статьи про популярные проекты 'Google Brain' и 'Project Adam'.Материалы по анализу данных и машинному обучению Про Google Brain [EN]Интересные размышления про исследовательский проект компании Google, который носит неофициальное название 'Google Brain'. Система искусственного интеллекта от Microsoft 'Project Adam' [EN]Достаточно большая статья о новом проекте от Microsoft Research под названием 'Prjoject Adam'. До какой-то степени этот проект можно назвать ответом Microsoft на проект 'Google Brain'. Машинное обучение — микроскоп современного ученого. Зачем ЦЕРНу технологии Яндекса [RU]Статья о сотрудничестве Яндекс и CERN, а также использовании облачных технологий и машинного обучения в работе CERN. Логарифмическое преобразование положительных и отрицательных значений [EN]Небольшая статья о статистических преобразованиях данных. Earl Hathaway рассказывает о технике машинного обучения Distributed GBM (видео) [EN]В данном видео Earl Hathaway (CTO в компании 0xdata) рассказывает о Distributed GBM (Gradient Boosting) — популярной технике машинного обучения, которая часто используется в соревнованиях по анализу данных, а также полезна и в практическом применении. 7 вариантов использования Hadoop в банковской сфере [EN]Краткий список из 7 возможных вариантов использования семейства продуктов Hadoop при анализе данных в банковской сфере. Стартап Clarify [EN]Небольшой интересный рассказ о новом стартапе в сфере искусственного интеллекта и машинного обучения Clarify, который еще не куплен ни одним из софтверных гигантов и который занимается достаточно интересными исследованиями в области распознования образов и обработкой изображений. Оценка финансовых рисков с помощью Apache Spark [EN]Статья от компании Cloudera, посвященная использованию Apache Spark для оценки финансовых рисков. Соглашения об именовании в языке R [EN]Дискуссия о соглашениях об именовании в языке программирования R, с чем как известно в данном языке есть большие проблемы и неопределенность в стандартах. Подстройка параметров алгоритма с помощью Python Scikit-Learn [EN]Продолжение дискуссии о работе с scikit-learn — популярной библиотекой машинного обучения для Python. В данном случае речь пойдет о подстройке параметров алгоритма. Список ресурсов по NoSQL, Big Data и Machine Learning [EN]Большой список ресурсов по различным направлениям анализа данных (распределенные вычисления, графовые базы данных, анализ временных рядов, визуализация данных, поисковые системы и другие направления). Машинное обучение с использованием Java [EN]Небольшой обзор технологий и продуктов для машинного обучения с использованием языка программирования Java. Введение в Microsft Azure Machine Learning [EN]Краткое введение в новый облачный продукт для машинного обучение Microsoft Azure Machine Learning, который сейчас находится в стадии Public Preview. Самообучаемые компьютеры от Darpa [EN]Статья о проекте Darpa, который призван развивать технологию самообучаемых компьютеров и их применение. Популярные Data Science микроблогеры [EN]Небольшой анализ микроблогов в Twitter, посвященных теме Data Science. 15 бесплатных книг по машинному обучению [EN]Список из 15 бесплатных электронных книг по теме машинного обучения. 8 блогов по анализу данных [EN]Список из 8 отличных блогов, которые посвящены теме анализа данных. Список ресурсов по машинному обучению [EN]Большой список полезных ресурсов по машинному обучению. 10 советов по Deep Learning [EN]10 небольших советов для повышения эффективности результатов при использовании техники машинного обучения Deep Learning. Основы анализа данных при помощи Python: библиотеки и структуры данных [EN]Статья посвящена первым шагам по анализу данных при помощи Pyhton и дополнительных библиотек. Это продолжение дискуссии на данную тему. Текущая статья посвящена библиотекам и структурам данных. Deep Learning и обработка естественного языка [EN]Отличная статья о применении набора алгоритмов Deep Learning при обработке естественного языка. Про размер выборки [EN]Небольшая статья, посвященная размеру выборки, с применением аргументации, основанной на элементарной статистики. О масштабировании признаков и нормализации в машинном обучении [EN]Полезная статья о масштабировании признаков (Feature Scaling) и нормализации (Normalization) при машинном обучении с использованием scikit-learn. Векторы в R [EN]Небольшая статья о работе с векторами в языке программирования R. Приключения вокруг feature learning [EN]Занимательный рассказ от Andrej Karpathy о применение машинного обучения в распознавании образов. Подготовка данных с помощью Python Scikit-Learn [EN]Продолжение дискуссии о работе с scikit-learn — популярной библиотекой машинного обучения для Python. В данном случае речь пойдет о подготовке данных, а именно о процессе Rescaling Data. Процесс Feature Selection при помощи Python Scikit-Learn [EN]Еще одна статья о работе с scikit-learn — популярной библиотекой машинного обучения для Python. В данном случае речь пойдет о процессе Feature Selection при машинном обучении. Использование машинного обучения для повышения эффективности работы дата-центров в Google [EN]Небольшая любопытная статья, о том как в Google использовали машинное обучение для повышения эффективности работы своих дата-центров. Рейтинг языка R [EN]Свежий рейтинг языков программирования от IEEE, в том числе можно увидеть, что R находится на 9 месте среди всех языков. Загрузка данных при помощи Scikit-Learn [EN]Небольшая, но полезная статья про загрузку данных при помощью популярной Python-библиотеки для машинного обучения scikit-learn. Зависимости популярных библиотек R [EN]Небольшая статья про то от каких библиотек зависят популярные пакеты языка R (ggplot2, data.table, plyr, knitr, shiny, xts, lattice) и сколько же в итоге будет установлено библиотек, в случае установки всех популярных библиотек из данного списка. Обработка временных рядов с помощью Apache Crunch [EN]Статья с блога компании Cloudera про работу с временными рядами (time series) с помощью Apache Crunch с примерами кода на Java. Предсказание победителя ЧМ по футболу 2014 с помощью R [EN]Попытка предсказать победителя ЧМ по футболу 2014 с использованием языка R на основе полуфинальных пар. Сейчас уже можно увидеть сбылся ли прогноз. 3 вещи, которые помогут улучшить ваш код на R [EN]Несколько полезных практических советов по улучшению кода на R. Data Scientist и Data Engineer [EN]Короткая статья, сравнивающая две роли в анализе данных: Data Scientist и Data Engineer. Быстрая функция для 2×2 таблиц на языке R [EN]Небольшой пример создания собственной ускоренной функции для создания 2×2 таблиц на языке R, вместо стандартной функции table. HDFS и MapReduce простым языком [EN]Описание таких базовых составляющих Hadoop таких, как Hadoop Distributed File System (HDFS) и MapReduce достаточно простым языком. Интервью на позицию специалиста по анализу данных [EN]Небольшая статья про то чего можно ожидать от интервью на позицию специалиста по анализу данных. Data Origami: скринкасты по тематике Data Science [EN]Небольшой обзор сайта Data Origami, на котором можно найти много скринкастов различного уровня сложности по теме анализа данных и машинного обучения. Правда сайт имеет платную помесячную подписку. Предыдущий выпуск:  Обзор наиболее интересных материалов по анализу данных и машинному обучению №4 (23 июня — 7 июля 2014)

Только зарегистрированные пользователи могут оставлять комментарии.Войдите, пожалуйста.

© Habrahabr.ru