Обзор наиболее интересных материалов по анализу данных и машинному обучению №11 (25 августа — 1 сентября 2014)

сегодня в 13:14

4cf086e49a2b4f66a420085544e4c2e9.jpgПредставляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. В данном выпуске достаточно много разноплановой информации. Есть много статей, посвященных теме Data Engineering. Есть материалы для новичков и несколько видеолекций. Как обычно упоминаются соревнования по машинному обучению на Kaggle. Интересная статья про стартапы в области Data Science. Любопытная статья про улучшение игрового AI при помощи использования машинного обучения.Материалы по анализу данных и машинному обучению EN Для новичков Предсказательное моделирование, обучение с учителем и классификация паттерновНеплохая статья по машинному обучению, которая будет интересна в том числе и новичкам, которая затрагивает такие темы как обучение с учителем, визуализация при машинном обучении, обработка входных данных, feature enginering, сэмплирование и другие. EN Теория Ruslan Salakhutdinov о Deep Learning на конференции KDD 2014Материалы с выступления Ruslan Salakhutdinov из University of Toronto на конференции KDD 2014, которая прошла в Нью-Йорке. RU HABR Для новичков Data engineering Поговорим за HadoopВведение в экосистему Hadoop на русском языке. В конце есть неплохой набор ссылок на полезные материалы по данной тематике. EN Как стать Data ScientistЛюбопытная статья от портала DataScienceCentral для тех, кто интересуется темой Data Science. Статья кратко описывает понятие Data Scientist, выделяет 4 направления в данной профессии и рассуждает об инструментах, которые необходимы специалисту по анализу данных. RU R Использование функции pbapply ()Интересный пример использования функции pbapply () из библиотеки pbapply для языка программирования R. RU HABR Data engineering Azure DocumentDBCтатья о новой NoSQL базе данных от компании Microsoft под названием Azure DocumentDB. DomentDB пока находится в стадии preview. В конце данной статьи есть неплохой набор ссылок по теме. EN Data Science стартапы от Y CombinatorВ области Data Science на данный существует достаточно много возможностей для развития бизнеса. В данной статье приводится список Data Science стартапов 2014 года от известного инкубатора стартапов Y Combinator. RU Соревнования по машинному обучению Новое соревнование на Kaggle: Epilepsy Seizure Prediction ChallengeНе так давно на Kaggle стартовало новое соревнование по машинному обучению American Epilepsy Society Seizure Prediction Challenge. Соревнование продлится до 17 ноября 2014 года. EN 33 необычных проблемы, которые можно решить с помощью Data ScienceАвтор популярного портала DataScienceCentral в своем коротком посте опубликовал список 33 проблем из различных областей жизнедеятельности, которые по мнению Vincent Granville могут быть решены с помощью Data Science. EN Еженедельный дайджест от DataScienceCentralРегулярный еженедельный дайджест статей по анализу данных от портала DataScienceCentral. EN Литература Список интересной литературыСписок интересных книг, которые может быть интересно прочитать тем, кто интересует темой анализа данных. RU Новый набор данных от Microsoft ResearchБуквально вчера на сайте Microsoft Research был опубликован интересный набор данных под названием Microsoft Research Dense Visual Annotation Corpus. EN Как машинное обучение помогло улучшить игровой AIДостаточно любопытная статья, написанная хорошим живым языком, о том как применение техник машинного обучения помогло автору статьи значительно упростить и улучшить эффективность AI для игрового бота. EN Data engineering Сближение машинного обучения и Big DataВ статье приведены интересные наблюдения достаточно известного специалиста по анализу данных Mikko Braun по теме необходимости сближения сообществ машинного обучения и Big Data, и о том, что сейчас они на самом деле достаточно далеки друг от друга, что приводит к определенным проблемам и неудобствам. RU Для новичков Диаграммы связей для машинного обучения и Data MiningВ данном коротком посте приведены две очень интересных и полезных диаграммы связей (mind map) по темам машинного обучения и Data Mining EN Анализ неструктурованных данныхПродолжение серии статей по анализу текста и о работе с неструктурированными данными. В данном случае от постановки вопросов автор переходит к практическим аспектам и рассуждает на тему обработки и очистки неструктурированных текстовых данных, в качестве подготовки к дальнейшим шагам анализа этих данных. EN Для новичков Так вы хотите быть Data ScientistИнтересная короткая статья, описывающая основные аспекты профессии под названием Data Scientist. EN Использование Big Data на рынке ценных бумагАвтор статьи предлагает 3 практических совета по использованию Big Data для инвестиций на рынках ценных бумаг, которые может использовать каждый. EN Для новичков Видеолекции 100 популярных видео по машинному обучениюОтличный большой список из ста видео, посвященных машинному обучению, с портала VideoLectures.Net. EN Для новичков Онлайн-курс Онлайн-курс «Анализ данных и статистический вывод«В понедельник первого сентября на Coursera стартует второй раз очень хорошо зарекомендовавший себя онлайн-курс по теме анализа данных и статистики «Анализ данных и статистический вывод» от Duke University. EN Дайджест лучших ресурсов от DataScienceCentral (1 сентября)Неплохой список свежих интересных статей и ресурсов от DataScienceCentral. EN Data engineering Python Применение байесовских методов машинного обучения с помощью Apache SparkНебольшая любопытная статья от авторов блога Cloudera, в которой приводится пример возможности использования байесовских методов машинного обучения с помощи популярного продукта семейства Hadoop под названием Apache Spark и библиотеки PyMC для языка программирования Python. EN Факты и мифы о Big DataНебольшая интересная статья от популярного портала insideBIGDATA, в которой автор рассуждает о вопросах популярной сейчас темы Big Data и делится своими мыслями насчет распостраненных заблуждений в данной области. EN Data engineering 12 советов по MongoDBНебольшая статья, которая содержит 12 полезных советов для тех, кто хочет использовать популярную NoSQL базу данных MongoDB в боевых условиях. EN Видеолекции R John Chambers: интерфейсы, эффективность и большие данныеJohn Chambers в данном видео с конференции «useR! 2014 conference» рассуждает о прошлом, настоящем и будущем языка программирования R в процессе дискуссии под названием «Interfaces, Efficiency and Big Data». EN Для новичков Data engineering Использование Hadoop для больших объемов данныхДостаточно большая статья об экосистеме Hadoop и вопросах её реального использования при работе с большими объемами данных. EN Data engineering Операции записи в MongoDBСтатья, которая неплохо описывает тонкости вопрос записи и обновления в MongoDB, приводя несколько режимов работы с MongoDB при обновлении данных: Unacknowledged, Acknowledged, Journalled и др. EN R Нелинейная классификация в R с помощью деревьев принятия решений7 видов нелинейной классификации с помощью деревьев принятия решений с примерами кода на языка программирования R от автора популярного блога по анализу данных MachineLearningMastery. EN Data engineering Impala: планы на будущееНебольшая статья с блога Cloudera о планах компании на будущее популярного продукта для Hadoop под названием Cloudera Impala, который позволяет работать с данным в Hadoop с помощью SQL-запросов. EN Data engineering Slamdata: SQL-запросы в MongoDBАнонс достаточно интересного продукта SlamData, который позволит исполнять SQL-запросы к данным, находящимся в MongoDB. На текущий момент продукт находится в фазе бета-тестирования, релиз запланирован на начала октября текущего года. Предыдущий выпуск:  Обзор наиболее интересных материалов по анализу данных и машинному обучению №10 (18 — 25 августа 2014)

Только зарегистрированные пользователи могут оставлять комментарии.Войдите, пожалуйста.

© Habrahabr.ru