Обзор наиболее интересных материалов по высокой производительности (15 — 21 сентября 2014)21.09.2014 22:33

Представляю вашему вниманию первый выпуск обзора наиболее интересных материалов по высокой производительности. Когда я готовил очередной выпуск обзора наиболее интересных материалов по анализу данных и машинному обучению, то понял, что выделяется вполне себе самодостаточная тематика собранных материалов. Надеюсь, что данный тип обзоров будет тоже полезен и интересен. Буду стараться расширять список ресурсов за которыми слежу при подготовке данных обзоров.Материалы по высокой производительности Использование Apache Samza в LinkedInСтатья с блога LinkedIn, о том как они используют Apache Samza в своем приложении и как данный продукт помог решить проблемы при работе с данными. Кто и как использует HadoopИнтересная статья о текущем состоянии дел в экосистеме Hadoop: кто и как её пользуется, а также о преспективах развития. Ближайшие встречи по Data Science в МосквеВ ближайшее время намечается сразу несколько интересных митапов, поэтому я решил опубликовать небольшой список ближайших интересных встреч по теме анализа данных и высокой производительности в Москве. Новый тип агрегации в ElasticsearchСтатья с блога Elasticsearch о новой функции агрегации top_hits, который добавился к большому списку таковых функций в версии 1.3.0. Новая версия Apache TezНебольшая статья с блога компании Hortonworks о возможностях новой версии Apache Tez 0.5. SQL-запросы к Hadoop с помощью Apache DrillНебольшая статья про Apache Drill, который позволяет работать с Hadoop через синтаксис SQL-запросов. Исследование влияния многопользовательской нагрузки на Cloudera ImpalaСтатья с блога компании Cloudera, в которой приведены результаты интересного исследования, проведенного на продукте Cloudera Impala при различных профилях нагрузки. 10 лучших презентаций с SlideShare по Data Science и Big DataСтатья со списком из 10 презентаций с сайта SlideShare по темам Data Science и Big Data с наибольшим количеством просмотров. Использование дискового пространства в MongoDBНебольшая статья, которая поможет лучше понять каким образом NoSQL база данных MongoDB использует дисковое пространство. Слабая изолированность — серьезная проблемаИнтересные размышления об уровнях изолированности баз данных. 10 уроков от Microsoft AzureОчень интересный пост, который дает 10 полезных рекомендаций для правильного масштабирования приложения при использовании облака Microsoft Azure, основанных на собственном опыте. Видеолекции Использование Redis в TwitterИнтересное видео, в котором Yao Yu расскажет об использовании Redis в компании Twiiter для масштабирования. А в статье по ссылке можно будет найти отличный материал по мотивам данного выступления. KDD 2104: Google KV и Topic ModelingАвторы блога компании URX делятся своими впечатлениями от недавно прошедшей в Нью-Йорке конференции KDD 2014, а именно рассказывают о системе под названием Google Knowledge Vault, которая активно используется в Google для улучшения качества поиска, а также они расскажут о тематическом моделировании (Topic Modeling). Почему в Loggly выбрали AWS Route 53, а не ELBИнтересная статья с блога компании Loggly, о том почему они выбрали Amazon Route 53 DNS, а не AWS Elastic Load Balancing (ELB). Видеолекции FireBox: строительный блок для Warehouse-Scale Computers в 2020 годуВидео с конференции FAST'14 под названием «FireBox: A Hardware Building Block for 2020 Warehouse-Scale Computers», в котором Krste Asanović (University of California, Berkeley) представляет свой взгляд на будущее развития Warehouse Scale Computers (WSC). О кэшировании на @ScaleАвторы блога компании OpenDNS делятся впечатлениями от конференции @Scale, организованной компанией Facebook, и рассказывают о различных современных подходах к кэшированию, которые были описаны на конференции. Facebook полностью отключил один дата-центр для проверки отказоустойчивостиJay Parikh из Facebook на конференции @Scale, прошедшей в Сан-Франциско, рассказал про интересный эксперимент, проведенный в Facebook, а именно о полном отключении одного из дата-центров для проверки общей отказоустойчивости системы. Анонс Apache Spark 1.1Анонс новой версии Apache Spark 1.1 и описание основных нововведений. Потоковая обработка данных в Apache Spark 1.1Статья о новых возможностях потоковой обработки данных в Apache Spark 1.1 и о вариантах использования данной функциональности. Статистические вычисления в Apache Spark 1.1Описание расширенных возможностей статистических вычислений в Apache Spark 1.1. Метрики ElasticsearchНебольшая статья с блога компании Compose про метрики Elasticsearch. Новости от Apache Software Foundation BlogНебольшой список последних новостей от Apache Software Foundation Blog. Еженедельный дайджест от RackspaceЕженедельный дайджест интересных материалов от компании Rackspace. 10 способов работы с Hadoop через SQL-запросы10 инструментов и способов для работы с Hadoop через SQL-запросы и небольшое описание каждого. Обзор наиболее интересных материалов по Hadoop №87Традиционный дайджест наиболее интересных материалов по теме Hadoop за неделю от портала Hadoop Weekly. 174 драйвера для MongoDB с открытым исходным кодомБольшой набор из 174 драйверов с открытым исходным кодом для NoSQL базы данных MongoDB для разных языков программирования. Что нового в RavenDB 3.0Описание возможностей новой версии популярный базы данных RavenDB. Синхронизация MongoDB и ElasticsearchНебольшая статья про сервис Transporter, который позволяет оперативно синхронизовать MongoDB и ElasticSearch. Видеолекции Введение в HBaseСтатья, содержащая видео и поясняющий материал по теме HBase — хранилища данных из экосистемы Hadoop, а также рассказывающая о ситуациях, когда стоит применять данное решение и когда не стоит. Использование OCRFile в Cascading и Apache CrunchПример использования OCRFile для Cascading и Apache Crunch, которое позволяет улучшить производительность их работы. HABR Приглашаем на HadoopKitchenОбъявление о встрече, посвященной Hadoop, которая состоится в офисе Mail.ru. Я тоже собираюсь посетить данное мероприятие. Как добиться успеха в Big DataНебольшая статья с инфографикой, которая расскажет об основных факторах, которые влияют на успешность компании в области Big Data. Vincent Granville о Big DataVincent Granville — автор портала DataScienceCentral, приводит свои размышления и дает определение понятия Big Data. 5 ключевых идей для понимания Big DataИнтересный пост от портала Smart Data Collective, который рассказывает 5 ключевых моментах, которые помогут извелкать пользу из данных наиболее эффективно.