Книга «Spark для профессионалов: современные паттерны обработки больших данных»

image Привет, Хаброжители! Ранее мы переводили статью «Знакомство с Apache Spark». Сейчас вы знакомим Вас с одноименной книгой, написанной Сэнди Ризай, Ури Лезерсоном, Шоном Оуэн, Джошем Уиллсом.

В этой практичной книге четверо специалистов Cloudera по анализу данных описывают самодостаточные паттерны для выполнения крупномасштабного анализа данных при помощи Spark. Авторы комплексно рассматривают Spark, статистические методы и множества данных, собранные в реальных условиях, и на этих примерах демонстрируют решения распространенных аналитических проблем.

Предисловие


С тех пор как мы начали в Беркли работу над проектом Spark, я стремился не просто создавать быстрые параллельные системы, но и помогать все новым и новым людям использовать крупномасштабные вычисления. Именно поэтому я так рад выходу этой книги, написанной четырьмя специалистами в области науки о данных и посвященной передовым методам аналитики с помощью Spark. Сэнди, Ури, Шон и Джош долгое время работали со Spark и составили замечательную подборку материалов, в равных долях содержащую теорию и примеры.

Больше всего в этой книге мне нравится ее ориентация на примеры, взятые из реальных приложений, работающих на реальных наборах данных. Непросто найти даже один пример, не говоря уже о десятке, охватывающий большие объемы данных, который вы могли бы запустить на своем ноутбуке. Однако авторам удалось создать подобную подборку и настроить все для запуска этих примеров на Spark. Более того, авторы описали в книге не только базовые алгоритмы, но и сложные нюансы подготовки данных и настройки модели, необходимые для достижения хороших результатов на практике. Вы сможете брать фрагменты из этих примеров и использовать их для решения собственных задач.

Обработка больших данных сегодня, несомненно, одна из наиболее захватывающих областей вычислительной техники, по-прежнему быстро развивающаяся и изобилующая новыми идеями. Я надеюсь, что наша книга поможет вам освоиться в этой захватывающей новой области.

Матей Захария,
технический директор компании
Databricks и вице-президент Apache Spark

Введение


Сэнди Риза
Я не из тех, кто часто о чем-то сожалеет, но тот редкий момент лени в 2011 году, когда я искал способ наилучшего распределения сложных задач дискретной оптимизации между кластерами компьютеров, явно ничего хорошего не принес. Мой консультант рассказал мне об этом новомодном Spark, о котором он слышал, а я, по существу, отбросил эту идею как слишком хорошую, чтобы быть правдой, и поспешил вернуться к написанию диплома на получение степени бакалавра на MapReduce. С тех пор мы оба — Spark и я — несколько повзрослели, но лишь один из нас пережил стремительный взлет, говоря о котором, практически невозможно удержаться от каламбуров на тему возгорания1. Прошло два года, и стало совершенно ясно, что Spark заслуживает внимания.

Составляющие обширное генеалогическое древо предшественники Spark, начиная с MPI и заканчивая MapReduce, позволяют писать программы, использующие большие ресурсы, скрывая при этом мелкие подробности работы распределенных систем. Какие бы нужды обработки данных ни побуждали к разработке подобных фреймворков, в некоторой степени сфера больших данных стала настолько с ними связанной, что ее рамки определяются тем, что эти фреймворки могут обрабатывать. Spark обещает дальнейшую эволюцию: сделать написание распределенных программ подобным написанию программ обычных.

Spark отлично поднимает производительность конвейеров ETL и избавляет от головной боли, которая служит для программистов MapReduce причиной ежедневных отчаянных воззваний к богам Hadoop («Почему? Ну почему-у-у-у-у?»). Но для меня самым захватывающим в этом всегда было предоставление возможностей для системной аналитики. Благодаря парадигме, поддерживающей итеративные алгоритмы и диалоговый режим изучения, Spark наконец стал тем фреймворком с открытым исходным текстом, который позволил исследователям данных эффективно работать с большими наборами данных.

По моему мнению, лучше всего обучать науке о данных на примерах. С этой целью я и мои коллеги написали книгу, стараясь затронуть вопросы взаимосвязи между наиболее распространенными алгоритмами, наборами данных и паттернами проектирования в крупномасштабной аналитике. Эта книга не предназначена для прочтения от корки до корки. Пролистайте до страницы, где описывается то, что вы пытаетесь сделать, или то, что просто вас заинтересовало.

Что вы найдете в этой книге


Глава 1 покажет место Spark в более широком контексте науки о данных и аналитики больших данных. В дальнейшем каждая глава будет содержать самодостаточный пример анализа с помощью Spark. Глава 2 познакомит вас с основами обработки данных на Spark и Scala на примере очистки данных. Следующие несколько глав охватывают важнейшие темы машинного обучения с помощью Spark, включая некоторые из наиболее распространенных алгоритмов в приложениях, независимых от конечной реализации. Оставшиеся главы больше напоминают сборную солянку и демонстрируют применение Spark в несколько более экзотических приложениях, которые, например, выполняют запросы к «Википедии» через латентные семантические связи в тексте или анализируют геномные данные.

Использование примеров исходного кода


Дополнительные материалы (примеры исходного кода, упражнения и т. п.) доступны для скачивания по адресу. Эта книга призвана помочь выполнить вашу работу. В общем, если к ней прилагается пример кода, можете использовать его в своих программах и документации. Вам не требуется связываться с нами для получения разрешения, если только вы не копируете значительное количество кода. Например, написание программы, использующей несколько фрагментов кода из этой книги, не требует отдельного разрешения. Для продажи или распространения компакт-диска с примерами из книг издательства, конечно, разрешение требуется. Ответ на вопрос цитатой из этой книги, в том числе примеров кода, не требует разрешения. Включение значительного количества кода примеров из книги в документацию к вашему продукту разрешения требует.

Более подробно с книгой можно ознакомиться на сайте издательства
Оглавление
Отрывок

Для Хаброжителей скидка 25% по купону — Spark
По факту оплаты бумажной книги отправляем на e-mail электронную версию книги.

Комментарии (0)

© Habrahabr.ru