Облачная инфраструктура Amazon: что внутри? Часть 1

d0da9e15e327363505312969d0cb776b.jpg
Ряды серверов внутри дата-центра Amazon

После того, как облачные вычисления возникли в качестве новой парадигмы, и окончательно выделились в отдельную сферу, компания Amazon смогла быстро стать лидером этой сферы. Запуск Amazon Web Services в 2006 году (вдумайтесь только, почти 10 лет назад!) позволил ритейлеру стать крупнейшим игроком на рынке, с долей этого рынка в $6 миллиардов.

С течением времени облачные сервисы Amazon стали обслуживать десятки и сотни тысяч клиентов (сейчас уже более миллиона). Соответственно, аптайм сервисов весьма критичен, и даже минута простоя может обойтись клиентам компании очень дорого. Не так давно сбой все же случился, и в результате пострадали Netflix, Reddit, Tinder, IMdB и множество других сервисов. Все это случилось по вине сбоя в дата-центра, расположенного в Вирджинии, США. Сегодня мы предлагаем ознакомиться со всей инфраструктурой компании, описав ее примерную географию и возможности.

Итак, Amazon сейчас управляет, по меньшей мере, 30 дата-центрами своей глобальной сети, и еще 10-15 вскоре будут построены или находятся на стадии проектирования. К сожалению, компания не раскрывает полную схему своей инфраструктуры, но по косвенным данным эксперты делают вывод, что только в США общая мощность ДЦ компании составляет около 600 МВт.
По мнению специалистов Gartner, вычислительные мощности Amazon Web Services в пять раз превосходят общую вычислительную мощность 14 других «облачных» провайдеров.

Приоткрываем завесу тайны


Компания Amazon с самого появления Amazon Web Services очень неохотно рассказывает о дата-центрах, сообщая значительно меньшее количество информации о своей инфраструктуре, чем другие компании, например Google, Facebook и Microsoft. Правда, в последние несколько лет ситуация немного изменилась — топ-менеджеры уже более охотно общаются на тему дата-центров компании.

«Нам часто задают вопросы о физической инфраструктуре Amazon Web Services. Мы никогда не рассказывали особенно много об этой сфере, и сейчас мы хотим приоткрыть завесу секретности относительно нашей сети и дата-центров», — сообщил Вернер Вогелс, технический директор и вице-президент Amazon Web Services на июльском AWS Summit, проходившем в Тель-Авиве.

Главная цель подобных встреч — помочь разработчикам понять философию Amazon относительно облачной инфраструктуры, а также узнать больше об аптайме системы и ее надежности. Так вот, вся инфраструктура разделена на 11 регионов, каждый содержит кластер дата-центров. В каждом регионе есть несколько Availability Zones, обеспечивающих клиентов возможностью дублирования своих сервисов или зеркалирования во избежание простоя. Правда, недавние сбои инфраструктуры AWS показывают, что здесь команда Amazon могла бы потрудиться и более тщательно.

Инвестиции в платформу растут


В последнем квартале рост Amazon Web Services составил 81%, по сравнению с аналогичным периодом прошлого года. Это не означает, что и вся инфраструктура растет с аналогичной скоростью, но здесь можно быть уверенным в том, что Amazon постоянно добавляет серверы, хранилища данных и дата-центры в свою инфраструктуру.

«Каждый день Amazon увеличивает мощность своей инфраструктуры настолько, что этого хватило бы для обеспечения глобальной инфраструктуры Amazon, когда компания представляла организацию с ежегодным доходом в $7 млрд», — сообщил Джеймс Хамильтон, вице-президент и ведущий инженер Amazon. Это весьма значительно.

Сейчас стратегия развития дата-центров Amazon основана на идее снижения затрат. Кстати, с момента запуска Amazon Web Services стоимость цен на услуги сервиса упали в 49 раз.

cec1c243918bfc76bdeaa10a2f63f2dc.jpg
Вернер Вогелс (Фото: YouTube)

«Мы многое делаем для снижения стоимости наших услуг. Маржа у нашего бизнеса небольшая, и мы рады сохранить ее на текущем уровне. Тем не менее, мы снижаем стоимость услуг сервиса на регулярной основе», — прокомментировал ситуацию Вернер Вогелс.

Краеугольным камнем всей стратегии Amazon является определение оптимального размера дата-центров. По словам представителей компании, большинство дата-центров Amazon включает от 50 до 80 тысяч серверов, с мощностью отдельно взятого дата-центра в 25-30 МВт. Компания шла к этой цифре достаточно долго.

Насколько большим должен быть дата-центр?


Поскольку размер дата-центров Amazon увеличивается, то и значение выхода из строя отдельно взятого дата-центра тоже увеличивается. По словам экспертов компании, дата-центр, если так можно выразиться, является элементом сбоя. И чем больше дата-центр, тем более сильное влияние на размер сбоя он может иметь. Именно поэтому компания не создает дата-центры с

вместимостью больше 100 тысяч серверов, большинство ее ДЦ имеют меньшие размеры и вместимость

Возникает второй вопрос — сколько же серверов обеспечивают работу Amazon Web Services? Информация предоставленная вице-президентами компании, позволяет говорить о минимальном числе в 1,5 миллиона. Максимальное число серверов AWS, просчитанное компанией Platform, составляет 5,6 миллиона.

Amazon арендует создания у ряда операторов дата-центров, включая Digital Realty Trust и Corporate Office Properties Trust. В прошлом компания брала в аренду здания, вроде складов, и преобразовывала их в дата-центры. Относительно недавно Amazpn решила изменить стратегию, сфокусировавшись на создании ДЦ с нуля. В Орегоне компания использовала уже готовые модульные компоненты для сборки цельного дата-центра.

Преимуществом Amazon является еще и создание собственных энергетических подстанций. Здесь уже больше проявляется необходимость обеспечения скорости работы, а не управление операционными расходами. Экономия минимальна, но зато создавать дата-центр можно гораздо более быстрыми темпами.

Кастомные сервера и хранилища данных


На самых ранних этапах развития своей облачной платформы компания Amazon закупала оборудование у наиболее известных производителей. Главным поставщиком оборудования для Amazon была компания Rackable Systems. Только в 2008 году Amazon заказала северов на $86 миллионов у этой компании, а годом ранее — на $56 миллионов.

Но с ростом инфраструктуры компания стала разрабатывать собственное аппаратное обеспечение для своих дата-центров. Это позволяет Amazon проводить тонкую настройку своих серверов, хранилищ данных и сетевого оборудования, оптимизируя эффективность работы всего аппаратного обеспечения, одновременно снижая затраты.

«Да, мы создаем собственные серверы. Мы можем покупать готовые решения, но они очень дороги, и не слишком оптимизированы под наши нужны. Поэтому мы создаем свое оборудование. Мы работали вместе с Intel для того, чтобы получить возможность использования обычных процессоров в режиме повышенной производительности. Это, в свою очередь, позволило нам создать кастомизированные типы серверов для использования в весьма специфичных целях», — сообщил Вогелс.

f6b15f48556698611e9bf548299ea23d.jpg
Изображение: Джеймс Хамильтон

В инстансах ЕС2 используются именно такие сервера, собранные на основе процессоров Xeon E5, выполненные по 22-нанометровому техпроцессу с использованием архитектуры Haswell. При этом сервера здесь — разной конфигурации, предназначены для выполнения различных задач.

По мнению специалистов Amazon, сейчас компания знает, как построить серверы с конфигурацией, оптимально подходящей для выполнения определенного круга задач, включая поддержку работы определенного программного обеспечения и сервисов.

AWS использует и собственное ПО, а также аппаратное обеспечение для построения сетевой инфраструктуры.

Скорость света и облако


«Фактор скорости света» играет важную роль в проектировании инфраструктуры Amazon.

«Наиболе распространенный способ работы клиентов — это запуск приложений в конкретном дата-центре, и вы можете обеспечить максимальную надежность дата-центра для этого варианта, согласившись с тем, что аптайм 99,9% вполне достаточен. Но если вы создаете высоконадежное приложение или сервис, требуется уже два дата-центра для обеспечения его работы. При этом расстояние между дата-центрами может быть очень велико, и путь сигнала довольно длинен. Поэтому создание распределенной инфраструктуры, в особенности, если дата-центры удалены друг от друга на большое расстояние, может стать сложной задачей», — сообщил Вогелс.

Ответом же на эту проблему могут стать Availability Zones: кластеры дата-центров в пределах региона, позволяющие клиентам запускать инстансы в различных изолированных локациях, избегая, таким образом, точки сбоя. Если что-то случается с одним инстансом, приложение поддерживается другим, в другой Availability Zone. У каждого региона от 2 до 6 Availability Zones.

При этом компания сделала Availability Zones изолированными друг от друга, но близкими в достаточной степени, чтобы обеспечить минимальную задержку сигнала в Сети. По словам специалистов компании, задержка сигнала между зонами обычно составляет 1-2 миллисекунды. Для сравнения — задержка при прохождении данных от Нью-Йорка до Лос-Анжелеса составляет 70 миллисекунд.

«Мы решили разместить Availability Zones близкл друг к другу. Но они должны все же находиться в различных географических регионах, и быть подключены к разным энергосетям, кроме того, находиться на разной высоте над уровнем моря», — говорит Хамильтон.


В следующей статье мы расскажем подробнее о географии сетевой инфраструктуры Amazon.

© Habrahabr.ru