Облачная инфраструктура Amazon: что внутри? Часть 1
Ряды серверов внутри дата-центра Amazon
После того, как облачные вычисления возникли в качестве новой парадигмы, и окончательно выделились в отдельную сферу, компания Amazon смогла быстро стать лидером этой сферы. Запуск Amazon Web Services в 2006 году (вдумайтесь только, почти 10 лет назад!) позволил ритейлеру стать крупнейшим игроком на рынке, с долей этого рынка в $6 миллиардов.
С течением времени облачные сервисы Amazon стали обслуживать десятки и сотни тысяч клиентов (сейчас уже более миллиона). Соответственно, аптайм сервисов весьма критичен, и даже минута простоя может обойтись клиентам компании очень дорого. Не так давно сбой все же случился, и в результате пострадали Netflix, Reddit, Tinder, IMdB и множество других сервисов. Все это случилось по вине сбоя в дата-центра, расположенного в Вирджинии, США. Сегодня мы предлагаем ознакомиться со всей инфраструктурой компании, описав ее примерную географию и возможности.
Итак, Amazon сейчас управляет, по меньшей мере, 30 дата-центрами своей глобальной сети, и еще 10-15 вскоре будут построены или находятся на стадии проектирования. К сожалению, компания не раскрывает полную схему своей инфраструктуры, но по косвенным данным эксперты делают вывод, что только в США общая мощность ДЦ компании составляет около 600 МВт.
По мнению специалистов Gartner, вычислительные мощности Amazon Web Services в пять раз превосходят общую вычислительную мощность 14 других «облачных» провайдеров.
Приоткрываем завесу тайны
Компания Amazon с самого появления Amazon Web Services очень неохотно рассказывает о дата-центрах, сообщая значительно меньшее количество информации о своей инфраструктуре, чем другие компании, например Google, Facebook и Microsoft. Правда, в последние несколько лет ситуация немного изменилась — топ-менеджеры уже более охотно общаются на тему дата-центров компании.
«Нам часто задают вопросы о физической инфраструктуре Amazon Web Services. Мы никогда не рассказывали особенно много об этой сфере, и сейчас мы хотим приоткрыть завесу секретности относительно нашей сети и дата-центров», — сообщил Вернер Вогелс, технический директор и вице-президент Amazon Web Services на июльском AWS Summit, проходившем в Тель-Авиве.
Главная цель подобных встреч — помочь разработчикам понять философию Amazon относительно облачной инфраструктуры, а также узнать больше об аптайме системы и ее надежности. Так вот, вся инфраструктура разделена на 11 регионов, каждый содержит кластер дата-центров. В каждом регионе есть несколько Availability Zones, обеспечивающих клиентов возможностью дублирования своих сервисов или зеркалирования во избежание простоя. Правда, недавние сбои инфраструктуры AWS показывают, что здесь команда Amazon могла бы потрудиться и более тщательно.
Инвестиции в платформу растут
В последнем квартале рост Amazon Web Services составил 81%, по сравнению с аналогичным периодом прошлого года. Это не означает, что и вся инфраструктура растет с аналогичной скоростью, но здесь можно быть уверенным в том, что Amazon постоянно добавляет серверы, хранилища данных и дата-центры в свою инфраструктуру.
«Каждый день Amazon увеличивает мощность своей инфраструктуры настолько, что этого хватило бы для обеспечения глобальной инфраструктуры Amazon, когда компания представляла организацию с ежегодным доходом в $7 млрд», — сообщил Джеймс Хамильтон, вице-президент и ведущий инженер Amazon. Это весьма значительно.
Сейчас стратегия развития дата-центров Amazon основана на идее снижения затрат. Кстати, с момента запуска Amazon Web Services стоимость цен на услуги сервиса упали в 49 раз.
Вернер Вогелс (Фото: YouTube)
«Мы многое делаем для снижения стоимости наших услуг. Маржа у нашего бизнеса небольшая, и мы рады сохранить ее на текущем уровне. Тем не менее, мы снижаем стоимость услуг сервиса на регулярной основе», — прокомментировал ситуацию Вернер Вогелс.
Краеугольным камнем всей стратегии Amazon является определение оптимального размера дата-центров. По словам представителей компании, большинство дата-центров Amazon включает от 50 до 80 тысяч серверов, с мощностью отдельно взятого дата-центра в 25-30 МВт. Компания шла к этой цифре достаточно долго.
Насколько большим должен быть дата-центр?
Поскольку размер дата-центров Amazon увеличивается, то и значение выхода из строя отдельно взятого дата-центра тоже увеличивается. По словам экспертов компании, дата-центр, если так можно выразиться, является элементом сбоя. И чем больше дата-центр, тем более сильное влияние на размер сбоя он может иметь. Именно поэтому компания не создает дата-центры с
вместимостью больше 100 тысяч серверов, большинство ее ДЦ имеют меньшие размеры и вместимость
Возникает второй вопрос — сколько же серверов обеспечивают работу Amazon Web Services? Информация предоставленная вице-президентами компании, позволяет говорить о минимальном числе в 1,5 миллиона. Максимальное число серверов AWS, просчитанное компанией Platform, составляет 5,6 миллиона.
Amazon арендует создания у ряда операторов дата-центров, включая Digital Realty Trust и Corporate Office Properties Trust. В прошлом компания брала в аренду здания, вроде складов, и преобразовывала их в дата-центры. Относительно недавно Amazpn решила изменить стратегию, сфокусировавшись на создании ДЦ с нуля. В Орегоне компания использовала уже готовые модульные компоненты для сборки цельного дата-центра.
Преимуществом Amazon является еще и создание собственных энергетических подстанций. Здесь уже больше проявляется необходимость обеспечения скорости работы, а не управление операционными расходами. Экономия минимальна, но зато создавать дата-центр можно гораздо более быстрыми темпами.
Кастомные сервера и хранилища данных
На самых ранних этапах развития своей облачной платформы компания Amazon закупала оборудование у наиболее известных производителей. Главным поставщиком оборудования для Amazon была компания Rackable Systems. Только в 2008 году Amazon заказала северов на $86 миллионов у этой компании, а годом ранее — на $56 миллионов.
Но с ростом инфраструктуры компания стала разрабатывать собственное аппаратное обеспечение для своих дата-центров. Это позволяет Amazon проводить тонкую настройку своих серверов, хранилищ данных и сетевого оборудования, оптимизируя эффективность работы всего аппаратного обеспечения, одновременно снижая затраты.
«Да, мы создаем собственные серверы. Мы можем покупать готовые решения, но они очень дороги, и не слишком оптимизированы под наши нужны. Поэтому мы создаем свое оборудование. Мы работали вместе с Intel для того, чтобы получить возможность использования обычных процессоров в режиме повышенной производительности. Это, в свою очередь, позволило нам создать кастомизированные типы серверов для использования в весьма специфичных целях», — сообщил Вогелс.
Изображение: Джеймс Хамильтон
В инстансах ЕС2 используются именно такие сервера, собранные на основе процессоров Xeon E5, выполненные по 22-нанометровому техпроцессу с использованием архитектуры Haswell. При этом сервера здесь — разной конфигурации, предназначены для выполнения различных задач.
По мнению специалистов Amazon, сейчас компания знает, как построить серверы с конфигурацией, оптимально подходящей для выполнения определенного круга задач, включая поддержку работы определенного программного обеспечения и сервисов.
AWS использует и собственное ПО, а также аппаратное обеспечение для построения сетевой инфраструктуры.
Скорость света и облако
«Фактор скорости света» играет важную роль в проектировании инфраструктуры Amazon.
«Наиболе распространенный способ работы клиентов — это запуск приложений в конкретном дата-центре, и вы можете обеспечить максимальную надежность дата-центра для этого варианта, согласившись с тем, что аптайм 99,9% вполне достаточен. Но если вы создаете высоконадежное приложение или сервис, требуется уже два дата-центра для обеспечения его работы. При этом расстояние между дата-центрами может быть очень велико, и путь сигнала довольно длинен. Поэтому создание распределенной инфраструктуры, в особенности, если дата-центры удалены друг от друга на большое расстояние, может стать сложной задачей», — сообщил Вогелс.
Ответом же на эту проблему могут стать Availability Zones: кластеры дата-центров в пределах региона, позволяющие клиентам запускать инстансы в различных изолированных локациях, избегая, таким образом, точки сбоя. Если что-то случается с одним инстансом, приложение поддерживается другим, в другой Availability Zone. У каждого региона от 2 до 6 Availability Zones.
При этом компания сделала Availability Zones изолированными друг от друга, но близкими в достаточной степени, чтобы обеспечить минимальную задержку сигнала в Сети. По словам специалистов компании, задержка сигнала между зонами обычно составляет 1-2 миллисекунды. Для сравнения — задержка при прохождении данных от Нью-Йорка до Лос-Анжелеса составляет 70 миллисекунд.
«Мы решили разместить Availability Zones близкл друг к другу. Но они должны все же находиться в различных географических регионах, и быть подключены к разным энергосетям, кроме того, находиться на разной высоте над уровнем моря», — говорит Хамильтон.
В следующей статье мы расскажем подробнее о географии сетевой инфраструктуры Amazon.