[Перевод] Как NETFLIX обеспечивает безупречный стриминг? Взгляд архитектуры изнутри

Когда мы погружаемся в мир Netflix, кажется, что все происходит как по волшебству: любимые шоу и фильмы начинают воспроизводиться без задержек, качество изображения всегда на высоте, а рекомендации не перестают удивлять своим точным попаданием в наши интересы. Но что стоит за этим безупречным опытом? Как Netflix обеспечивает безупречное стриминговое качество для миллионов пользователей по всему миру? Ответ кроется в продуманной и сложной архитектуре системы, которая стоит за этим всем.

b87e5d8d5b148ae41f0f23f6d795e039.png

Netflix — это символ развлечений, безграничного просмотра и передовых стриминговых сервисов. Быстрый взлет популярности Netflix можно объяснить не только огромной библиотекой контента и глобальным присутствием, но и устойчивой и инновационной архитектурой.

С момента своего создания в 1997 году как сервис аренды DVD и до превращения в крупнейшую мировую стриминговую компанию, Netflix постоянно использует передовые технологии, чтобы изменить потребление медиа.

Архитектура Netflix разработана так, чтобы эффективно и надежно предоставлять контент миллионам пользователей одновременно. Масштабируемость инфраструктуры Netflix имеет решающее значение с учетом более 200 миллионов членов по всему миру.

Давайте углубимся в детали архитектуры Netflix и раскроем, как она продолжает формировать наш опыт просмотра любимых шоу и фильмов.

Почему важно понимать Архитектуру Системы Netflix?

Понимание Архитектуры Системы Netflix важно по нескольким причинам. Прежде всего, это помогает осознать, как Netflix обслуживает миллионы клиентов по всему миру, обеспечивая безупречный опыт стриминга. Изучение нюансов этой архитектуры позволяет лучше понять технологии и методы, лежащие в основе её успеха.

Более того, другие отрасли могут извлечь пользу из использования архитектуры Netflix в качестве образца для разработки масштабируемых, надежных и эффективных систем. Принципы и лучшие практики её дизайна могут научить нас важным урокам о построении и оптимизации сложных распределенных систем.

Понимание архитектуры Netflix также позволяет увидеть постоянные инновации, которые движут развитием цифрового медиа.

Понимание требований к системному дизайну

Системный дизайн является ключевым при разработке сложного программного обеспечения или технологической инфраструктуры. Эти спецификации служат основой, вокруг которой строится вся система, определяя её характеристики и формируя конечный продукт. Но какие требования предъявляются к системному дизайну и почему они так важны? Давайте разберемся.

Функциональные требования

Функциональные требования системы определяют функции и возможности, которые она должна включать. Эти спецификации описывают основную цель системы и детализируют, как различные компоненты или модули взаимодействуют. Например, функциональные требования для стриминговой платформы, такой как Netflix, могут включать:

  • Создание аккаунта: пользователи должны иметь возможность легко создавать аккаунты, предоставляя необходимые данные для регистрации.

  • Вход в систему: зарегистрированные пользователи должны иметь возможность безопасно входить в свои аккаунты с помощью учетных данных.

  • Рекомендации контента: платформа должна предлагать персонализированные рекомендации контента на основе предпочтений пользователя, истории просмотров и других данных.

  • Возможности воспроизведения видео: пользователи должны иметь возможность беспрепятственно стримить видео с функциями управления воспроизведением, такими как воспроизведение, пауза, перемотка и быстрое перематывание.

Нефункциональные требования

Нефункциональные требования определяют поведение системы в различных сценариях и обеспечивают соблюдение определенных стандартов качества. Они охватывают аспекты производительности, масштабируемости, надежности, безопасности и соответствия. Например, нефункциональные требования для стриминговой платформы, такой как Netflix, могут включать:

  • Требования к производительности: система должна поддерживать низкую задержку и высокую пропускную способность во времена высокой загрузки.

  • Требования к соответствию: платформа должна соблюдать стандарты защиты данных пользователей.

  • Требования к масштабируемости: инфраструктура должна быть масштабируемой, чтобы справляться с растущим трафиком пользователей без потери производительности.

  • Требования к безопасности: необходимо внедрить надежные процедуры аутентификации и шифрования, чтобы предотвратить несанкционированный доступ к информации пользователей.

  • Требования к надежности и доступности: система должна включать методы отказоустойчивости и обеспечивать высокий уровень доступности.

Переход на облачные технологии

После значительного сбоя из-за порчи базы данных в августе 2008 года Netflix пришел к важному выводу: необходимо отказаться от единичных точек отказа и перейти к высоконадежным, горизонтально масштабируемым облачным решениям. Netflix начал революционный путь, выбрав Amazon Web Services (AWS) в качестве облачного провайдера и переведя большинство своих услуг в облако к 2015 году. После семи лет интенсивной работы миграция в облако была завершена в начале января 2016 года, что означало закрытие последнего оставшегося центра обработки данных стримингового сервиса.

Однако переход в облако не был простым. Netflix принял облачную стратегию, полностью переработав свою операционную модель и технологический стек. Это потребовало внедрения NoSQL баз данных, денормализации модели данных и перехода от монолитного приложения к сотням микросервисов. Также потребовались изменения в культуре, такие как внедрение DevOps процедур, непрерывная доставка и создание среды самообслуживания для инженеров. Несмотря на трудности, этот переход сделал Netflix облачным бизнесом, который хорошо подготовлен к будущему расширению и инновациям в быстро меняющемся мире онлайн-развлечений.

Архитектурный триумвират Netflix

Сильный архитектурный триумвират — Клиент, Backend и Сеть Доставки Контента (CDN) — отвечает за безупречный пользовательский опыт Netflix. При миллионах зрителей по всему миру каждый компонент имеет ключевое значение для доставки контента.

Клиент

Архитектура клиентской стороны лежит в основе опыта использования Netflix. Это включает в себя широкий спектр устройств, которые пользователи используют для доступа к Netflix, таких как компьютеры, умные телевизоры и смартфоны. Netflix использует сочетание веб-интерфейсов и нативных приложений, чтобы обеспечить единый пользовательский опыт на разных платформах. Независимо от устройства, эти клиенты управляют элементами управления воспроизведением, взаимодействием с пользователем и отображением интерфейса, чтобы предоставить единый опыт. Пользователи могут легко просматривать обширную библиотеку контента и наслаждаться непрерывным стримингом благодаря оптимизации архитектуры клиентской стороны.

Backend

Backend архитектура является основой всех скрытых операций Netflix. Управление учетными записями пользователей, каталогами контента, алгоритмами рекомендаций, системами биллинга и другими системами осуществляется сложной сетью серверов, баз данных и микросервисов. Кроме обработки данных пользователей и координации доставки контента, backend оптимизирует доставку контента и персонализирует рекомендации, используя передовые технологии, такие как аналитика больших данных и машинное обучение, что повышает удовлетворенность и вовлеченность пользователей.

Архитектура backend Netflix значительно изменилась со временем. В 2007 году она перешла на облачную инфраструктуру, а в 2018 году приняла Spring Boot в качестве основного фреймворка Java. В сочетании с масштабируемостью и надежностью, предоставляемыми AWS (Amazon Web Services), такие собственные технологии, как Ribbon, Eureka и Hystrix, сыграли ключевую роль в эффективной координации backend операций.

Сеть Доставки Контента (CDN)

Сеть Доставки Контента завершает архитектурный треугольник Netflix. Сеть Доставки Контента (CDN) представляет собой стратегически расположенную глобальную сеть серверов, целью которой является доставка контента пользователям с оптимальной надежностью и минимальной задержкой. Netflix управляет своей собственной Сетью Доставки Контента (CDN), называемой Open Connect.

Она снижает буферизацию и обеспечивает плавное воспроизведение, кэшируя и предоставляя материалы с ближайших к пользователю узлов. Даже в периоды высокого спроса Netflix снижает загрузку сети и максимизирует использование пропускной способности, распределяя контент по множеству серверов по всему миру. Этот децентрализованный подход к доставке контента улучшает опыт просмотра для глобальных зрителей, одновременно снижая время буферизации и повышая качество стриминга.

Компоненты клиентской стороны

Веб-интерфейс

В последние годы веб-интерфейс Netflix претерпел значительные изменения, перейдя от Silverlight к HTML5 для стриминга премиум-видеоконтента. Этот переход привел к улучшению отзывчивости, совместимости и поддержке современных стандартов веб-технологий. HTML5 обеспечивает поддержку для видео высокого качества, интерактивности и улучшенного пользовательского интерфейса, предлагая приятный и надежный просмотр.

Мобильные и ТВ-приложения

Мобильные и ТВ-приложения Netflix также постоянно эволюционируют, чтобы удовлетворить требования различных платформ и устройств. В то время как мобильные приложения позволяют пользователям смотреть контент в дороге, ТВ-приложения обеспечивают возможность просмотра на большом экране. Каждое приложение адаптировано к особенностям устройства, чтобы предложить максимально удобный и оптимизированный опыт.

CDN и кэширование

Инфраструктура Netflix зависит от ее сети доставки контента (CDN), также известной как Netflix Open Connect, которая позволяет доставлять контент миллионам зрителей по всему миру с легкостью. Глобально распределенная CDN является ключевой для обеспечения того, чтобы клиенты в разных местах получали контент высокого качества.

Работа CDN Netflix Open Connect устроена так, что серверы, называемые Open Connect Appliances (OCAs), размещаются стратегически близко к интернет-провайдерам (ISP) и их пользователям. Когда доставка контента достигает пика, такое соседство снижает задержки и гарантирует эффективную работу. Netflix максимизирует использование пропускной способности и уменьшает зависимость от дорогой пропускной способности магистральных сетей, предварительно размещая контент в сетях ISP, что улучшает общее качество стриминга.

Масштабируемость — одна из основных особенностей CDN Netflix. Благодаря установке OCAs в около 1000 точках по всему миру, включая удаленные места, такие как острова и Амазонка, Netflix справляется с растущим спросом на стриминговые услуги в различных географических зонах.

Кроме того, Netflix предоставляет OCAs квалифицированным ISP, чтобы те могли предлагать контент Netflix непосредственно из своих сетей. Эта стратегия обеспечивает улучшенное стриминговое качество для подписчиков и снижает эксплуатационные расходы ISP. Netflix создает взаимовыгодные отношения с ISP, предлагая локализованное распределение контента и сотрудничая с ними, что в целом улучшает экосистему стриминга.

Трансформация обработки видео: Революция микросервисов в Netflix

Внедрив микросервисы, Netflix кардинально преобразовал свою систему обработки видео, обеспечив непревзойденную масштабируемость и гибкость для удовлетворения потребностей как студийных операций, так и стриминга для пользователей. Переход на платформу на основе микросервисов с монолитной платформы открыл новую эру гибкости и скорости разработки функций.

Каждый этап процесса обработки видео представлен отдельным микросервисом, что позволяет упростить оркестрацию и декуплировать функционал. Эти сервисы — от проверки видео до анализа сложности и кодирования — вместе создают отличные видеоактивы, подходящие как для студийных, так и для стриминговых случаев использования. Микросервисы принесли ощутимые результаты, способствуя быстрой итерации и адаптации к изменяющимся бизнес-требованиям.

Процесс воспроизведения в Netflix Open Connect

Пользователи по всему миру могут наслаждаться безупречным и отличным просмотром благодаря процессу воспроизведения Netflix Open Connect. Он работает следующим образом:

  1. Отчеты о состоянии: Open Connect Appliances (OCAs) регулярно сообщают в службы управления кэшем в Amazon Web Services (AWS) о своих маршрутах, доступности контента и общем состоянии.

  2. Запрос пользователя: Пользователь на клиентском устройстве запрашивает воспроизведение ТВ-шоу или фильма через приложение Netflix, размещенное в AWS.

  3. Авторизация и выбор файлов: После проверки авторизации пользователя и лицензий, службы воспроизведения AWS выбирают точные файлы, необходимые для обработки запроса воспроизведения.

  4. Служба маршрутизации: Служба маршрутизации AWS выбирает, из каких OCAs подать файлы на основе данных, сохраненных службой управления кэшем. Эти OCAs передаются службам воспроизведения для формирования их URL.

  5. Доставка контента: Службы воспроизведения отправляют URL соответствующих OCAs на клиентское устройство. Когда запрашиваемые файлы передаются на клиентское устройство по HTTP/HTTPS, выбранный OCA начинает их подачу.

Процесс воспроизведения в Netflix Open Connect

Пользователи по всему миру могут наслаждаться безупречным и отличным просмотром благодаря процессу воспроизведения Netflix Open Connect. Он работает следующим образом:

  1. Отчеты о состоянии: Open Connect Appliances (OCAs) регулярно сообщают в службы управления кэшем в Amazon Web Services (AWS) о своих маршрутах, доступности контента и общем состоянии.

  2. Запрос пользователя: Пользователь на клиентском устройстве запрашивает воспроизведение ТВ-шоу или фильма через приложение Netflix, размещенное в AWS.

  3. Авторизация и выбор файлов: После проверки авторизации пользователя и лицензий, службы воспроизведения AWS выбирают точные файлы, необходимые для обработки запроса воспроизведения.

  4. Служба маршрутизации: Служба маршрутизации AWS выбирает, из каких OCAs подать файлы на основе данных, сохраненных службой управления кэшем. Эти OCAs передаются службам воспроизведения для формирования их URL.

  5. Доставка контента: Службы воспроизведения отправляют URL соответствующих OCAs на клиентское устройство. Когда запрашиваемые файлы передаются на клиентское устройство по HTTP/HTTPS, выбранный OCA начинает их подачу.

Визуализация процесса воспроизведения

Визуализация процесса воспроизведения

Базы данных в архитектуре Netflix

Использование Amazon S3 для бесшовного хранения медиа

Способность Netflix выдерживать сбой AWS 21 апреля 2022 года продемонстрировала ценность ее облачной инфраструктуры, особенно ее зависимость от Amazon S3 для хранения данных. Системы Netflix были построены для того, чтобы выдерживать такие сбои, используя такие сервисы, как SimpleDB, S3 и Cassandra.

Инфраструктура Netflix основана на использовании Amazon S3 (Simple Storage Service) для хранения медиа, что поддерживает огромную коллекцию фильмов, ТВ-сериалов и оригинального контента стримингового гиганта. Петафайты данных необходимы для обслуживания миллионов пользователей Netflix по всему миру, и S3 является идеальным выбором для хранения этих данных благодаря своей масштабируемости, надежности и высокой доступности.

Другим важным фактором, который заставил Netflix выбрать S3 для хранения медиа, является масштабируемость. С S3 Netflix может легко расширять свою емкость хранения, не беспокоясь о добавлении дополнительного оборудования или обслуживании сложной инфраструктуры хранения по мере роста своей коллекции контента. Для удовлетворения растущего спроса на стриминговый контент без потери пользовательского опыта или скорости Netflix должен быть масштабируемым.

Принятие NoSQL для масштабируемости и гибкости

Необходимость структурированного доступа к данным в рамках высокораспределенной инфраструктуры определяет процесс выбора базы данных в Netflix. Netflix принял парадигму распределенных баз данных NoSQL после осознания ограничений традиционных реляционных моделей в контексте операций масштаба Интернета. В их экосистеме баз данных выделяются три ключевых решения NoSQL: Cassandra, Hadoop/HBase и SimpleDB.

Amazon SimpleDB

Когда Netflix перешел в облако AWS, SimpleDB от Amazon стал очевидным решением для многих случаев использования. Он был привлекателен благодаря своим мощным возможностям запросов, автоматической репликации между зонами доступности и долговечности. Хостинг-решение SimpleDB снизило эксплуатационные расходы, что соответствует политике Netflix по использованию облачных провайдеров для не дифференцированных операций.

Apache HBase

Apache HBase развился как практическое решение с высокой производительностью для систем на базе Hadoop. Его динамическая стратегия разделения нагрузки упрощает перераспределение нагрузки и создание кластеров, что критически важно для обработки растущего объема данных Netflix. Массированная консистентность HBase улучшена поддержкой распределенных счетчиков, запросов по диапазонам и сжатия данных, что делает его подходящим для различных случаев использования.

Apache Cassandra

Открытая NoSQL база данных Cassandra обеспечивает производительность, масштабируемость и гибкость. Ее динамическое увеличение кластера и горизонтальная масштабируемость соответствуют требованиям Netflix к неограниченному масштабу. Благодаря своей адаптивной консистентности, механизмам репликации и гибкой модели данных, Cassandra идеальна для межрегиональных развертываний и масштабирования без единых точек отказа.

Так как каждая NoSQL утилита лучше всего подходит для определенного набора случаев использования, Netflix приняла несколько из них. В то время как Cassandra преуспевает в межрегиональных развертываниях и отказоустойчивом масштабировании, HBase естественно интегрируется с платформой Hadoop. Адаптация NoSQL требует кривой обучения и эксплуатационных расходов, но преимущества в масштабируемости, доступности и производительности делают инвестиции оправданными.

MySQL в инфраструктуре биллинга Netflix

Система биллинга Netflix претерпела значительную трансформацию в рамках обширной миграции на облачную архитектуру AWS. Поскольку Netflix сильно зависит от системы биллинга в своей деятельности, переход на AWS был осуществлен с большой осторожностью, чтобы минимизировать влияние на опыт пользователей и обеспечить соблюдение строгих финансовых стандартов.

Отслеживание периодов биллинга, мониторинг статусов платежей и предоставление данных для финансовых систем отчетности — это лишь некоторые из задач, которые выполняет инфраструктура биллинга Netflix. Команда инженерии биллинга управляла сложной экосистемой, включающей пакетные задачи, API, соединители с другими сервисами и управление данными для выполнения этих функций.

Выбор технологии базы данных был одним из самых важных решений, принятых в процессе миграции. MySQL был выбран как решение для базы данных из-за необходимости масштабируемости и требований к транзакциям ACID при обработке платежей.

Создание надежных инструментов, оптимизация кода и удаление ненужных данных были неотъемлемой частью процесса миграции для адаптации к новой облачной архитектуре. Перед переносом текущих данных о пользователях был проведен тщательный тестовый процесс с использованием чистых наборов данных и прокси-серверов для обработки перенаправления трафика.

Миграция на MySQL в AWS была сложным процессом, требующим тщательного планирования, методичного внедрения и постоянного тестирования и итерации. Несмотря на все трудности, переход прошел успешно, что позволило Netflix использовать масштабируемость и надежность облачных услуг AWS для своей системы биллинга.

Архитектура Netflix после миграции

Архитектура Netflix после миграции

Процесс обработки контента в архитектуре Netflix

Процесс обработки контента в Netflix представляет собой систематический подход к управлению цифровыми активами, предоставляемыми партнерами по контенту и выполнению. Основные фазы этого процесса включают поглощение (ingestion), транскодирование и упаковку.

Поглощение (Ingestion)

На этапе поглощения исходные файлы, такие как аудио, синхронизированный текст или видео, подвергаются тщательной проверке на точность и соответствие требованиям. Эта проверка включает в себя анализ семантических сигналов, проверку формата файлов, декодируемость сжатых битстримов, соответствие критериям доставки Netflix и целостность передачи данных.

Транскодирование и упаковка (Transcoding and Packaging)

После успешного завершения этапа поглощения исходные файлы проходят транскодирование для создания выходных элементарных потоков. Затем эти потоки шифруются и помещаются в контейнеры, готовые к распределению и потоковой передаче.

ba714b5e9261f0b4ebfcae86521997e3.jpg

Обеспечение бесшовного стриминга с помощью модели Canary от Netflix

Так как клиентские приложения являются основным способом взаимодействия пользователей с брендом, они должны отличаться высоким качеством для глобальных цифровых продуктов. В архитектуре системы Netflix значительные средства выделяются на тщательную оценку обновленных версий приложений. Однако из-за того, что Netflix доступен на тысячах устройств и поддерживается сотнями независимых микросервисов, провести полноценное внутреннее тестирование становится сложной задачей. В связи с этим, крайне важно поддерживать решения о выпуске на основе надежных данных, полученных в процессе обновлений.

Для ускорения оценки обновленных клиентских приложений Netflix сформировала специализированную команду, которая занимается сбором данных о состоянии из реальной среды. Благодаря этой инвестиции в систему ускорилась скорость разработки, улучшилось качество приложений и процессы разработки.

Клиентские приложения: Netflix использует два способа обновления своих клиентских приложений: через прямые загрузки и через размещение в магазинах приложений. Прямые загрузки увеличивают контроль над распространением.

Стратегии развертывания: Хотя преимущества регулярных и поэтапных релизов для клиентских приложений хорошо известны, обновление программного обеспечения связано с определенными трудностями. Поскольку каждое устройство пользователя передает данные в виде потока, эффективное sampling сигналов становится критически важным. Стратегии развертывания, используемые Netflix, адаптированы для решения уникальных проблем, связанных с различными устройствами пользователей и сложными микросервисами. Подход отличается в зависимости от типа клиента — например, смарт-ТВ по сравнению с мобильными приложениями. Новые версии клиентских приложений постепенно становятся доступными через staged rollouts, что позволяет оперативно обрабатывать сбои и умело масштабировать серверные сервисы. Во время развертывания контроль над уровнями ошибок на стороне клиента и уровнями принятия обновлений обеспечивает согласованность и эффективность процесса развертывания.

  1. Поэтапные развертывания: Для снижения рисков и разумного масштабирования серверных услуг staged rollouts подразумевают постепенное развертывание новых версий программного обеспечения.

  2. AB-тесты/клиентские canaries: Netflix использует интенсивную версию A/B тестирования, известную как «Client Canaries», которая включает в себя тестирование полных приложений для обеспечения своевременных обновлений в течение нескольких часов.

  3. Оркестрация снижает нагрузку, связанную с частыми развертываниями и анализом. Она полезна для управления A/B тестами и клиентскими canaries.

В итоге, модели клиентских canaries от Netflix гарантирует частые обновления приложений.

Диаграмма архитектуры Netflix

Архитектура системы Netflix представляет собой сложную экосистему, состоящую из Python и Java с использованием Spring Boot для серверных услуг, а также Apache Kafka и Flink для обработки данных и потокового стриминга в реальном времени. На фронтенде используются Redux, React.js и HTML5 для создания увлекательного пользовательского опыта. Многочисленные базы данных, включая Cassandra, HBase, SimpleDB, MySQL и Amazon S3, обеспечивают аналитику в реальном времени и обработку огромных объемов медиа-контента. Jenkins и Spinnaker помогают с непрерывной интеграцией и развертыванием, а AWS поддерживает всю инфраструктуру с масштабируемостью, надежностью и глобальным охватом.

Преданность Netflix предоставлению безупречных развлекательных впечатлений для своей огромной международной аудитории подтверждается тем, что эти технологии составляют лишь небольшую часть их обширного технологического стека.

79c10a3b5405cd4f124270a97a159571.jpg

Вывод

Архитектура системы Netflix произвела революцию в индустрии развлечений. На протяжении своего пути от сервиса аренды DVD до крупного мирового игрока в сфере стриминга.

Архитектура Netflix, поддерживаемая Amazon Web Services (AWS), обеспечивает непрерывный стриминг для глобальной аудитории. Netflix гарантирует безупречную доставку контента на различных устройствах благодаря своей клиентской, серверной архитектуре и сети доставки контента (CDN).

Инновационное использование HTML5 и персонализированные рекомендации, предлагаемые архитектурой системы Netflix, значительно улучшают пользовательский опыт.

Несмотря на некоторые трудности, с которыми столкнулась компания, переход на облачные технологии стал важным шагом к укреплению позиций Netflix. В стремительно развивающемся мире онлайн-развлечений Netflix подготовила себя к будущему развитию и инновациям, приняв микросервисы, NoSQL базы данных и облачные решения. Понимание системы Netflix может быть полезным для любой технологической компании.

Простыми словами, архитектура системы Netflix направлена на то, чтобы изменить способ потребления медиа-контента — речь идет не только о технологиях. Эта архитектура скрыто обеспечивает бесперебойную работу во время просмотра, увеличивая удовольствие от развлечений для каждого зрителя.

Надеюсь статья показалась вам интересной и полезной! Впереди еще много нового: про технологии, изменившие мир и бизнес. Если не хотите их пропустить — приглашаю вас в свой канал «Охота за технологиями». Желаю всем добра и до скорой встречи!

© Habrahabr.ru