Как работает интернет в Китае
Автор Telegram-канала «Мобильная Азия» рассказывает, как устроена одна из самых совершенных систем интернет-цензуры.
Массовые блокировки подсетей Amazon, Google, Digital Ocean, Azure стали главной обсуждаемой темой российского интернета. Ничего нового по части интернет-цензуры российские политики не изобрели, многое они почерпнули из опыта Китая, который вот уже 20 лет успешно контролирует трафик китайских пользователей.
Поэтому я подумал, что будет интересно рассказать про то, как устроена крупнейшая система интернет-цензуры и какие механизмы для этого используются.
Немного истории
В 1998 году Министерство общественной безопасности Китая начало подготавливать проект под названием Golden Shield Project. В последующие 10 лет проект тщательно прорабатывали и в 2011 году он был утвержден Государственным Советом. Golden Shield Project — крупнейшая система цензуры интернет-содержания на магистральных сетях передачи данных.
Известный китайский фаервол China«s Great Firewall (CGF) — это как раз часть проекта Golden Shield Project.
Его цель — блокировка зарубежных сайтов и замедление межграничного трафика.
Политика регулирования интернета стала частью программы экономических реформ, которые начались в Китае в конце 1980-х годов. Проведение реформ должно было способствовать созданию прибавочной стоимости, достаточной для финансирования модернизации китайской экономики, которая в то время находилась на грани катастрофы в результате провала политики «большого скачка».
Начиная с 1995 года Китай быстро подключился к интернету, стали открываться первые интернет-кафе. Но отношение китайских властей к интернету было скорее настороженным. Дэн Сяопин, тогда — лидер КНР, высказался по поводу Сети следующим образом: «Если вы откроете окно для притока свежего воздуха, вы должны ожидать, что с воздухом прилетят и мухи!»
Обозначив потенциальную опасность всемирной интернет-сети, китайское правительство вместе с освоением новой технологии установило строгий контроль над интернетом.
Гражданам запрещено пользоваться интернетом в целях:
- Нанесения ущерба национальной безопасности; раскрытия государственных секретов; иного вреда интересам государства или общества.
- Создания, тиражирования, поиска или передачи информации, которая противоречит Конституции КНР, законам или административным нормам.
- Свержения правительства или социалистической системы.
- Подрыва национального единства.
- Искажения правды, распространения слухов или нарушения общественного порядка.
- Поиска и распространения материалов, имеющих сексуальный характер, или поощряющего азартные игры, насилие или убийство.
- Нанесения вреда безопасности компьютерных информационных сетей.
Коммунистическая партия считала свободный интернет угрозой для экономического развития государства.
Golden Shield это не только про блокировки. Это комплексная система обеспечения безопасности, включающая сквозную идентификацию пользователей (аутентификация по паспорту), антивирусные системы, мониторинг «вторжений», контент-фильтрацию, видеомониторинг и даже системы распознавания лиц.
Все эти системы интегрированы в единый государственный диспетчерский центр на базе Министерства общественной безопасности КНР (МОБ), что позволяет физически находить лиц, нарушающих закон.
Суммы, которые потратило правительство Китая на разработку «Щита» — секретны. Но даже по размаху выставки заметно, что это не миллионы долларов, и не десятки. Речь шла о сотнях миллионов.
Список популярных ресурсов, которые недоступны на территории Китая
Архитектура сети в Китае
Интернет — это не только веб. Помимо контента и устройств его хранения и обработки, важны ещё и линии связи. Причём важнее всего магистральные направления, так как провайдеров в городе может быть несколько, а вот соединение между городами и странами могут обеспечить немногие.
Самой быстрой средой передачи информации на большие расстояния сегодня является оптическое волокно.
Магистральная сеть связи — транспортная телекоммуникационная инфраструктура для предоставления услуг связи. Как правило, магистральная сеть выстраивается на собственных или арендованных волоконно-оптических линиях с использованием высокоскоростного канального оборудования связи.
Иными словами — эта сеть связывает стратегические взаимосвязанные сети и маршрутизаторы в интернете.
Связь между Китаем и остальным миром проходит исключительно через «специальные серверы». Они находятся в установленных законом точках обмена трафиком.
Оборудование принадлежит шести компаниям. Наиболее крупные: China Telecom и China Unicom.
Полный список:
- China Academy of Information and Communications Technology;
- China Telecommunications Corporation (aka China Telecom);
- China Mobile Communications Corporation (aka China Mobile);
- China United Network Communications Group Co., Ltd. (aka China Unicom);
- China Radio and Television Network Co., Ltd.;
- CITIC Networks Co., Ltd.
Все из них так или иначе аффилировоаны государством.
Интернет-шлюзы разделены на несколько уровней:
- National Level (Пекин, Шанхай, Гуанджоу) — эти города имеют доступ к международным каналам.
- Core Level (Шэньян, Сиань, Чэнду, Ухань, Нанкинь).
- Metropolitan Area Network (остальные точки обмена трафиком. Могут подключаться только к Core Level).
В 2015 году из-за ежегодного роста трафика на 10–15% пришлось построить еще 7 backbone-узлов в городах Чэнду, Ухань, Сиань, Шэньян, Нанкин, Чунцин, и Ченджоу, часть узлов «подняли» с уровня Core Level до National, часть построили заново.
Глобальная связность выглядит так:
Китайские интернет-провайдеры используют разные подходы к блокировке контента. Например, два крупнейших китайских интернет-провайдера China Telecom и China Unicom по-разному расставляют трафик-фильтры.
CNC Group (China Unicom) размещает большинство своих фильтров на магистрали, ChinaNet (China Telecom), в силу колоссального объема китайского трафика, размещает фаерволы в основном на собственных региональных сетях.
Другие мелкие провайдеры «регионального значения» и нишевые ISP (Internet service provider) не фильтруют трафик, но для передачи межграничного трафика могут подключаться только к шести операторам.
Для блокировки интернет-контента используются несколько механизмов:
- Блокировка IP-адресов (и целых IP-подсетей).
- DNS tampering and hijacking — подделка DNS. Существует список сайтов, содержание которых полностью закрыто для просмотра.
- Deep packet inspection — система, которая осуществляет глубокий анализ всех проходящих через неё пакетов. Это позволяет проверять страниц на наличие запрещенных ключевых слов.
- Самоцензура — использование модераторов для поиска распространителей нежелательного контента. Самоцензура — один из самых интересных феноменов китайского интернета, она позволяет не только осуществлять цензуру, но и бороться с распространением наркотиков.
- Мониторинг URL на наличие запрещенных ключевых слов. Тут все довольно тривиально.
- Блокировка TOR.
- Удаление VPN-приложений из китайского App Store.
Далее расскажу о каждом механизме подробнее.
Ниже я написал небольшое введение в сетевые технологии, где очень просто объясняю что такое TCP/IP-протокол, DNS и резолвер. Если все эти терминалы вам знакомы и вы знаете как это работает, то крутите вниз до пункта про блокировку IP-адресов.
Краткий курс по информационным сетям
Что происходит, когда мы в браузере вбиваем нужный нам сайт www.sample.website.ru?
Технически мы сообщаем браузеру ссылку (URL) сайта, который хотим посетить. Браузер разбирает введенную вами строку и извлекает доменное имя. Сайт может обслуживаться большим количеством серверов и надо определить, к какому подключаться.
Для этого используется система DNS. Это распределенная база данных, которая хранит информацию о доменном имени и IP-адресах машин, на которых обслуживается домен. Задача вашей операционной системы — обработать DNS-запрос.
DNS — одна из самых высоконагруженных распределенных баз в мире.
Пространство доменных имен имеет древовидную структуру. Есть корневой домен, который обозначается точкой. То есть формально правильная запись нашего адреса — sample.website.ru., но все современные браузеры дописывают её за нас.
Далее идут доменные адреса первого порядка — уровня стран (com, ru, org, cn, de и так далее). Этот список фиксирован. Их называют TLD (Top-Level Domain). Здесь наверное правильно будет сделать отступление и сказать, что такое домен. Домен — поддерево в дереве DNS, то есть это определенный узел, включающий в себя все подчиненные узлы.
Далее идут домены второго уровня (в нашем примере это website). Некоторые домены второго уровня имеют дальнейшее ветвление (для нашего примера это sample).
База DNS разделена на зоны. Зона — часть базы DNS, которая обслуживается конкретной организацией. В каждой зоне имеется минимум один авторитетный сервер DNS, который хранит всю информацию о зоне, за которую он отвечает. В одной зоне хранится информация о некоторой части доменов. Остальная информация делегируется на хранение другим зонам.
На вашем устройстве, будь то компьютер или смартфон, существует дефолтный DNS-сервер. В большинстве случаев ваш интернет-провайдер имеет свой DNS-сервер, и его адрес он сообщает по специальному протоколу.
В этой зоне корневых DNS-адресов находятся домены второго и третьего уровня. В частности все организации прописывают адреса своих DNS-серверов на этом DNS-сервере. Для больших организаций было бы неправильно хранить свои домены на DNS-сервера рунета — это повысило бы нагрузку на корневой сервер. Поэтому у крупных компаний есть свои DNS-серверы.
Когда браузеру необходимо преобразовать запрос, ему известен только DNS-сервер провайдера. Изначально он не знает ничего про sample.website.ru, однако он знает адреса корневых серверов. К ним он и отправляет запрос. Корневой сервер тоже не знает ничего про sample.website.ru, но он видит домен .ru, и он возвращает IP-адреса серверов рунета.
DNS-сервер провайдера повторяет свой запрос, но уже к одному из серверов рунета. DNS-сервер рунета все равно не знает адрес sample.website.ru, но он знает адрес website.ru и его возвращает серверу провайдера. И в третий раз DNS-сервер провайдера повторяет запрос, но уже к DNS-серверу website.ru. Это сервер знает адрес sample.website.ru и возвращает его браузеру.
Если бы каждый раз запрос шел на корневой сервер, то он бы просто не выдержал такой колоссальной нагрузки, поэтому его ответ кэшируется на DNS-сервере провайдера. Кэширующие серверы хранят в памяти (кэше) ответы на предыдущие запросы, если этот сервер получил запрос, то он сначала просматривает информацию в кэше, и если в кэше не оказалось необходимого ответа, то отправляет запрос вышестоящему серверу DNS.
Таким образом домен может в себя включать большое количество разнообразных зон.
После того, как IP-адрес установлен, браузеру необходимо отправить запрос на веб-сервер. Коммуникация браузера с сервером происходит через специальные сетевые протоколы. Сетевые протоколы образуют стек, то есть одни протоколы используют функции, которые предоставляют другие протоколы.
Запрос отправляется с помощью HTTP-протокола. Однако браузер и сервер не общаются напрямую друг с другом с помощью этого протокола.
- Сперва браузер устанавливает IP-адрес сервера с помощью DNS-протокола.
- Затем браузер устанавливает TCP-соединение. Этот протокол обеспечивает надежную последовательную доставку данных между программами. На веб-сервере может быть запущено несколько программ и надо указать какой именно программе мы хотим передать данные. Для этого необходимо указать специальный TCP-порт, который указывает к какой программе мы хотим обратиться. При установке соединения происходит обмен данными, которые называют пакетами.
Надеюсь, на каком-то уровне стало понятно, как работает наш любимый интернет. Вернемся к теме статьи.
Блокировка IP-адресов
Блокировка IP-адресов — это простой и дешевый способ. В китайском интернете «Черный лист» IP-адресов содержит адреса нежелательных сайтов вроде New York Times или публичный IP-адрес DNS резолвера Google. Полный список заблокированных сайтов можно найти здесь.
Схема блокировки IP-адресов стандартная, с использованием BGP-маршрутизаторов. Все пакеты, которые отправлены по IP-адресам из «черного списка», просто скидываются. При попытке зайти на тот или иной ресурс вам покажут «вечную загрузку» сайта, без заглушек.
Иначе пришлось бы строить серверные фермы, которые при любом обращении к запрещенному ресурсу выдавали страницу-предупреждение. Учитывая объем китайского трафика это слишком дорого, и вообще решение не очень.
Главное преимущество этого метода фильтрации — он относительно прост в реализации и создает минимальную нагрузку на фильтры интернет-провайдеров. Проблема такого способа — надо регулярно обновлять «черный список», заблокированный сайт может просто поменять в А-записях адрес доменного имени. В таком случае фильтрам надо блокировать всю подсеть, а это может «задеть» добропорядочные ресурсы.
Подобная ситуация произошла в 2008 году, когда правительство боролось с ресурсом Falun Dafa (религиозная секта). Falun Dafa быстро менял IP в записях DNS, а регулятор тут же меняли блэк-листы. Из-за этого случайно были заблокированы IP-адреса образовательного сайта MIT.
Всё это произошло в тот момент, когда официальная делегация из Массачусетса приехала в Китай, что бы заключить соглашение и показать массу MOOC на китайском языке. Однако сайт открыть не получилось, так как он оказался заблокированным.
Подделка DNS-запросов
Еще с 2002 года Китай начал фильтровать ответы корневых DNS-серверов и подделывать их. К 2007 году в стране не осталось DNS, которые бы не управлялись правительством. Все внутренние DNS-провайдеры общаются только с серверами из доверенного списка.
Работает это следующим образом: ответ, который возвращает DNS-сервер, фальсифицируется посредством преднамеренной конфигурации.
В ChinaNet имеются собственные «корневые DNS». При обращении пользователя к доменному имени twitter.com пользователю выдаются ложные ответы. Таким образом пользователь может запросить IP-адрес twitter.com, а в ответ получить сайт шиномонтажного салона из Кореи.
Но кроме обычного вмешательства в DNS-записи, маршрутизаторы GFW еще умеют блокировать подцензурные запросы, подменяя DNS-запросы с запрещенными ключевыми словами, выдавая поддельные DNS-ответы.
У такого подхода есть и негативные последствия для мирового веба. Исследование показало, что подделка DNS-запросов сказалась на 15 тысячах открытых резолверов за пределами Китая в 79 странах. Больше всего пострадали сайты в европейской доменной зоне, потому что через Китай пролегает трафик из Соединенных Штатов и Японии в условную Германию.
Например, американский DNS-резолвер для доступа к www.epochtimes.de должен отправить запрос в DNS TLD (top level domain) — службу в Германии. Если путь к TLD проходит через Китай, то китайский фаервол вернет американскому резолверу поддельный ответ, который тот у себя закэширует.
Таким образом пользователь не зайдет на нужный ему немецкий сайт, находясь в условном Бостоне. Рабочий способ не допустить такой ситуации — использовать DNSSEC-валидацию. Технология помогает однозначно удостовериться в подлинности DNS-информации при помощи криптографической подписи. Сегодня практически все крупные регистраторы доменных имен и NS-серверы поддерживают DNSSEC.
DPI и Атака TCP Reset
DPI — это технология накопления статистических данных, проверки и фильтрации сетевых пакетов по их содержимому. В отличие от брандмауэров, DPI анализирует как заголовки пакетов, так и полное содержимое трафика.
Возможности DPI-решений сильно зависят от скорости и памяти фильтрующих элементов. Поэтому мониторить весь трансграничный трафик это довольно долго и дорого.
Проблема решается с помощью «прослушек» (Wiretap), которые установлены на всех границах автономных систем. Им не обязательно блокировать все TCP-соединения китайцев.
В отличие от других протоколов (например, UDP), TCP предполагает установку соединения между двумя компьютерами. Сетевое ПО, такое как браузер и веб-сервер, обменивается данными в форме потоков пакетов. Каждый TCP-пакет содержит заголовок, в котором есть бит флага сброса (RST) соединения.
У большинства пакетов этот бит установлен в 0, но если он установлен в 1, это значит, что получатель должен немедленно прекратить использовать текущее соединение: не посылать пакетов с текущим идентификатором (на текущий порт), а также игнорировать все последующие пакеты этого соединения (согласно информации в их заголовках). Сброс TCP моментально разрывает соединение.
Golden Shield использует систему «отправки запросов в ноль» с добавлением блокировки входящих пакетов.
Ключевым элементом тут является «whitetrap» — обычный межсетевой экран, который направляет копии каждого пакета на умную машину IDS.
И вот уже IDS проверяет пакеты на легитимность. Если по каким-то признакам пакет не проходит, то клиенту, которому этот пакет направляется, шлется TCP Reset, то есть сброс соединения.
После блокировки соединения система поддерживает состояние потока относительно IP-адресов источника и получателя, номера порта и протокола отклоненных запросов. Это позволяет блокировать дальнейшее соединение даже для безобидных запросов, которые ранее не были заблокированы.
Так, пользователи начинают вообще опасаться каких-либо «неправильных ресурсов», поскольку связь может быть приостановлена не только в браузере, но и, например, во время мультимедийной сессии или телефонного разговора.
Фильтрация осуществляется по ключевым словам. Система анализирует контент сайтов на соответствие «национальному черному списку» ключевых слов. Если запрещенные слова находятся, то соединение сбрасывается.
Китайцам «помог» их собственный язык. Запрещенный иероглиф легче распознать, поэтому проводить семантический анализ текста не приходится, что ускоряет фильтрацию.
Блокировка по ключевым словам в URL
Тут все довольно просто.
Например, www.stanford.edu/group/falun заблокирован, а www.stanford.edu — нет.
Несмотря на свою простоту это один из самых «демократичных» способов блокировки. Скажем, в Китае работает как Github, так и Reddit. Однако при попытке зайти на репозиторий или сабред shadowsocks (сетевой протокол для обхода блокировок) вы увидите «вечную загрузку».
Блокировка TOR
C TOR у китайцев долгое и интересное противостояние.
Так, например, с помощью подделки DNS-запросов весь трафик на сайт Tor Project, откуда можно скачать браузер, долгое время перенаправлялся на сайт груминга из Флориды.
GFW использует IP-спуффинг для сканирования Tor-мостов.
Система DPI осуществляет и так называемый поведенческий анализ трафика, который позволяет распознать приложения, не использующие для обмена данными заранее известные заголовки и структуры данных. Как только обнаруживается Tor-соединение, запускается специальный сканер. Он подключается к соответствующему мосту С разных китайских IP-адресов и пытается установить TOR-соединение. В случае успеха он блокирует мост. По разным исследованиям мост остается заблокированным на протяжении 12 часов.
Шифрование
Важный элемент обеспечения информационной безопасности в Китае — регулирование всего, что касается шифрования. Первая директива в этом отношении вышла еще в 1999 году.
Производить и продавать продукты шифрования в коммерческом секторе возможно только с разрешения государственных органов и в соответствии с установленными правилами. Так, криптостойкость не должна превышать уровень, установленный государством. Позже власти разъяснили, что эти правила применяются к продуктам, основной функцией которых является шифрование. Например, для пользовательских гаджетов — это вторичная функция, и на них этот запрет не действует.
Начиная с 1999 года власти развивали идею контроля средств шифрования и разрабатывали национальные стандарты. Например, в 2003 году правительство сделало WAPI обязательным для любого беспроводного продукта, продаваемого в Китае. Набор стандартов IEEE 802.11 временно оказался под запретом, но в процессе диалога с Международной организацией по стандартизации (ИСО) ограничение смягчили, а ряд вендров пошли по пути компромисса. Например, Apple с поддержкой WAPI в рамках 3GS iPhone.
Обходы блокировок
Обход блокировки прежде всего подразумевает получение доступа к международным ресурсам. Важно понимать, что Китай не живет в условиях глобальной изоляции. Да, скажем, человеку из китайской деревни сложнее прочитать статью из Guardian. Но в большинстве крупных китайских городов пользователи знают как обходить ограничения, чтобы зайти в Twitter или на Facebook. Другой вопрос в том, что в этом нет большой необходимости. Даже китайцы-эмигранты используют WeChat для общения с родственниками.
Тем не менее Китай сейчас — один из лидеров среди стран по глобальному проникновению VPN-сервисов среди населения. Согласно Wired, на 2016 год 29% населения использовало VPN. Это 243 млн пользователей с платной подпиской (VPN же не бесплатный). Для сравнения, у Spotify на 2017 год 75 млн пользователей используют платную подписку, которая стоит примерно столько же.
В июле 2017 года правительство КНР сообщило локальным провайдерам и телекоммуникационным компаниям о необходимости блокировки незаконного использования VPN частными лицами. При этом компании, работающие на территории страны, могут продолжать использовать официально зарегистрированные VPN-сервисы.
Например, при заходе на сайт одного из крупнейших провайдеров GreenVPN в 2017 году можно увидеть такое сообщение.
Далее идут вопросы по возврату денег за услуги и кнопка «Отказаться от абонентской платы». Причем, если вы откажетесь, то вам предложат подключиться к другому сервису, который находится вне зоны юрисдикции китайской цензуры.
Обнаружение VPN-трафика
По некоторым источникам, GFW использует техники машинного обучения, чтобы распознать и блокировать VPN и прокси-соединения.
Ключевые слова «машинное обучение» и «Китай» способны навлечь страх на любого, но надо признать, что ничего передового в технологиях обнаружения нет.
Пару секунд гугления позволят вам найти массу интересной и доступной литературы по использованию статистического обучения для классификации интернет-трафика. Самая простая эвристика: если 99% трафика идет на один адрес, он зашифрован и содержит одинаковые заголовками.
Намного сложнее — разметить, где VPN-соединение, а где нет. А вот с этим китайцы справляются лучше других. Вся интернет-цензура Китая держится на ручном труде.
Про обходы блокировок писать не здесь не буду. При желании это спокойно гуглится. Также можете подписаться на мой канал в Telegram, где я про это в скором времени расскажу.
Этот текст несет ознакомительный характер. Я хотел простым языком объяснить, как работает одна из самых сложных систем по цензуре интернета. Рассуждения о моральных и этических принципах блокировок я оставлю за рамках этой статьи.
Что можно еще почитать
Если у вас возникло желание поглубже изучить технические аспекты китайского интернета, то ниже список отличных источников.
#китай
© vc.ru