Яндекс изнутри: поговорим о потрохах русского поиска

У нас не так уж много ИТ-компаний, про которые можно уверенно сказать, что «это проект мирового уровня». Сегодня я бы хотел малость тормознуть на Яндексе, пока ещё главном поисковике нашей страны. Почему «пока»? Я ещё в далеком 2012 году в общих чертах объяснял почему и делал прогноз о том, что Гугля скушает наш слаатенький Яндекс с потрохами, и вот мы видим то, что согласно самым последним и свежим данным доля Yandex-Поиска продолжает скукоживаться на глазах.

Очень зря Yandex недавно суматошно пытался выдавить это противостояние в юридическую плоскость, потому что это скорее жест отчаяния — никакую проблему по существу это не решает. Гугл инвестировал бабло вдолгую и как результат создал свою собственную мобильную ОС, которую добровольно предустанавливают тысячи производителей гаджетов по всему миру. И теперь, в эпоху мобильных девайсов-гаджетов, понятно чем это закончится для Яндекса: вот она стратегическая точка перегиба в мае 2016, а вот оно уже движение под откос согласно текущим статистическим данным. Но не будем о грустном, всё в этом мире относительно — лично я считаю, что даже при таком негативном раскладе тот же Яндекс ещё переживёт Газпром, хе-хе.

Короче говоря, безотносительно к рыночным реалиям, Yandex — реально сложный, интересный и передовой проект. И в этом посте я собрал 4 видео, в которых говорливые инженеры из Яндекса очень откровенно рассказывают про техническое устройство этой самой махины. Обычно хлопцы из Яндекса весьма замкнутые на себе интроверты, которые свято блюдут секреты отечественного поиска, трепетно оберегая его толи от продажно-ссылочной SEO-индустрии, толи от заокеанского конкурента-супостатота Google, но на этот раз они наговорили ртом столько, что на осмысление всего услышанного нужно время.

Итак, на каких таких физических принципах фурычит ентот отечественный поисковый аппарат?

  • Устройство поиска «Яндекса» с инженерной точки зрения;
  • Вызовы поискового облака Яндекса;
  • Об основных принципах ранжирования Яндекса и о том, как компания добивается максимальной релевантности результатов поиска;
  • Сетевая инфраструктура хранения и обработки данных Яндекс.

Вот такие вот четыре свеженьких и слаатеньких инсадерских видео-доклада от 2016 года я собрал и аккуратно выложил под кат для всего честного айтишного народа.

Сокровенное про устройство «Яндекса»

Яндексоиды рассказывают по-русски про мир Big Data и High Load, про реальные решения для развертывания промышленного поиска. Помимо безусловной полезности, порой просто любопытно заглянуть под капот таких гигантских программных конструкций, которые невозбранно пасутся на бескрайних серверных просторах «Яндекса».

Признаюсь, зрелище «миллиона процессорных ядер» лично меня завораживает…

1. Пётр Попов: Поиск «Яндекса» с инженерной точки зрения

Поисковая система Яндекса содержит своего рода слепок интернета. Мы пишем программы, которые быстро ищут по этому слепку, находят в сети новые интересные для пользователей страницы, пополняют и обновляют поисковый индекс. Нам важно сохранять в поисковой базе как можно больше документов, так как в объеме индекса заключается продуктовое преимущество.

В докладе речь пойдет об основных технических характеристиках поиска Яндекса. Вы узнаете, почему суммарная мощность наших дата-центров переваливает за миллион процессорных ядер и какие технологические и инженерные вызовы стоят перед нами.

2. Олег Фёдоров: Вызовы поискового облака.

Краткое содержание этого видео:

— «Не все йогурты одинаково полезны»: как выбрать правильный процессор или сервер по соотношению «цена — производительность».
— Как заполнить рюкзак камнями, песком и водой: распределение ресурсов в облаке.
— Как чинить двигатель самолета в воздухе: балансировка нагрузки между дата-центрами.
— И овцы сыты, и волки целы: изоляция, виртуализация и discovery в облаке.
— «Хьюстон, у нас проблемы…»: поиск аномалий, факап или релиз.

3. Александр Сафронов: Как найти лучшие ответы.

Размеры интернета колоссальны, и задача поисковой машины — мгновенно найти в этом космосе то, что нужно пользователю. Иначе говоря, необходимо упорядочить документы так, чтобы в начале списка оказались наиболее релевантные. Но как отличить хорошие документы от плохих, а наилучшие от хороших?

В докладе пойдёт речь об основных принципах ранжирования Яндекса и о том, как мы добиваемся максимальной релевантности результатов поиска. Вы узнаете, что такое факторы ранжирования и какие они бывают, какую роль играет в ранжировании машинное обучение и зачем поиску нужна лингвистика.

4. Яндекс изнутри: инфраструктура хранения и обработки данных

Наша инфраструктура хранения и обработки данных уникальна. Суммарный объём данных, которыми оперирует Яндекс, измеряется эксабайтами, а требования к системам хранения — очень жёсткие.

Руководители команд и ведущие разработчики направления инфраструктуры расскажут, как удаётся добиться согласованной работы огромных дата-центров, что такое Media Storage, YT и Yandex Query Language. Слушатели узнают, как устроена СУБД ClickHouse, на основе которой работает Яндекс.Метрика. И ещё — всем наконец-то станет известно, сколько же в Яндексе MapReduce-систем.

5. Неформальная видео-экскурсия по московскому офису Яндекса

И в качестве невинного бонуса — центральный офис Яндекса в Москве изнутри:

Все пять приведенных видео — за 2016 год и на русском языке.


Ключевые слова: Это серверная Яндекса, как устроены алгоритмы поиска в Яндексе, как накручивать поиск и выдачу серпа. Сервера и возможности инфраструктуры Яндекс, его поиск, устройство и балансировка нагрузок HiLoad, защита от атак и топология сети. Как работает и устроен поиск на примере Google и Yandex, как ранжируются результаты и формируется поисковый серп, а также поисковая выдача. Как устроен поиск изнутри и внутри настоящей поисковой машины, боты и граберы, поисковые парсеры и роботы, обстукивалки которые барражируют интернет и читают эти строки. Описание устройства работы, устройства и структуры поиска у Яндекса и его серверов. Индексация больших массивов информации и их анализ через Big Data. Как работает и ищет яндекс в интернете и чем он отличается от поиска Гугла?

© Blogerator