Бывший сотрудник Яндекса выпустил бесплатный поисковик с блек… листами, но без рекламы

Здравствуйте, меня зовут Дмитрий Карловский и я крайне опечален качеством поиска современных поисковиков.

Например, обсуждали мы как-то в $mol-чате стоит ли делать «человеко-понятную» псевдостатику в урлах вида /snjat-dvushku/s-remontom/v-vihino для SEO, или всё же сеошники — шарлатаны, гадающие на поисковой гуще. Решили проверить кто там у нас в топе по запросу «квартира купить однокомнатная горьковская» и получили такой результат:

4416c6a846e3415735e04283920d7b56.png

Дыбенко, Лесная, Жопа Мира, всё, что угодно, только не то, что спрашивали. Первые 4 результата — нерелевантный мусор. А потом сервис самого же Яндекса. Как так получилось, что в 2к21, в эпоху машинного обучения и GPT-3, у нас получился поиск хуже, чем на заре интернета?

Копаем вглубь

А разгадка простая: первые четыре результата — это реклама, мимикрирующая под выдачу. Порой она настолько хорошо мимикрирует, что опознать её может только экстрасенс:

aaa8e244cd51282ef0e8ac6aee7b5f00.png

Отвечая на изначальный вопрос: в топе будет тот, кто больше проплатил поисковику, и всё. Так что не мучайте программистов хитрожопыми правилами формирования урлов, выгоняйте сеошников не умеющих в научный подход, а сэкономленные деньги просто отдайте на рекламу. И ладно там с СЕО, для пользователей ситуация куда более печальная…

Какие бы умные разработчики ни работали над уникальными алгоритмами поиска, если ко власти приходят эффективные менеджеры, для пользователя ваш поиск всё-равно будет работать отвратительно. Такие менеджеры усиленно пилят сук на котором сидят. Главное — срубить как можно больше премий, пока он не обломился.

И Яндекс такой не один, конечно. Соблазн поднять бабла на невнимательности пользователей — очень высок. Например, поищем «free hosting» в популярных поисковиках:

Безоговорочный лидер тут у нас — Yahoo, где суммарная площадь рекламного мусора превысила объём релевантной выдачи. Видя, снижение прибыли из-за оттока пользователей, они всё сильнее закручивают гайки, тем самым лишь ещё больше увеличивая отток.

Копаем вширь

И это мы пока что говорили лишь про «результаты выдачи» и мимикрирующую под неё рекламу. А есть ещё и не мимикрирующая реклама, всяко разные «колдунщики» и «острова» влезающие со своими «подсказками» после каждого второго пункта выдачи. Интерфейс выдачи сейчас везде настолько перегружен, что им просто неприятно пользоваться. Чем больше даже релевантной информации разбросать по странице, тем меньше вероятность, что посетитель вообще заметит то, что ему могло бы быть полезно.

На мой взгляд хороший поисковик должен предлагать диалог помогающий пользователю объяснить роботу, что он ищет:

  • Лук

  • Какой лук? Репчатый, охотничий, географическое место и ли вообще внешний вид?

  • Охотничий

  • А что про него? Как работает, где купить, история использования?

  • Как работает

  • Лады, держи страницы о конструкции луков.

Если делить таким образом выборку каждый раз на 5 частей, то за 10 вопросов легко можно найти любую страницу из 10 миллионов. Акинатор не даст соврать.

Нечто похожее есть в поиске по картинками, только фасеты подбираются безобразно:

a472b161825c0f50ba94944afd1a0b8f.png

Сейчас же поисковики пытаются ответить сразу на все вопросы одновременно, показывая тебе и карты, и вырезки из Википедии, и перевод, и видео, и подборку картинок, и ответы на вопросы, и что ищут другие люди, и всё, что угодно, лишь бы ты не делал лишних тапов, но делал лишние свайпы.

И даже если от всего этого избавиться, сам результат поиска тоже оставляет желать лучшего. Всё потому, что поисковики возвращают не то, что вы ищите, а то, что ищет большинство по совершенно иным запросам. Ну мало ли вы ошиблись, отбились от стада, со всеми бывает.

Например, лет 7 назад я написал песню, которая много где уже опубликована. Так вот, там есть слова «Ты моё Сонце — я твой Месяц в звёздах». Давайте попробуем её найти:

9e4b86974bbfc9d3394f8d6ead3ee0d8.png

Прекрасно, 9 миллионов результатов и, внезапно, фолиевая кислота на пол экрана! Не, ну, а что, вдруг залетит после таких-то красивых слов. Яндекс — мы думаем на перспективу.

Это явление называется «пузырём фильтров». Есть большой пузырь, куда суют по умолчанию всех. В нём находится индивидуальный пузырик, основанный на слежке за пользователем. И что бы вы ни искали, результаты будут не со всего интернета, а лишь из вашего пузыря.

Чтобы вырваться из пузыря и заставить таки поисковик искать то, что вам надо, порой помогает взятие запроса в кавычки. Но и тут Yahoo умудрился отличиться:

8a3d70462ecb597007fbd0e948c04559.png

Два нерелевантных результата, прикидывающиеся будто их 60. Bing же просто выдаёт 4 рекламы (две из которых — ювелирка, Бинг более деликатен, чем Яндекс, видимо) и всё:

b3157ead37065e9b64d901aa5da42e4d.png

Короче, с поиском в интернете сейчас определённо чо-то не то. Это уже настолько очевидно всем, что пара бывших топов по рекламе из Google запустили свой платный поисковик. Конечно же они грозятся рекламу не показывать, за действиями не следить, данные не воровать. Но вы можете открыть им для индексации ваши Gmail, Outlook, Google Drive, Dropbox, Slack, Jira или где вам там есть что скрывать.

Ведь если вы платите компании деньги, то нет оснований полагать, что все ваши данные разом (намеренно или не очень) вдруг окажутся в руках кого-то, кому вы бы их ни за что не открыли. Да что уж там, они даже не парятся, и отображают в выдаче гугл-карты, хвастаясь тем, какие они молодцы, что не стали изобретать велосипед получив $77,5 млн инвестиций. Вот тебе и приватность.

Причём, что у них собственно с качеством поиска ты не узнаешь, пока не заплатишь. А с качеством у поисковиков есть проблемы и без реклам да пузырей. Банальный поисковой спам то и дело попадается в результатах. Например, вездеcсущий pinterest.com. Чтобы не видеть его в выдаче приходится добавлять »-site: pinterest.com» к запросу. Но работает это не везде.

Копаем вбок

И сижу я такой, смотрю на это всё, и офигеваю. Что делать-то простому безработному программисту из Мухосранска? От рекламы в выдаче уже тошнит. Платить за поисковик 5 баксов жаба душит. Пилить своё — никаких ресурсов не хватит. Хотя, есть одна идейка…

У того же Гугла есть Программируемая поисковая система. Она позволяет встроить Гугл-поиск в свой сайт. А что если…

Ладно, смотрим апи. Какие у нас есть возможности:

  • Можно рисовать своё поле поиска и дёргать запросы вручную.

  • Можно полностью самим же рисовать и выдачу.

  • Можно искать как по конкретным сайтам, так и по всему интернету.

Да это же то, что нам и надо! Но кто оплачивает этот банкет? Находим Прайс и видим 3 альтернативы:

  • Платить из своего кармана за чужие поиски.

  • Показывать рекламу.

  • Показывать атрибуцию.

Платить нечем, от рекламы как раз и пытаемся сбежать, а что за атрибуция такая? Фактически это реклама самого гугла, только менее навязчивая. То есть достаточно просто вставить ссылку на Гугл? Не совсем, варианта лишь два:

  • Показывать её где-то рядом с поисковым полем.

  • Или где-то рядом с результатами поиска.

Причём делать это нужно не как попало, а лишь с помощью их бренд-скрипта. Ну ладно, звучит приемлемо — вставим атрибуцию в конце выдачи. Зато сможем предоставить пользователю действительно хороший UX поиска. Разве что…

Один скрипт, другой, третий и вот у нас уже страничка на 200 кб. А это на четверть больше, чем весь портал mol.hyoo.ru, где функциональности гораздо больше, чем поле поиска, http-запрос и список ссылок. Мой внутренний перфекционист рыдает кровью, но ничего не поделаешь. Хорошо хоть не на Ангуляре…

Но даже так загрузка у нас получилась в 2 раза быстрее оригинала:

ktz2_9cyjsxooz79z5obxf3mar4.png

Итак, пришла пора показать результат всех этих мучений лицом:

727d75b4cca40e47fcde8e62ef69cef0.png

Как видно, есть предустановленный список альтернативных поисковиков и чёрный список доменов, которые исключаются из выдачи. Но пользователь легко может их изменить под себя. Настройки хранятся локально. Они никуда не сливаются. Но и не синхронизируются. Для синхронизации потом сделаю свой крипто синхронизатор, не раскрывающий данные серверу.

К сожалению, не раскрывать текст запросов поисковику не получится. Так что уровень приватности не больше, чем в собственно Гугле.

А теперь о печальном:

1c644ca5bf1aefc3d14fa3f243458a63.png

Даже в кавычках ничего не нашлось. И дело тут совсем не в запросе, а в том, что программируемый гугловый поиск похоже ищет не по всему интернету, а лишь по некоторому пузырю из наиболее популярных страниц. Так что «убийца конкурентов» у нас, конечно, не получится. Благо есть быстрые ссылки для поиска по тому же запросу в других поисковиках.

Выкапываемся

Я может и не бог дизайна, но я и не транс-национальная корпорация, которая может позволить себе нанять самых топовых дизайнеров. которые не в курсе, что иногда люди пользуются интернетом и в полумраке, а кристально белый фон страницы в этих условиях просто выжигает им сетчатку.

Поисковик я делал таким, каким бы хотел пользоваться сам. Поэтому рекламы на нём нет и не будет. А в приоритете релевантность результатов поисковому запросу, а не профилю пользователя. Ну, насколько это возможно в свете отсутствия коммерческой выгоды и, как следствие, использовании сторонних API.

Проект, как обычно, с открытыми исходниками, лицензия MIT. Так что смело подкидывайте идеи по улучшению, а то и подключайтесь к его развитию. Например, не сложно будет прикрутить поиск по картам и картинкам. Ну или пилите что-то своё, лучше, чем у меня. Пусть расцветают сто цветов.

Тут правда есть риск, что этот мой микро сервис обретёт популярность. Тогда есть два варианта развития событий:

  • Оптимистичный: владельцы поисковиков растормошатся и возьмутся за UX их базовой функциональности.

  • Пессимистичный: лавочку могут просто прикрыть. Тем более, что в условиях использования есть такой чудесный пункт: Недопустимо создавать или пытаться создать такой же или аналогичный Сервис или продукт, используя доступ к любому из Сервисов или к соответствующей запатентованной информации. Забанить по нему можно кого угодно, было бы желание.

Но реалистичный сценарий всё же — неуловимый Джо, — это когда всем пофиг.

Ну и, наконец, ссылочки:

Почаще вам находить и пореже терять!

© Habrahabr.ru