Как правильно запрещать индексацию страниц в Google
Данная ошибка «Indexed, though blocked by robots.txt» появляется тогда, когда бот Google индексирует страницы, несмотря на то, что вы запретили это в файле robots.txt. Это происходит потому, что бот часто игнорирует запреты и добавляет эти страницы в индекс, хотя по правилам они не должны были туда попасть. Чтобы решить эту проблему, можно воспользоваться несколькими методами, например, скорректировать настройки robots.txt, использовать мета-теги noindex для выбранных страниц или обратиться в поддержку Google для получения рекомендаций.
Ранее уже была публикация про индексацию сайтов через Google API, в которой присутствует подробная инструкция индексации страниц через Console Cloud Google.
Способы закрытия страниц от индексации
Существует несколько способов закрыть доступ поисковым ботам к индексации страниц вашего сайта:
1. HTTP заголовок X-Robots-Tag. Это изящный и неприметный метод, который настраивается на серверной стороне. Он не виден в исходном коде страницы, но его можно увидеть через инструменты разработчика в разделе Network. Обычно настройкой занимаются команды разработчиков или администраторы серверов.
2. Meta robots. Этот надежный способ включает добавление мета-тега robots в раздел
страницы с нужными атрибутами. Я предпочитаю использовать сочетание noindex, follow, чтобы явно указать Google не индексировать страницу.3. Скрипт на JavaScript. Часто разработчики предлагают закрыть через написанные скрипты на языке программирования JavaScript. Их также можно найти в свободном доступе интернете. Чем хорош данный метод, пользователи могут заходить и видеть контент , а поисковые роботы нет.
4. Атрибут canonical. Чтобы удалить дубли страниц, возможно прописать тег с атрибутом canonical и указать в нем главную страницу. Ранее данный трюк всегда срабатывал, но последнее време он работает 50/50.
Всю информацию можно изучить в документации Google https://developers.google.com/search/docs/crawling-indexing/robots-meta-tag.
А как же robots.txt?
Напротив распространенного мнения, эта директива не блокирует индексацию страниц вашего сайта. Google прямо заявляет об этом в своей документации. Основная функция этой директивы — запретить сканирование определенных разделов. Однако Google все равно может включить в индекс контент, который вы бы предпочли не видеть в результатах поиска.
Инструкция Google
Лавушка индексации
Теперь я объясню, почему я об этом говорю. На сайте, который я продвигаю, возникла проблема: в индекс попало много страниц с get-параметрами, что привело к появлению лишних рефералов.
Чтобы не создавать лишние трудности своим любимым разработчикам, я решил быстро закрыть такие страницы в файле robots.txt и переключиться на другие вопросы. Но, как вы уже поняли, это не решило проблему — страницы продолжали появляться. Я в какой-то момент думал, что Google сам разберется с данной проблемой и на основных страницах никак не отразяться данные технические вопросы. Но увы, страницы с параметрами начали перебивать основные страницы.
Данная ошибка Indexed, though blocked by robots.txt
А что делать-то?
Чтобы удалить ненужные страницы из индекса, выполните следующие шаги:
1. Закройте нужные разделы от индексации, используя один из двух методов, описанных в статье о способах закрытия страниц от индексации.
2. Разрешите боту сканирование этих разделов в файле robots.txt.
3. Подождите, пока все целевые страницы будут удалены из индекса.
4. После завершения деиндексации снова закройте эти разделы в robots.txt, чтобы они не мешали Google и не расходовали ваш краулинговый бюджет.
Если Вам нужна помощь в индексации сайтов пишите нам в контактах Seo House.