[Из песочницы] Как отличить сайт с копипастами от сайта-интегратора?30.01.2016 10:36

Прочитал намедни статью про сайты-копипасты и их выдачу Яндексом, и задумался… Где же должна проходить грань между оригинальными страницами и «копипастами»? Как говорится, с точки зрения теории, теория и практика — одно и то же, да вот на практике это далеко не так. Поэтому я и решил поделиться своим скромным опытом реализации проекта сайта, не содержавшего ни единого «кусочка отсебятины».

Появилась у меня однажды идея, даже не идея —, а настойчивая потребность — систематизировать информацию о действующих на тот момент диссертационных советах. Это было где-то в 2012 году, когда диссоветов было порядка 3200, причём зачастую информация по каждому из них в сети была, но находилась не напрямую, а всякими окольными путями (какие-то диссоветы находились на сайтах своих организаций через раздел «Аспирантура», другие — через «Наука», третьи — какими-то другими немыслимыми проходами по тёмным безжизненным корридорам сайтов с шаманским бубном). Поскольку я понимал, что не один нахожусь в такой ситуации, а значит есть спрос (и будет выдача в поисковиках), было решено создать сайт dissovety.ru и разместить на нём всю найденную мной информацию, систематизировав её должным образом.

Сказано — сделано!

Сайт я делал на знакомом мне вордпрессе, поэтому сразу столкнулся с проблемой: мне было нужно сделать так, чтобы диссоветы можно было находить по шифру, городу и научным специальностям. Выход был найден простой и красивый: для каждого города создавалась рубрика, научные специальности отмечались тегами (облако тегов стало действенным элементом навигации и вместе с тем показывало многочисленность внесённых в базу диссоветов по каждой конкретной специальности), информация о диссовете представляла собой отдельный пост, в заголовке которого стояло название диссовета и его шифр.

К сожалению, сайт прожил всего лишь несколько месяцев (примерно с января по октябрь 2013 года). В него была занесена информация примерно о 50 диссоветах (может, чуть больше), плюс ещё порядка 80–100 диссоветов ожидали своего часа, как случилась реформа, в ходе которой все диссоветы были закрыты, а ВАК начал публиковать новые списки (первый список содержал немногим более 300 диссоветов, второй и третий спустя месяцы увеличили общее число до 600). К тому времени я уже определился со своим диссоветом, благодаря чему отпала необходимость в подобном сайте лично для меня, плюс небольшое число действующих советов серьёзно упрощало поиск нужного — так что сайт тихо канул в Лету списки доменов к продаже.

Однако из этого проекта я сделал некоторые выводы.

Во-первых, я вполне логично ожидал, что страницы моего сайта будут идти в поисковой выдаче (по номеру диссовета или его названию) как минимум после страницы с исходной информацией. На практике оказалось по-другому: страницы моего сайта неизменно оказывались выше (!) сайта-источника. Мне кажется, объяснение этому такое: мой сайт был целиком посвящён диссоветам, посты по каждому диссовету были чётко структурированы (конечно, поисковик не оценивает качество текста, но благодаря этому каждый пост оказывался не очень длинным, но и не слишком коротким, плюс естественным образом включал в себя массу слов, которые говорили о его ценности с точки зрения темы поискового запроса). Структура каждого поста была примерно такая: в заголовке название и шифр диссовета, в тексте — где, при каком заведении находится, адреса-телефоны, ФИО учёного секретаря и председателя, специальности, по которым диссовет принимает к защите работы, и прочая полезная для диссертантов информация. Если говорить о страницах — донорах информации, то собираемые мной сведения были слабо структурированы, зачастую их приходилось искать в разных разделах сайта.

Во-вторых, посещения. Первый месяц на сайте было 10–15 диссоветов: я не спешил с наполнением, не разобравшись до конца в логике подачи материала и методикой его сбора (на 1 диссовет уходило 30–50 минут времени — на поиск информации и её представление в соответствии с пунктами, которые я для себя определил как обязательные). Посещения были случайные и разовые (причём половину трафика «нагонял» я, просто просматривая свои новые посты, как они выглядят в итоге. Через месяц-другой пошёл поисковый траффик. Не скажу, что его было много: по моим подсчётам, он быстро вышел на запланированный объём (исходя из расчёта 1 посетитель на 1 диссовет в сутки — по крайней мере, примерно такая была статистика по самим диссоветам, с небольшой поправкой на посещаемость сайта вака). Где-то на 4–6 месяцах существования проекта его позиции оказывались устойчиво выше первоисточников (при том, что я обязательно давал ссылку на исходную страницу, откуда брал информацию, а на меня абсолютно никто не ссылался!). А потом — упразднение списка и полная неизвестность…

В-третьих, успешность самой модели сайта-интегратора. С одной стороны, для его наполнения необходимо приложить определённые усилия (найти базу описываемых объектов, продумать их систематизацию в рамках возможностей CMS, установить некие общие схемы и принципы выстраивания информации на сайте, описать каждый объект в соответствии с ними). С другой стороны, при правильном подходе уже с первых шагов сайт-интегратор даёт неплохие результаты, а после своего наполнения требует минимальных усилий для своего поддержания (на этом этапе можно подключать форумы, чтобы начать интегрировать ещё и пользовательский опыт).

Поскольку проект был запущен и работал «на голом энтузиазме» (я установил себе лимит времени — час в день), финансовые затраты на него составляли 0 рублей и столько же копеек (у меня был хостинг со «свободными местами» и бонусом в виде бесплатного доменного имени). Сайт никак не рекламировался — ну, может, несколько сообщений в твиттере на всю тогдашнюю тысячу моих читателей, да показ гуглю и яндексу (нате, индексируйте). В итоге мне почти что удалось сделать сайт-интегратор (если бы список не упразднили, он был бы готов — к тому времени я уже нашёл исполнителей, которые за разумные деньги и пару месяцев собрали бы информацию о каждом диссовете). Хотя я и делал «сайт для людей», в этом проекте я не написал ни единого слова «отсебятины»: всё, что там было, было взято с других сайтов, и во многом — с точными формулировками, взятыми из исходников (обработка если и была, то незначительная — всё сводилось к систематизированному показу информации, взятой с сайта-донора).

Несмотря на то, что сам проект больше не действует, после него осталось несколько вопросов, касающихся поисковой выдачи. Было ли справедливым занятие моим сайтом более высоких позиций по сравнению с первоисточниками? Если нет — то какие позиции должны были занять по отношению к исходным материалам страницы моего сайта? Если сайт содержит в упорядоченном виде качественную информацию, взятую из других источников, и указывает на эти самые источники, то есть по сути дела обобщает все доступные сведения и делает их доступными в едином месте, то можно ли считать его содержимое оригинальным, или к такому сайту нужно применять фильтры?

И, наконец, извечный вопрос:, а где собственно пролегает грань между оригинальными качественными «сайтами для людей» и всеми прочими копипастами?

P.S. Полученный мной опыт оказался интересным и, на мой взгляд, позитивным, так что сейчас я подумываю о том, чтобы к следующему году запустить новый проект, основанный на такой же «интеграторской» идее (объединение информации о тысячах разрозненных объектов — в удобном для пользователя виде).