Веб-аналитика. Или откуда начинается сбор данных о пользователях

Приветствую всех!

Исходя из названия вы уже поняли, о чем я хочу рассказать вам (сообществу, начинающим специалистам в сфере и другим заинтересованным лицам). Убежден, некоторые скажут, что данные собираются о пользователях не только из сети Интернет, но и из других источников. Вы будете правы, но все же хочу поговорить о сборе данных из ваших «интернетов» и какие требования сегодняшний рынок предъявляет специалистам уровня Middle+. О метриках в рекламе и на сайте говорить не будем, т.к. это и так само собой разумеется.

5088e1c89b2b816de521cfd1b59ef09c.png

Предлагаю разбить эти требования на:

  1. Системы аналитики и доп. тулы

  2. SQL и СУБД

  3. BI (Системы визуализации данных)

  4. Soft Skills

Системы аналитики

В своей работе я постоянно использую данные, которые по API выкачиваем в БД, но без настройки и определения событий не обойтись, поэтому немного о системах аналитики расскажу ниже. Также поговорим о доп. тулах, которые используются веб-аналитиками.
Как вы знаете, на рынке достаточно много систем аналитики, но я бы выделил некоторых лидеров:

  1. Google Analytics (GA4)

  2. Яндекс Метрика

  3. Matomo

Google Analytics (GA4). Ранее была прекрасная Universal Analytics, но и GA4 тоже интересна и предоставляет большое количество плюшек. Настройку системы можно делать с простой установки счетчика на сайт и далее использовать тег Google (gtag.js) или Google Tag Manager (далее — GTM), тоже является скриптом, который внедряют в сайт. Знаю достаточно небольшое количество коллег, которые используют в событиях gtag.js внедряя в соответствующие функции внутри кода сайта, но чаще всего мы имеем дело с GTM, о нем мы поговорим чуть позже. Зайдя в раздел потоков можете перейти к расширенным настройкам и обратить внимание, что можно создавать потоки не только для веба, но и для мобильных приложений (Android и IOS). Про настройку в мобильных приложениях расскажу в другой статье. Продолжим, в разделе администратора можно настроить связи с другими продуктами экосистемы Google, настроить права пользователей, фильтры, конверсии, специальные определения и тд. На каждом пункте останавливаться не будем, т.к. куча авторов с Запада рассказали об этом, а еще больше авторов из СНГ перевели и засунули это в свои видео и блоги. Из жирных плюсов можно выделить хорошую интеграцию с различными сервисами вне экосистемы, включая систем А/Б — тестирования и систем визуализации данных, также плюсом можно добавить наличие возможности создавать визуализации в виде таблиц, воронок и т.д. Самый крупный минус, с которым я столкнулся, это появление значения (other). Как правило оно появляется, когда в системе достаточно много уникальных значений присвоенных измерению. Google предлагает несколько решений, одно из которых передавать данные в BigQuery (так дешевле). В системе пользователь любого уровня знаний может посмотреть основные метрики по его веб-ресурсу и на их основе принимать решения.

Яндекс Метрика. Тоже достаточно интересная система аналитики, которая в СНГ используется почти наравне с GA4. Интерфейс сильно отличается от GA4. В Метрике достаточно много стандартных отчетов, что позволяет даже начинающему пользователю хорошо ориентироваться в данных. Конечно настройка событий (целей) имеет хороший функционал, но до экосистемы Google еще далеко. Справедливости ради можно отметить хороший доп в виде, так называемой, разметки событий, а с GTM система приобретает серьезный вес в глазах пользователей. Также есть достаточно интересные допы к системе в виде вебвизора, карты скролла и кликов, вариокуб для А/Б — тестирования и интеграция с CRM.

Matomo. Система скорее похожа на Universal Analytics своим способом сбора данных, есть внутренний Tag Manager. Интерфейс конечно не очень, но нам нужен функционал. Достаточно много плагинов можно докинуть в систему (есть платные и бесплатные). Можете создать собственный (понравится хардкорным спецам). Есть внутренняя система А/Б — тестирования в виде отдельного плагина, который стоит не более 300$ за год. Конечно есть и минусы, привычный уровень данных в виде dataLayer он не понимает, поэтому нужно использовать window._mtm.push или плагины. И естественно цена, если Яндекс и Google предоставляют бесплатное решение (про системы 360 говорить не будем), то в Matomo есть 2 пути. Первый — использовать Cloud решение, второй — open source на своих серверах или внутреннего провайдера. Каждое из решений не очень дешевое, хотя для некоторых «деньги не проблема». Также, при работе с Self Host решением следует учитывать рекомендации от разработчиков системы к железу и БД.

Google Tag Manager. Он в свою очередь достаточно прост, легко управляем и не нужно постоянно дергать разрабов на всякие мелочи, ибо ресурсов на это у них как всегда нет. В GTM достаточно много предустановленных тегов, триггеров и переменных, которых на начальных этапах с головой хватит для настройки основных событий на вашем веб-ресурсе. Также есть галерея шаблонов, которые точно понравятся вам. Из GTM можно передавать данные куда угодно (сторонние системы аналитики, рекламные кабинеты, БД и т.д.). Большое внимание можно уделить переменным, т.к. в них есть очень интересный функционал в виде создания собственного JS-кода, таблиц регулярных выражений и т.д. Также вы можете создать в GTM собственный (кастомный) тег, который пишется на JS, поэтому ИИ вам в помощь. При работе вы ограничены только своим воображением и возможностями системы. Хочу уделить большое внимание работе с Server-Side GTM. Я бы назвал это крутым допом, т.к. он позволяет улучшить точность в сборе данных, улучшить производительность страниц вашего ресурса, т.к. обработка событий будет происходить не на стороне клиента, а на стороне сервера, улучшенное управление настройками конфиденциальности пользователей. Про Server-Side я напишу отдельную подробную статью, но для специалистов хочу обратить внимание не только на простую настройку событий внутри системы, но и на поднятие контейнеров внутри Cloud Run на Google Cloud Platform с последующим логированием и выявлением ошибок. Cloud Run достаточно прост, одной из характерных черт можно назвать автоматическое масштабирование при повышении нагрузок на другие контейнеры в системе, поэтому не стоит беспокоиться о повышении нагрузок на сервер. Исходя из такого количества рекомендаций нужно немного ознакомиться с облачной экосистемой Google, в будущем может пригодиться для работы на международных проектах.

Системы А/Б — тестирования. Ранее у Google был прекрасный Google Optimize, но к сожалению они нам не предоставили альтернативу, поэтому некоторые используют вариокуб, VWO и другие системы. Более крупные компании пишут свои системы для сплита или подмены контента, после чего занимаются серьезным анализом результатов, но это уже другая история.

SQL и СУБД

Тут все достаточно просто, после выкачки данных по API из различных рекламных кабинетов и аналитических систем можно заняться аналитикой. Используется SQL для запросов к БД, но перечень БД достаточно разный. Это могут быть как Cloud Managed, так и Self Hosted решения. Наиболее популярными являются BigQuery, ClickHouse, PostgreSQL, Greenplum. В работе вы точно встретите задачи от простых селектов, до CTE и оконных функций. Поэтому изучению SQL стоит уделить свое время. Также стоит уделить внимание:

  1. работе с Cloud решениями, для веб-аналитиков достаточно Yandex Cloud и Google Cloud Platform;

  2. настройке таблиц и поднятию БД в облаке;

  3. работе с логами при передаче данных в Cloud Managed БД (мало ли что-то сломается);

  4. иногда следить за расходами, но это вопрос скорее не к вам, хотя для маленьких и средних компаний это будет важным критерием.

BI (Системы визуализации данных)

В большинстве случаев специалистам хватает функционала Looker Studio и DataLens. Но если говорить о серьезном уровне, то стоит посмотреть в сторону Tableau и Power BI. Чаще всего крупные компании используют их на своих серверах, где и хранятся отчеты. Следует учитывать, к внутренним БД вряд ли дадут подключиться внешним BI системам, поэтому будете использовать то, что дает наниматель внутри контура безопасности.

Soft Skills

Следует отметить, что вам нужно будет общаться с коллегами разного уровня в своей деятельности:

  1. С разработчиками — при внедрении очередного ТЗ, проверки корректности выполненных работ или просто поговорить на технические темы.

  2. С руководителями — при презентации отчета или исследования.

  3. С заказчиками дашбордов и ad-hoc запросов, рассказывая им за что отвечает определенный показатель, как работать с дашбордом, чем отличается просмотр от сеанса (такое тоже встречается) и т.д.

Не забываем о креативности, ведь в аналитике вы ограничены только фантазией и возможностями систем.

Надеюсь, эта статья поможет начинающим специалистам понять потребности рынка, а спецам в этой сфере — подтянуть текущие навыки.

© Habrahabr.ru