Хакатон Demhack: успехи проектов и новый анонс
В сентябре 2023 года прошёл седьмой хакатон Demhack. Тогда особенно тревожной была ситуация с VPN, которые массово начали блокироваться в России через ТСПУ. И естественно эта тема стала центральной. Вторым значительным направлением разработки внезапно оказались инструменты для выявления пропаганды и манипуляций в СМИ и социальных сетях — и в результате хакатона мы смогли получить несколько отличных проектов.
Расскажем сегодня о том, как развиваются лучшие проекты Demhack 7 (и сделаем небольшой анонс нового хакатона!). Итак, чем же помогают эти инструменты, в чём их ценность именно сейчас и что они планируют развиваться дальше?
Видеть манипуляции насквозь
Одним из победителей прошлого хакатона стал проект Textgericht — решение для проверки текстов на признаки манипуляций, логических ошибок и хейт-спич. После хакатона проект продолжил работу и взял себе название «Насквозь».
Система «Насквозь», используя искусственный интеллект, анализирует новости из Telegram-каналов и выявляет манипуляции в них, а затем выдаёт итог в виде процентного соотношения. Получается своеобразный «термометр пропаганды» — инфографика, которая иллюстрирует ситуацию в режиме онлайн:
Сейчас в разработке у команды ещё и свой Telegram-бот с персональным агрегированным дайджестом новостей, дополненных индикатором уровня манипуляций. Он анализирует новости с разных точек зрения, основываясь на методах автоматического определения главных тем и нарративов пропаганды.
В основе технологии проекта «Насквозь» — автоматическая обработка текстов или NLP. В первую очередь используется ChatGPT для продвинутой аналитики с подробным объяснением ответов. Но в распоряжении команды есть и более быстрые и недорогие в работе модели, которые были созданы за счёт самостоятельного обучения нейросети Transformer. Они могут с высокой точностью (~ 80%) определить, есть ли в тексте пропаганда или нет.
Скриншот с сайта проектанеформальныДля обучения моделей используется как открытые данные научных конференций (например, SemEval 2023), так и данные, которые команда собрала и разметила сама. В корпусе проекта 2800+ предложений, размеченных на 6 классов манипуляций (логические ошибки и передёргивание, демонизация врага, эмоционально заряженный язык, апелляция к традициям, обоснование войны, черно-белоё мышление). Качество разметки сопоставимо с научными публикациями в этой области.
В первую очередь продукт рассчитан на профессионалов: его могут использовать для работы журналисты и исследователи, агрегаторы новостей для определения качества информации, преподаватели специальных курсов и образовательных инициатив. Среди партнёров «Насквозь» — «НеНорма», TrueStory, AskRobot и другие проекты.
Важным является и то, что ресурс помогает в частной жизни, например, при дискуссиях с людьми, чтобы аргументированно показывать масштаб манипуляций в различных медиа, а также для самоконтроля, проверки своих текстов.
Уже сейчас система может одновременно анализировать тысячи текстов с очень высокими показателями точности. Однако на данном этапе «Насквозь» не может проверять тексты на фактическую достоверность информации, делать фактчекинг. Система не может справиться со специфическим языком сообщений, жаргоном и сарказмом, с неформальным стилем текста. Это возможное направление развития.
Ещё одно существующее ограничение — работа с текстами только на русском языке. Тем не менее специалисты говорят, что, например, компоненты бинарной оценки (есть пропаганда/нет пропаганды) достаточно легко переносятся на другие языки, и это тоже задача на будущее. Команда будет рада сотрудничеству: попробовать модель на личной подборке текстов или напрямую поработать с корпусом можно здесь (пароль: tester).
Противостоять фейковой реальности
После хакатона продолжает свою работу ещё один победитель Demhack 7 — проект «vox-harbor». Он изучает накрутки голосов и деятельность ботов в Telegram. Проект исследует феномен создания искусственного мнения.
В арсенале команды — современные инструменты такие, как Clickhouse, Grafana и др. Они нужны, чтобы обнаруживать манипуляции общественным мнением (астротурфинг) в социальных сетях и на платформах, в частности в Telegram, с использованием метода анализа большого объема открытых данных для выявления активности ботов.
Команда создала большой распределенный парсер, который проверяет каналы в Telegram на наличие накруток реакций под сообщениями, голосов в опросах и комменариев под постами. Собранная внутри мессенджера информация загружается в базу ClickHouse, где происходит её анализ. Изучение комментариев проводится с помощью fine-tune rubert. Одинаковые комментарии группируются алгоритмическими методами, позволяя выявлять автоматических кремлеботов и кадыровботов.
У проекта «vox-harbor» уже есть удобный интерфейс для просмотра результатов исследований каналов. Если канал достаточно большой (от 100 тыс подписчиков), то скорее всего он уже попал в выборку анализа проекта и результаты доступны на сайте.
Выявление ботов:
В дальнейших планах у команды: выявление ботов со сложным поведением (троллей, которые пишут нетиповые комментарии по методичкам), расширение на другие социальные сети (например, отслеживание накруток ВКонтакте), а также активная работа с медиа (предоставление им результатов анализа для публикаций).
Проект готов сотрудничать с телеграм-каналами. Администраторы могут сделать заявку и получить графики опросов и реакций, отражающие процент ботов в канале.
Следить за работой проекта можно в их телеграм-канале или в блоге на сайте.
Выводить троллей на чистую воду
В контексте решений для противодействия искусственному общественному мнению упомянем и проект «Ботнадзор» (ранее «Ловушка повара»).
Боты — важная составляющая пропаганды, которая позволяет исказить истинную картину общественной реакции на происходящие события, сместить фокус на второстепенные события, сделать менее видимыми активности и мнения людей с точкой зрения, альтернативной официальной. Вот почему так важно изучать это явление и раскрывать его механику людям.
Команда проекта «Ботнадзор» с 2019 года занимается разработкой инструмента, позволяющего бороться с ботами в социальных сетях. Его методология основана на анализе поведения пользователей, в том числе группового. Цель проекта — противодействие размыванию общественного мнения и введению в заблуждение аудитории.
В настоящий момент с инструментом можно работать только ВКонтакте, в крупнейшей российской социальной сети, где сосредоточены десятки тысяч активных ботов, которыми централизованно управляют для продвижения нужной повестки. За время работы в проект смог обнаружить десятки ботоферм, состоящих из сотен и тысяч фейковых профилей.
Команда мониторит активность в популярных пабликах ВКонтакте для пополнения базы известных ботов. Собранные доказательства по каждому конкретному кейсу публичны.
Пользователи соцсети могут проверить любой подозрительный профиль через сайт или телеграм-ботов проекта. Можно установить специальный скрипт в браузер, и тогда в реальном времени в интерфейсе сайта vk.ru будут выделяться комментарии и лайки подтверждённых ботов. Проект видит свою миссию в том, ч тобы раскрыть каждую группу фейковых комментаторов и донести факт манипуляций до как можно большего числа пользователей.
Проект важен для исследователей и журналистов, так как может предоставить информацию о массовых накрутках, а также о повестке, которая сейчас «отрабатывается» Вконтакте — например, это может происходить с целью минимизации общественного резонанса или переключения внимания людей с неугодных власти новостей. Кроме того, удалось собрать уникальный набор данных, который полезен не только для наших современников, но и для будущих историков. Данными «Ботнадзора» пользуются ведущие медиа: Guardian, FT, CNN, Вёрстка и др.
Команда планирует масштабировать работу проекта и на другие платформы, а ещё создать более удобный интерфейс для пользователей, разработать функционал для аналитики, проводить и публиковать аналитические исследования.
Получать доступ к реальной информации
ПроектeasyXrayсначала назывался лаконично — »418». Задачу, которой он занимался на хакатоне Demhack 7, предложили коллеги из ОВД-Инфо.
Проблема состоит в том, что некоммерческие организации и гражданские инициативы испытывают сложности при внедрении и управлении собственными VPN-серверами для своих команд. Доступные варианты, вроде Outline, не обладают устойчивостью к блокировкам. В то время как более сложные решения с маскировкой трафика представляют трудности в настройке. Нужно было проанализировать различные подходы к решению этой проблемы (например, серверную маршрутизацию, клиентские исключения, динамический выбор нужного сервера) и разработать удобный инструмент управления этими настройками.
На хакатоне у разработчиков получился VPN-сервер с интегрированной системой управления и умной маршрутизацией. Проект вошёл в число победителей.
После хакатона команда продолжила работу над проектом. Сейчас это продуманное решение на базе Docker, которое использует защищенный протокол XTLS-Reality и включает в себя контейнеры 3X-UI и Telegram-бота для добавления/удаления пользователей, выдачи ссылок-конфигураций для подключения к VPN, а также для получения инструкций по подключению и настройке клиентов на основных платформах.
easyXray — устойчивое к блокировкам решение. Оно будет удобно пользователям, уже имеющим дело с системами, типа Linux — в целом подойдёт всем, кто знает, как копировать/вставить команду в консоль и некоторые дополнительные вещи, типа создания бота в Telegram, а также имеет VPS или ПК под VPN-сервер.
Отличие от базовой версии 3X-UI состоит в том, что пользователям и администраторам не обязательно взаимодействовать с интерфейсом 3X-UI для подключения к VPN и управления аккаунтами. Решение создано для максимально простой установки на VPS или личный сервер на Linux (одной командой в консоли).
Создавать новое прямо сейчас!
Победители прошлогоднего осеннего хакатона продолжают успешно работать. А мы тем временем собираем команды на новый хакатон!
Demhack 8 пройдёт с 29 по 31 марта 2024 года в формате онлайн и объединит IT-специалистов, активистов и исследователей Интернета. Регистрация участников открыта до 18 марта 2024 года (включительно). Призовой фонд хакатона — 1200 USDT, также заявлены отдельные денежные призы от партнёров. Избранные команды получат возможность пройти программу акселерации в Privacy Accelerator и получить грантовую поддержку.
Главная тема седьмого хакатона — изучение цензуры и новых способов доступа к информации.
Хакатон станет площадкой для объединения усилий специалистов, говорящих на русском языке. Он открывает возможности реализовать проекты в сфере свободного интернета. А также ставит перед собой задачу привлечения внимания людей к актуальным проблемам в области цифровых прав по всему миру.
DemHack 8 — это восьмой хакатон задач в области приватности и свободы интернета. Он проводится каждые шесть месяцев, начиная с 2020 года. Его цель — поддержать дух сообщества и дать специалистам возможность реализовать свои идеи для блага людей по всему миру, защитить права на приватность и доступ к информации.
Регистрируйтесь на сайте до 18 марта 2024 года включительно! И удачи! ;)