Эксперт проанализировал код рекомендательного алгоритма Twitter, опубликованный в открытом доступе на GitHub

3uwzr8zi7oifkvghduvkezx7imu.jpeg

Разработчик и специалист по управлению проектами Аакаш Гупта проанализировал код рекомендательного алгоритма Twitter, опубликованный в открытом доступе на GitHub.
Эксперт выяснил:

1. Лайки, ретвиты и реплаи дают неоднозначный буст (вероятность продвижения) к рейтингу публикации:

— каждый лайк х30 буст;
— каждый ретвит х20;
— каждый реплай х1.

2. Картинки и видео тоже дают буст х2.

u83myj9pgzjqcxptslushitn1h4.jpeg

3. Использование языка, как указано в профиле, помогает. Использование другого языка — нет. Если вы ориентируетесь на англоязычную аудиторию, то и язык профиля должен быть английским.

4. Ссылки вредят продвижению. Внешние ссылки помечаются как спам. То есть, если хотите что-то продвинуть, то лучше писать твит текстом, а в реплае к нему постить ссылку.

rjsvd9-j1mr6fqrv_ohm9xb4roo.jpeg

5. Каждый игнор, блокировка другим пользователем, анфоловинг, спам репорт и прочие жалобы снижают вероятность, что твит попадёт в рекомендации.

sxkr1znunrrlle5pc9trdttt5d4.jpeg

6. Покупная синяя галочка верификации значительно добавляет буст.

1s721iqcyrszuj2lbqm-9ogfyyu.jpeg

7. Любая дезинформация снижает буст. Классификация дезинформации (фейка) происходит отдельно на платформе.

8. Все профили группируются в «группы похожих». Вероятность, что конкретный твит будет показан вам гораздо больше, если твит написан кем-то из вашей «группы».

xacb5ddorapdeopxs7_mnewh3a4.jpeg

9. Публикации за пределами обычных тем пользователя вредят бусту. Если пользователь писал про IT, но потом начал публиковать твиты про свои блюда на кухне, то это уменьшает шанс буста.

kfsqod5ugyfyqaakfexq0-53iuy.jpeg

10. Придумывать слова и писать с ошибками — плохо. Эти действия снижают вероятность продвижения твита.

suhemn7wbwivhk0evjr1uw25mqw.jpeg

11. Основные наборы данных для ранжирования в Twitter:

— вовлечённость (engagement) — лайки, ретвиты, реплаи;
— подписчики (Followers) — подписка/отписка, репорты;
— пользовательские данные (user data) — сколько фолловеров и граф подписчиков.

uerrpq3pi3b1wyxxzgyxc0pk6k4.jpeg

31 марта 2023 года Twitter опубликовала на GitHub часть своего исходного кода, включая код рекомендательного алгоритма. Компания выложила в открытый доступ два репозитория — main repo и ml repo.
xdspbjssr-byv7fp-tbkeugwyx4.png

Инструкция по работе с кодом рекомендательного алгоритма от инженеров Twitter. Там рассказывается о конвейере рекомендаций, который, как утверждается, выполняется примерно пять миллиардов раз в день.

«Мы пытаемся извлечь 1500 лучших твитов из пула сотен миллионов… Сегодня хронология ленты «Для вас» состоит в среднем из 50% (твитов от пользователей, на которых вы не подписаны) и 50% (твитов от пользователей, на которых вы подписаны). Хотя это может варьироваться от пользователя к пользователю», — уточнили в Twitter.

«Рейтинг твитов достигается с помощью нейронной сети с ~48 млн параметров, которая постоянно обучается взаимодействию с твитами, чтобы оптимизировать положительное взаимодействие, например, лайки, ретвиты и ответы», — рассказали инженеры соцсети.

Twitter попросила сообщество разработчиков изучить код алгоритма, создавать свои issue и pull request для улучшения и доработки этого проекта.

Разработчики пояснили, что текущий релиз алгоритма не включает в себя код, который приводит в действие рекомендации соцсети по рекламе. В открытых репозиториях также нет информации об обучающих данных для рекомендательного алгоритма.

Сторонние разработчики уже нашли в алгоритме несколько первоапрельских вставок.

vrucs4lhq0lh0cgj76hlvx8ftko.png

© Habrahabr.ru