СТОП фейковым отзывам и рейтингам. Применение машинного обучения в борьбе с фродом рейтинга и отзывов товаров в ритейле

5d682fd04e3f040546a8edb06836a783.png

Приветствуем читателей Хабра! Мы, команда дата-сайентистов и дата-аналитиков компании «ДатаЛаб»* (ГК «Автомакон»), продолжаем рассказывать о насущных проблемах ML-разработки, делимся подходами к их решению и рассуждаем на актуальные темы.

Автор статьи: Андрей Шелюх, руководитель проектов направления «ДатаЛаб».

С растущим разнообразием товаров и услуг все больше потребителей обращаются к онлайн-отзывам и рейтингам, чтобы принять решение о покупке. При этом растет и риск столкнуться с фродом отзывов и искусственным накручиванием рейтингов, что может серьезно исказить представление потребителей о продуктах и услугах. За красочными обещаниями и блестящими оценками могут скрываться поддельные отзывы, созданные для манипуляции восприятием потребителей. Все это является серьезным вызовом для потребителей, бизнеса и доверия к онлайн-платформам.

В последние годы технологии машинного обучения (ML) стали широко использоваться для выявления фрода в отзывах и рейтингах, благодаря своей способности анализировать большие объемы данных и выявлять неестественные паттерны. В данной статье мы рассмотрим технические методы применения ML для борьбы с фродом в рейтингах и отзывах товаров в ритейле.

Применение технологий машинного обучения в борьбе с фродом рейтинга и отзывов товаров в ритейле представляет собой эффективный подход, который позволяет выявлять неестественные паттерны и аномалии в данных. Системы ML могут быть использованы для обучения моделей выявления фрода, а также для анализа текстовых отзывов с использованием алгоритмов обработки естественного языка. 

Сбор и подготовка данных

Прежде чем приступить к применению ML, необходимо собрать и подготовить данные. Это могут быть текстовые отзывы и оценки, выставленные товару после покупки, история покупок, данные о покупателе, полученные при регистрации бонусной карты. Важно проверить есть ли другие покупатели, использующие этот же телефон, а также провалидировать почтовый адрес. Также можно посмотреть на агрегированные данные по поставщикам товаров. После сбора данных очищаем их от дубликатов, выбросов и других аномалий, чтобы обеспечить качественное обучение моделей ML.

Выявление аномалий и неестественных паттернов

С помощью моделей машинного обучения мы можем выявить аномалии и неестественные паттерны в данных, которые могут указывать на фрод. Например, алгоритмы кластеризации помогут выявлять группы пользователей или отзывов, которые сильно отличаются от общей массы поведения. Алгоритмы обнаружения аномалий помогут выявить отзывы или оценки, которые сильно выбиваются из общего распределения.

Для выявления аномалий в данных можно использовать разные методы, такие как метод k-ближайших соседей (k-NN), Isolation Forest, а также модели глубокого обучения, такие как автоэнкодеры (автокодировщики), свёрточные нейронные сети и другие. Для более точного определения фродовых покупателей все эти методы можно использовать в ансамбле. Разные модели отмечают разные отзывы в качестве аномальных или подозрительных, что уменьшает вероятность ошибки, когда все эти методы сходятся во мнении насчёт какого-то из отзывов.

Обучение моделей для выявления фрода

Выявление фрода в рейтингах и отзывах можно производить различными моделями ML, такими как классификация, кластеризация, обнаружение аномалий и т.д. Например, модели классификации могут помочь определить, является ли отзыв подлинным или фальшивым, основываясь на текстовых признаках. Модели кластеризации могут помочь выявить группы пользователей с необычным поведением. Для обучения моделей сгенерированные из данных признаки подаются в нормализованном виде. Также можно вместо нормализации формировать эмбеддинги данных. Для данных упорядоченных по времени можно использовать модель Pytorch Lifestream, которая позволит получить представление изменяющихся во времени рейтингов для пар товар-поставщик или для оценок и отзывов индивидуальных пользователей.

Одним из способов для определения аномалий в данных является автоэнкодер. Объекты, которые более всего выбиваются из общего распределения, после реконструкции автоэнкодером дадут наибольшую ошибку в сравнении с оригиналом. С помощью модели Pytorch Lifestream мы сформировали эмбеддинги и на полученном представлении данных применили различные методы для выявления фрода (для иллюстрации эмбеддинги были сжаты до размерности 2). Предлагаем посмотреть как сработал метод K-means и метод Isolation Forest.

K-means

K-meansIsolation Forest

Как видите, модели при оценке фрода «обращают внимание» на разные факторы, поэтому для повышения точности имеет смысл использовать методы в ансамбле.

Ансамбль k-means + Isolation Forest

Ансамбль k-means + Isolation Forest

Другой метод, которым мы воспользовались, — оценка ошибки реконструкции автоэнкодера.

Автоэнкодер

Автоэнкодер

Все эти методы в комбинации с другими сопутствующими факторами помогают принять финальное решение о том, является ли конкретный отзыв фродовым или нет.

Использование алгоритмов обработки естественного языка (NLP)

Для анализа текстовых отзывов можно применять алгоритмы NLP, которые позволяют извлекать смысловую информацию из текста. Это позволит выявить фальшивые отзывы, использующие одни и те же фразы или шаблоны. Подробнее рассмотрим это в отдельной статье. 

Обновление моделей и системы

ML-модели должны постоянно обновляться и улучшаться, чтобы адаптироваться к новым видам фрода. Это может быть осуществлено с помощью постоянного мониторинга результатов моделей и внедрения новых данных для обучения.

Антифрод в компании

Система антифрода играет важную роль в защите компании от недобросовестных действий покупателей и повышении доверия как со стороны клиентов, так и поставщиков. Ее внедрение может принести значительные экономические выгоды, помогая компании экономить сотни миллионов в год. При этом важно помнить, что цена доверия к бренду может оказаться намного выше. Для выявления фрода не всегда нужны сложные инструменты. Часто достаточно иметь актуальные данные и понимание, что именно необходимо найти, поэтому хорошая система поддержки data-инженеров — ключевой фактор при разработке системы антифрода. 

Одним из сложных моментов может стать хранение исторических личных данных и обеспечение их безопасности. При запросе пользователя об удалении информации о нем, компания обязана выполнить это требование. В связи с тем, что важно сохранять как можно больше информации для дальнейшего использования в анализе, следует использовать методы защиты, такие как хеширование личных данных пользователей.

В нашей системе антифрода используются различные наборы признаков для выявления разных видов мошенничества, таких как манипуляции с рейтингами, возвраты товаров, чрезмерное использование бонусов и другие. Эти признаки могут появляться как однократно, так и несколько раз в течение дня. Важно отметить, что срабатывание одного признака не всегда означает выявление фрода. Иногда эффективнее наблюдать за действиями пользователя и анализировать совокупность сработавших признаков или частоту их срабатывания. Поэтому каждому признаку присваивается определенный вес, и устанавливается порог аккумулированного веса, при достижении которого ситуация считается подозрительной и переходит в статус фродовой.

Признаки фрода необходимо постоянно адаптировать и дорабатывать под новые условия. Некоторые из них могут перестать работать из-за прекращения использования мошеннических схем, в то время как другие могут требовать постоянного внимания и доработки. Гибкость и постоянная адаптация системы антифрода являются ключевыми факторами ее эффективности и успешной борьбы с мошенничеством.

Habrahabr.ru прочитано 3064 раза