Применение нейронных сетей для анализа графов со свойствами гомофилии и гетерофилии
Авторы: Пойкалайнен А.М., Кочкаров Р.А.
Введение
Графовые нейронные сети (GNN) стали важным инструментом для анализа структурированных данных в таких областях, как рекомендательные системы, биоинформатика и обнаружение аномалий. Традиционные GNN предполагают гомофилию, что означает, что связанные узлы имеют схожие характеристики и метки. Однако это ограничивает их применение в условиях гетерофилии, где связанные узлы различны (рис. 1). Мы анализируем метод AMUD‑ADPA [1], который позволяет повысить производительность GNN в условиях гомофилии и гетерофилии, используя данные о действиях пользователей на платформе массовых открытых онлайн‑курсов (MOOC) [2].
рис. 1 Гетерофилия и гомофилия
Модель AMUD-ADPA
Метод AMUD‑ADPA состоит из двух компонентов:
1. Адаптивное моделирование неориентированных и ориентированных графов (AMUD)
2. Адаптивное агрегирование ориентированных графов (ADPA)
AMUD фокусируется на количественной оценке взаимосвязи между узлами и топологией графа, что позволяет адаптивно решать, рассматривать ли ребра как ориентированные или неориентированные.
Адаптивное моделирование неориентированных и ориентированных графов (AMUD) (рис. 2)
AMUD представляет собой метод, который анализирует топологию графа и адаптивно решает, какие связи между узлами следует рассматривать как ориентированные, а какие — как неориентированные. Этот подход основан на следующих ключевых шагах:
— Анализ взаимосвязей: оценивается структура графа и характеристики узлов для определения типа связей (гомофильные или гетерофильные).
— Адаптивное решение: В зависимости от выявленных характеристик, связи между узлами могут быть адаптированы к их типу, что улучшает точность моделей при классификации узлов.
Рис. 2 Процесс AMUD
Адаптивное агрегирование ориентированных графов (ADPA) (рис. 3)
ADPA использует иерархические механизмы внимания для агрегирования информации из графа, адаптируясь к его структуре и характеру ребер. Основные шаги процесса ADPA включают:
— Механизмы внимания: ADPA применяет механизмы внимания для определения важности различных ребер и узлов в графе, что позволяет более точно учитывать особенности каждого узла.
— Иерархическое агрегирование: информация агрегируется на различных уровнях иерархии, что обеспечивает более глубокое понимание структуры графа и улучшает качество классификации.
Рис. 3 Процесс ADPA
Фреймворк AMUD‑ADPA особенно полезен в таких приложениях, как:
— Рекомендательные системы: Повышение точности рекомендаций за счет учета сложных взаимодействий между пользователем и элементом.
— Обнаружение аномалий: Выявление необычных закономерностей в динамических сетях, напри‑мер, обнаружение мошенничества в финансовых операциях.
— Анализ социальных сетей: Понимание структуры и динамики социальных взаимодействий, особенно в сетях с разнообразным поведением пользователей.
Экспериментальная установка и результаты
Для оценки метода AMUD‑ADPA использовались данные MOOC user action, представляющие действия пользователей на платформе онлайн‑курсов. Узлы представляют пользователей и мероприятия курса (цели), а ребра — действия пользователей над целями. Действия имеют атрибуты и временные метки. Каждое действие имеет бинарную метку, указывающую, покинул ли пользователь курс после этого действия. Характеристики узлов включают показатели вовлеченности пользователей и характеристики курсовой деятельности.
Были проведены эксперименты с полунаблюдаемыми задачами классификации узлов, сравнивались базовые модели GNN:
— GCN (Graph Convolutional Network) [3]
— GAT (Graph Attention Network) [4]
— GraphSAGE [5]
Результаты показали, что AMUD‑ADPA превосходит традиционные модели по точности, precision, recall и F1-score (табл. 1, рис. 4)).
Модель | Accuracy, % | Precision, % | Recall, % | F1-score, % |
GCN | 81.89 | 80.3 | 80.01 | 80.15 |
GAT | 83.98 | 83.56 | 83.1 | 83.33 |
GraphSAGE | 82.15 | 81.91 | 81.2 | 81.55 |
AMUD-ADPA | 86.35 | 85.98 | 84.4 | 85.18 |
Табл. 1 Основные показатели оценки моделей
Рис. 4 а) Сравнение моделей б) Исследование абляции в) Масштабируемость
Заключение
Метод AMUD‑ADPA, разработанный для улучшения производительности графовых нейронных сетей в условиях гомофилии и гетерофилии, показал свою эффективность на наборе данных MOOC, превзойдя показатели базовых моделей GNN в среднем на 3,6%. Применение метода AMUD‑ADPA может привести к созданию более точных и адаптивных моделей для обработки сложных графовых структур. Этот метод открывает новые возможности для анализа данных в таких областях, как рекомендательные системы, где традиционные методы часто оказываются недостаточными. В будущем планируется разработка рекомендательной системы для студентов, за основу будет взят проанализированный метод AMUD‑ADPA, обученный на новом датасете о взаимодействиях пользователей с платформой онлайн образования, который имеет более сложную структуру, чем датасет MOOC.
Список литературы
1. Sun, H., Li, X., Wu, Z., Su, D., Li, R.-H., & Wang, G. (2024). Breaking the Entanglement of Homophily and Heterophily in Semi-supervised Node Classification. arXiv preprint arXiv:2312.04111. DOI: https://doi.org/10.48550/arXiv. 2312.04111
2. URL: https://snap.stanford.edu/data/act-mooc.html. (дата обращения: 04.06.2024)
3. Kipf, T. N., & Welling, M. (2017). Semi-Supervised Classification with Graph Convolutional Networks. arXiv preprint arXiv:1609.02907. DOI: https://doi.org/10.48550/arXiv. 1609.02907
4. Velickovic, P., Cucurull, G., Casanova, A., Romero, A., Lio, P., & Bengio, Y. (2018). Graph Attention Networks. arXiv preprint arXiv:1710.10903. DOI: https://doi.org/10.48550/arXiv. 1710.10903
5. Hamilton, W., Ying, R., & Leskovec, J. (2017). Inductive Representation Learning on Large Graphs. Advances in Neural Information Processing Systems. DOI: https://doi.org/10.48550/arXiv. 1706.02216