Применение нейронных сетей для анализа графов со свойствами гомофилии и гетерофилии11.07.2024 14:15

Авторы: Пойкалайнен А.М., Кочкаров Р.А.

Введение

Графовые нейронные сети (GNN) стали важным инструментом для анализа структурированных данных в таких областях, как рекомендательные системы, биоинформатика и обнаружение аномалий. Традиционные GNN предполагают гомофилию, что означает, что связанные узлы имеют схожие характеристики и метки. Однако это ограничивает их применение в условиях гетерофилии, где связанные узлы различны (рис. 1). Мы анализируем метод AMUD‑ADPA [1], который позволяет повысить производительность GNN в условиях гомофилии и гетерофилии, используя данные о действиях пользователей на платформе массовых открытых онлайн‑курсов (MOOC) [2].

рис.1 Гетерофилия и гомофилия

рис. 1 Гетерофилия и гомофилия

Модель AMUD-ADPA

Метод AMUD‑ADPA состоит из двух компонентов:

1. Адаптивное моделирование неориентированных и ориентированных графов (AMUD)

2. Адаптивное агрегирование ориентированных графов (ADPA)

AMUD фокусируется на количественной оценке взаимосвязи между узлами и топологией графа, что позволяет адаптивно решать, рассматривать ли ребра как ориентированные или неориентированные.

Адаптивное моделирование неориентированных и ориентированных графов (AMUD) (рис. 2)

AMUD представляет собой метод, который анализирует топологию графа и адаптивно решает, какие связи между узлами следует рассматривать как ориентированные, а какие — как неориентированные. Этот подход основан на следующих ключевых шагах:

— Анализ взаимосвязей: оценивается структура графа и характеристики узлов для определения типа связей (гомофильные или гетерофильные).

— Адаптивное решение: В зависимости от выявленных характеристик, связи между узлами могут быть адаптированы к их типу, что улучшает точность моделей при классификации узлов.

Рис.2 Процесс AMUD

Рис. 2 Процесс AMUD

Адаптивное агрегирование ориентированных графов (ADPA) (рис. 3)

ADPA использует иерархические механизмы внимания для агрегирования информации из графа, адаптируясь к его структуре и характеру ребер. Основные шаги процесса ADPA включают:

— Механизмы внимания: ADPA применяет механизмы внимания для определения важности различных ребер и узлов в графе, что позволяет более точно учитывать особенности каждого узла.

— Иерархическое агрегирование: информация агрегируется на различных уровнях иерархии, что обеспечивает более глубокое понимание структуры графа и улучшает качество классификации.

Рис.3 Процесс ADPA

Рис. 3 Процесс ADPA

Фреймворк AMUD‑ADPA особенно полезен в таких приложениях, как:

— Рекомендательные системы: Повышение точности рекомендаций за счет учета сложных взаимодействий между пользователем и элементом.

— Обнаружение аномалий: Выявление необычных закономерностей в динамических сетях, напри‑мер, обнаружение мошенничества в финансовых операциях.

— Анализ социальных сетей: Понимание структуры и динамики социальных взаимодействий, особенно в сетях с разнообразным поведением пользователей.

Экспериментальная установка и результаты

Для оценки метода AMUD‑ADPA использовались данные MOOC user action, представляющие действия пользователей на платформе онлайн‑курсов. Узлы представляют пользователей и мероприятия курса (цели), а ребра — действия пользователей над целями. Действия имеют атрибуты и временные метки. Каждое действие имеет бинарную метку, указывающую, покинул ли пользователь курс после этого действия. Характеристики узлов включают показатели вовлеченности пользователей и характеристики курсовой деятельности.

Были проведены эксперименты с полунаблюдаемыми задачами классификации узлов, сравнивались базовые модели GNN:

— GCN (Graph Convolutional Network) [3]

— GAT (Graph Attention Network) [4]

— GraphSAGE [5]

Результаты показали, что AMUD‑ADPA превосходит традиционные модели по точности, precision, recall и F1-score (табл. 1, рис. 4)).

Модель	Accuracy, %	Precision, %	Recall, %	F1-score, %
GCN	81.89	80.3	80.01	80.15
GAT	83.98	83.56	83.1	83.33
GraphSAGE	82.15	81.91	81.2	81.55
AMUD-ADPA	86.35	85.98	84.4	85.18

Табл. 1 Основные показатели оценки моделей

Рис.4 а) Сравнение моделей б) Исследование абляции в) Масштабируемость

Рис. 4 а) Сравнение моделей б) Исследование абляции в) Масштабируемость

Заключение

Метод AMUD‑ADPA, разработанный для улучшения производительности графовых нейронных сетей в условиях гомофилии и гетерофилии, показал свою эффективность на наборе данных MOOC, превзойдя показатели базовых моделей GNN в среднем на 3,6%. Применение метода AMUD‑ADPA может привести к созданию более точных и адаптивных моделей для обработки сложных графовых структур. Этот метод открывает новые возможности для анализа данных в таких областях, как рекомендательные системы, где традиционные методы часто оказываются недостаточными. В будущем планируется разработка рекомендательной системы для студентов, за основу будет взят проанализированный метод AMUD‑ADPA, обученный на новом датасете о взаимодействиях пользователей с платформой онлайн образования, который имеет более сложную структуру, чем датасет MOOC.

Список литературы

1. Sun, H., Li, X., Wu, Z., Su, D., Li, R.-H., & Wang, G. (2024). Breaking the Entanglement of Homophily and Heterophily in Semi-supervised Node Classification. arXiv preprint arXiv:2312.04111. DOI: https://doi.org/10.48550/arXiv. 2312.04111

2. URL: https://snap.stanford.edu/data/act-mooc.html. (дата обращения: 04.06.2024)

3. Kipf, T. N., & Welling, M. (2017). Semi-Supervised Classification with Graph Convolutional Networks. arXiv preprint arXiv:1609.02907. DOI: https://doi.org/10.48550/arXiv. 1609.02907

4. Velickovic, P., Cucurull, G., Casanova, A., Romero, A., Lio, P., & Bengio, Y. (2018). Graph Attention Networks. arXiv preprint arXiv:1710.10903. DOI: https://doi.org/10.48550/arXiv. 1710.10903

5. Hamilton, W., Ying, R., & Leskovec, J. (2017). Inductive Representation Learning on Large Graphs. Advances in Neural Information Processing Systems. DOI: https://doi.org/10.48550/arXiv. 1706.02216