Phoenix: разбираемся со сбоями ML системы прямо в вашем ноутбуке12.12.2023 11:30

Добрый день! Меня зовут Роман, на момент написания статьи я являюсь студентом 4-курса НГУ. Я изучаю машинное обучение уже почти три года, а сейчас в своих исследованиях я занимаюсь большими языковыми моделями. В этой статье хочу рассказать вам об одной полезной библиотеке.

Что это за птица?

Phoenix — это библиотека с открытым исходным кодом, направленная на ML Observability, которую выпустили разработчики из Arize AI — компании, известной большим опытом в вопросах наблюдаемости ML систем.

Нам до сих пор не до конца понятны некоторые возможности больших языковых моделей.
Основная цель Phoenix — помочь специалистам по данным понять и оценить сложные LLM-приложения, чтобы они могли узнать больше о внутренней работе системы.

Чтобы иметь возможность понимать что-то о системе, приложения с большими языковыми моделями должны быть оснащены необходимыми инструментами и оставлять данные о событиях, произошедших в процессе работы. Более того, когда данные собраны, их необходимо оценить на предмет критических ошибок, таких как галлюцинации и токсичность.

ML Observability или наблюдаемость — термин, который стоит в основе библиотеки.

По утверждению авторов библиотеки, ML система наблюдаема, если вы можете:

обнаруживать проблемы в продакшене, например, отсутствие признака в пайплайне, дрейф данных или резкое ухудшение производительности;
быстро идентифицировать корень проблемы.

Говоря терминами — ML Observability = Monitoring + Root-Cause Analysis

Наблюдаемость — это инструментирование вашей системы так, чтобы гарантировать сбор и анализ достаточного объема данных о ее работе.
В ML наблюдаемость включает интерпретируемость, помогающую нам понять, как работает ML-модель, кроме того, наблюдаемость также помогает разобраться с тем, как работает вся система, включающая ML-модель. Например, когда в течение последнего часа производительность модели ухудшается, способность выявить и интерпретировать признак, который вносит наибольший вклад в неправильные прогнозы за последний час, поможет выяснить, что пошло не так и как это исправить
Чип Хьюен, «Проектирование систем машинного обучения»

Доступный функционал

После простой установки —pip install arize-phoenix,
Phoenix предоставляет MLOps и LLMOps инсайты с молниеносной скоростью и возможностью наблюдения без трудной настройки.

Phoenix UI доступен по ссылке, которую выдает методlaunch_app
Или прямо в вашем ноутбуке с помощью вызова метода active_session().view()

Пользователю предоставляются определенные сценарии для внедрения мониторинга и наблюдаемости в системы моделей и LLM-приложений:

LLM Traces. Phoenix предоставляет фреймворк, который позволяет иерархически отслеживать процесс выполнения вашего приложения с LLM на основе LangChain и LlamaIndex, позволяя понять больше о внутренней структуре и устранить проблемы, которые тяжело обнаружить в связи с широкой областью применения: поиск и припоминание через векторные хранилища, генерация эмбеддингов, использование внешних инструментов и т.д.
Цепочка Retrieval-Augmented Generation по документам в LangChain приложении
Phoenix использует стандарт OpenInference для того, чтобы отслеживать, экспортировать и собирать информацию о приложении. О данном формате можете почитать здесь — OpenInference Specification.
Туториалы от авторов библиотеки для ознакомления в Colab: Tracing with LlamaIndex, Tracing with LangChain.
LLM Evals. Используйте бенчмарки на основе LLM для трудно выявляемых проблем, вроде галлюцинаций и релевантности RAG.
Подход Phoenix к оценкам c помощью LLM примечателен по следующим причинам:
— cодержит заранее проверенные шаблоны и удобные функции для типичных задач;
— выдерживает строгость в тестировании комбинаций моделей и шаблонов;
— разработан для максимально быстрой работы с батчами;
— включает в себя набор эталонных датасетов и тесты для каждого метода оценки.
На данный момент требует установки arize-phoenix[experimental]Туториал для ознакомления в Colab — Оценка релевантности классификации на основе RAG.
Анализ эмбеддингов. Исследуйте облака точек эмбеддингов, размерность которых уменьшается с помощью UMAP и выявляйте кластеры с высоким дрейфом и снижением качества.
В верхней части можно увидеть измерение дрейфа в продакшене со временем
Анализ эмбеддингов критически важен для понимания поведения приложения.
Phoenix предоставляет фреймворк для A/B тестов, чтобы понять, как ваши эмбеддинги меняются со временем и в различных версиях вашей модели, например, prod vs train, и помочь в активном обучении.
Раскрашивайте облака точек по размерам, дрейфу и производительности вашей модели, чтобы выявить проблемные выборки
Данные разбиваются на кластеры с помощью встроенного HDBSCAN.
Кластеры можно экспортировать в parquet для дальнейшего анализа и файн-тюнинга
Туториал для ознакомления в Colab — Aктивное обучение в задаче классификации изображений при дрейфе данных.
Structured Data Analysis. Phoenix предоставляет набор инструментов для структурированных данных: A/B-анализ, анализ временного дрейфа и многое другое.
Анализ дрейфа признаков
Туториал для ознакомления в Colab — Обнаружение мошенничества на табличных эмбеддингах.
RAG-анализ. Визуализируйте процесс поиска и припоминания вашего приложения, чтобы улучшить качество генерации с расширенным поиском.

Как говорил Платон,

Как говорил Платон, «знание подобно припоминанию»

Поисковая расширенная генерация является важнейшим компонентом многих приложений LLM, поскольку она позволяет расширить возможности модели, включив в неё знания о дополнительных данных. Обычно для хранения фрагментов документов используется векторное хранилище эмбеддингов, которые «припоминаются» на инференсе, добавляясь к контексту

Phoenix позволяет загружать корпус вашей базы знаний вместе с выводами вашего LLM-приложения, чтобы помочь устранить неполадки, которые трудно обнаружить при использовании этого алгоритма.

Туториал для ознакомления в Colab — Оценка и улучшение RAG в LlamaIndex приложении.

Аналоги

Можно обратить внимание на платформу Arize, которую разработчики рекомендуют использовать в продакшене вместо Phoenix. Она обладает расширенным функционалом для промышленных решений.

Arize доступен в облаке или on-prem — на ваших серверах, поддерживает работу сразу с несколькими моделями, предлагает возможность делиться сведениями и дэшбордами в команде, но имеет серьезные ограничения в бесплатной версии. Если у вас большая команда или крупные проекты, то вам не хватит и pro версии с ограничением на 2 модели по 200 признаков. Кроме того, могут быть проблемы с подпиской, если вы из России.

arize — больше интеграций, больше возможностей от тех же разработчиков, но уже не open source

Также можно обратить взгляд на Aporia. У этой платформы есть отслеживание токенов и запросов с расчётом затрат для удобного планирования бюджета, инструменты, направленные на борьбу с галлюцинациями LLM и встраивание модерации в чат. Для получения демо необходимо оставлять заявку от компании. Также могут быть проблемы у российских компаний.

Широкий функционал под разные модели и их количество

Если вам не сильно важны предположения о взаимосвязи между внутренним состоянием системы и выходными данными, то самое подходящее для вас решение с качественным мониторингом — это open-source платформа Evidentely AI

Evidentely AI фокусируется на трёх аспектах:

Тесты по батчам
Отчеты с интерактивной визуализацией
Дэшборд с мониторингом

Evidentely AI — российский стартап, основанный в 2020 году Еленой Самуйловой и Эмели Драль, которые ранее работали в Yandex Data Factory

Evidentely стремится к развитию в области наблюдаемости и активно работает над функционалом, связанным с LLM.

Заключение

Phoenix предназначен для быстрой итеративной разработки моделей и их подготовки к эксплуатации

Основные преймущества Phoenix:

Библиотека имеет полностью открытый исходный код, построена на открытых стандартах и работает на условиях конфиденциальности вашего ноутбука
Приложение запускается прямо в вашем локальном Jupyter сервере или в Colab
Богатый инструментарий для оценки и обнаружения аномалий приложений с большими языковыми моделями
Нахождение проблемных кластеров и их последующий экспорт для удобного файн-тюна
Указание на данные, которые необходимо изучить для идентификации корня проблемы

Дополнительные материалы

Статья была подготовлена в рамках курса «ML System Design» от Дмитрия Колодезева на платформе Open Data Science.
Чтобы понимать больше про сбои ML-систем, я рекомендую вам занятие — «Диагностика ошибок и отказов ML-систем»

Автор отличной книги по проектированию ML систем — Чип Хьюен — рекомендует в своем MLOps гайде доклад от Джона Уиллса — Instrumentation, Observability & Monitoring of Machine Learning Models

В самой книге вас может заинтересовать 8 глава

В самой книге вас может заинтересовать 8 глава «Сдвиги в распределении данных и мониторинг», на английском можете почитать тут

У Arize есть качественный бесплатный курс по Machine Learning Observability

Также, можете посмотреть курс на ту же тему от Evidentely AI

А для работы с Phoenix советую обратить внимание на:

документацию;
плейлист по библиотеке на канале Arize;
туториалы из официального репозитория;
сообщество в Slack.
Спасибо, что прочитали! Делитесь своими впечатлениями и опытом использования ML Observability платформ и инструментов в комментариях.