Языковой процессор LPU, GenAI в FinOps и инструменты для анализа данных

iystte4ls0sbhcgz6y5jwsqz6zo.png


Привет, Хабр! Возвращаюсь с новым выпуском полезных материалов, который поможет разобраться в ML, AI и дата-аналитике. Сегодня в программе — состояние MLOps в 2024 году, возможности дата-контрактов, оценка качества данных DQ Score и Python-библиотека для работы с SQL. Подробнее — под катом. Еще больше полезных материалов — в Telegram-сообществе «MLечный путь».

Используйте навигацию, чтобы выбрать интересующий блок

→ Теория
→ Практика
→ Инструменты
→ Мнения
→ Инфраструктура
→ Обзоры рынка
→ Видео

Теория


From Database to AI: The Evolution of Data Platforms


Рано или поздно каждая компания задумывается, как оценить платформу на актуальность и соответствие задачам. Тогда и появляются разные модели зрелости, одна из них — шестиступенчатая. С ее помощью можно оценить уровень развития аналитических решений — от нуля до пяти.

jg_pqgvvvgyxcnpkgh1ryothmxe.png


Пятый уровень модели зрелости аналитических решений. Источник.

Из интересного: прикладное использование ML и AI начинается только на предпоследнем уровне, а пятый полностью завязан на применении GenAI.

What is the difference between LLMOps and MLOps?


Полезный материал о различиях между LLM- и MLOps. Если не хотите читать полную версию, можно ознакомиться с основными тезисами на картинке. Все коротко и по делу.

qckc1t5yopm_lslu5kfsjsx1qzu.png


Сравнительная таблица LLM- и MLOps. Источник.

500 ресурсов для аналитиков


Ребята из NewHR подготовили таблицу с источниками по A/B-тестированию, BI, AI, маркетингу, менеджменту и другим категориям. Ознакомиться с самыми популярными можно в подборке от авторов. Пригодится, если хотите быть в курсе аналитического рынка и не тратить время на поиски интересного материала.

Практика


Deploying Deep Learning Models at Scale — Triton Inference Server 0 to 100


В статье автор рассказывает о принципах работы Triton и делится конфигурационными файлами. Все это — на примере запуска сервиса с ML-моделью для ресайза изображений. Возможно, для кого-то она станет точкой входа в мир Triton. К тому же подобные материалы редко увидишь.

Как проводят оценку качества данных в Airbnb


Перевод статьи о контроле качества в Airbnb и их системе оценки DQ Score. Идея внутренней сертификации данных в едином формате перспективная — еще не видел подобного у других компаний. Жаль, что решение закрытое. Хотя это не мешает использовать инструмент как источник вдохновения.

gwl2ezco46nwrdbv1luf6tq7uhi.png


Шкала качества данных и весовые коэффициенты.Источник.

Как мы не выбрали Airbyte, или почему собирать данные лучше по старинке


Коллеги из BI-отдела Selectel поделились своим опытом использования Airbyte — инструмента для сбора данных. Они могли и дальше применять его к своим боевым задачам, если бы не одно «но»… Не буду спойлерить, лучше почитайте самостоятельно.
Для меня это подтверждение того факта, что даже зрелое и популярное open source-решение может не подойти для решения некоторых задач. Но таких инструментов много, всегда есть из чего выбрать.

4l9hz90jtnb0pj-kd1_bljhcvxu.png


Инструменты


Power of Data Contracts in Simplifying Data Complexity and tools to build data Contracts


Интересный материал о дата-контрактах. Если коротко, это документ, который определяет параметры использования для обмена данными между поставщиками данных и их потребителями. Реализовать его можно с помощью нескольких инструментов — подробнее о каждом рассказывает автор.

  • PayPal«s YAML Specification,
  • Data Mesh Manager,
  • Data Contract Studio,
  • Data Contract CLI,
  • Great Expectations,
  • Gable.ai.


rzfhg3j8qpbutfpce6uaz3f-mva.png


Механизм работы дата-контрактов. Источник.

Multi-engine data stack — v0


Еще один увлекательный термин из мира «стеков для работы с данными» — multi-engine. Пригодится, если хотите сэкономить средства с помощью использования разных движков для хранения и обработки данных.

  • S3 и файлы в формате Parquet.
  • DuckDB.
  • Snowflake.
  • Dbt.
  • Dagster.


Дополнительно есть несколько сценариев работы multi-engine. Поможет параллельно использовать инструменты в одной экосистеме.

r0b_i4n-2jvjnbjgjnztrkntetm.png


Используемые стеки для работы с данными в одной экосистеме. Источник.

Data Catalog Tools List & Evolution


Сравнение десяти дата-каталогов от создателей Castor. Компания использовала четырехуровневую модель зрелости и традиционный Landscape. Рейтинг по понятным причинам получился предвзятым, но с критериями оценки и продуктами ознакомиться это не мешает.

iehlaqepevjqsqmebpnlvq8wuto.png


Landscape дата-каталогов. Источник.

SQL Assistant: Text-to-SQL Application in Streamlit


Ребята поделились Python-библиотекой Vanna.ai, которая умеет генерировать SQL и графики на основании полученных данных. Конечно, после определенных манипуляций с LLM. Использовать ее можно прямо в Jupyter, без сторонних инструментов.

4hxcamgkthy74l-voe8_vswhp9c.png


Архитектура Vanna.ai. Источник.

Выглядит амбициозно. Не нужно знать SQL: просто пишете запрос и получаете данные. Вот только насчет качества такого решения я не уверен.

Мнения


Data Management in 2024


Автор размышляет о влиянии открытых форматов хранения данных (Apache Iceberg, Apache Hudi, Delta Lake) на появление дата-платформ «новой волны». Похожие решения можно посмотреть на StarTree и Dremio, но до общепринятых и повсеместно используемых им еще далековато.

It’s time to build


Кажется, я не перестану делиться материалами автора Benn Stansil. И это несмотря на то, что он пишет сложно, душно и с неинформативными выводами, которые можно пропустить.
В тексте автор поднимает сразу несколько злободневных тем:

  • популярность новых аналитических инструментов.
  • смещение фокуса в общественном пространстве на AI/ML,
  • подход к разработке новых дата-стартапов.


Если у вас хороший уровень английского — рекомендую к прочтению.

What Will 2024 Bring to Advance Analytics?


CEO рынка аналитических решений рассуждают о векторах развития аналитики в 2024 году. Главный тренд, я полагаю, угадает каждый. Ведь это обработка естественного языка и LLM. В общем, «English will replace SQL» и все в таком духе.

Инфраструктура


Delivering Efficient, High-Performance AI Clouds with NVIDIA DOCA 2.5


Исходя из опыта, один из самых сложных компонентов высокопроизводительного облака — сеть между вычислительными нодами. Если запустить регион с пропускной способностью 5 Гбит, то добавить еще 10 Гбит просто так не получится. Физическое оборудование, программные компоненты, гипервизоры и другие факторы накладывают свои ограничения.

k6di4eobxpmaocyb4ee5so3nmby.png


Аппаратный и программный стек NVIDIA. Источник.

У NVIDIA есть целый аппаратно-программный комплекс для оптимизации производительности облачных вычислений. Подробнее о них можно почитать в материале.

Groq LPU Inference Engine


Мало нам было CPU, GPU, TPU, так теперь появился LPU — Processing Unit для LLM. Оказалось, малоизвестный стартап Groq стал лидером в инференсе LLM, выпустив языковой процессор (LPU) с «первым независимым бенчмарком LLM». Время покажет, так ли это на самом деле.

Обзоры рынка


Итоги-2023 от ServerNews: ИИ везде, ИИ повсюду


ServerNews собрал в одном тексте значимые релизы нового AI-железа за 2023 год. Среди них — два поколения процессоров Xeon® Scalable, ускорители от NVIDIA и другие. Конечно, за последнее время появилось много железа «круче» рассмотренного в обзоре, но он поможет составить общее впечатление о рынке и тенденциях.

PostgreSQL возглавила мировой рейтинг роста популярности СУБД и стала абсолютным лидером среди популярных СУБД в России


Это один из тех случаев, когда суть материала передана в заголовке — хоть и объемном. Дополню, что PostgreSQL возглавила рейтинг DB-Engines. По данным Google Trends за 2023 год популярность этой СУБД в России оказалась на 65% выше, чем Oracle, на 76% — MySQL и на 95% — MS SQL Server.

Видео


Аналитические инструменты для ленивых. JupyterLab, SuperSet, Prefect на инфраструктуре с GPU


Недавно прошел вебинар, в котором мы рассказали о вариантах использования наших продуктов — DAVM, DSVM и ML-платформы. Для практики взяли кейс с sentiment-анализом комментариев под статьями из нашего блога на Хабре. Как результат — развернули инференс-сервис с моделью в Kserve и автоматизировали загрузку данных в дашборд Apache Superset.

Getting Started With CUDA for Python Programmers


Специалист по обработке данных Jeremy Howard выпустил обучающее видео по CUDA-программированию. В нем продемонстрировал весь процесс разработки прямо в Google Collab, аналоге Jupyter Notebook. Советую посмотреть урок Python-разработчикам, которые только начинают работу с CUDA.

MLOps Best Practices in 2024


Компания Featureform обсудила состояние MLOps на 2024 год и поделилась лучшими практиками. Их еще нужно обосновать, но было интересно ознакомиться.
Особенно понравились метрики MLOps. Лично знаю людей, которым необходимо отчитываться о результативности внутренних MLOps-платформ, поэтому эта часть может им пригодиться.

GenAI for Financial Services


McKinsey и Iguazio рассказали, как они используют GenAI в финансовой сфере. Всегда было интересно узнать прогнозы и результаты анализа, особенно с конкретными значениями. Вот они и представили их в виде «слайдумента». Можно просто читать и не слушать спикера — ничего важного не потеряете.

MLOps London Jan 2024: A tour of Model Serving Strategies


В прошлой статье я рассказывал о лондонском митапе по MLOps. В этом Ramon Perez из Seldon рассказывает о стратегиях сервинга моделей. Его система для меня не очень понятна: в нем находятся и streaming с batch-обработкой, и Bare metal с serverless, и edge device c mobile app. Даже о PostgresML вспомнил. Отдельно отмечу, что на каждый случай приводятся примеры инструментов для реализации.

© Habrahabr.ru