Как и зачем оценивают индекс зрелости ИИ02.03.2023 19:01

Индекс зрелости ИИ (AI maturity index) — это международный опыт систематизации практик по внедрению Data Science-подходов в бизнес-процессы. Разберём, как он устроен и как с ним работать.

Меня зовут Андрей, я работаю в Управлении розничного моделирования в Газпромбанке. Мы занимаемся задачами монетизации данных, причём не только банковских, но и данных нашей экосистемы.

Так Midjourney видит AI maturity index

Определения

Что такое AI maturity index?

Есть несколько подходов к ответу на этот вопрос:

AI maturity index — это число, полученное в результате анализа организации и характеризующее её состояние относительно покрытия DS-подходами бизнес-процессов;
AI maturity index — это степень, которая показывает как организация освоила связанные с ИИ возможности в правильном сочетании для достижения высокой производительности;
AI maturity index — это индекс, который показывает этап развития компании и помогает определить приоритетные пути развития.

Думаю, что один из лучших вариантов для объяснения — это сравнение со школой. Представьте, как взрослеет ребёнок, и оцените его зрелость. Например, какие у него оценки, как они меняются в динамике и к чему он приходит к выпуску из школы. Оценить насколько он уже зрелый для того, чтобы применять те или иные инструменты в жизни. То же касается и компании. Мы знаем, какой индекс у других компаний, и можем ориентироваться на лучшие из них, чтобы быстрее достичь того же уровня.

Цель

Зачем нужен этот индекс? В 2021 году с августа по сентябрь компания Accenture проводила опрос 1600 зарубежных фирм из 15 стран-лидеров, таких как США, Индия и страны Европы. Accenture оценивала компании из разных сфер по тому, как они реализуют инструменты, связанные с Data Science. Оказалось, что только 12% компаний входят в число лидеров и являются AI Achievers. Это значит, что они максимально эффективно применяют у себя эти процессы. При этом, в левом нижнем квадранте находятся 63% компаний, у которых есть огромный потенциал для роста зрелости и эффективности применяемых процессов.

Результаты исследования Accenture

Справа представлен актуальный и предположительный на 2024 год индекс в разных индустриях. Интересно, что банковская сфера в этих 15 странах находится в самом низу. Это понятно, потому что сфера финтех в Европе немного отстает от России. Например, в некоторых банках нужно ждать неделю, чтобы получить выписку. В то время как в России другая ситуация и поэтому думаю, что у нас банки стояли бы выше в таком рейтинге.

В опросе оценивали индекс с разбегом от 0 до 100. Компании-лидеры набрали 64 балла, то есть даже для них есть возможность роста. Но сама цифра не является целью. Цель — заработать больше денег за счёт повышения эффективности.

Интересно, что новость Accenture о том, что только 12% компаний имеют преимущество в области AI была опубликована на Нью-Йоркской бирже. Вероятно, это может влиять на стоимость акций компаний-лидеров.

Измеряет ли кто-то этот индекс в России?

К сожалению, в России не распространена практика измерения AI maturity index. На систематической основе это делает «Сбер», также замерять индекс зрелости пробовали несколько крупных компаний, но общедоступных отчётов с положением компаний и применяемых инструментов нет.

В 2022 г. РАНХиГС, ответственная за сбор и замеры индекса ИИ-зрелости, провела оценку 63 федеральных органов исполнительной власти (ФОИВ). Подробнее можно почитать здесь.

Зачем замерять индекс ИИ-зрелости

Почему старые maturity models стали недостаточными?

Сначала поговорим о том, какие были модели раньше и почему пришлось придумывать новый индекс. Может, на самом деле он и не нужен?

Что делал программист раньше:

разрабатывал алгоритм;
писал код, используя этот алгоритм;
использовал входные данные и получал результат, применяя разработанный алгоритм.

С тех пор всё немного поменялось. Теперь идёт ориентация не только на код, но, в первую очередь, на данные.

Что делает Data Scientist сегодня:

собирает статистические данные, чтобы создать полуавтоматическую модель;
вводит крупные наборы данных в различные алгоритмы МО;
на выходе получает модель, которая способна создавать новые рекомендации.

Таким образом, изменилась не только разработка, но и сам процесс внедрения. И нужно гораздо больше инструментов и ресурсов, чтобы всё запустить.

Как итог, чтобы стать лучше конкурентов и заработать больше денег, нужно понять параметры компаний-лидеров. Эти параметры можно скопировать. То есть можно смотреть, кто делает это лучше всех, и стремиться к ним. Главное не попасть в ловушку, когда вы смотрите на технологических гигантов и пытаетесь их догнать, двигаться нужно шаг за шагом от своего текущего уровня.

Что делать, если ничего нет?

Определить, насколько компания готова к тому, чтобы внедрять индекс.

Это значит, что core-бизнес должен быть устойчив. То есть, как минимум, должны быть описаны бизнес-процессы, в которых будет внедряться этот подход.

Если компания достаточно большая, то без поддержки провести измерения сложно. А еще лучше договариваться вместе с менеджерами и владельцами компании, чтобы зафиксировать это в Стратегии.

Приходится либо самостоятельно придумывать какие-то опросы, либо брать фреймворки и работать с ними напрямую. В некоторых случаях их приходится дорабатывать. Опрос занимает большое количество времени, поэтому готовьтесь к игре в долгую.

Удивительно, но люди отвечают по-разному. Если 10 человек ответили, что у них третий уровень в работе с данными, то обязательно найдётся несколько людей, которые ответят, что вообще все плохо или, наоборот, максимальный уровень. Это достаточно интересный процесс для того, чтобы выяснить, одинаков ли уровень понимания процессов в компании.

Получить индекс.
Определить план действий в соответствии с фреймворками.

Примеры фреймворков (методик)

Проанализировали большое количество фреймворков

Естественно, у ведущих компаний есть внутренняя разработка. Например, у Microsoft очень большой опросник — порядка 200 вопросов. Есть консалтинговые компании, которые собирают и агрегируют все эти данные. Здесь очень важен вопрос доверия! Компания рассказывает про свой бизнес кому-то, а значит должна быть уверена, что эти данные никуда не утекут.

Ссылки на фреймворки:

Singapore
sifma
IBMAI Sweden
Innovation and Commercialization Working Group
infosys
Gartner
Microsoft
Accenture
Go Data Driven
VTT
Element AI
Центр передового опыта в области ИИ США
Ovum consulting
Gradientdescent
The broadcast commission for sustainable development
Statworx
Avanade
РАНХиГС
ПАО «Сбербанк» совместно с АНО «Цифровая экономика»

VTT Technical Research Centre of Finland

Фреймворк от финской компании VTT. У них есть открытый сайт и супер-экспресс опросник на 12 вопросов по 6 направлениям:

стратегия и управление;
продукты и услуги;
компетенции и сотрудничество;
процессы;
данные;
технологии.

Вы можете попробовать ответить на них про свою компанию. Нужно посмотреть, где в среднем находятся все компании из вашей сферы, и сравнить свою компанию с ними.

Фреймворк VTT

Интересно, что здесь нет сферы безопасности, которые в некоторых методологиях выделяются. Также нет сфер, связанных с разработкой.

LeanDS Maturity Index

Также стоит упомянуть подход LeanDS для определения индекса ИИ-зрелости. Его продвигает Асхат Уразбаев.

В этом индексе есть следующие направления:

Здесь оценивается, как происходит сам процесс разработки машинного обучения, как собрана команда и есть ли ревью кода. Часто бывает так, что один человек пилит Data Science в ноутбуке и никто ничего не проверяет. Но зрелая компания должна отслеживать, как организована работа с кодом.

Дальше рассмотрим, что предлагается измерять в разных фреймворках.

Стратегия и управление

У всех зрелых компаний есть стратегия, как они видят своё развитие в краткосрочной и долгосрочной перспективах. Стратегия предполагает ответ на следующие вопросы:

Какое место занимает ИИ в стратегии организации?
Все ли в сотрудники компании знают стратегию?
Как устроены DS команды?

Чтобы выяснить, как лучше скомпоновать команды для достижения большего результата — нужно смотреть за тенденциями. Порой команды не готовы напрямую приглашать инженеров с производства. Тогда нужен человек, который умеет разговаривать на языке дата-сайентистов и менеджмента, чтобы всё это объединить и прийти к максимально эффективному пути достижения результата. Подробнее об этом можно узнать в докладе Александра Сидорова про опыт успешного DS-продакта от hh.ru, когда после внедрения DS-продакта эффективность процессов повысилась.

Часто в компаниях много подразделений, и хочется оценить, какое подразделение сколько зарабатывает. Естественно, в подразделениях, где core‑бизнес зарабатывает больше, будет больший эффект. Чтобы не попасться в эту ловушку, нужно либо адаптировать финансовый эффект, либо разделить подразделения так, чтобы сравнивать «равноправные» команды. Но самый лучший вариант — сравнивать команды с самими собой, то есть смотреть, как меняются показатели во времени. Есть разные подходы, как часто проводить такой анализ: раз в год, в полгода, или в квартал.

Совсем недавно в VK Cloud провели опрос про окупаемость Data Science‑проектов. 28% респондентов ответили, что окупаемость проектов занимает более 3-х лет, а 43% вообще не смогли ответить на вопрос о сроках окупаемости Big Data‑проектов. В любом случае это игра в долгую. Поэтому если у компании нет стратегии, то может случиться так, что она не окупится при погружении в эту тему. Нужно иметь какие‑то метрики, чтобы выйти на реальную окупаемость проекта.

Кадры

Согласно уже упомянутому исследованию VK Cloud, в 22% случаев есть огромный недостаток компетенций в командах. При этом сохраняется (и сохранится ещё) тенденция привлечения внешних экспертов. На рынке дефицит специалистов по работе с большими данными (особенно уровней middle и senior). Поэтому формировать команды сложно и дорого. Но эти специалисты наиболее важные, чтобы начать максимально быстро и правильно двигаться с самого начала. Например, вы пишите какое‑то бизнес‑требование, собираете данные, но может получиться так, что атрибуты будут неправильно отсортированы по приоритету. Соответственно, фичи, которые могли принести максимальный результат, окажутся в конце списка. Дата‑сайентист — это не один человек, у DS много ролей (классическое выступление Алексея Натекина) . Зачастую бывает такое, что один человек пытается закрыть все роли. Обычно это: разработчик‑моделист, аналитик, инженер, ML‑инженер, DevOps, ML‑Ops. Естественно, в результате он перегружается или не успевает выполнять задачи, или вообще увольняется. Посмотрите, как в вашей компании можно разделить направление деятельности каждого человека, чтобы он занимался одной сферой. Можно посмотреть, как с этим работают иностранные компании и адаптировать у себя.

Компетенции и развитие

Рекомендуется подсчитывать, какие есть публичные R&D‑инициативы и статьи. Если человек что‑то публикует, он подтягивает за собой всю команду, стараясь применять новые методики. Это нужно обязательно поощрять. В некоторых компаниях даже есть внутренние конкурсы, чья статья понравится больше всем или у кого будет больше комментариев. Это повышает мотивацию сотрудников, и при этом компания тоже получает бонусы. Отдельно для крупных компаний выделяют наличие партнёрства с ВУЗами и ведущими R&D центрами. Дело даже не в индексе, а в том, что возможности компании увеличиваются по быстрому поиску новых кадров или привлечению групп студентов для проверки конкретных гипотез.

Каждый сотрудник должен понимать, как устроен бизнес‑процесс, дата‑сайентисты и ML‑инженеры зачастую не погружены в сферу, где работают. Поэтому внутренние митапы для развития команд должны быть не только про новые алгоритмы, но и включать обсуждения методологий CRISP‑DM или ML System Design. Ведь если сотрудник будет знать, для чего он это делает и как это должно работать, то и его эффективность скорее всего будет выше.

Опросники выделяют необходимость проведения периодического внутреннего тестирования сотрудников. Это можно использовать для того, чтобы проверять своих сотрудников, насколько они осведомлены о новых подходах и инструментах. С другой стороны, можно найти внутри компании тех сотрудников, которые реально заинтересованы перейти в сферу Data Science. Возможно в компании уже есть люди, которые даже прошли курсы, но боятся начать работать в новой для них сфере. Внутреннее тестирование может помочь сотрудникам объективно оценить, на каком уровне они находятся, и что ещё нужно сделать, чтобы прийти в команду DS и быстрее влиться в неё.

Процессы

Первое правило — бизнес-процессы должны быть описаны. Дальше стоит ответить на следующие вопросы:

Важно, чтобы подсчитывалось не количество моделей, а именно доля бизнес‑процессов, в которые уже внедрены эти модели. Казалось бы, простой параметр, но его можно хорошо оценить и в динамике отслеживать, как вы внедрили ML‑алгоритм, как часто он обновляется, как доставляется до прома, сколько вообще моделей находится на проде. Бывает так, что DS‑специалист пишет у себя что‑то на ноутбуке и напрямую передаёт результат заказчику. Это незрелый подход. Должен быть инструмент, чтобы отслеживать всё это во времени и для переиспользования другими специалистами.

Опросник может выделять, например, сколько моделей находится под мониторингом. Если у вас модель не мониторится, результаты могут быть непредсказуемые.

Есть подход, связанный с тем, как использовать AutoML. Некоторые компании используют AutoML, чтобы понять, пора ли переходить к сложной разработке, выделяя время и ресурсы или попробовать запустить какой‑то Proof Of Concept или что‑то с этим связанное. А дальше уже определиться — идти вперёд или нет. То есть получить минимальный бизнес‑результат, провести тест и увидеть, есть ли там статистическая значимость, работает ли гипотеза, надо ли это в процессе. Можно попробовать сначала проверить в AutoML, а потом получить результат. Либо, наоборот, когда вы уже всё закончили разрабатывать, попробуйте тот же самый дата‑сет провести через AutoML и посмотреть на результат.

Зачастую модели внедряются в процесс, при этом их никто особо не анализирует или заказчик на своей стороне бегло просматривает. Не проводятся никакие тесты. Однако чем более зрелая компания, тем чаще она применяет А/В‑тесты, потому что они повышают количество результатов. А чем больше результатов, тем больше их можно использовать для дальнейшего развития компании и выхода на повышенную эффективность. Подробнее можно почитать у Евгения.

Культура компании способна разрушать вертикальные колодцы между подразделениями, чтобы сотрудники общались между собой напрямую. Этот показатель можно также отслеживать — собирать данные о том, как это общение происходит. То есть смотреть, кто кому написал, сколько раз, и есть ли какие‑то точки, которые можно оптимизировать. Это тоже сложный процесс, но можно придумать свои метрики и понять, как нивелировать вертикальные колодцы, чтобы были максимально близкие, быстрые и эффективные взаимоотношения.

Есть подходы, связанные с внутренними чатами. Например, когда сотрудник устраивается на работу, ему автоматически присваивают категорию, что он работает в подразделении Data Science и знает такие‑то технологии. Он автоматически попадает в определённые чаты по названию этой компетенции и может ответить на вопросы, которые прилетают в мессенджер. Или же он может сам задать любой вопрос, и ему из этого круга быстро ответят. Наверное, это один из лучших подходов.

Если оценивать связи, можно увидеть перегруженных сотрудников. В таком случае нужно думать, что с этим делать: разгрузить людей, или переформатировать их деятельность таким образом, чтобы человек мог работать эффективней.

Можно замерить откуда приходит запрос на внедрение DS. Компания может считаться более зрелой, когда к DS‑команде приходят, например, с производства и говорят, что нужно сделать распознавание из видеопотока. А если DS‑сотрудники приходят сами с предложением о внедрении в бизнес‑процессы, то это значит, что компания ещё не созрела.

Данные

Обязательно должна быть проверка работы с данными.

Можно замерить, насколько описаны данные

Можно ответить на следующие вопросы:

Версионируются ли данные или нет?
Если да, то, как часто это делается?
Есть ли у вас подходы, когда данные для моделей обновляются онлайн? Какая доля процессов покрыта?

Интересно в динамике смотреть время получения доступа к данным, чтобы новый сотрудник мог прийти и быстрее начать работать.

Технологии

Представим, что есть внешний и внутренний контуры. Когда вы перекладываете библиотеки из внешнего во внутренний контур, если сам специалист не может их обновить, то нужно ставить обязательно KPI или какую‑то цифру, чтобы эта работа не прекращалась. Иначе это может скатиться к тому, что что нужно кому‑то написать попросить поставить\обновить ту или иную библиотеку. Это не совсем зрелый процесс. Поэтому можно замерять частоту обновления ML‑библиотек. Бывает такое, что нанимается большая команда специалистов, но при этом инфраструктура ещё не готова. То есть обновление инфраструктуры не успевает за набором DS. Например, есть общий JupyterHub, а у сотрудника нет ресурсов, чтобы запустить свой сервер, потому что при создании какого‑нибудь отдела не было запланировано, что нужно выделять квоту. Соответственно, то время, за которое всё это прокрутится, запустится — это потеря денег. Именно для согласованности действий нужна стратегия.

Продукты и услуги

Здесь задаются вопросами касательно разработки и используемых фреймворков:

Есть ли доказательства того, что применение ИИ положительно повлияло на бизнес организацию?
Как вы можете быстро показать эти результаты?
Если вы что-то замеряете, то есть ли у вас результаты внедрения?

Это может быть не только отчёт о разработке модели, но и отчёт о применении модели и о результатах её применения. Желательно, чтобы этот документ или файл был в общем доступе, куда можно складывать замеры каждой итерации: насколько изменилось движение и в какую сторону. Даже карьерные консультанты советуют, когда вы пишете своё резюме, указывать, что принесло ваше действие. Ваша команда DS тоже должна складывать у себя свои результаты. В нужный момент это может пригодиться для менеджмента, или для самих себя, чтобы увидеть какие‑то тенденции и словить инсайт.

Некоторые опросники выделяют работу со стартапами. Потому что их разработки могут ускорить развитие, в то время как внутренняя команда занималась бы этим гораздо дольше.

Заключение

1. Цели должны быть адаптированы под реальность.

Нужно иметь не только результаты опросов и индекс, но и конкретный список инициатив о том, как двигаться. При этом его нужно утвердить со всеми стейкхолдерами.

2. Нельзя перепрыгивать с уровня на уровень.

В нескольких фреймворках говорится о том, что нельзя перепрыгивать с уровня на уровень. То есть нужно двигаться итеративно. Если вы достигли какой-то цели, то сначала перейдите на следующий уровень, и только потом двигайтесь дальше.

На что обратить внимание

— Много моделей не дают качественный результат.

Нельзя ставить как метрику количество моделей. Это неправильно, потому что может привести к тому, что сотрудники будут просто писать простые модели ради того, чтобы от них отстали. Как-то пытаться оценить качество — тоже не совсем объективный способ, так как всё зависит от подразделений. Поэтому стоит подумать насчёт метрик, которые замеряют именно доли покрытия бизнес-процессов.

— Отдаление от бизнес-эффектов;

Нужно держать в голове, что цель бизнеса — заработать больше денег. Поэтому нельзя далеко отдаляться от бизнес-эффектов.

— Проверка безопасности;

В некоторых фреймворках есть отдельный блок про безопасность. Сейчас это особенно актуально, потому что в Data Science используются в основном опенсорсные решения и библиотеки. Обязательно нужно иметь возможность проверить безопасность в новых версиях. Например, если вы ставите KPI на частоту обновления библиотек, то обязательно смотрите, есть ли у вас в процессе проверка безопасности, потому что это может привести к выходу за пределы допустимости.