Исследование: генеративный ИИ повышает производительность труда разработчиков на 26,08 %

Исследовательская работа утверждает, что использование инструментов с искусственным интеллектом помогает разработчикам выполнять на 26,08% больше задач.

На тысячах разработчиков из Microsoft, Accenture и некой анонимной компании проводили эксперимент: примерно половине сотрудников выдали доступ к Copilot, а другим пользоваться инструментом не разрешали. Сравнение данных двух групп говорит о положительном эффекте от написания кода с помощью искусственного интеллекта.

Бум генеративного искусственного интеллекта должен лишить миллионы людей работы. Большие языковые модели (БЯМ), системы генерации картинок, голоса, музыки и видео творят не хуже людей. Такие катастрофические последствия для рынка труда начали предсказывать ещё до выхода ChatGPT и Claude.

К примеру, отчёт McKinsey Global Institute, исследовательского отдела известной международной консалтинговой компании McKinsey, в июне 2018 года утверждал, что к 2030 году 400 миллионов человек (15% от общего числа работников) потеряют работу. Схожий прогноз — 300 млн рабочих мест будут автоматизированы — дал банк Goldman Sachs уже во время нового «лета» ИИ в апреле 2023 года.

Менее алармистские исследования на тему ИИ (например, отчёт от Международной организации труда ООН) говорят о помощи работникам-людям, а не их замене. Роль этой помощи оценивают по-разному. Одна из статей даже провозглашает, что ChatGPT значительно поможет четвёртой промышленной революции (doi:10.1016/j.ject.2023.08.001). Некоторые утверждают, что макроэкономический эффект от ИИ будет незначительным, не более 0,66% роста производительности труда за следующее десятилетие (doi:10.3386/w32487).

В июне 2023 года McKinsey выпустила другой документ, который фокусируется на экономическом потенциале от ИИ. Отчёт отмечает, что общий вклад ИИ в росте глобального ВВП составит от 15 до 40%. Также McKinsey выделила четыре основные сферы, куда придётся ¾ влияния искусственного интеллекта: взаимодействие с клиентами, маркетинг, НИОКР и написание программного обеспечения.

Действительно, много стартапов пытаются создать ИИ для написании кода. На сайте AI Startups собран список из 30 подобных организаций. Не все из них — очередная система автодополнения кода; некоторые предлагают полностью заменить инженеров-людей автономными агентами. К числу подобных относится Devin от Cognition, представленный в марте 2024 года. Об успехах продукта можно судить по тому, что сам стартап-создатель Devin не закрывал найм инженеров программного обеспечения.

Впрочем, системы автодополнения и написания кода с нуля всё же завоевали популярность среди программистов. Некоторые даже утверждают об их абсолютном проникновении. В июне 2023 года данные опроса GitHub говорили, что 92% разработчиков из США задействуют инструменты с ИИ для написания кода. В аналогичных отчётах GitHub от августа 2024 доля выросла до 97%.

Другие оценки популярности таких инструментов выглядят скромнее. Только в июле 2024 года вышло сразу несколько отчётов на эту тему. Опрос аутсорсера BairesDev оценивает популярность генеративного ИИ для написания кода среди разработчиков в 72%, Stack Overflow — 62%, Capgemini — лишь 46%.

Конкретные числа разнятся, но все подобные отчёты соглашаются, что ИИ значительно помогает разработчикам. Свою лепту пытается внести опубликованная 5 сентября статья, которую написали Чжэюань (также использует второе имя Кевин) Цуй из Принстонского университета, Мерт Демирер и Тобиас Зальц из Массачусетского технологического института, Соня Яффе из центра Microsoft Research, Леон Музольф из Пенсильванского университета и Сида Пэн из Microsoft.

Инструментов автодополнения кода на основе искусственного интеллекта много: это GitHub Copilot, Amazon CodeWhisperer, Replit Ghostwriter и другие. Исследование фокусировалось только на первом из них. Случайно выбранные программисты получали доступ к Copilot, а другие (контрольная группа) работали без него. Эксперименты проводили на основе анализа данных разработчиков трёх компаний:

  • Microsoft. Эксперимент шёл на протяжении 7 месяцев и задействовал 1746 разработчиков из американских офисов компании. Из них 50,4% случайной выборкой попали в экспериментальную группу.

    В один день члены экспериментальной группы получили письмо о возможности получить доступ к новому инструменту. Письмо описывало пользу Copilot для производительности труда и потенциальный эффект на задачи по написанию кода. При этом ни письмо, ни любые другие должностные инструкции никак не требовали задействовать новинку в работе и не объясняли, как пользоваться Copilot.

    Эксперимент шёл с первой недели сентября 2022 года по 3 мая 2023 года. Как объясняет статья, в дате окончания сыграло роль то, что среди контрольной группы возросла информированность о Copilot и появилось желание задействовать его в работе.

    Письма, которые получили экспериментальная и контрольная группы

    Письма, которые получили экспериментальная и контрольная группы

  • Accenture. Здесь эксперимент длился 4 месяца и задействовал разработчиков из, как обтекаемо выражается статья, Юго-Восточной Азии. Если судить по локациям компании с её сайта, это могли быть офисы в Малайзии, Сингапуре, Таиланде, Индонезии и/или на Филиппинах.

    61,3% из 320 разработчиков получили доступ к Copilot. Аналогичным образом экспериментальной группе объяснили о пользе инструмента, но не в виде письма, а полноценного тренинга. Другое отличие заключается в том, что менеджеров членов экспериментальной группы просили стимулировать использование Copilot.

    Экспериментальной группе выдали Copilot в первую неделю июля 2023 года. В декабре 2023 инструментом разрешили пользоваться и контрольной группе, но среди её членов популярность Copilot оказалась ниже.

  • Некая третья компания, имя которой не называется. Упоминается лишь, что это производитель электроники, который входит в список Fortune 100. В этом случае Copilot выдали всем 3054 разработчикам, но не одновременно — часть команд получила инструмент на шесть недель раньше остальных. Даты выдачи инвайтов распределили случайно между по сентябрю и октябрю 2023 года.

Продуктивность разработки программного обеспечения измерить тяжело. В оценке помогало то, что процесс работы структурирован и разбит на небольшие задачи в системах управления версиями. Говоря проще, исследователи посчитали пулл-реквесты в GitHub, поскольку все три компании пользовались этим сервисом. Также подсчитывалось число коммитов, билдов и доля успешных билдов.

Кроме того, в статистику попало то, сколько кода предложил Copilot и сколько его принял разработчик. В случае Microsoft исследователям дали данные по дате найма сотрудников и их уровень внутри компании, что позволило оценить профессиональные навыки.

Полученные результаты (кроме успешности билдов) имеют высокие значения стандартного отклонения. Отмечается, что высокая вариативность ограничивает качество регрессионного анализа экспериментальных данных.

Контрольная группа

Экспериментальная группа

Среднее

Стандартное отклонение

Среднее

Стандартное отклонение

Разница

p-значение

Microsoft

Пулл-реквесты

0.86

1.49

0.87

1.50

0.01

0.88

Коммиты

9.43

14.86

9.36

14.80

-0.07

0.94

Билды

7.76

12.99

7.67

12.73

-0.09

0.91

Доля успешных билдов

0.72

0.30

0.75

0.29

0.02

0.33

Недавно нанятые

0.48

0.50

0.52

0.50

0.04

0.23

Джуны

0.55

0.50

0.61

0.49

0.06

0.03**

Accenture

Пулл-реквесты

0.13

0.47

0.14

0.47

0.00

0.85

Коммиты

2.56

6.00

3.64

7.25

1.08

0.01**

Билды

0.96

2.54

1.10

2.68

0.14

0.38

Доля успешных билдов

0.51

0.37

0.54

0.38

0.03

0.40

Анонимная компания

Пулл-реквесты

0.73

1.23

0.73

1.19

-0.00

0.99

Накладывает отпечаток также нежелание самих подопытных прибегать к новому инструменту. Хотя Copilot интегрирован в среды разработки и не требует никаких особых (финансовых или трудовых) вложений, его популярность далеко не 100%.

  • В первые две недели эксперимента лишь 8,5% членов экспериментальной группы Microsoft начали использовать Copilot в работе. Вероятно, что письмо просто утонуло в потоке рабочей переписки. 15 и 28 февраля 2023 года внутри Microsoft разослали два дополнительных письма-напоминания. В последовавшие за этим две недели использование Copilot в экспериментальной группе возросло до 42,5%.

    Также 0,5% контрольной группы задействовали Copilot, наплевав на ограничения эксперимента. Когда контрольной группе всё же разрешили инструмент, многие из них быстро к нему подключились.

    К январю 2024 года использование Copilot в контрольной группе оказалось ниже, чем в экспериментальной. Вероятно, что в статье опечатка, поскольку для этого приводятся процентовки 75,6% и 64,0%, соответственно.

    l4vyni9tpnui--z4i6t_swiopnc.png
  • В Accenture популярность Copilot в первые 1–2 месяца послушно выросла до 60%, но больше почти не менялась. По окончании эксперимента в декабре 2023 года контрольная группа интересовалась инструментом меньше, чем экспериментальная. В апреле 2024 доля использующих Copilot составила 69,4% в экспериментальной и 24,4% в контрольной группах.

    ndsgrhrbpdwuw_blnnhretrycuc.png
  • Аналогичным образом ситуация сложилась в анонимной компании: сразу после раскатывания Copilot доля его использующих вышла на плато и в дальнейшем менялась сла́бо.

Данные анализировались в приближении к одной человеко-неделе. Чтобы оценить эффективность Copilot, исследование задействует формулу

y_{it} = \beta D_{it} + \mu_i + \gamma_t + \epsilon_{it}.

Значение оценивалось двухшаговым методом наименьших квадратов. Здесь β — коэффициент интереса, Dit — это фиктивная переменная внедрения, которая активируется после того, как разработчик впервые использует Copilot, µi — это фиксированный эффект разработчика, а γt — это фиксированный эффект недели. Работа с данными, где разработчики постепенно получали доступ к инструменту, оценивалась ещё сложнее.

Данные оценки β собрали в таблицу, сравнив со средним значением контрольной группы. Стандартные ошибки сгруппированы на уровне назначения экспериментальной группы, которое варьируется по компаниям.

Показатель

Microsoft

Accenture

Анонимная компания

Объединённые данные

Пулл-реквесты

27.38** (12.88)

17.94 (18.72)

54.03(42.63)

26.08** (10.3)

Коммиты

18.32 (11.25)

-4.48 (21.88)

-

13.55 (10.0)

Билды

23.19 (14.20)

92.40*** (26.78)

-

38.38*** (12.55)

Доля успешных билдов

-1.34 (4.23)

-17.40** (7.12)

-

-5.53 (3.64)

Число разработчиков

1,521

316

3,030

4,867

Число групп

690

316

432

1,438

Если верить полученным данным, Copilot повысил в Microsoft число пулл-реквестов, коммитов и билдов. Однако исследование замечает, что статистически значимым является только число-пулл реквестов. Вероятно, поэтому усреднённое число в 26,08% из последней колонки упоминают в разделе Abstract краткого содержания научной статьи как рост продуктивности на основе анализа тысяч разработчиков из трёх компаний.

Текст статьи также утверждает, что Copilot не только помогает делать больше — качество не падает. Как говорит исследование, показатель успешности билдов не снизился. Впрочем, в таблице всё же заметен отрицательный рост в 5,53%.

Среди других наблюдений:

  • Сотрудников Microsoft разбили на новых (меньше медианы времени найма) и давно работающих в компании (больше). Оказалось, что новички чаще (84,3% против 74,8%) используют Copilot. Более того, новые сотрудники ещё и чаще ветеранов Microsoft продолжают использовать инструмент в дальнейшем.

    Как спекулирует статья, так происходит потому, что это часто молодые сотрудники, которые извлекают больше пользы из нового инструмента.

  • Аналогичный эффект наблюдается, если разбить разработчиков Microsoft по уровням. Джуны используют Copilot больше (82,1% против 76,8%) старших разработчиков. В данном случае неравенства частоты отказа от Copilot не наблюдается.

  • Наблюдается, что вклад Copilot выше для новых сотрудников Microsoft и джунов. Если для давно работающих в компании рост показателей составил от 8 до 13%, то новички улучшились на 27–39%. Разница по уровням не так заметна: для джунов она составляет от 21 до 40%, для сеньоров — от 7 до 16%.

    mu1tifeqckb1wmftvpguxisdtoi.png

Сто́ит отметить, что GitHub Copilot перевели на БЯМ GPT-4 лишь 30 ноября 2023 года, уже позже основного периода эксперимента. Большинство полученных данных относится к периоду, когда код писать помогала заметно более примитивная модель GPT-3.5. А сейчас GitHub раскатывает на избранных пользователей o1, одну из самых многообещающих БЯМ компании OpenAI, которая опережает в точности и производительности GPT-4/GPT-4o.

Препринт научной статьи «The Effects of Generative AI on High Skilled Work: Evidence from Three Field Experiments with Software Developers» опубликован в хранилище препринтов Social Science Research Network (doi:10.2139/ssrn.4945566).

© Habrahabr.ru