Действительно ли ИИ повышает производительность разработчиков?
СтатьиПеревод исследования Can GenAI Actually Improve Developer Productivity? исследователей из Uplevel Data Labs.
Преамбула
Все большее количество команд разработчиков экспериментируют с ИИ-инструментами, такими как Copilot, для того, чтобы повышать свою производительность и удобство разработчиков. Но о чем говорят количественные данные?
Используя фактические данные по выборке из почти 800 разработчиков из числа клиентов Uplevel, Upevel Data Labs проанализировала разницу в работе команд с доступом Copilot и без него в соответствии с объективными показателями, такими как время разработки, количество PR и ошибок в коде.
Предполагается, что Copilot помогает разработчикам писать код оптимизированнее и быстрее, что должно привести к сокращению времени цикла разработки, увеличению PR и уменьшению количества ошибок без увеличения риска выгорания.
Что показали исследования
Влияние Copilot на показатели эффективности
При сравнении времени цикла, производительности и сложности PR с PR с тестами Copilot не помог и не навредил разработчикам в выборке, а также не увеличил скорость кодирования.
Хотя некоторые из этих показателей были статистически значимыми, фактические изменения были несущественными для инженерных результатов, например, время цикла сократилось на 1,7 минуты.
Скорость работы и количество багов
После добавления в рабочий процесс Copilot разработчики отмечали, что их продуктивность оставалась неизменной.
При этом отмечается, что количество ошибок в коде возрасло на 41%, что говорит о том, что использование Copilot может влиять на качество кода (при этом не увеличивая скорость разработки).
Использование ИИ помогло снизить риск выгорания
Показатель Uplevel «Устойчивая постоянная занятость» (продолжительность рабочего времени вне стандартных часов и ведущий индикатор выгорания) снизился в обеих группах. Но у тех, кто использовал Copilot, она снизилась на 17%, а у тех, кто не получил, — почти на 28%.
Примечание переводчика: определение показателя «Устойчивая постоянная занятость», как его измеряют и за счёт чего он снизился — загадка.
Что означают эти данные?
Доступ к инструментам генеративного ИИ, таким как Copilot, затронул ряд важных вопросов:
- Поможет ли ИИ разработчикам быстрее создавать проекты?
- Может ли он помочь им писать более качественный код и избежать выгорания?
Основной вывод — пока не для этой группы работников.
Но инновации развиваются быстро, и GitHub сообщает, что Copilot действительно повышает удовлетворенность разработчиков. Руководители инженерных разработок могут извлечь выгоду из принятия консервативной стратегии внедрения Copilot, чтобы подготовиться к дальнейшему развитию инструмента:
- Поставьте конкретные цели. Каких конкретно результатов вы хотите достичь, включив Copilot в рабочий процесс вашей команды?
- Предложите своим командам исследование. Внедрение может быть хорошим способом определить, где Copilot следует и не следует использовать, и какие меры предосторожности приняты в организации.
- Продолжайте экспериментировать с генеративным ИИ. Найдите конкретные варианты использования, в которых Copilot может быть полезен, и подсказки, которые дают наилучшие результаты. Поделитесь этими результатами в своей организации, чтобы можно было повторить успех.
- Отслеживайте показатели эффективности разработки, на которые может повлиять Copilot. Начните A/B-тестирование самостоятельно, чтобы получить объективную количественную информацию о том, действительно ли ИИ повышает производительность разработчиков и/или помогает ли вам достигать ваших операционных целей.
Об исследовании
Показатели оценивались до внедрения Copilot с 9 января по 9 апреля 2023 года и после внедрения с 8 января по 7 апреля 2024 года. Этот период времени был выбран, чтобы исключить влияние сезонности.
Данные о доступе к Copilot были предоставлены Uplevel Data Labs для:
- 351 разработчик в тестовой группе (с доступом к Copilot)
- 434 разработчика в контрольной группе (без доступа к Copilot).
Разработчики из контрольной группы были схожи с разработчиками из тестовой группы по ролям, рабочим дням и объему PR в каждом периоде.
Результаты основаны на t-тестах для числовых показателей и z-тестах для пропорций, чтобы понять любое влияние на каждую метрику. Анализ основан на том, имели ли люди доступ к Copilot, а не на фактическом использовании, поскольку Copilot не предоставляет эти данные на индивидуальном уровне.
Все результаты носят наблюдательный характер, ограничены разработчиками, включенными в исследование, и не являются причинно-следственными.