Программист-юрист подал в суд на GitHub Copilot за нарушение лицензий Open Source и требует компенсации в $9 млрд

b-ovclpl9f45jare5ciwjlobvjq.jpeg

Программист-юрист Мэтью Баттерик подал иск в окружной суд Калифорнии на Microsoft, GitHub и OpenAI за то, что нейросетевой помощник программиста GitHub Copilot нарушает условия лицензий Open Source проектов и ущемляет права программистов. Разработчик требует $9 млрд компенсации от американских компаний.
В настоящее время GitHub Copilot при генерации кода использует миллиарды строк кода из общедоступных репозиториев GitHub и может преобразовывать естественный язык в фрагменты кода на десятках языков программирования. Copilot выполняет работу автоматически без должного анализа и отработки правил в лицензировании Open Source проектов, включая понимание типов лицензий GPL, Apache и MIT, которые требуют указания имени автора и определения конкретных авторских прав при использовании кода проекта.

Причём Microsoft, GitHub и OpenAI подстраховались при разработке Copilot. Нейросетевой инструмент обучен удалять любое упоминание лицензий Open Source в выдаваемом коде. Это происходит и в том случае, когда он копирует чужой код сниппетами длиннее 150 символов непосредственно из определённого репозитория. Система специально не указывает авторство исходного фрагмента кода.

Некоторые разработчики называют такой способ работы Copilot отмыванием открытого исходного кода. Они считают, что юридические последствия такого подхода должны быть определены и приняты сообществом, прежде чем использовать Copilot в коммерческих целях на постоянной основе. В конце 2022 года, по заявлениям заявлению GitHub, появятся специальные корпоративные тарифы для компаний по этому инструменту.

Баттерик считает, что Copilot, помимо прямого нарушения лицензий Open Source проектов, каждый раз при выполнении запроса пользователя нарушает следующие законы и политики:

  • условия обслуживания и политика конфиденциальности GitHub;
  • раздел 1202 законопроекта DMCA, запрещающий удаление информации, связанной с авторскими правами и их управлением;
  • американский аналог GDPR (California Consumer Privacy Act, CCPA);
  • некоторые другие законы США.


Баттерик прикинул, что каждый раз, когда Copilot выдаёт фактически незаконный результат, то этот нейросетевой инструмент трижды нарушает DMCA, так как распространяет лицензионные материалы без указания авторства, уведомления об авторских правах и условий лицензии.

По мнению разработчика, с начала использования Copilot и за пятнадцать месяцев его работы каждый пользователь этого инструмента как минимум один раз получал ответ от Copilot. Это значит, что Microsoft, GitHub и OpenAI около 3,6 млн раз нарушили законы США. При минимальном установленном законом ущербе в размере $2,5 тыс. за каждое нарушение в данном случае, Copilot уже нанёс ущерб сообществу Open Source на $9 млрд.

По мнению Баттерика, стимул для вклада и сотрудничества разработчиков в Open Source проекты по существу начнёт быстро устранятся, если предлагать другим пользователям фрагменты кода и никогда не сообщать им, кто создал код, который они используют.

Баттерик опасается, что по прошествии достаточного времени Copilot приведёт к упадку сообщества Open Source, и, как следствие, снизится качество кода в обучающих данных самой системы, которая не создаёт код самостоятельно.

Представитель GitHub пояснил изданию Bleeping Computer по этому иску, что компания с самого начала стремилась к ответственному внедрению инноваций с Copilot и будем продолжать развивать продукт, чтобы он ещё лучше служил разработчикам по всему миру.

29 июня Microsoft и GitHub 2021 года представили инструмент для помощи программистам Copilot, работающий на базе OpenAI Codex. Решение OpenAI Codex генерирует код значительно более эффективно, чем GPT-3. Алгоритм обучали на датасете из терабайтов общедоступного кода. Copilot вышел в виде плагина редактора Microsoft Visual Studio Code и функции браузерного редактора кода GitHub Codespaces после регистрации в программе тестирования технического превью сервиса. Microsoft пояснила, что целью Copilot является упрощение жизни и повышение эффективности работы авторов программ.

В начале июля прошлого года разработчики стали жаловаться, что Copilot вместо нескольких строк нужного кода генерирует десятки строк с цитатами и комментариями из проектов с открытым исходным кодом. GitHub уточнила, что Copilot обычно не воспроизводит точные фрагменты кода, а создает производные работы из ранее полученных входных данных. Компания привела статистику, что это происходит лишь в 0,1% случаев.

После этого GitHub призналась, что при обучении Copilot разработчики использовали весь доступный в репозиториях сервиса публичный код без учёта типа лицензии.

В начале августе 2021 года Фонд свободного программного обеспечения (FSF) объявил о проведении исследований этических и законных вопросов работы нейросетевого помощника программиста Copilot от GitHub и Microsoft. С точки зрения FSF, сервис Copilot в его нынешнем виде неприемлем и несправедлив, так как для его использования нужна Microsoft Visual Studio или ее части кода, а этот проект не является открытым и бесплатным. Фонд СПО не знает, какой лицензией была защищена нейросеть, обученная Copilot и не понимает до конца, кому принадлежат авторские права на новый код, написанный с помощью помощника программиста, используя код из открытых репозиториев.

В конце августе специалисты инженерной школы Тандона Нью-Йоркского университета проверили работу Copilot на GitHub с точки зрения безопасности. Они обнаружили, что примерно в 40% случаев код, сгенерированный этим сервисом, содержит ошибки или уязвимости.

В сентябре разработчики обнаружили в базе GitHub Copilot 1170 стоп-слов, которые он блокирует при формировании кода. Среди них присутствуют такие слова, как «коммунист», «либерал», «Палестина», «Израиль» и «социалист».

В конце октября GitHub Copilot стал доступен для работы с JetBrains (в IDE IntelliJ и PyCharm) и в редакторе кода Neovim. Ранее данный инструмент вышел в виде плагина редактора Microsoft Visual Studio Code и функции браузерного редактора кода GitHub Codespaces.

GitHub в конце прошлого года объявил о поддержке Copilot многострочного дополнения кода на таких языках, как Java, C, C++ и C#. Многострочная поддержка означает, что этот инструмент может генерировать сразу несколько строк кода самостоятельно. Copilot также стал поддерживать такие языки программирования, как Python, JavaScript, TypeScript, Ruby и Go.

В конце марта 2022 года GitHub Copilot стал доступен в виде дополнения для Visual Studio 2022.

В июне GitHub сообщила, что Copilot стал доступен всем разработчикам по подписке. Бесплатно сервисом могут пользоваться только студенты и разработчики популярных проектов с открытым исходным кодом. Компания предлагает два варианта подписки: 10 долларов в месяц или 100 долларов в год. При этом можно протестировать сервис, оформив пробный период на два месяца. Студенты могут получить доступ к Copilot в виде части пакета GitHub Student Pack, а разработчикам популярных проектов с открытым исходным кодом требуется отправить запрос и GitHub предоставит инструмент бесплатно.

В начале июля некоммерческая организация Software Freedom Conservancy, предоставляющая поддержку и юридические услуги для разработчиков ПО с открытым исходным кодом, призвала сообщество отказаться от GitHub после запуска коммерческой версии Copilot. Для обучения разработчики использовали весь доступный в репозиториях сервиса публичный код без учёта типа лицензии. Если инструмент взял код одного проекта и предложил его автору другого проекта, суд может оценить это как нарушение авторских прав, особенно в случае получения дохода при помощи чужого кода.

© Habrahabr.ru