[Перевод] Можно ли доверять GPT-4o конфиденциальные данные?25.09.2024 12:30

По словам эксперта, новая модель OpenAI — это «турбопылесос данных», но ее все же можно использовать, минимизировав риски.

13 мая компания OpenAI опубликовала новую модель ИИ GPT-4o. Она обладает невероятными возможностями и гораздо больше походит на человека: умеет решать уравнения, рассказывает сказки на ночь и, по заявлению компании, может определять эмоции по выражению лица.

OpenAI подчеркивает, что стремится сделать доступ к своим инструментам бесплатным для всех. Однако эксперты говорят, что вместе с расширением возможностей GPT-4o увеличился и объем данных, к которым компания может получить доступ. Это создает риски конфиденциальности для пользователей.

Репутацию OpenAI в вопросах защиты пользовательских данных сложно назвать безупречной. После запуска ChatGPT в 2020 году и публикации технической статьи выяснилось, что для создания генеративной текстовой системы ИИ был проведен скрейпинг миллионов страниц постов на Reddit, книг и веба в целом, — в том числе и персональных данных, которыми пользователи делятся онлайн. Из-за этого в прошлом году ChatGPT попал под временный запрет в Италии, обратив на себя внимание надзорных органов в сфере защиты данных.

Незадолго до запуска GPT-4o компания выпустила демо десктопного приложения ChatGPT для macOS, из которого стало понятно, что чат-бот сможет получать доступ к экрану пользователя. А в июле то же приложение снова подверглось нападкам: выяснилось, что из-за проблемы с безопасностью можно с легкостью находить сохраненные на компьютере чаты и читать их в незашифрованном виде.

OpenAI быстро выпустила обновление, шифрующее чаты, но учитывая текущую степень общественного внимания к компании и GPT-4o, легко понять, почему людей так беспокоит вопрос приватности.

Так насколько конфиденциальна новая итерация ChatGPT? Не хуже ли она в этом отношении предыдущих версий? И может ли пользователь ограничить ей доступ к данным?

Политика конфиденциальности OpenAI

Политика конфиденциальности OpenAI явно дает понять, что модель собирает большие объемы данных, в том числе личную информацию, данные об использовании и переданный ей контент. ChatGPT будет по умолчанию собирать все эти данные для обучения своих моделей, если вы не отключите соответствующую настройку в параметрах или не перейдете на корпоративную версию решения.

OpenAI заявляет в своей политике конфиденциальности, что личные данные пользователей «анонимизируются». Но по словам Энгуса Аллана, в действительности компания скорее исповедует принцип «сначала соберем все, до чего можно дотянуться, а потом уже будем разбираться». Энгус работает старшим менеджером по продуктам в консалтинговой фирме CreateFuture, помогающей компаниям в использовании ИИ и аналитики данных. «В политике конфиденциальности OpenAI четко говорится, что она собирает все, что вводит пользователь, и оставляет за собой право обучать на этих данных свои модели».

По мнению Аллана, широкое понятие «пользовательский контент», вероятно, включает в себя также изображения и голосовые данные. «Это настоящий турбопылесос данных, в политике все это прописано абсолютно четко. С выпуском GPT-4o в политика не претерпела существенных изменений, но учитывая расширенные возможности модели, объем того, что считается «пользовательским контентом», сильно увеличился».

В политиках конфиденциальности OpenAI проговаривается, что ChatGPT не имеет доступа к данным на устройстве пользователя, кроме тех, которые были введены в чате. Однако, по словам Жюля Лава, по умолчанию ChatGPT собирает множество данных о пользователе. Жюль — основатель Spark, консалтинговой фирмы, помогающей компаниям использовать инструменты ИИ в рабочих процессах. «Он использует все, от промтов и ответов до адресов электронной почты, телефонных номеров, данных геолокации, сетевой активности и информации об устройстве».

Open AI заявляет, что данные используются для обучения модели ИИ и совершенствования ее ответов, но условия политики позволяют компании передавать личную информацию пользователей связанным с ней организациям, поставщикам услуг и правоохранительным органам. «Поэтому трудно понять, где окажутся ваши данные», — считает Лав.

По словам дата-сайентиста Бхарата Тхота, собираемые Open AI данные включают в себя полные имена, учетные данные аккаунтов, информацию платежных карт и историю транзакций. «Личная информация тоже может храниться, в частности, если в составе промтов пользователь загружает изображения». Аналогично, если пользователь решит подключиться к страницам компании в таких соцсетях, как Facebook, LinkedIn и Instagram, то при передаче контактной информации также может собираться и личная информация».

Специалист по машинному обучению Джеффа Шварцентрубер отмечает, что OpenAI использует данные потребителей, но не продает рекламу. «Вместо рекламы компания предоставляет инструменты, а это важное различие. Введенные пользователем данные не используются напрямую как товар. Они применяются для совершенствования сервисов, что выгодно пользователю, но в то же время повышает ценность интеллектуальной собственности OpenAI».

Управление конфиденциальностью

Подвергшись критике и попав в скандалы по поводу нарушения конфиденциальности после запуска Chat GPT в 2020 году, OpenAI реализовала инструменты и способы управления, позволяющие защитить данные пользователей. OpenAI заявляет, что «стремится к защите конфиденциальности людей».

В частности, в случае ChatGPT OpenAI заявила, что понимает нежелание некоторых пользователей делиться своей информацией для совершенствования моделей, поэтому предоставляет им способы управления данными. «Пользователи ChatGPT Free и Plus в настройках могут с легкостью управлять тем, будут ли их данные вносить вклад в совершенствование моделей», — написано на сайте компании. Также там утверждается, что по умолчанию обучение не выполняется на данных пользователей API, ChatGPT Enterprise и ChatGPT Team.

«Мы предоставили пользователям ChatGPT различные способы управления конфиденциальностью, в том числе легкий способ отказаться от участия в обучении наших моделей ИИ и режим временного чата, автоматически удаляющий чаты», — рассказала WIRED представительница OpenAI Тая Кристиансон.

Компания заявила, что не собирает личную информацию для обучения своих моделей, а также не использует публичную информацию из интернета для создания профилей людей, таргетированной рекламы или для продажи пользовательских данных.

В FAQ о голосовых чатах на сайте OpenAI говорится, что аудиоклипы из голосовых чатов не применяются для обучения моделей, если только пользователь не выберет передавать звук для «улучшения голосовых чатов для всех пользователей».

«Если вы передаете нам аудио из голосовых чатов, мы будем использовать для обучения моделей» — написано в том же FAQ. Кроме того, в зависимости от выбора пользователя и тарифного плана модель также может обучаться на транскрибированных чатах.

В последние годы OpenAI «в определенной мере» повысила прозрачность сбора и использования данных, предоставив пользователям опции для управления параметрами конфиденциальности. Так утверждает Роб Кобли, коммерческий партнер юридической фирмы Harper James, предоставляющей услуги правового сопровождения в вопросах защиты данных. «Пользователи могут иметь доступ к своей личной информации, обновлять или удалять ее, что обеспечивает им контроль над этими данными».

Проще всего сохранить конфиденциальность данных, перейдя в личные настройки и отключив сбор данных.

Энгус Аллан рекомендует «практически всем» как можно быстрее потратить несколько минут на отказ от участия в обучении моделей. «Это не удалит ваши данные с платформы компании, но их нельзя будет использовать для обучения будущих моделей, в ходе которого может произойти утечка».

Чтобы отказаться от обучения моделей, нужно перейти в Settings, Data Controls и отключить Improve the model for everyone.

Еще один способ предотвратить сбор данных компанией OpenAI — пользоваться только временным чатом. Нажмите на ChatGPT в верхнем левом углу, а затем включите внизу списка Temporary Chat.

Однако отключение сбора данных ограничивает функциональность. Модель не будет помнить ничего из ваших предыдущих чатов, поэтому ответы будут менее точными и с меньшим количеством нюансов.

В веб-интерфейсе ChatGPT пользователи могут удалять свою историю чатов, добавлять персонализированную инструкцию, помогающую поддерживать конфиденциальность, управлять всеми передаваемыми ссылками, делать запросы на экспорт данных и удалять аккаунт. Для обеспечения дополнительной безопасности также можно добавить многофакторную аутентификацию и возможность выхода из аккаунта на всех устройствах.

При работе с ChatGPT вообще стоит почаще задумываться о безопасности своих данных. Например, при использовании Custom GPT вы можете невольно открыть доступ к своим конфиденциальным данным.

Также можно управлять данными при взаимодействии с чат-ботом, изначально выбирая, какой контент вы передаете ChatGPT-4o. По мнению экспертов, сложность заключается в поиске компромисса между обеспечением конфиденциальности и оптимизацией удобства работы. Если ограничить передачу данных при использовании ChatGPT, опыт взаимодействия с ИИ станет хуже: снизятся релевантность, точность и персонализация ответов, так как ИИ придется полагаться на более ограниченные и обобщенные алгоритмы.