OpenAI удалось более чем вдвое снизить стоимость работы ИИ без новых чипов
Инженеры OpenAI нашли способ более чем вдвое сократить затраты на выполнение запросов к искусственному интеллекту без использования нового оборудования. Как сообщает издание The Information, после внедрения новой системы оптимизации для части пользователей ChatGPT количество необходимых графических процессоров Nvidia в отдельные периоды удалось снизить до нескольких сотен — показатель, который источники называют неожиданно низким для сервиса такого масштаба.
Речь идёт об оптимизации инференса — процесса непосредственного выполнения запросов пользователей уже обученной моделью. Именно инференс сегодня является крупнейшей статьёй расходов для компаний, развивающих генеративный искусственный интеллект. В отличие от обучения модели, которое проводится ограниченное число раз, инференс требует вычислительных ресурсов для каждого отдельного диалога, ответа, API-запроса или действия ИИ-агента.
По данным The Information, разработанное OpenAI решение было применено для обслуживания пользователей ChatGPT, которые пользуются сервисом без регистрации или подписки. В результате число задействованных графических ускорителей Nvidia в некоторые моменты времени сократилось до нескольких сотен. Если эти данные подтвердятся и технология окажется масштабируемой, то это может существенно изменить экономику эксплуатации крупных языковых моделей.
Изображение сгенерировано: Nano BananaПри этом детали самой технологии не раскрываются. Источники утверждают лишь, что повышение эффективности было достигнуто за счёт более рационального использования уже существующей серверной инфраструктуры, а не путём установки дополнительных ускорителей. Это может означать оптимизацию распределения запросов, более эффективное использование памяти, улучшение пакетной обработки данных или другие программные методы повышения производительности, однако OpenAI официально не комментировала используемые подходы.
Эксперты отмечают, что именно программные методы оптимизации сегодня становятся одним из ключевых факторов конкурентоспособности разработчиков ИИ. На фоне глобального дефицита высокопроизводительных ускорителей и миллиардных инвестиций в строительство новых центров обработки данных возможность существенно снизить вычислительные затраты без закупки дополнительного оборудования приобретает стратегическое значение.
Пока остаётся неизвестным, распространяется ли новая технология на платных клиентов OpenAI, корпоративных пользователей и наиболее сложные рассуждающие модели компании. От ответа на этот вопрос зависит, является ли речь о локальной оптимизации для определённого типа нагрузки или о фундаментальном изменении подхода к эксплуатации больших языковых моделей.
Если подобное снижение стоимости инференса действительно окажется универсальным, то у OpenAI появится сразу несколько стратегических возможностей: расширить бесплатный доступ к сервисам, снизить цены для клиентов или существенно увеличить объём вычислений для ИИ-агентов без дополнительного наращивания аппаратной инфраструктуры.
На фоне продолжающейся гонки за вычислительными мощностями и строительства новых фабрик по производству полупроводников подобные программные оптимизации могут оказаться не менее важными, чем создание более производительных чипов. В этом случае борьба за лидерство в сфере искусственного интеллекта будет определяться не только количеством графических процессоров, но и эффективностью их использования.
© iXBT
