Foundational models, или как scaling приведет к AGI
В deep learning за последние 10 лет произошла революция. В этом посте расскажем, почему это важно знать всем, на визуальных примерах, и рассмотрим перспективы на ресерч и внедрение моделей искусственного интеллекта, учитывающие социальный импакт моделей.
В области стратегических игр значимый результат был получен в 2016–2017 году, когда модель меньше чем за 3 дня обучения смогла дойти до уровня чемпиона мира в игре go.
Модель обучалась играя сама с собой и за 3 дня достигла superhuman уровня.
Языковая модель gpt-3.5 показала результаты лучше половины экзаменуемых на большой части экзаменационных тестов. gpt-4 смогла улучшить результаты на тестах, например AP Calculus, с которыми gpt-3.5 справлялась хуже всех экзаменуемых.
Сравнение применения языковых моделей к решению экзаменационных тестов.
Основной буст моделей искусственного интеллекта произошел благодаря увеличению вычислительных ресурсов и количеству используемых для обучения данных. На примерах ниже представлено, как влияет увеличение размера модели для генерации изображений на качество результата.
Промт: A map of the United States made out of sushi. It is on a table next to a glass of red wine.
Промт: A portrait photo of a kangaroo wearing an orange hoodie and blue sunglasses standing on the grass in front of the Sydney Opera House holding a sign on the chest that says Welcome Friends!
Foundational models
Deep learning получил развитие благодаря большим датасетам, развитию gpu.
Foundational models появились из deep learning благодаря transfer learning между датасетами, и scale через увеличение датасетов и еще большему развитию gpu. Multi-gpu обучение для трансформеров и увеличение датасетов позволило появиться более точному и расширенному внутреннему представлению данных в моделях, а также за последние несколько лет в 10 раз увеличилась пропускная способность и память в gpu.
Как тренируются foundational models — сначала используется self-supervised learning, чтобы создать представление данных, затем с помощью transfer learning модель адаптируется под определенную задачу с меньшим датасетом.
Эти модели имеют потенциал социального импакта, поэтому давайте разберемся в экосистеме, частью которой они являются.
На картинке выше показана экосистема, включающая в себя сбор данных, их обработку для моделей, обучение моделей, адаптацию под определенные задачи, создание приложений на основе моделей.
Данные для обучения — это ресурсы, созданные людьми. Приложения, созданные на основе моделей, также для использования людьми. Поэтому важнейшие элементы безопасности — это курация датасетов и исследование адаптации под разные задачи.
Читателю на размышление — какие механизмы курации уже применяются в gpt-4 и других больших языковых моделях?