Модель машинного зрения SEER от Facebook достигает точности в 84,2 % в ImageNet
Facebook создала модель машинного зрения, которая может «видеть» то, на что смотрит. Компания утверждает, что программа под названием SEER превзошла существующие модели искусственного интеллекта при прохождении теста ImageNet, который проверяет, может ли ИИ распознать, что находится на фото. Точность SEER составила 84,2%.
ИИ был обучен с помощью миллиарда общедоступных изображений из Instagram. Как пишут в Facebook, в то время как многие модели ИИ обучаются на тщательно отобранных датасетах, SEER научился определять объекты, анализируя случайные изображения в Instagram. В Facebook надеются, что SEER станет шагом для разработки моделей с «интеллектом человеческого уровня».
«Будущее ИИ заключается в создании систем, которые могут учиться непосредственно на основе любой информации, которую им предоставляют — будь то текст, изображения или другой тип данных, — не полагаясь на тщательно отобранные и помеченные наборы данных, — написали исследователи Facebook в своем блоге. — Эффективность SEER демонстрирует, что такой тип обучения может преуспеть в решении задач компьютерного зрения в реальных условиях. Это прорыв, который в конечном итоге открывает путь к более гибким, точным и адаптируемым моделям компьютерного зрения».
В Facebook заявляют, что потенциальные возможности применения SEER относительно широки. В частности, в компании надеются, что модель поможет более точно генерировать описания изображений для людей с нарушениями зрения. Ее также можно будет использовать для автоматического описания товаров и цензуры публикуемых на Facebook фото.
Что касается использования для обучения модели фото из Instagram, то, как отмечает Facebook, политика компании позволяет так делать.
«В нашей политике данных мы информируем владельцев аккаунтов Instagram о том, что мы используем имеющуюся у нас информацию для поддержки исследований и инноваций, в том числе для технологических достижений», — поясняют в Facebook AI Research.
В будущем исследователи рассчитывают обучить SEER распознаванию по видео и одновременному анализу изображения и текста.