Гуглеры научили компьютер описывать фотографии человеческим языком
Как говорится, одна картинка стоит тысячи слов, однако происходящее на этой самой картинке не обязательно описывать столь подробно — можно обойтись без фанатизма и дать краткое описание. Именно такому навыку «бездушную машину» решила обучить совместная команда ученых из Стенфордского университета и компании Google.
Исследователям удалось сделать, без преувеличения, важнейший шаг в области машинного обучения, искусственного интеллекта и, в частности, компьютерного зрения. Алгоритмы, созданные в «корпорации добра» активно используют в своей работе нейронные сети и способны не только распознавать предметы, классифицировать их и строить смысловые связи между объектами на совершенно незнакомой картинке, но и описывать все это обычным человеческим языком.
Two pizzas sitting on top of a stove top oven
Например, картинку, расположенную выше, система описала как «две пиццы, лежащие на поверхности плиты». А на изображении, расположенном ниже, алгоритмы распознали «группу людей, совершающих покупки на уличном рынке». Несмотря на кажущуюся тривиальность, решить такую задачу архисложно и за, казалось бы, простыми результатами стоит титаническая научная работа, сложнейшие системы ИИ и самые передовые технологии.
Потенциал у программной платформы гигантский, правда, широкое ее применение «прямо завтра» пока не планируется (что явно является лишь вопросом времени).
Создатели системы распознавания и описания образов на изображениях, говорят на данный момент лишь о помощи слабовидящим (которые смогут понять, что изображено на картинках, например, из статей в интернете) или об автоматическом снабжении картинок описаниями.
На данный момент встречаются огрехи, но с течением времени все исправимо
Ясно, что такое применение столь совершенного инструмента сродни пальбы из пушки по воробьям. И совершенно очевидно, что передовая разработка в ближайшем будущем будет решать намного более актуальные и глобальные задачи. (Отдельные фантазеры легко свяжут в уме данную новость и прошлогодние вести о покупке Google роботехнических компаний, одной из которых является Boston Dynamics).
Наверняка одним из первых применений технологии будет связано с поисковой системой Google. Например, она может быть интегрирована в поиск картинок, не имеющих правильных подписей — индексируемые изображения будут получать автоматическое описание и помогут улучшить релевантность поисковой выдачи.
A picture is worth a thousand (coherent) words: building a natural description of images — Posted by Google Research Scientists Oriol Vinyals, Alexander Toshev, Samy Bengio, and Dumitru Erhan «Two pizzas sitting on top of a stove top oven» «A group of people shopping at an outdoor market» «Best seats in the house» People can summarize a complex scene in a few words without thinking twice. It«s much more difficult for computers.
Tweet