Видео: нейросеть описывает прогулку по Амстердаму

Американский артист продемонстрировал возможности нейросети NeuroTalk, описывающей сцены видео в режиме реального времени. Система делала ошибки, исправляла себя, но иногда правильно рассказывала о происходящем. «Мужчина держит сосиску в булочке с горчицей и кетчупом», «ножницы сидят на столе рядом с кошельком» и «вид поезда из окна поезда» — на видео под катом.

8cdd5744867e4e5090d08462bdbf482a.png
В последние несколько лет компьютеры неплохо научились распознавать объекты на изображениях, будь то лица, животные или мебель. Нейросети, способные со временем обучаться, могут описывать сложные сцены. Из видео, снятого американским артистом и программистом Кайлом Макдоналдом, понятно, что системы далеки от стопроцентной точности. Макдоналд модифицировал нейросеть, разработанную исследователями из Стэнфорда и Google, чтобы анализировать видео, снятое на веб-камеру на улицах Амстердама.

Артист использовал открытое программное обеспечение NeuralTalk. Оно способно описывать сцены в режиме реального времени. Программа делает ошибки, иногда поправляет себя. Иногда подобные системы относят к искусственному интеллекту, но делают это с натяжкой: описывая изображения и видео, ПО не понимает, что на картинке — оно просто ищет связи между объектами.

Над похожей системой работает Facebook. Компания разрабатывает систему, которая распознаёт объекты и людей на фотографиях, в том числе — чтобы сделать социальную сеть доступнее для людей с ограниченными возможностями. Об анализе видео Facebook пока не вела речь, но можно предположить, что компания рассматривает эту идею для интеллектуальной настройки ленты новостей.

2451f8603a9d601e9c3a54c270d688f6.png
С помощью таких фотографий разработчики Facebook обучают систему распознавать породу собак

© Geektimes