В Facebook показали, как приблизить компьютерное зрение к «здравому смыслу»01.05.2021 19:48

Последнее исследование Facebook демонстрирует, как сократить число узких мест в данных, применяемых при машинном обучении, чтобы добавить системам на ИИ «здравого смысла». Исследовательское подразделение компании в области искусственного интеллекта уже много лет разрабатывает так называемое «полуконтролируемое обучение».

Обычно тренировка ИИ предполагает, что система машинного обучения учится составить алгоритм для автоматизации процесса распознавания. При этом требуется набор помеченных данных определенного объема, который масштабируется линейно.

Полуконтролируемое обучение, связанное с «неконтролируемым», включает в себя определение важных частей набора данных без помеченных изображений. Например, системе показывают тысячу предложений для изучения, а затем — еще 10, в которых отсутствует несколько слов. Система, вероятно, сможет заполнить пробелы. Однако, то, что работает с текстом, не так легко реализовать в случае с изображениями и видео.

Но исследователи Facebook показали, что это возможно. Система DINO («Распространение знаний без ярлыков») способна учиться находить интересующие объекты на видео с людьми, животными и предметами без каких-либо помеченных данных.

Она делает это, рассматривая видео не как последовательность изображений, которые нужно анализировать одно за другим по порядку, а как сложный, взаимосвязанный набор. Обращая внимание на структуру видео, она может определить, что «объект этой формы движется слева направо». Эта информация затем используется, чтобы различить объект, когда он перекрывается другим изображением.

Этот график показывает точность классификации k-NN для различных моделей

Такая система становится более понятной и объяснимой. Например, хотя ИИ, обученный с помощью 500 изображений собак и 500 изображений кошек, распознает оба изображения, он на самом деле не имеет никакого представления о том, что они похожи. Но DINO понимает, что они визуально похожи друг на друга, в любом случае больше, чем на автомобили. Собаки и кошки для этой системы «ближе», чем собаки и горы.

На этом графике показана эффективность распознавания почти повторяющихся изображений, взятых из набора данных Flickr 100M. Красные и зеленые квадраты указывают на ложные и истинные срабатывания соответственно. DINO превосходит два базовых уровня: Vision Transformer, обученный в ImageNet, и MultiGrain

Существует также смежный исследовательский проект, метод обучения под названием PAWS, который еще больше снижает потребность в маркированных данных.

Графическое описание PAWS

PAWS сочетает в себе некоторые идеи полууправляемого обучения с более традиционным контролируемым методом, существенно ускоряя обучение.

Ранее Facebook AI представила открытый исходный код первого набора данных, предназначенного для выявления предубеждений по возрасту, полу и цвету кожи в моделях компьютерного зрения и машинного обучения.

Кроме того, Facebook показала модель машинного зрения SEER, которая обучена с помощью миллиарда общедоступных изображений из Instagram. Компания утверждает, что SEER научилась определять объекты, анализируя случайные изображения. В Facebook надеются, что она станет шагом для разработки моделей с «интеллектом человеческого уровня».