В МТИ создали модель ИИ, которая распознает и изменяет состав пиццы
Исследователи Массачусетского технологического института нашли еще одно применение для технологий распознавания изображений. Разработанная ими модель PizzaGAN определяет набор ингредиентов в пицце по фотографии и вносит в нее коррективы, добавляя или убирая любые топпинги по запросу.
Конечная цель проекта — добиться того, чтобы искусственный интеллект считывал и воспроизводил кулинарные рецепты по изображению конечного результата. Для первых шагов к этой цели пицца — наилучший вариант: ее приготовление складывается из простых, четко разделенных шагов; при этом внешний вид блюда существенно меняется на каждом этапе.
Для обучения использовалось около 10 000 фотографий пиццы с популярными топпингами — пепперони, ветчина, грибы, оливки, зелень и другие. Изображения были аннотированными: для каждого прописывался точный набор ингредиентов. На базе этой информации модель научилась распознавать визуальный эффект, который дает добавление того или иного продукта. Кроме того, исследователи включили в набор входных данных изображения как сырой, так и выпеченной пиццы, чтобы продемонстрировать различие между этими двумя состояниями.
Работа с загруженным изображением происходит следующим образом: сначала дискриминатор распознает по фотографии текущий состав пиццы и фиксирует все ингредиенты. Набор «тесто, соус, сыр» считается базовым, все прочие добавки интерпретируются как переменные, для которых можно задавать значения наличия (1) или отсутствия (0). Определяется также порядок расположения топпингов, от нижних к верхним, и общее состояние — готовая или непропеченная.
Затем в дело вступает система генераторов, работающих с запросами на изменение списка ингредиентов (допустим, «Заменить пепперони на ветчину», «Добавить оливки» или «Показать эту пиццу выпеченной»). Каждый генератор отвечает за одну операцию — добавление или удаление конкретного продукта либо изменение состояния. Модель сравнивает состав, определенный дискриминатором, с заданными требованиями, находит расхождения в списке топпингов, разбивает процесс корректировки на последовательность операций и активирует нужные генераторы для редактирования фотографии. Исследователи оценивают сгенерированные изображения как «очень реалистичные».
Говоря о развитии проекта в будущем, авторы отмечают, что модель наверняка покажет хорошие результаты и с другими типами еды, где ингредиенты выкладываются слоями, например, гамбургерами или сэндвичами. Практическое применение PizzaGAN пока ограничено, однако специалисты отмечают, что подобные технологии набирают популярность как инструмент для контроля качества. Так, в сети Domino уже тестируется решение на основе компьютерного зрения, которое проверяет приготовленную пиццу на соответствие стандартам компании.