Генерация программы из описания на естественном языке

f63c87e905664ecfaa616d7c5317d392.png
Китайские ученые опубликовали исследование, которое является небольшим шажком к тому, чтобы ушла в небытие еще одна человеческая специальность — разработчик программного обеспечения. Ссылки: оригинал статьи (русский перевод).

Авторы исследования тренировали RNN-сеть, используя базу с короткими программами, которые писались студентами и были определены как валидные (путем запуска системой проверки заданий). Описания заданий были сокращены до такого: «найти максимальное и следующее за ним по величине число».

В результате был сгенерирован следующий код (стиль отступов и пунктуация «автора» сохранены без изменений):
eb716219cdb744a0971099cbed5ffedf.png
Он содержит 4 ошибки, после исправления которых программа стала решать поставленную задачу.

Важно, что сгенерированный код не содержал в чистом виде ни одного из исходных примеров. В противном случае, пришлось бы признать, что таким извращенным способом удалось написать обычную систему поиска по базе кода. С помощью ccfinder были найдены наиболее близкие примеры из обучающей выборки (более 500 образцов исходного кода):

19f0c54ce31f4677b991295f05cf0624.pngb7694614831a4a9c9a2803c39d7ba136.png

Из первого примера взята структура, из второго — наименования идентификаторов.

Интересно, что сеть сама определила синонимичность конструкций «i

Также, следует учесть, что никто не обучал специально RNN синтаксису языка C — все правила она вывела самостоятельно на основе примеров начинающих программистов.

Конечно, данный пример очень прост, но он показывает способность RNN-сетей к обобщению кода и переводу не только между естественными языками. Исследователи называют срок «ближайшие десятилетия» как время, когда компьютер будет писать программу на основании описания на естественном языке. Да, срок очень расплывчатый с учетом того, что это время того же порядка, что и все время жизни отрасли.

© Geektimes