Google обучает ИИ писать статьи в стиле Википедии

790b3205aff84e0c38d004286dae843b.jpg

Корпорация Google уже давно работает в сфере искусственного интеллекта. Все это нужно компании как для личных нужд (улучшение работы самых разных сервисов), так и для предоставления новых возможностей своим клиентам. Сейчас Google анонсировал новую функцию своего ИИ, которого обучили «читать» самые разные тексты и формировать по итогам прочитанного статьи в стиле Википедии.

ИИ берет материалы из интернета, и анализирует их, после чего создает нечто вроде резюме. По результатам своей работы сотрудники корпорации написали статью с указанием многих технических моментов. Основная мысль этой статьи — анализ прочитанного является весьма сложной задачей для машины. Перед Google аналогичную задачу пытались выполнить другие компании, но у них так ничего и не вышло — большинство схожих проектов потерпели неудачу.
Но есть и те, кому это удалось. Например, компания Salesforce смогла обучить свою нейронную сеть собирать информацию и анализировать ее по заданному алгоритму. Это нечто схожее с тем, что было выполнено Google, результаты также доступны в виде статьи. Результат можно назвать удовлетворительным — с общей задачей нейронная сеть справлялась, но вот текст, генерируемый компьютером, был не слишком хорош. Предложения, по большей части, были простые и короткие.

Также компьютеру было сложно выдерживать смысловую структуру контента, с чем без особого труда справляется человек. Что касается Google, то у этой компании получилось немного лучше. Предложения, которые выдает компьютер, более длинные, чем у SalesForce и выглядят более естественными. Пока что машина может работать лишь с англоязычными текстами. Ниже показан пример с двумя разными заметками. Слева — та, что написана человеком. Справа — «машинописный» материал, информацию для которого нейросеть искала на разных ресурсах.

e7911cf5fe973d9bc3d2e40e7379963c.jpg

Текст, который пишет компьютер, несколько тяжеловато читается из-за, например, отсутствия заглавных букв в начале новых предложений. Кроме того, большинство предложений несколько тяжеловесны. Тем не менее, в общем этот текст читается неплохо. В данном конкретном случае в финальный вариант попала не вся важная информация из исходника, так что сам пример нельзя считать очень уж показательным. Тем не менее, понятно, что нейросеть действительно способна на многое — на текущий момент это лучший вариант того, что может выдать компьютер после анализа оригинального текста.

Система ищет информацию по заданной теме на разных сайтах и формирует список из десяти наиболее актуальных страниц, где содержатся необходимые данные. По итогу формируется цельная статья со ссылками — примерно того же формата, что и у Википедии. Кстати, система, созданная Google, самообучается, так что каждая прочитанная и созданная страница помогает компьютеру совершенствоваться.

Кстати, компьютер намеренно сокращает длинные предложения, чтобы было еще более похоже на стиль, принятый для статей электронной энциклопедии Wikipedia. Таким образом, компьютер не пишет все сам — он лишь формирует собственные предложения, сокращая исходные, из которых можно выбросить часть слов, не искажая при этом смысл прочитанного материала.

Процесс нельзя назвать слишком быстрым, но результат при этом вполне приемлем. По мнению специалистов, которые формировали алгоритм, во всем этом проекте «бутылочным горлышком» является выделение отдельных фрагментов текста для формирования новой статьи. Вся эта работа выполняется не слишком быстро, поэтому алгоритму есть, куда расти, совершенствоваться. Представители корпорации заявили, что сейчас программное и аппаратное обеспечение для такой работы не слишком совершенны, поэтому компания планирует совершенствовать свою технологию и дальше.

Основной недостаток текущей системы — то, что страницы с информацией для написания статьи по теме компьютер берет, исходя из их популярности (посещения, время прочтения и т.п.). И если информация, размещенная на одной из страниц, не слишком точная, то и резюме, которое создает компьютер, тоже будет содержать ошибки и неточности. Тем не менее, компания надеется на то, что уже в ближайшее время сможет показать еще более совершенный процесс формирования текстов.

© Geektimes