Генераторы литературного контента на рынке финансовой информации

ba0d27d74a4cd4a444b0b4dad5d99140.jpg

Появление промышленных генераторов литературного контента (ГЛК) связано с успехами в создании алгоритмов синтеза и обработки текстовой информации на основе методов ИИ. После многих десятилетий научных исследований, в начале 2010-х гг. почти одновременно несколько конкурирующих исследовательских групп вывели на рынок свои первые промышленные системы ГЛК. Сегодня же использование роботов в финансовой журналистике уже никого не удивляет.

Одним из лидеров в этом секторе является американская компания Narrative Science (см. на ХАБРе за 2011 г.). Её первый коммерчески успешный ГЛК получил название Quill. Сама компания была создана в 2010 г. в рамках эксперимента Северо-Западного университета (США) по машинной трансформации отчетов о бейсбольных матчах в статьи традиционного формата, привычные для спортивной прессы. В 2011 г. ей удалось привлечь первые $6 млн. инвестиций для изучения технологий машинного написания статей. В 2013 г. привлекли еще $11,5 млн. на продолжение работ. В 2017 г. программные версии Quill уже были способны генерировать новостные статьи, финансовые отчеты компаний и даже заголовки статей без участия человека.

В 2020 г. году компания вывела на рынок новый продукт под названием Lexio. Любопытно, что если Quill превращал данные пользователя в «Ваш любимый дэшборд», то Lexio, наоборот,»…больше не заставит Вас продираться через дэшборды и вникать в таблицы». Это связано с тем, что, как выяснилось, дэшборды уже порядком поднадоели клиентам, и они хотят читать обычный «человеческий» текст. Оба продукта пользуются популярностью, т.к. их производительность многократно превышает возможности человека.

Narrative Science предоставляет свои ГЛК в аренду главным образом корпоративным клиентам, которым необходимо генерировать финансовые отчеты объемом 10–15 страниц на основе актуальной информации. Как правило, подготовка такого отчета человеком-специалистом занимает 2–3 недели. Производительность Quill и Lexio, при прочих очевидных преимуществах, составляет миллионы слов в день. Постоянными клиентами Narrative Science являются Forbes, Credit Suisse, Groupon, T. Rowe Price, ASAA и еще около 70 компаний.

Стоимость генерации текста с помощью продуктов Narrative Science зависит от типа статьи, который, в свою очередь, базируется на интерпретации конкретного набора данных. Компанией получено 45 патентов США на изобретения систем и методов ГЛК, и еще 45 патентных заявок находятся в стадии рассмотрения. Основная часть НИОКР была выполнена при грантовой поддержке Национального научного фонда США.

Следующая технология, которую разработала для себя компания Washington Post, получила название Heliograf. За последние годы опубликованы десятки тысяч статей, написанных с помощью этого ГЛК. Heliograf способен генерировать новостные, финансовые и подобные им отчеты, и даже посты для социальных медиа. Услуги по использованию технологии Heliograf компания Washington Post предоставляет через специализированную платформу Arc Publishing. Руководитель информационного подразделения компании сообщил в прессе, что доходность от использования Heliograf в годовом исчислении составляет (умопомрачительные) 60% — 80%.

Еще одну технологию Wordsmith (в буквальном переводе — «словесная кузница»), созданную компанией Automated Insight, успешно осваивает The Associated Press (АР) — одна из старейших новостных сетей США. По сообщениям самой АР, производительность Wordsmith также является очень высокой. Тем не менее, этот генератор пока не может работать в полностью автономном режиме. Для получения нужного результата оператор должен:

— ввести исходные данные в программу и задать ей несколько информационных «опорных точек»;

— составить (или выбрать готовый) шаблон статьи;

— проверить и отредактировать предварительный вариант вёрстки текста;

— прямо из приложения отправить статью в публикацию.

Таким образом, оператор, по сути, должен создать свои правила, шаблон статьи и некоторые опорные точки. В результате такой полу-ручной работы удается получить довольно высокое качество текста. Приложение Wordsmith способно работать на двадцати языках и продолжает быстро развиваться. Инвесторами компании Automated Insight стали крупные игроки рынка, включая Microsoft, Yahoo!, Samsung, Comcast, и другие.

Стоимость программного обеспечения ГЛК в среднем пока достаточно высока. Однако с выходом на рынок множества конкурентных разработок цены на такие продукты неизбежно снижаются. Судя по темпам внедрения научных разработок в этой сфере, в скором времени ГЛК бут доступны в такой же степени, как современные текстовые редакторы MS Office или Adobe Acrobat.

Прочие крупные игроки рынка финансовой информации также раскрыли сведения об использовании роботов. В частности, оказалось, что уже почти треть публикаций медиагиганта Bloomberg News готовится с использованием собственной системы ИИ, получившей название Cyborg. Так же, как Wordsmith, эта система используется репортерами при подготовке тысяч корпоративных финансовых отчетов, помогая Bloomberg News в нелегкой конкурентной борьбе с агентством Reuters, а также с новыми участниками информационной гонки — продвинутыми хедж-фондами, которые также используют системы на базе ИИ для поставки свежих новостей и аналитики своим клиентам.

Наконец, компания Forbes недавно сообщила, что тестирует собственную систему Bertie, которая помогает журналистам с написанием черновых вариантов и шаблонов статей.

Влияние ГЛК на фондовый рынок

Количественная оценка степени воздействия ГЛК на фондовый рынок представляет большой научный интерес. Собственно, как таковой, эффект этого воздействия был обнаружен после того, как с помощью ГЛК была кратно увеличен охват финансовой аналитикой компаний, которым до появления ГЛК банально не хватало внимания бизнес-прессы. Например, одна только новостная сеть AP, используя программную платформу Wordsmith, увеличила покрытие с 370 обычно публикуемых квартальных отчетов достаточно крупных фирм, до 4 тыс. отчетов, включая прочие фирмы среднего и малого бизнеса. Естественно, что это произошло не мгновенно — процесс расширения покрытия продолжался поэтапно с начала 2014 г. до конца 2015 г. Кроме этого важно, что в сети АР все статьи синхронно перепечатываются множеством партнеров, что существенно усиливает эффект их публикации.

Безусловно, все эти фирмы не были новыми, но детальная информация о результатах их деятельности, наконец, попала в руки инвесторов, биржевых аналитиков и консультантов, которые раньше не имели ее перед глазами в нужное время и в нужном объеме. В итоге, как подтвердили углубленные статистические исследования, ценные бумаги фирм, получивших с помощью ГЛК доступ в бизнес-прессу, значительно улучшили биржевые показатели ликвидности и объемов торговли.

Нельзя не отметить, что ранее проводились подобные исследования степени влияния обычных средств массовой информации, включая бизнес-прессу, на поведение инвесторов и фондовый рынок [1]. Также проводились исследования отдельных аспектов такого воздействия, например, влияние на быстроту раскрытия цены бумаг [2].

Для исследования влияния ГЛК были специально отобраны 2268 публичных фирм, которые до 2014 г. вообще не фигурировали в регулярной бизнес-прессе [3]. Авторы исследования выдвинули гипотезу о том, что медиа покрытие должно увеличить объемы торговли ценными бумагами (оборот) как за счет дополнительного привлечения внимания инвесторов, так и за счет снижения издержек на обработку информации. Идея здесь заключалась в том, что самостоятельное извлечение информации слишком трудоемко, поэтому массовый инвестор не идет на такие затраты и работает с узким кругом известных ему ценных бумаг. Поэтому больший поток информации должен был привлечь больше внимания к бумагам фирм, попавших в выборку.

Оказалось, что объемы торговли ценными бумагами фирм выросли в среднем на 11%, что очень существенно для фондового рынка. Этот рост происходил монотонно в течение нескольких кварталов. В то же время внедрение ГЛК не отразилось, например, на показателе быстроты раскрытия цены бумаг. В целом же исследование позволило получить представление о возможностях применения технологий ИИ и автоматизации в информационном посредничестве. Кроме того, быстрое внедрение ГЛК позволило преодолеть определенный кризис в бизнес-прессе, вызванный ростом издержек (особенно на оплату труда журналистов-аналитиков) и снижением доходности в отрасли, что привело к уходу с рынка ряда агентств. В связи с этим авторами исследования сделан вывод об очень хороших перспективах дальнейшего совершенствования алгоритмов генерации, расширения их использования и повышения качества.

Безусловно, ГЛК пока не способны создавать концептуальные статьи, интервью, большие литературные формы. Их рыночная ниша — короткие тематические статьи и (преимущественно) отчеты — новостные, биржевые, корпоративные финансовые, спортивные. Такие тексты машина генерирует на основе тщательно структурированных и подготовленных особым образом данных. Основное преимущество автоматизации в этой сфере — высокая производительность, достигающая миллионов слов в сутки, отсутствие грамматических ошибок и плагиата.

ГЛК и интеллектуальная собственность

Результаты интеллектуальной деятельности, созданные компаниями-разработчиками ГЛК в процессе НИОКР, и генерируемые далее в процессе их коммерческого использования следует рассматривать с двух точек зрения:

Во-первых, в процессе НИОКР разработаны принципиально новые разновидности интеллектуальной собственности, которые компании называют шаблонами и/или динамическими шаблонами статей (Templates, Dynamic Templates). Эти объекты защищены патентами на изобретения, товарными знаками, авторскими правами (АП), свидетельствами ноу-хау и не подлежат передаче клиентам ни при каких обстоятельствах, даже в тех случаях, когда они были созданы с участием клиентов.

Во-вторых, в процессе коммерческого использования ГЛК создается большое количество текстовых литературных произведений (статей, отчетов), являющихся по формальным признакам классическими объектами АП. Тем не менее, права на эти объекты заранее и беспрепятственно передаются клиентам, а сами объекты могут в дальнейшем использоваться по усмотрению последних, в том числе в пользу третьих лиц.

Итак, использование технологий ГЛК на рынке финансовой информации довольно неожиданно (даже для своих создателей) показало очень высокую эффективность. Отметим, что эта эффективность сейчас вполне обоснованно оценивается без учета существенных затрат, «утопленных» в НИОКР. Такой подход дает сверхнизкие оценки текущих затрат на единицу генерации контента. В связи с этим можно заранее предположить, что ГЛК позволят обеспечить финансовой аналитикой (и другими услугами, например, в сфере маркетинга) любое количество компаний.

Литература:

1. Rogers J. L., Skinner D. J., Zechman S.L. The role of the media in disseminating insider-trading news // Review of Accounting Studies. 2016. Vol. 21. Pp. 711–739.

2. Tetlock P.C. Does public financial news resolve asymmetric information? // Review of Financial Studies. 2010. 23 (9). Pp. 3520–3557.

3. Blankespoor E., de Haan E., Zhu C. Capital market effects of media synthesis and dissemination: evidence from robo-journalism // Review of Accounting Studies. 2018. Vol. 23. Iss. 1. Pp. 1–36.

© Habrahabr.ru