Меня скоро заменит AI. Почему это офигенно?

Привет! Я Настя, и вот уже более 10 лет я работаю с текстами. Сначала трудилась на литературной плантации в провинциальном агентстве, потом писала для свадебного журнала, после — создавала тексты акций для купонного портала. А потом попала в IT и понеслось… В этой статье хочу рассказать, где меня уже заменил искусственный интеллект, почему это круто и какие инструменты на основе AI стоит взять на вооружение всем уставшим от однообразной работы копирайтерам.

Одно из неоспоримых преимуществ работы в IT — возможность обкатать крутые продукты еще до того, как они попадут на рынок. Собственно, некоторое время назад, коллеги из NLP team SberDevices, те самые, которые наобучали целую подборку ruGPT-3 & family,   дали мне потрогать два AI-сервиса, призванных упростить жизнь всем пишущим — «Рерайтер» и «Суммаризатор». Ниже подробный отчет о том, для каких задач я применяла их в своей повседневной практике, какие испытания устраивала и что из этого получилось. А у самих ребят можно почитать про техническую сторону обучения моделей, поверьте, это очень интересно.

b48c1640ba1a3a26a90cdbb77245f8ab.png

Задача №1. Рерайт с сохранением оригинальности

Одна из самых распространенных задач в практике любого пишущего человека — «сделай мне то же самое, но другими словами». Цели могут быть разные — от повышения индексации в поисковой выдаче до попыток вписаться в представления о прекрасном какого-нибудь привередливого заказчика. Лет 7 назад вообще вся моя работа в этом и состояла: возьми текст акции, содержащий информацию о каких-нибудь услугах, и перепиши так, чтобы уникальность была не менее 70%. Что ж, посмотрим, годится ли «Рерайтер» для этой задачи, и сможет ли он заменить меня из 2014-го?

Берем абзац из старенького рекламного текста и скармливаем его в Swagger бесплатного демо Рерайтера (Swagger — это такой привычный и понятный UI-ный мостик к API).

d9398c92480faebecf44538528448548.png

В целом — неплохо: есть стилистические шероховатости, но смысл не искажен. Отдельно радует, что моделька предлагает несколько вариантов, на случай если основной не понравится… Осталось разобраться, куда делось последнее предложение. Я прогнала еще несколько текстов. По загадочному стечению обстоятельств все остальное Swagger ел на ура и выдавал в полном объеме,  хвост отбрасывал только этот текст.

Я уже было преисполнилась гордости за превосходство натурального интеллекта над искусственным, но вовремя включила «Отобразить все знаки» в Word. Оказалось, Swagger давился невидимым типографским символом. Убрала его — и все заработало. Пруф:

bf1954b102abbd0bf1432e20c6e74264.png

Посмотрим, как у нового текста обстоят дела с оригинальностью, для этого прогоняем его через любой сервис проверки, например, на text.ru, Advego или Content Watch:

07e2bb7496de7c6a05e9f21a54f61f36.png

Как видите, text.ru показывает 100% уникальности, Content Watch того же мнения:

8a2bc007a558e43d725d039f25557585.png

Уникальность сохранена, а это просто отлично. Теперь посмотрим, меняется ли качество рерайта, если увеличить объем текста. Предположим, нам нужно переделать объемную новость в лаконичный пост для соц.сети. Берем средней длины спортивную новость с РБК:

578de36d096ccd12db1e028c028da796.png

Вот здесь уже начинаются смысловые сложности: откуда-то образовалась неведомая «белорусская теннисистка». Я опробовала еще 5–7 вариантов в разных стилях и с разной длиной текста, но не буду утомлять вас тоннами скринов, перейдем сразу к вердикту.

Вывод: сервис годится для рерайта коротких рекламных сообщений, новостных заметок и описаний товаров при условии последующей редактуры.

Задача №2. Рерайт без потери смысла

При рерайте текстов со сложным синтаксисом важно сохранить не формальную структуру, а смысл и логику. Выясним как обстоят дела у «Рерайтера» с причинно-следственными связями при рерайте текстов из личных блогов и художественной литературы. Итак, беру текст из блога своей приятельницы. Суть его примерно следующая: она все эти годы оставалась в ВК и теперь с интересом наблюдает, как рекламодатели из Инсты пытаются осваивать прежде неведомые нивы. И несмотря на то, что функций для монетизации контента более чем достаточно, аудитория в соцсети другая и подход к ней нужен особый. Далее ссылки на то, где подучить матчасть. Смотрим, сохранился ли посыл:

0bc53af1faeed435777d1fc06a7ca6d9.pngab3061f19fb90afa64be1a0d947f4934.png

Как видим, текст превратился во что-то чуть более запутанное. Но и исходный текст, был, прямо скажем, непростой. Попробуем оценить, насколько уважительно обходится искусственный интеллект с классиками. В конце концов, на них учатся не только филологи и журналисты, но и нейронные сети. Возьмем отрывок из «Приглашения на казнь» Набокова, где герой рефлексирует о своей чуждости окружающему миру и мучится в поиске родственного ему разума:

«Он есть, мой сонный мир, его не может не быть, ибо должен же существовать образец, если существует корявая копия. Сонный, выпуклый, синий, он медленно обращается ко мне. Это как будто в пасмурный день валяешься на спине с закрытыми глазами, — и вдруг трогается темнота под веками, понемножку переходит в томную улыбку, а там и в горячее ощущение счастья, и знаешь: это выплыло из-за облаков солнце. Вот с такого ощущения начинается мой мир: постепенно яснеет дымчатый воздух, — и такая разлита в нем лучащаяся, дрожащая доброта, так расплавляется моя душа в родимой области. — Но дальше, дальше? — да, вот черта, за которой теряю власть… Слово, извлеченное на воздух, лопается, как лопаются в сетях те шарообразные рыбы, которые дышат и блистают только на темной, сдавленной глубине. Но я делаю последнее усилие, и вот, кажется, добыча есть, — о, лишь мгновенный облик добычи! Там — неподражаемой разумностью светится человеческий взгляд; там на воле гуляют умученные тут чудаки; там время складывается по желанию, как узорчатый ковер, складки которого можно так собрать, чтобы соприкоснулись любые два узора на нем, — и вновь раскладывается ковер, и живешь дальше, или будущую картину налагаешь на прошлую, без конца, без конца, — с ленивой, длительной пристальностью женщины, подбирающей кушак к платью, — и вот она плавно двинулась по направлению ко мне, мерно бодая бархат коленом, — все понявшая и мне понятная. — Там, там — оригинал тех садов, где мы тут бродили, скрывались; там все поражает своей чарующей очевидностью, простотой совершенного блага; там все потешает душу, все проникнуто той забавностью, которую знают дети; там сияет то зеркало, от которого иной раз сюда перескочит зайчик… И все это — не так, не совсем так, — и я путаюсь, топчусь, завираюсь, — и чем больше двигаюсь и шарю в воде, где ищу на песчаном дне мелькнувший блеск, тем мутнее вода, тем меньше вероятность, что найду, схвачу. Нет, я еще ничего не сказал или сказал только книжное…»

Вникнуть в набоковский синтаксис может не каждый естественный интеллект, не говоря уж об искусственном: двойные отрицания, сложные предложения, заковыристые метафоры, точки с запятой… Даже удивительно, что наш электронный друг выдает что-то связное, хоть и не без огрехов:

5e396947f4961c42f16f83a7f96c0df6.png

Вывод: у AI пока есть небольшие трудности с сохранением смысловой канвы внутри длинных и неоднозначных по смыслу текстов, поэтому для рерайта художественной литературы и блогов его стоит использовать с осторожностью. Впрочем, сервис самообучается и как знать: может уже через пару месяцев стараний (и страданий) пользователей мы получим рерайты с кристальным сохранением смысла.

Задача №3. Парафраз

Если вам в руки попадались шедевры авторства Дарьи Донцовой, то вы знаете, что они наполнены изощренными попытками избежать повторов. Вот, например фрагмент, содержащий тысяча и один способ сказать «диетический корм для собак»:

«Мопсиха Феня шумно вздохнула, встала с пола и умоляющим взором посмотрела на меня. Всем своим видом собака будто говорила: «Что, Лампа, капризные дети не желают лопать вкуснятину? Брось кашу в мою миску, я готова прийти тебе на помощь. Не пропадать же добру!»

Э нет, дорогая, заявила я, при таком весе следует воздерживаться от гастрономических оргазмов. Тебе, дочь оленя, куплены дорогие банки специального корма для тучных псов. Думаю, ты обязана сказать мне «спасибо»: несмотря на финансовые трудности, связанные с нашим переездом в новый дом, я тем не менее не поскупилась на твое лечебное питание. Кстати, почему еда, в которой, по заверениям производителей, нет ни жиров, ни белков, ни углеводов, стоит нереальных денег, а?»

Давайте узнаем, под силу ли искусственному интеллекту сравниться с литературным гением первой леди отечественного иронического детектива. Тем более, что для авторов это проблема насущная: иногда битый час уходит на поиски подходящей замены, например, слову «инфраструктура» или «система», итак:

a2559a6985eb93d62d3fc3129b127dd4.png

Шалость не удалась.

22b8bc39a9059439d3e1f621a2b94d94.png

Ну… допустим. Похоже, при скармливании слишком короткого текста, для сохранения уникальности сервис либо удлиняет предложение, либо заменяет на синонимы отдельные слова. Что же, попробуем скормить ему цензурированную цитату из фильма «Кровь и бетон» для проверки месседжей средней длины:

4f131fd0782e3fbb1194abaa385b9fd2.png

Еще несколько таких упражнений и вырисовывается вердикт.

Вывод: использовать сервис вместо словаря синонимов не получится, однако, на текстах средней длины он может выдавать удобоваримый результат.

Задача №4. Выжать «воду» из текста

Благодаря гуру редактуры всея Руси Максиму Ильяхову и его последователям сегодня почти каждый пишущий понимает: если твой текст не будет лаконичным, доступным и понятным — он не достигнет цели. Но, во-первых, в каждой редакции случаются досадные графоманские недоразумения, а во-вторых, и на старуху бывает проруха, поэтому самопроверку никто не отменял. Давайте же посмотрим на «Суммаризатор», который обещает нам убирать из текста лишнее.

6678c2791b093c3c124be743fde6d193.png

Не без шероховатостей, но смысл уловим. Хорошо было бы помечать в тексте куски, которые точно необходимо сохранить, чтобы они не попали под нож. Мне, например, понравился пассаж про помидорки в «Одноклассниках», а безжалостный AI его убрал.

Попробуем тот же фокус на художественной литературе. Но тут я должна оговориться: вода — это не всегда плохо. Вот, например, есть совершенно восхитительный Саша Соколов, бесконечные повторы и развернутые пояснения у него — часть авторского стиля и ключ к пониманию мира главного героя. Посмотрим, что «Суммаризатор» сочтет лишним в ряду того, что можно возить на тележке:

fd022d9927e0877a0dfee24532922af3.png

Только сено и напоминание о том, что тележка удобная. Я специально взяла этот пример, потому что в нем у нас есть несинонимичный ряд, выкидывать из которого что-то неправомерно. К счастью, машина это тоже понимает, а потому убрала только повторы. По-моему неплохо!

Вывод: Можно использовать для сокращения текстов, но с учетом редактуры. Еще можно писать краткие описания длинных текстов для экономии времени, поскольку сервис довольно неплохо вычленяет основную мысль, не меняя авторских выражений.

Как этим пользоваться?

Существует нужная, но ненавистная часть работы. Например, слепить из имеющихся заготовок контент для другого канала дистрибуции. Элементарный пример: есть согласованное-пересогласованное описание с лендинга. Для участия в мероприятии требуется вменяемый, но не идентичный текст в раздел «Об участнике»:

SberCloud (ООО «Облачные технологии») облачный провайдер услуг и сервисов по моделям IaaS и PaaS (IT-инфраструктура в аренду) для физических лиц, стартапов, малого, среднего, крупного бизнеса, государственных учреждений и корпораций. Предлагаем 50+ облачных сервисов для разработки приложений, виртуальный ЦОД, платформу для разработки machine learning полного цикла. Соответствие 152-ФЗ. SberCloud — разработчик суперкомпьютеров Christofari и Christofari Neo.

Запихиваем в «Суммаризатор», прогоняем через «Рерайт сервис», чуть-чуть сглаживаем явные огрехи и получаем:

SberCloud является облачным провайдером услуг и сервисов по модели IaaS и PaaS (IT-инфраструктура в аренду) для физических лиц, стартапов, малого, среднего, крупного бизнеса, государственных учреждений и корпораций. Предлагает более 50 облачных сервисов для разработки приложений, виртуальный ЦОД, платформу для ML-разработки и др. Соответствует 152-ФЗ. Разработчик суперкомпьютеров Christofari и Christofari Neo.

Это ленивый текст поразительно удовлетворительного качества. Дело в том, что обычно подобные сервисы плохо дружат с аббревиатурами, тем более, если часть из них на английском. Кроме того, здесь есть номер федерального закона, с ними тоже справляются не все генеративные модели.

Когда «нет времени объяснять» и «нужно еще вчера» такие сервисы могут прийти на помощь и оперативно выдать текст, хоть и не блистательный, но выполняющий свою функцию. Причем, создать такой текст может кто угодно, кто в курсе как меняются падежные окончания, не обязательно контент-маркетолог.

Иногда загрузка специалистов по контенту так велика, что тратить лишнее время на кое-какие задачи просто непростительно, ведь горит еще тысяча стратегически важных дел типа разработки контент-плана, написания статей и т.д.

Например, у нас есть анонс вебинара:

На вебинаре вы узнаете об особенностях обучения и инференса самых «понимающих» трансформенных моделей: ruGPT-3, ruBERT, ruT5, ruRoBERTa, ruCLIP, ruDALL-E. Спикеры продемонстрируют, как в два клика использовать обученные модели в DataHub ML Space и поделятся примерами рыночных кейсов. Вебинар будет полезен дата-сайентистам, менеджерам AI/ML-продуктов, разработчикам, DevOps-инженерам, архитекторам.

Вебинар прошел, нужно выложить его запись на YouTube и подсветить для залетных зрителей, о чем была речь. Проделываем те же манипуляции, добавляем имена спикеров, получаем сносный для публикации в инфобоксе текст:

Из вебинара вы узнаете об обучении и инференсе самых «понимающих» трансформенных моделей: ruGPT-3, ruBERT, ruT5, ruRoBERTa, ruCLIP, ruDALL-E. Татьяна Шаврина (AGI NLP Sber) и Вера Шибаева (SberCloud ML Space) демонстрируют, как использовать обученные модели в DataHub ML Space и делятся примерами рыночных кейсов. Вебинар поможет дата-сайентистам, менеджерам AI/ML-продуктов, создателям, DevOps-инженерам, архитекторам.

На данном этапе я пока не встречала нейросети, которые пишут лучше человека, но пока они отлично справляются с тем, чтобы автоматизировать monkey job и сберечь силы для задач, где действительно необходим креатив и изящество человеческого слога. Все желающие испытать сервисы SberDevices могут самостоятельно потыкать демо бета-версии «Суммаризатора» и «Рерайтера» с бесплатным доступом  в маркетплейсе AI Services. Это часть SberCloud ML Space — платформы полного цикла ML-разработки.

Если хочется такую штуку вшить себе в какое-нибудь веб- или мобайл-приложение, получите доступ к платформе ML Space для запуска промышленных версий сервисов и всей подборки ruGPT-3 & family (включая эксклюзивные ruDALL-E, ruGPT-3 и ruCLIP) на высокопроизводительной инфраструктуре SberCloud.

Ну, а я пошла кормить своего внутреннего ребенка, родителя и взрослого, визуальной и не только пищей для ума, во благо сохранения человеческой креативности. Ведь благодаря AI у меня теперь есть на это время.

Если интересно, в следующих статьях попробую рассказать о том, какие еще сервисы делают чуточку приятнее жизнь пишущих людей.

© Habrahabr.ru