Названы любимые слова нейросетей02.07.2024 17:30

Источник: Freepik

Нейросети при создании текстов предпочитают использовать слова, которые не слишком часто используются в материалах, написанных людьми. Это выяснили ученые из Тюбингенского университета в Германии и Северо-Западного университета в США. Они проанализировали огромное количество данных и нашли слова, которые особенно любят ИИ-модели.

Последние несколько лет нейросети стали популярным инструментом для написания текстов и их редактирования. Исследователи решили выяснить, есть ли какие-то слова, которые чаще встречаются в работах, созданных ИИ-моделями, по сравнению с материалами, написанными людьми. Для этого ученые изучили 14 млн статей, которые опубликовали в текстовой базе данных биомедицинских публикаций PubMed с 2010 по 2024 год.

Авторы исследования проверили, как меняется частота использования различных слов на протяжении 14 лет. Затем они сравнили, как изменилась статистика за последние два года, когда нейросети стали особенно популярными. Оказалось, что употребление некоторых слов значительно выросло с начала 2023 года. Одним из таких «хитов» стало delves, что в переводе с английского означает «копается» или «углубляется». Количество статей, в которых употребляется слово, выросло в 25 раз по сравнению с ожидаемым показателем на основе данных за предыдущую дюжину лет. В девять раз увеличилось число публикаций со словами showcasing («демонстрирует») и underscores («подчеркивает»). Среди других популярных вариантов — potential («потенциальный), findings («выводы») и crucial («решающий»).

Статистика употребления словИсточник: Arxiv

Ученые отметили, что естественная эволюция языка меняет популярность слов. Однако до появления чат-ботов статистика внезапно менялась только из-за мировых событий, связанных с медициной. Например, в 2015 году выросла популярность слова «Эбола», связанного с одноименным вирусом. А с 2020 года в повседневную жизнь вошли термины «коронавирус», «изоляция» и «пандемия». Из-за нейросетей в основном ситуация повлияла на слова, в том числе прилагательные, которые придают окраску. Среди подобных вариантов — notably («особенно») и particularly («в частности»). Исследователи предположили, что примерно 10% статей в PubMed, опубликованных после 2022 года, созданы при участии нейросетей. При этом «ИИ-слова» встречаются в 15% материалах, написанных в Китае, Южной Корее и ряде других стран. Ученые считают, что такие авторы используют нейросети, чтобы редактировать публикации на неродном для них английском языке.

Недавно в России появился бесплатный сервис, который поможет выяснить, сгенерирован ли текст или его написал человек. Сделать это можно с помощью алгоритмов GigaCheck.