«Яндекс» представил список слов, дающий представление о региональном разнообразии русского языка
В День русского языка 6 июня 2021 года аналитики компании «Яндекс» и эксперты Института русского языка имени Виктора Виноградова опубликовали список слов с их местным толкованием, который дает представление о региональном разнообразии русского языка.
«Яндекс» использовал данные из платформы «Яндекс.Дзен» для составления списка слов, которые используются только в определенных частях нашей страны. Сотрудники компании проанализировали статьи и комментарии шести миллионов пользователей «Яндекс.Дзен» с января 2019 года. Аналитики обработали 15 млн публикаций, 217 млн комментариев, 11 млрд словоупотреблений, которые сделали 6 млн пользователей. На выходе они составили список всех встретившихся в них слов.
«Яндекс» пояснил, что в итоговый список попали по 500 слов из каждого региона, «которые в том или ином регионе употребляют минимум в три раза больше пользователей, чем в среднем». Потом этот список слов и выражений изучили лингвисты из Института русского языка, отсеяли и отобрали самые интересные слова и выражения, исключив из списка топонимы, названия организаций, фамилии, ругательства и грубые слова, а также слова, обозначающие уникальные местные реалии. Каждому отобранному слову или выражению лингвисты дали подробное определение.
Вдобавок «Яндекс» открыл доступ к полному списку слов и выражений, которые компания получила в результате этой разметки — набор данных RussianLocalWordsDataset.
Примечательно, что для некоторых регионов страны характерных слов не нашлось — они не представлены в списке. «Яндекс» предположил, что это связано с темами, которые выбирают местные авторы, или в регионе просто мало интернет-пользователей, а соответственно, и данных. Список этих регионов: Еврейская автономная область, Кабардино-Балкарская Республика, Карачаево-Черкесская Республика, Магаданская область, Ненецкий автономный округ, Республика Адыгея, Республика Алтай, Республика Дагестан, Республика Ингушетия, Республика Калмыкия, Республика Марий Эл, Республика Северная Осетия — Алания, Республика Тыва, Чеченская Республика, Чукотский автономный округ, Ямало-Ненецкий автономный округ.
Институт русского языка имени В.В. Виноградова приглашает всех желающих принять участие в опросе, чтобы понять, какая доля жителей определенных регионов, возрастов, уровня образования, использует те или иные слова.