Проверка орфографии: какие слова пишут с ошибками на «Хабрахабре», Cossa, Rusbase, AIN, DOU, Roem и vc.ru

Решил пройтись по изданиям, которые периодически читаю, и проверить, как у них дела с орфографией. Ниже будет инструкция, с помощью которой можно проверить любой сайт на наличие орфографических ошибок, несколько графиков и файл со всеми собранными данными, списком ошибок и регулярным выражением, которым я пользовался.

Inb4: «сначала сам научись писать»

Русский язык я учил ровно до седьмого класса средней школы — 18 лет назад. Я регулярно делаю некоторые из ошибок, которые нашёл на сайтах из списка. Этот текст перед публикацией вычитывала моя коллега Настя, за что ей большое спаcибо.

Я знаю, что словосочетание «в течении» может быть правильным в зависимости от контекста, можете сами проверить контекст, перейдя по ссылкам из файла в конце материала. Я лично не нашёл таких случаев. То же относится к «мороженному», «рекламной компании» и так далее.

Примеры ошибок я собрал сам из источников, которые нагуглил за пять минут. Источники указаны в том же файле. Если что-то из моего списка не является ошибкой, my bad.

Как проводился анализ

1. Взял регулярное выражение: (?:[^a-zA-Zа-яА-Я0–9_]|^)(агенство|чтоли|net peak)(?:[^a-zA-Zа-яА-Я0–9_]|а-Я|$).

Работает для кириллицы и латиницы. Можно вписать любые слова и словосочетания, которые хотите найти на сайте.

2. Настроил парсер Netpeak Spider на поиск слов и словосочетаний из списка.

Этим же парсером я пользовался, анализируя изменения цен на цветы к 14 февраля и носки к 23 февраля.

Настройки парсинга

3. Просканировал каждый сайт и получил список страниц, на которых были найдены ошибки.

Результаты парсинга

Результаты

На каждом сайте сканирование было остановлено на отметке в 5000 страниц.

Ошибки, которые были найдены в комментариях, вынесены на отдельный график в конце.

Не стоит сравнивать внимательность редакторов, опираясь на этот анализ. Учитывайте, что 5000 страниц одного сайта могут на 30% состоять из служебных страниц, в то время как на другом сайте все 5000 будут гостевыми публикациями.

AIN

Cossa

DOU

«Хабрахабр»

Rusbase

Roem

vc.ru

Ошибки в комментариях

Можно выдохнуть, комментарии на vc.ru подгружаются с помощью JavaScript, так что до следующего обновления Netpeak Spider не получится их спарсить.

Некоторые люди допускают ошибки в некоторых словах. Шок! Сенсация! Как обещал, файл со всеми ошибками, страницами, на которых они были найдены, списком слов, источниками и готовым регулярным выражением для проверки сайта.

©  vc.ru