Распознавание коридоров в тексте
Коридор (river) — совпадение пробелов по вертикали или наклонной линии в трёх и более смежных строках. Считается одним из дефектов вёрстки. Дефект устраняется довольно легко, но сложность заключается в его автоматическом обнаружении.Видимость коридора зависит не только от расположения пробелов, но и от формы символов. Например, на двух текстах ниже пробелы расположены в одинаковых местах, но в первом коридоры хорошо заметны, а во втором дефекта нет. Поэтому логично применить здесь метод с переводом текста в растровую картинку и обработкой изображения.
Читать дальше →