Abbyy Comparator: решение для сравнения электронных и бумажных документов

Решение для сравнения электронных и бумажных документов Полтора года назад в городе Воронеже произошел занятный инцидент. Один местный житель получил от банка «Тинькофф КС» предложение открыть кредитную карту, к которому прилагался типовой договор организации на предоставление данного вида услуг. Некоторые положения договора не устраивали потенциального клиента. Он отсканировал документ, внес в многостраничный текст правки, вновь распечатал его, подписал и отправил в банк. Работники банка не заметили подлог, и договор был заключен. По итогам последовавших судебных разбирательств, в соответствии с измененным договором, банк оказался должен клиенту 24 млн рублей. Хотя в результате вроде бы обошлось без крупных выплат, репутация «Тинькофф КС», конечно, была подпорчена.

Возможно, этот скандал вдохновил компанию Abbyy на создание Comparator — программы для сравнения текстов электронных и бумажных документов.

Программа Abbyy Comparator Основное окно Comparator выглядит просто и понятно. В рабочие области загружаются документы для сравнения, в панели справа выбираются действия и настройки анализа. По умолчанию окна документов разделены по вертикали, но можно переключиться и на горизонтальное разделение. На данный момент доступна работа с русско- и англоязычными документами. Набор поддерживаемых форматов весьма широк: документы MS Office, Open Office, разнообразные графические файлы.

Программа Abbyy Comparator Чтобы оценить возможности Comparator, мы решили пойти путем того самого воронежского жителя. Из открытых источников был загружен PDF-образец кредитного договора одного известного банка. Затем мы перевели его в легко редактируемый RTF-формат, внесли односторонне выгодные правки и сравнили с оригиналом.

При добавлении графических файлов для распознавания и сравнения имеется возможность указать диапазон страниц, которые будут проанализированы. В случаях, когда мы работаем с многостраничным текстовым оригиналом, где есть лишь несколько опасных мест, такое ограничение области анализа сэкономит время. И при этом позволит программе нормально соотнести оба документа, поскольку для просмотра в нее будут загружены все отсканированные страницы.

Программа Abbyy Comparator Два одинаковых окна просмотра документов имеют регулируемый масштаб и сохраняют два последних документа для быстрого перехода. В заголовках окон показан полный путь к открытым файлам, это удобно при сравнении одноименных копий. Перед началом сравнения можно отключить показ различий в пунктуации и одной букве.

Программа Abbyy Comparator Сравнение документа из 15 страниц с 11 отсканированными листами заняло у нас несколько минут. В результате в правой колонке мы получили список всех различий, разделенный на группы: «Основной текст», «Колонтитулы», «Нумерация». При выделении правки программа сразу переходит на спорные места в обоих документах, обводя их голубой рамкой.

Программа Abbyy Comparator Многие различия обусловлены ошибками OCR, то есть неправильным распознаванием текста в графическом файле, или сбившейся нумерацией — опция пропуска однобуквенных различий введена как раз для таких случаев.

Программа Abbyy Comparator Для обозначения левого и правого документа в списке используются простые пиктограммы стрелочек. Имеется функция удаления одинаковых различий — удобно при сравнении колонтитулов. Здесь же можно скопировать различия: в буфер обмена попадет удаленный/добавленный текст или замена («три» на «пять»).

Программа Abbyy Comparator После просмотра и редактирования списка различий результат работы можно сохранить в документ формата *.docx (через меню «Различия») или *.pdf (через меню «Файл»). В формате MS Word отчет сохраняется в виде простой таблицы с указанием исходных файлов для сравнения и страниц с различиями.

Программа Abbyy Comparator При сохранении в формате PDF отчет сохраняется в виде документа, где контрастными пометками отображены все замены, добавления и удаления. Причем для каждого различия можно добавить через всплывающее окно собственные комментарии и сохранить отчет уже с ними.

Программа Abbyy Comparator Список настроек Comparator включает еще один полезный пункт, касающийся распознавания PDF. Пользователь выбирает, будет ли программа брать для анализа текстовый слой документа, распознавать PDF как картинку или использовать оба варианта. Кстати, если по какой-то причине вы спрятали главное меню и хотите вернуть его назад, это можно сделать, нажав Alt.

Программа Abbyy Comparator Abbyy Comparator берет на себя утомительный для человека «машинный» труд, значительно облегчая жизнь тем, кто постоянно имеет дело с большим документооборотом. Очевидно, что продукт ориентирован на корпоративное использования, и цена у него соответствующая: на момент написания статьи — 23 тыс. рублей за лицензию для одного ПК. Пока что имеется версия только для платформы Windows, и Abbyy Comparator логично не спешит охватывать другие операционные системы.

Полный текст статьи читайте на iXBT