Ambar — система полнотекстового поиска по документам

Сегодня в рубрике «Стартапы» — система полнотекстового поиска по документам Ambar, которая позволяет найти необходимый файл независимо от сложности запроса и количества документов. Передаем микрофон.

Привет, нас зовут Игорь и Илья, нам 27 и 26 лет. Мы прошли долгий путь от разработчиков до руководителей самостоятельных подразделений в российском филиале крупной иностранной компании. Параллельно с основной работой мы успевали заниматься сторонними проектами. Осенью прошлого года мы решили наконец бросить офисное болото и уйти в самостоятельное плавание, чтобы развивать собственный продукт, идея которого вытекла из проблемы, с которой мы и наши коллеги постоянно сталкивались.

Итак, представьте себя сотрудником компании, в которой работает несколько тысяч человек, у компании единая сеть, раскинутая на множество филиалов в сотнях городов. У вашего подразделения есть файловое хранилище — «помойка», в котором лежат и регулярно добавляются миллионы документов в разных форматах: договоры, регламенты, отчёты и так далее. Часто перед вами и вашими коллегами возникает задача поиска информации в этих файлах или поиска какого-то конкретного файла по информации, которая в нём содержится.

Все решают эту проблему по-разному, кто на что горазд: кто-то использует старинный DtSearch, кто-то пишет что-то своё, кто-то зарится на дорогущий и неповоротливый Lucidworks, а кто-то вообще ищет вручную.

При использовании таких решений есть несколько проблем: во-первых, риск потерять или не найти нужную информацию из-за некорректной экстракции контента из файлов, например, из-за экзотической кодировки исходного файла (привет, CP 866), или из-за несовершенного полнотекстового поиска (привет, нормальный stemming), во-вторых, низкая скорость поиска по большим массивам файлов и по файлам большого размера, а в-третьих — отсутствие современного и не тормозного интерфейса для поиска.

Именно поэтому мы создали Ambar — систему полнотекстового поиска по документам. В процессе разработки мы держали в голове основные требования к системе: лёгкая, интуитивно понятная, при этом мощная и масштабируемая. Мы сразу ориентировались на объёмы в десятки и сотни миллионов файлов, обязательным условием был быстрый поиск, занимающий не более половины секунды независимо от сложности запроса и количества документов.

Мы прошли долгий путь выбора технологий, проектирования, исследования, разработки, тестирования и отладки. Официальный релиз состоялся 18 января 2017 года. В этот день мы запустили Ambar у первого крупного клиента.

Итак, основные моменты о нашей системе, которые важно знать:

  • Супербыстрый поиск с учётом особенностей языка: например, нечёткий поисковой запрос занимает около ста миллисекунд в более чем десятке миллионов файлов.
  • Лёгкий и понятный интерфейс как для поиска, так и для администрирования.
  • Поддержка всех распространённых (и не очень) форматов файлов и дедубликация.
  • Простой RESTful API, лёгкая интеграция с чем угодно.
  • Возможность использования облачной версии или установка на собственном железе.

В ближайшее время мы планируем добавить возможность читать и индексировать содержимое почтовых ящиков (привет, Barracuda) и начать развивать аналитическую часть системы, добавив распознавания именованных сущностей (ФИО, адреса, номера документов, идентификационные номера, телефоны).

Хотите попробовать наш поиск в деле? Специально для этого мы запустили демоверсию с англоязычными книгами в индексе.

Взлетит

Не взлетит

©  vc.ru