Распознать любой ценой: как искусственный интеллект научился понимать арабский язык
Самое интересное, что шкала сложности изучения языков действительного существует. Например, американский Институт зарубежной службы при Госдепе делит все языки на 4 категории в зависимости от того, сколько часов нужно носителям английского языка на их изучение до уровня свободного владения. Самые сложные языки — это арабский, китайский, корейский и японский, и на их изучение придется потратить не менее 2200 часов. Тогда как на испанский, к примеру, не более 600 часов.
В этой статье мы расскажем, допустимо ли считать арабский язык сложным для человека и искусственного интеллекта (спойлер — да), и почему распознавание арабской вязи — это отдельная ачивка для ИИ.
Что делает арабский таким сложным для человека?
Чтобы ответить на этот вопрос, достаточно вспомнить знаменитый анекдот:
— Ты француз?
— Да.
— О, а скажи что-нибудь на арабском?
Особенность номер один — это отсутствие единого арабского. Арабский язык является основным языком сразу во многих странах мира, что неизбежно ведет к возникновению различных местных диалектов, отличающихся друг от друга так же сильно, как русский от польского, и ни у одного из этих диалектов нет письменного варианта.
Особенность номер два — письменный арабский язык существует в как минимум двух формах. Это классический арабский язык или язык Корана, жесткая, довольно архаичная форма языка. Остается практически неизменной со времени написания Корана и используется в теологических кругах до сих пор. Его использование ограничено, в первую очередь, строгим религиозным контекстом, и в этом отношении он сродни русскому церковно-славянскому языку. Вторая форма — это литературный арабский язык или Modern Standard Arabic (MSA). Это наиболее широко используемая и универсальная форма арабского языка из всех существующих. Именно на нем вещают международные арабские каналы BBC Arabic или катарский «Аль-Джазира», на нем пишется арабская Википедия. Сегодня практически все образование в арабском мире ведется на MSA, и он действительно становится языком панарабского общения. В конце концов, арабский язык именно в этой форме является одним из 6 официальных языков ООН (английский, французский, русский, испанский, китайский и арабский) и имеет официальный статус во всех 22 арабоязычных странах.
С точки зрения письменности, уникальным арабский язык делают:
- письменность справа налево,
- консонантное письмо (пишутся только согласные, а гласные подразумеваются),
- использование лигатур, то есть связки из двух букв, имеющей специальное начертание (слитное написание нескольких букв). Одна лигатура — лям-алиф — является стандартной, и написание этой пары букв иначе, чем при помощи лигатуры, не допускается. Остальные лигатуры необязательны, и их использование зависит от выбранного каллиграфического стиля.
Очевидно, это довольно сложный для изучения язык в силу многообразия форм.
Искусственный интеллект VS арабский
Для ИИ самыми легкими и понятными будут языки, подходящие по следующим критериям:
- Не очень большая вариативность одного символа и малое количество промежуточных вариантов буквы (или какого-нибудь символа), что удобно для ИИ. К примеру, буква А может быть написана как а или А.
- Слова легко делятся на символы, а границы между символами легко четко проставить. То есть вы понимаете, где заканчивается один символ и начинается другой.
- Отсутствие или малое количество мелких деталей, ведь они неизбежно съедаются при бликах, плохом качестве цветопередачи, малом разрешении.
Арабский язык усложняет задачу ИИ во всех трех случаях. Вот как текст может выглядеть в документе:
Это изображение, как и остальные примеры, было создано искусственно с учетом реальных искажений, вносимых съемкой в неконтролируемых условиях.
Теперь давайте вспомним про лигатуры, то есть сдвоенные буквы, которые каждый человек может использовать, как душе угодно, из-за их необязательности. Но как определить, где в изображении подобного качества (фото ниже) лигатура, а где просто буква?
Из-за большого количества точек, которые в плохих условиях для распознавания (темно, блики, размазано, плохая печать) делают любой документ практически нечитаемым, а также множества лигатур, арабский и является, пожалуй, самым требовательным к качеству ИИ. Поэтому постоянное обучение наших нейросетей распознаванию арабского языка в документах любого качества — это большое достижение Smart Engines. На данном этапе документы на арабском языке стали важным дополнением к списку данных, которые мы распознаем: паспорта РФ и 192 стран; водительские права, ID, заграничные паспорта, визы, свидетельства, СТС, ПТС и другие документы — устойчивое к качеству изображений распознавание смартфоном, планшетом, сервером, веб-камерой, на видео, фотографиях/сканах.
Так может ли искусственный интеллект распознавать арабский язык лучше человека? Ответ — может. И с каждым годом будет делать это все лучше и лучше.
Автор: Владимир Арлазаров, к.т.н., генеральный директор Smart Engines