[Перевод] Машинное обучение помогает в расшифровке древних языков

Термин «Гуглоперевод» постепенно престаёт быть синонимом кривого дословного перевода текстов. Порой сложно догадаться, кто выполнил работу: машина или человек — качество стало действительно высоким. Это наводит исследователей на мысль:, а не сможет ли ИИ помочь в расшифровке древних языков? Рассказываем.

Цзямин Луо (Jiaming Luo) вырос на континентальном Китае и с детства интересовался забытыми языками. Обучаясь компьютерным наукам в Массачусетском технологическом институте, в 2015 году Цзямин вспомнил о своей давней тяге. Его манила загадка потерянных языков, дошедших до нас в виде загадочных символов.

В 2019 году имя Луо попало в газетные заголовки. Работая с командой коллег-исследователей из MIT, он применил свой опыт машинного обучения для расшифровки древних письменностей. В результате исследователи разработали алгоритм,  основанный на закономерностях изменения языков с течением времени. Например, учёные установили, что со временем буква «p» трансформируется в словах в букву «b». На основе этих данных создаются шаблоны изменения языка.

Луо и его коллеги скормили ИИ слова на потерянном языке, а также на известном родственном языке. Задача заключалась в том, чтобы сопоставить слова утраченного языка с их аналогами в известном. Кстати, один и тот же алгоритм можно применять к разным языковым парам.

Исследователи проверили свою модель на двух древних языках, которые уже были расшифрованы: угаритском, родственном древнееврейскому, и линейном письме Б, впервые обнаруженном среди руин эпохи бронзового века на греческом острове Крит. Эпиграфистам-профессионалам и любителям — людям, изучающим древнюю письменность, — потребовалось почти шесть десятилетий на расшифровку линейного письма Б. Официально заслуги по дешифровке языка приписывается британскому архитектору Майклу Вентрису. Но его открытие стало возможным благодаря Алисе Кобер, создавшей импровизированную базу данных символов линейного письма Б, состоящую из 180 000 бумажных полосок, хранящихся в папиросных коробках. Используя эту базу данных, Кобер смог сделать важные выводы о характере линейного письма Б. Кобер умерла в 1950 году, за два года до того, как Вентрис взломал код. Линейное письмо Б теперь признано самой ранней формой греческого языка.  

Луо и его команда хотели проверить, сможет ли их обученная нейросеть дать тот же ответ, но быстрее. В итоге она смогла правильно перевести 67,3% слов линейного письма Б в их современные греческие эквиваленты. По словам Луо, нейросети понадобилось всего 2–3 часа, в то время как на ручную проверку путем перевода символов один за другим потребовались бы месяцы или годы.

Результаты для угаритского языка оказались ещё лучше, чем предыдущие попытки автоматической дешифровки. После таких воодушевляющих результатов исследователи подумали, а не получится ли с помощью машинного обучения расшифровать и другие, пока ещё не поддающиеся переводу языки? Какие исторические тайны могут быть раскрыты, если всё удастся?  

a7474d5832a826acf1ca74fab64d9cf0.png

Британская Индия, 1872–1873 гг. Александр Каннингем, геодезист-археолог, бродил по руинам города в провинции Пенджаб. На первый взгляд, исследовать было нечего: около двух десятилетий назад инженеры, работавшие над соединением городов Лахор и Мултан, проложили 100 миль железнодорожных путей, использовав в качестве балласта прекрасно сохранившиеся обожженные на огне кирпичи, найденные в этом месте. Никто не подозревал, что эти самые кирпичи являются следами одной из древнейших цивилизаций в мире.

Цзямин Луо, аспирант Массачусетского технологического институтаЦзямин Луо, аспирант Массачусетского технологического института

Каннингем этого тоже не знал — цивилизация долины Инда не была официально «открыта» до 1920-х годов, —, но он знал, что это место имело некоторую историческую ценность. Копаясь в руинах, он и его команда наткнулись на каменные орудия, которые, как они предположили, использовались для скобления дерева или кожи. Они собрали осколки древней глиняной посуды и что-то похожее на глиняный ковш. Однако самым поразительным открытием стала крошечная каменная табличка размером примерно 3,8 см на 3,8 см. На ней была глубокая гравировка быка, смотрящего вправо. Под шеей у быка располагались две звезды, а над головой — надпись из шести знаков, которые оказались совершенно неизвестны исследователям. Она напоминала строку иероглифов, а один из знаков походил на рыбу. Это определенно были не индийские буквы;, а ещё у быка не было горба, что тоже нехарактерно для индийских пород животных.

За полтора века, прошедших с момента открытия первой печати, люди нашли несколько тысяч похожих табличек: 90% вдоль реки Инд на территории современного Пакистана, остальные — в Индии или даже на территории современного Ирака.

Эти таблички принадлежали коренным жителям Индийского субконтинента и, вероятно, использовались для запечатывания документов и маркировки упаковок товаров, поэтому их назвали пломбами. Исследователи пришли к выводу, что надписи следует читать справа налево, но как именно их перевести — никто не знал.

b9f222ebd204e1fa08411f6c074e1ab6.png

 На данный момент существует более 4000 раскопанных образцов письменности Инда, содержащих от 400 до 700 уникальных символов. С 1920-х годов было опубликовано более сотни попыток её расшифровать. Одна теория связывает его с письмом ронгоронго острова Пасхи, также до сих пор не расшифрованным;  другая теория предложена немецким тантрическим гуру, который утверждал, что нашёл ответ с помощью медитаций. Он связывает письменность Инда с клинописью, использовавшейся для письма на шумерском языке.

Для некоторых стран Южной Азии расшифровка письма Инда является важнейшим вопросом. Индия и Пакистан, всё сильнее раздираемые религиозным национализмом, очень по-разному относятся к своему общему древнему прошлому. Пакистанское государство, считающее себя мусульманской родиной, игнорирует доисламское наследие. А Индия, в свою очередь, ищет подтверждение тому, что она всегда была индуистской нацией.

Вплоть до открытия Хараппы считалось, что самыми ранними индийцами были люди, жившие в промежутке между 1500 и 500 годами до нашей эры и составившие Веды (тексты на санскрите, основа современного индуизма). Открытие цивилизации людей, живших до ведических народов, перевернуло историю Индии. Учитывая, что это подрывает их претензии на коренное происхождение, сторонники хиндутвы — наиболее распространенного направления индуистского национализма — отвергают теорию доведической цивилизации, хотя свидетельства в её пользу накапливаются в различных дисциплинах, включая археологию, генетику и лингвистику.

Всё это сильно усложняет исследования долины Инда, так как вопрос выходит далеко за рамки академических кругов. Не ослабевают попытки доказать, что жители Инда поклонялись индуистским богам и говорили на более ранней форме санскрита. В 2000 году один исследователь даже исказил цифровое изображение индской печати, чтобы животное на нем выглядело как лошадь, которая часто фигурирует в санскритской литературе.

2073876113ced3939c2d29be1f418543.png

Использовать ИИ для работы над письмом Инда сложнее, чем в случае с линейным письмом Б, так как информации о письме Инда значительно меньше. Самая главная проблема в том, что исследователи не знают, с каким другим языком он может быть связан. По этой причине для его расшифровки не подходит модель Луо. Но это не значит, что технологии не могут помочь. Компьютерное моделирование уже сыграло важную роль: оно показало, что письменность Инда в принципе является языком. 

На протяжении большей части 20-го века надписи Инда массово считались изображениями нерасшифрованного языка. Затем в 2004 году группа исследователей из Гарварда опубликовала статью, в которой они опровергли почти все существующие исследования по этому вопросу. Исследователи утверждали, что печати Инда были ни чем иным, как набором религиозных или политических символов — подобных, скажем, дорожным знакам, — и все попытки расшифровать их как язык были пустой тратой времени. Чтобы подчеркнуть свою точку зрения, Фармер предложил вознаграждение в размере 10 000 долларов любому, кто сможет найти надпись Инда, содержащую более 50 символов. 

Роноджой Адхикари, профессор статистической физики Кембриджского университетаРоноджой Адхикари, профессор статистической физики Кембриджского университета

Большинство индологов и других исследователей письменности Инда отвергли эти аргументы. Однако одна группа математиков обратилась к компьютерам, чтобы исследовать данное утверждения. Ронохой Адхикари, профессор статистической физики Кембриджского университета, был одним из них. Несколько других специалистов по данным присоединились к Адхикари. Они понимали, что вряд ли смогут выполнить полную расшифровку, стремились узнать, несут ли надписи хоть какую-то лингвистическую информацию. Под руководством ученого-компьютерщика Раджеша Рао исследователи разработали компьютерную программу, способную ответить на вопрос: была ли письменность Инда языком?  Программа позволяла рассмотреть любую последовательность символов (иероглифы, письменность, ноты, компьютерный код) с точки зрения математики. То есть просто посчитать, сколько раз один знак встречается рядом с другим.

Программа основывалась на работе Клода Э. Шеннона, американского математика середины века, инженера и дешифратора кодов военного времени, который сформулировал понятие информационной энтропии — по сути, математической меры беспорядка. В лингвистических системах символы встречаются с фиксированной частотой. То есть нельзя взять букву из алфавита, соединить ее с другой буквой из алфавита и ожидать, что получится слово. Например, в обычном английском языке за буквой «q» почти всегда следует «u». Эта полугибкость является признаком всех языковых систем. Компьютерный же код совершенно негибок: малейшее отклонение, и он развалится.

Штамп-печать, вырезанная на сером стеатите, с изображением носорога и надписью индусским письмом. Найдена на археологических раскопках Мохенджо-Даро в Синде, ПакистанШтамп-печать, вырезанная на сером стеатите, с изображением носорога и надписью индусским письмом. Найдена на археологических раскопках Мохенджо-Даро в Синде, Пакистан

 Исследователи загрузили в свою программу 4000 надписей, составляющих всю письменность Инда. На всякий случай они также протестировали программу на других лингвистических образцах (английские буквы и слова, санскрит, тамильский, шумерский и тагальский) и некоторых нелингвистических сценариях (ДНК, белок, Соната Бетховена № 32 и компьютерный код Fortran). Процесс длился около 45 минут.

На графике кривые, изображающие музыку, белки и последовательности ДНК, оказались высоко, близко к максимальному уровню энтропии, что указывает на высокий уровень случайности. Ниже тесным кластером расположились все известные языки. Фортран оказался ещё ниже.

Индусская письменность оказалась среди других языков, сразу после санскрита, и почти полностью соответствует тамильскому. Конечно, доказать, что знаки являются языком, не то же самое, что декодировать его. Но это уже большой шаг вперёд.

Одна из помощниц Адхикари, исследователь Бахата Ансумали Мукхопадхьяй, поняла, что классический подход глубокого обучения (чем больше данных передается машине, тем лучше она интерпретирует данные, которые поступят в будущем) не особенно эффективен, когда речь идет о вещах «с низким уровнем ресурсов» (если использовать термин, введённый Луо), таких как письменность Инда, где данные ограничены. Поэтому Мукхопадхьяй углубилась в чтение.

Она анализировала месопотамские, аккадские, шумерские и древнеперсидские словари. Сама научилась читать египетские иероглифы. Мукхопадхьяй поняла, насколько тонким может быть символизм. Чтобы расшифровать язык, нужно хорошо понимать историческую символику, используемую в Индии. Появились сомнения, как искусственный интеллект справится с этим?

Даже когда Мукхопадхьяй помогала создавать программное обеспечение для исследования письменности Инда, её сомнения относительно правильностиподхода только росли. Если бы индусское письмо было альфа-слоговым письмом (система письма, разделенная на единицы согласных и гласных, как в урду/хинди), тогда машинное обучение и искусственный интеллект прекрасно бы подошли. Но надписи по своей природе кажутся графическими. 

В течение последних нескольких лет Мукхопадхьяй самостоятельно исследовала надписи Инда, сосредоточив внимание на отдельных символах. Сюда входит выдвижение определенной теории, а затем ее проверка — то, с чем не очень хорошо справляются компьютеры.

Бахата Ансумали Мукхопадхьяй, исследователь письменности ИндаБахата Ансумали Мукхопадхьяй, исследователь письменности Инда

Теория Мукхопадхьяй, опубликованная в статье 2019 года в журнале Nature,  заключается в том, что печати Инда использовались в системе налогообложения и для торгового контроля, например, коллекционер мог носить с собой такую печать в качестве своего рода лицензии.  В следующей статье, изданной уже в 2021 году, она утверждала, что люди Инда говорили на более ранней форме дравидийского языка, лингвистического предка современных языков, таких как телугу, тамильский и каннада. К такому выводу Мукхопадхьяй пришла, исследуя слова, обозначавшие «слона» — piri, piru, pilu — и «слоновой кости» — pirus.  Если исследователи смогут успешно определить, к какому современному языку имеет лингвистическое отношение письменность Инда, это может стать ключом к его расшифровке.

Текущие версии ИИ не предназначены для использования подхода, принятого Мукхопадхьяй (и вряд ли когда-либо будут). Не вся информация поддается количественной оценке, которую могут понять компьютеры. Машина хорошо понимает, что два плюс два равно четырем, но ей недоступно понимание, что закат в древней письменности может изображаться, как красивое пламя. А именно это и является ключом к расшифровке.

492270688be5f60b09faaa0d56e1a3ca.png

Независимо от используемого подхода, ИИ нуждается в высококачественных данных в машиночитаемом формате. Это остаётся ключевой проблемой, когда речь идёт о древних текстах, потому что они часто доходят до нас обрывочными или размытыми. Учёные могут десятилетиями спорить о том, является ли штрих рядом с известным знаком простой царапиной или новым символом.

В течение последних двух десятилетий Брайан К. Уэллс из Ванкувера и Андреас Фулс из Берлина оцифровывали все известные печати и символы Инда и добавляли новые по мере их раскопок. Они также добавили контекстную информацию — например, где они были раскопаны, когда и с какими артефактами найдены. Интерактивная база текстов Инда (ICIT) в настоящее время содержит информацию о 4 537 артефактах с надписями, 5 509 текстах и ​​19 616 случаях появления знаков, содержащих в общей сложности 707 уникальных символов Инда, что намного больше, чем 417 ранее идентифицированных.

Штамп-печать из глазурованного белого стеатита с изображением быка, стоящего над яслями.  Найдена в Вавилоне, ИракШтамп-печать из глазурованного белого стеатита с изображением быка, стоящего над яслями. Найдена в Вавилоне, Ирак

Более ранние базы составлялись вручную. Они были настолько ограничены, что могли подорвать исследовательский процесс. В настоящее время цифровую базу данных используют около 50 исследователей по всему миру.

На данный момент тайны письменности Инда всё ещё не раскрыты. В 2021 году, в продолжении своей работы по автоматизации декодирования угаритского и линейного письма Б, Луо и его команда сделали небольшой, но важный шаг вперед. Они составили алгоритм, направленный на выявление возможных родственных языков для нерасшифрованных систем письма. Потенциально это могло бы помочь решить проблему расшифровки для древних языков, которые не с чем сравнить. Когда Луо и его команда проверили свою модель на иберийском языке, который исторически был связан с баскским, результаты показали, что эти два языка на самом деле не настолько схожи, чтобы быть родственными. Этот вывод подтвердили и недавние исследования.

При этом иберийский язык имеет не менее 80 уникальных символов, а индусский — не менее 400, что делает его экспоненциально более сложным. Тем не менее, теоретически, современные машины могут справиться с подобным уровнем вычислений. Можно ли решить ​​проблему «грубым методом»: проанализировать язык Инда, сравнивая его со всеми современными южноазиатскими языками, и посмотреть, какой из них окажется наиболее лингвистически близким к нему? Это неплохая идея, но она потребует очень много времени.

Луо считает, что расшифровка утерянных языков вряд ли будет полностью автоматизирована. Однако машинное обучение может предложить наиболее подходящих кандидатов на родственные лингвистические связи, тем самым сузив фронт работ для экспертов.

Перспективы действительно интересные, но, к сожалению, не все готовы принимать помощь от машин. Прежде чем остановиться на иберийском языке, Луо и его коллеги хотели заняться этрусским, нерасшифрованным письмом из доримской Италии. Они отправили своё предложение о сотрудничества профессорам, работающим в этой области и получили гневный ответ:  «Машины никогда не могут конкурировать с людьми!»

Что ещё интересного есть в блоге Cloud4Y

→ История Game Genie — чит-устройства, которое всколыхнуло мир

→ Как я случайно заблокировал 10 000 телефонов в Южной Америке

→ Странные продукты Apple

→ WD-40: средство, которое может почти всё

→ 30 лучших Python-проектов на GitHub на начало 2022 года

Подписывайтесь на наш Telegram-канал, чтобы не пропустить очередную статью. Пишем не чаще двух раз в неделю и только по делу.

© Habrahabr.ru