На каком языке думают языковые модели11.08.2024 14:15

Как работает ваш мозг, когда вы говорите на иностранном языке? Сначала переводит внутри на родной или сразу понимает и формулирует фразы на иностранном? Скорее всего, каждый человек ответит на это по-своему, а ответ будет зависеть и от уровня владения языком, и от того, по какой методике вас этому языку учили, и от особенностей мышления и речи вообще. Тем интереснее понять, как с этим обстоят дела у больших языковых моделей. Их обучают преимущественно на английских текстах, но как-то невзначай они вдруг начинают неплохо говорить и на других языках. Да, похуже, чем на английском, но всё-таки вполне достойно. Так что закономерно, что на общей волне интереса к интерпретируемости AI возникает запрос разобраться с этой мультиязычностью моделей.

Интуитивно (а вообще просто по аналогии с человеком) кажется, что раз модель обучалась на английском, то он должен быть ее «родным» языком. То есть когда мы спрашиваем GPT на русском, он внутри сначала переводит на английский, там же формулирует ответ, а затем переводит обратно на русский. Если это действительно верно, то это означает, что у модели есть некоторый уклон не только к англоязычной грамматике и лексике, но отсюда и к соответствующим метафорам, логике, поведению. То есть, к менталитету англоязычного мира. А если это неверно? Тогда еще хуже — тогда совершенно непонятно, как модель достигает такого хорошего результата на таком скромном объеме обучающих данных.

Команда из Лозаннского EPFL провела эксперимент, чтобы выяснить, как работает LLM, когда с ней говорят на разных языках. Авторы взяли модели семейства Llama-2. Их обучали на мультиязычных текстах, но подавляющее большинство (89,7%) было на английском. Сразу стоит упомянуть, что так как речь идет об огромном объеме обучающих данных, то даже небольшой процент — всё равно много. Например 0,13% китайских токенов — это на самом деле 2,6 миллиарда. Больше, чем самих китайцев.

Чтобы интерпретировать скрытые состояния модели, авторы использовали методику Logit lens. Её принцип в том, чтобы превращать в токены не только конечные скрытые состояния последнего блока трансформера, а и промежуточные. По форме они все одинаковы, поэтому принципиальных ограничений к этому нет. Другими словами преждевременно достаем скрытые состояния и расшифровываем их. Если продолжать гипотезу, то эти нефинальные скрытые состояния должны содержать что-то вроде родного языка модели. Чтобы избежать неоднозначности, авторы составили набор промптом с единственно верным ответом длинной в одно слово. Например, давали модели на вход пары слов на французском и китайском, а затем просили продолжить ряд правильным китайским словом:

Français: "vertu" - 中文: "德"

Français: "siège" - 中文: "座"

Français: "neige" - 中文: "雪"

Français: "montagne" - 中文: "山"

Français: "fleur" - 中文: "

На диаграмме ниже показаны выходные токены, полученные на разных слоях c помощью «логитоскопа» (logit lens). На выходе генерируется правильный иероглиф «花» (цветок), на начальных слоях — что-то бессвязное и не имеющее отношение к цветам ни на на каком языке, а на средних проявляется верное значение, но предпочтение отдается английскому языку.

Этот и еще несколько тестов проводили на немецком, французском, китайском и русском. Что исследовать гипотетический опорный язык внутри Llama-2, авторы применяли logit lens к скрытым состояниям, соответствующим последнему входному токену на каждом слое. Получается распределение вероятностей для следующего токена, и так как речь об одном слове на одном языке, то оно будет равно распределению вероятности того или иного языка.

На графике — вероятности языка в зависимости от слоя (слева направо для моделей 7В, 13В и 70В). На первой половине слоев вероятность (правильного) китайского нулевая. Равно как и английского. Где-то посередине английский делает резкий скачок, а ближе к выходным слоям спадает, в это время китайский медленно растет, и только на последних нескольких слоях обходит английский и резко стремится к единице. Этот паттерн остается по существу одинаковым на моделях разной величины и для разных заданий.

Теперь попробуем составить некоторое геометрическое представление, которое поможет нам понять пути трансформера. Если сильно упрощать, то задача трансформера отразить эмбеддинги входа на эмбеддинги выхода. Каждый слой изменяет внутренний вектор, полученный с предыдущих слоев. Геометрически это соответствует некоторой траектории в d-мерном евклидовом пространстве, (d — размерность эмбеддингов). Скрытые состояния живут в гиперсфере с радиусом в √ d. На этой сфере авторы и показывают траекторию перевода (на примере — из французского в китайский), введя дополнительно к вероятности еще «энергию» и энтропию. Энергия отражает какая часть скрытого состояния предсказывает следующий токен. В итоге траектория в недрах трансформера состоит из трех фаз:

Высокая энтропия (14 бит), низкая энергия токенов и нет какого-либо доминирующего языка. На этой фазе, как полагают авторы, строятся подходящие представления входных токенов. Следующий токен модель пока не пробует предсказывать (об этом говорит низкая «энергия» — скрытые состояния ортогональны пространству выходных токенов). Отсюда и большая степень свободы.
Низкая энтропия (1–2 бита), энергия всё еще низкая, но появляется доминирующий английский. Это своего рода область абстракций или концепций. Эмбеддинги становятся ближе к выходу и отражают общую идею — это могут быть разные языки и разные близкие значения. Английский варианты получают преимущество из-за однозначной доминации английского при обучении. Энергия на этом еще не такая большая, потому что скрытые состояния всё еще содержат информацию о входе больше, чем о выходе.
Энергия вырастает до 20–30%, энтропия остается низкой, китайский становится главным. На этом этапе абстрактные концепции соединяются с целевым языком. Та информация, которая не нужны для следующего токена, выбрасывается, то есть вся «энергия» направляется на генерацию ответа.

Интерпретировать результаты можно по-разному. С одной стороны, где-то в недрах модели сначала действительно возникает правильный (или хотя бы близкий по смыслу) ответ на английском, и только потом на нужном языке. Можно трактовать это как то, что модель сначала переводит на родной английский.

Но если пользоваться понятиями энергии и энтропии, которую используют авторы, то получается что сначала модель генерирует смысл, концепцию, абстрактную идею. Да, на английском, но только потому что английских слов у нее в запасе больше. То есть у LLM есть родной язык, но не английский, а язык концепций. Английский всё равно остается опорным для модели, но совершенно в другом смысле.

Больше наших обзоров AI‑статей — на канале Pro AI.