Сосчитать незримое: достоверно определяем словарный запаc20.05.2016 02:03

В школе Skyeng мы редко обучаем английскому с нуля. Обычно к нам приходят люди, уже обладающие каким-то набором знаний, причем этот набор бывает самым разным. Для того, чтобы обучение было полезным, нам нужно как-то определить границу этих знаний. Если в случае грамматики это относительно просто (выясняется на первых занятиях с методистом), то уточнение границ словарного запаса — задача не самая тривиальная. Для ее решения мы разработали и запустили инструмент WordMash.

Упорядочивание слов

Запоминание слов — одна из основных составляющих обучения иностранному языку, на которую тратится бóльшая часть времени и усилий студента. Однако слова любого языка, в том числе английского, не равнозначны: какие-то полезнее, т.к. чаще встречаются (walk vs perambulate); какие-то проще для запоминания (process vs outgrowth), с какими-то ученик постоянно имеет дело по работе или в силу интересов. Для построения максимально эффективной учебной программы (дающей ощутимый результат в кратчайшие сроки) необходимо учитывать эти факторы.

Для эффективного изучения новых слов и поддержания в памяти старых важно уметь определять словарный запас (лексикон) ученика. Традиционный подход заключается в интуитивном определении объема лексикона учителем на основе общения и тестов. Такой подход, однако, полностью опирается на опыт и квалификацию преподавателя и не может быть объективно проконтролирован.

Идеальным методом определения всех известных ученику слов был бы опросник по всему словарю языка с двумя вариантами ответа — «знаю» и «не знаю». Понятно, что реализовать подобный метод практически невозможно: мало кто из учеников готов потратить несколько недель, непрерывно отвечая на вопросы.

Поэтому хорошо зарекомендовал себя способ, основанный на предположении, что из всех слов языка можно составить упорядоченный по сложности список. В его начале идут «простые слова», например те, что выучивают дети в самом начале жизни: «мама», «папа», «хороший», «плохой» и т.д. В конце находятся «сложные» слова — профессиональная лексика, архаизмы, локальные наречия и т.д. В упрощенном случае предполагается, что если человек знает некоторое слово в этом упорядоченном списке, то он знает и все предыдущие слова в этом списке; если же человек не знает некоторое слово, то и последующие слова он тоже не знает. Таким образом, в идеальном случае для оценки словарного запаса человека требуется определить положение границы его знания: номер последнего слова, которое он знает.

Примерный график знания слов упорядоченного списка в идеальном случае. Граница «знания» точно определяет размер лексикона ученика.

Такое идеальное упорядочивание слов, к сожалению, невозможно, поскольку реальный лексикон разных людей отличается (если, конечно, он не нулевой). Изучение слов происходит не последовательно по утвержденному кем-то сверху списку, на него влияет выбранная программа, преподаватель, личные и профессиональные интересы студента. Так, математик и врач знают терминологию своих областей, но не в курсе терминов не из своей области; они по-разному будут воспринимать сложность слов «дифференциал» и «карцинома».

Поэтому имеет смысл говорить об усредненном упорядочивании слов. В этом случае отсутствует понятие четкой границы: ученик может знать слово №1000, не знать слово №1001 и снова знать слово №1002. Для описания реальных ситуаций имеет смысл рассмотреть следующий подход.

Разобьем слова в нашем ранжированном по сложности списке на интервалы (например, по 100 слов) и для каждого интервала определим процент слов из этого интервала, который ученик знает. В результате получится относительно гладкая кривая; если мы знаем номер слова, то с помощью графика мы можем увидеть, с какой вероятностью ученик его знает. Для этой функции можно определить медиану: такой номер слова, что количество неизвестных слов до него равно количеству известных после. Эта медиана и будет играть роль аналога границы и характеризовать численным образом словарный запас ученика.

Выглядит это здорово, если бы не одна проблема:, а как, собственно, подготовить сам упорядоченный по сложности список слов?

Характерная зависимость вероятности знания слова учеником от номера слова. Красной вертикальной линией показана медиана распределения.

Анализ частотности по Британскому корпусу

Существует теория, согласно которой среднестатистическая сложность слова напрямую зависит от его распространенности (частотности). Действительно, чем чаще нам в процессе обучения будет попадаться слово, тем быстрее мы его выучим. Таким образом, упорядоченный список слов можно построить, проанализировав частотность всех слов в корпусе текстов — специально подобранной и обработанной совокупности разнообразных текстов языка.

Поэтому начали мы с того, что провели частотный анализ Британского Национального Корпуса (British National Corpus). В корпусе представлены письменные тексты (книги, статьи, документы), разговорные (транскрипции бесед, записей, фильмов) и цитаты из докладов, обращений и выступлений. Эти три подкорпуса различаются объемами, однако обладают одинаковой важностью для анализа живого языка, поэтому при подсчете частотности их «вес» в общем результате был уравнен. Далее были рассчитаны частотности и проведена нормализация по подкорпусам (усреднены три результата). Вот выдержка из полученного списка и график зависимости частотности от номера слова:

Номер слова	Слово	Частотность (на миллиард слов)
1	the	61 674 367
2	be	35 206 532
470	leader	2 420 806
5175	millennium	11 433
49818	negligibly	67

Зависимость частотности слова от его номера в списке. Видно, что начало списка хорошо описывается законом Ципфа (красная прямая).

Субъективность понятия сложности

Утверждение о хорошем соответствии частотности слов в корпусе текстов и относительной упорядоченностью лексикона группы людей справедливо лишь в том случае, если эта группа — активный читатель и производитель этих текстов. Другими словами, британский корпус отражает упорядоченность лексикона прежде всего именно британцев, в меньшей степени других англоговорящих социумов, и в последнюю очередь — русскоязычных учеников, изучающих английский язык.

В качестве важного примера такого несоответствия можно привести слова греческого, латинского или другого происхождения, которые обладают схожей формой в английском и русском языках. Например:

Английское слово	Русское слово
analysis	анализ
moment	момент
information	информация
philosophy	философия
bronchitis	бронхит
doctor	доктор

Всего нами были выделено более 5 тысяч подобных слов. Что дает такая схожесть форм в двух языках? Если ученик более-менее способен читать по-английски, ему будет несложно угадать значение слова, хотя он никогда его не учил (если, конечно, это не «ложный друг переводчика» типа magazine).

Следует отметить, что данный эффект положительно влияет на размер пассивного словаря, однако практически никак не связан с активным. С одной стороны, ученик заранее гарантированно не знает, обладает ли слово русского языка похожим переводом в английском, а с другой, зачастую фонетика и орфография существенно отличается. Тем не менее, изучение этих слов не может быть поставлено в один ряд с «родными» для английского языка леммами англосаксонского происхождения, для которых ученику приходится запоминать все лексические единицы (орфографию, фонетику, перевод) без каких-либо подсказок со стороны родного языка.

Даже анализ частотного списка слов носителей английского языка показывает его сильную зависимость от места и времени. Например, сравнение знаменитого Salisbury Word List, показывающего наиболее частотные слова австралийских школьников в 1978–79 годах, и Oxford Wordlist, исследования словарного запаса опять же австралийских школьников, но 30 лет спустя, показывает, что в лексиконе современных детей начали преобладать слова, связанные с консьюмеризмом: bought, new, shop, want и технологиями, тогда как до этого большинство частотных слов были посвящены теме семьи и досуга.

Все это убедило нас в том, что список, отсортированный лишь по частотности, недостаточно хорош для наших целей — обучения английскому языку русскоязычных учеников, — что привело к запуску проекта WordMash.

Пользовательская страница проекта Wordmash, в котором пользователь из двух слов выбирает более простое на его взгляд.

Умное ранжирование

WordMash — инструмент дополнительной сортировки словаря, основанный на субъективном восприятии сложности отдельных лексических единиц реальными людьми, нашими учениками. Из двух предложенных системой слов пользователь выбирает наиболее, на его взгляд, простое. При этом для упорядочивания списка применяется система рейтингов Эло. Эта система, изначально появившаяся в шахматах, ныне применяется во многих играх и видах спорта — от Го до Magic the Gathering.

Суть ее в том, что величина, на которую изменяются рейтинги игроков после каждой встречи (матча), непостоянна; она зависит от начального рейтинга каждого из соперников (вероятности победы). В случае, если заведомо более сильный игрок (гроссмейстер) обыгрывает заведомо более слабого (новичка), победитель получит, а проигравший потеряет минимальное число очков рейтинга, стремящееся в экстремальных случаях к нулю. Напротив, если в той же ситуации гроссмейстер проиграет, он потеряет заметную часть своего рейтинга. Таким образом, чем выше рейтинг — тем сложнее его поднимать и легче потерять, однако талантливый новичок может добиться адекватной оценки своего мастерства достаточно быстро.

В начале для всех слов был рассчитан начальный рейтинг, как логарифм частотности:

$R_i=\log_2\omega_i$

Затем, если было проведено сравнение i-го слова с j-ым, выписывалось количество очков, которое набрало i-ое слово $s_i_j$ , равное 1 в случае, если i-ое слово оказывалось проще j-го (победа), 0 — если i-ое слово оказывалось сложнее (проигрыш) и 0,5 — если пользователь затруднялся ответить (ничья). Сумма очков сохранялась: $s_i_j + s_j_i = 1$ . На основе текущих рейтингов вычислялось матожидание количества набранных очков i-ым словом:

$E_i_j = {1\over 1+\exp [2(R_j - R_i)]}$

Наконец, вычисляется новый рейтинг слова:

$R'_i = R_i +{1\over 4}(s_i_j - E_i_j)$

Таким образом, наиболее простые слова поднимаются в рейтинге, а сложные, напротив, опускаются.
Заметим, что подобная методика при некотором размере базы пользователей оказывается устойчива к шуму результатов. Другими словами, рейтинг слов, полученный на основе ответов одного пользователя не может считаться достоверным, однако по мере роста количества участников программы его достоверность постоянно повышается.

Для проверки достоверности метода мы провели эксперимент с шестнадцатью добровольцами с разным уровнем знания языка. Им был предоставлен список из первых 8 тысяч слов изначального частотного списка, в котором они отмечали известные им слова. Для каждого слова был вычислен процент людей, знакомых с ним, и при помощи описанного выше метода интервалов было построено кумулятивное распределение знания слов «усредненным человеком». Это распределение оказалось немонотонным: некоторые слова, находящиеся в списке ниже, оказывались более простыми, чем слова, расположенные в списке выше. После 85 тыс. сравнений эта кривая оказывается немного более гладкой.

Была построена метрика качества сортировки: количество перестановок, которое нужно совершить в списке слов, чтобы кривая стала монотонной (чем меньше перестановок, тем лучше). На графике ниже показано, как зависит эта метрика от количества проведенных сравнений.

Улучшение сортировки слов (падение метрики) в процессе накопления данных о попарном сравнении слов пользователями. Улучшение сортировки говорит о том, что метод WordMash работает и приводит к желаемому результату.

К сожалению, как и многие другие методы, WordMash наиболее эффективен при начальной сортировке, но для достижения более точных результатов требуется все большее количество сравнений. Оценку требуемого количества сравнений (порядка миллиона) мы получили в результате экстраполяции.

Своими силами мы не сможем провести такое количество сравнений, поэтому мы открыли инструмент для добровольцев по адресу http://tools.skyeng.ru/wordmash. Для этого пришлось продумать дополнительные алгоритмы отсеивания случайных результатов, которые могут возникать как в результате баловства, так и «эффекта любимой кнопки» или просто утомленности пользователя. Какое-то количество таких случайных результатов все-таки просочится в базу, но при том масштабе исследования, который мы задумали, они будут находится в пределах статистической погрешности.

Определение словарного запаса ученика

Имея в руках результаты работы инструмента WordMash, мы сможем достаточно точно определять объем лексикона ученика, что позволит точнее подбирать для него учебные материалы. График роста этого объема, в свою очередь, служит хорошим мотивирующим фактором и показателем эффективности обучения. Для определения словарного запаса мы используем инструмент, аналогичный Test Your Vocabulary, но с модифицированной WordMash базой сложности слов.

На первой итерации, спрашивая несколько слов, логарифмически равномерно покрывающих весь диапазон ранжированного списка, мы находим приблизительную границу медианным методом. На второй итерации мы уточняем эту границу, спрашивая слова в окрестности приблизительной границы.

Следует отметить, что в случае логарифмически распределенных величин медианный метод определения границы следует слегка видоизменить (скорректировать на плотность слов). Если номера слов $n_k$ распределены логарифмически равномерно: $n_k = 10^\alpha^k$ , где k = 1, 2, 3 и т.д., а $\alpha$ — константа, и мы получили ответы ученика $p_k$ , которые равны 1, если он знает слово и 0, если не знает, то оценка границы составит:

$L = (\alpha \ln 10)\sum\limits_k p_k n_k$

Благодаря инструментам ранжирования слов и определения словарного запаса ученика, мы сможем повысить эффективность обучения, создавая сервисы, хорошо дополняющие нашу экосистему — например, «Тепловую карту текста» (обозначение вероятности знания учеником слова цветом) или WordSet Generator (инструмент создания списков слов для изучения на основе конкретных текстов и уровня ученика). Обладая достаточно правдивым упорядоченным по сложности списком слов, мы сможем тонко подстраивать уроки под потребности конкретного ученика — так, чтобы они были интересными (содержали новую полезную информацию) и не чрезмерно сложными (когда незнакомых слов в тексте больше двадцати).

Прототип инструмента Wordset Generator с результатом обработки «Автостопом по Галактике» Дугласа Адамса

Сейчас инструмент WordMash запущен, мы набираем необходимую базу в миллион сравнений и просим читателей принять участие в эксперименте. Если есть свободная минутка — зайдите, пожалуйста, на сайт и оцените несколько пар слов с помощью клавиш курсора. Всего вам будет предложено десять тысяч пар, но все их проходить необязательно — мы сохраняем данные после каждого сравнения.

Прислушавшись к комментаторам здесь на «Хабре», мы сделали WordMash открытым: чтобы сравнивать слова, регистрироваться не обязательно, прогресс будет сохраняться с помощью куки. Тем не менее, если вы готовы потратить на сравнения заметное время, мы рекомендуем зарегистрироваться, чтобы, во-первых, сохранять индивидуальную статистику, а во-вторых, знать, кому выдать бесплатный урок в качестве благодарности. Кроме того, с регистрацией мы сможем гарантировать, что история ваших сравнений никуда не пропадет. Результаты мы храним для будущих анализов, выявления закономерностей и еще более тонкой подстройки индивидуальных программ обучения.