Инструмент построения списков слов для изучения: утром лексика, вечером – фильм

2a546c3b3caa44fe8a13b5e0f486723d.jpg

Мы в школе Skyeng убеждены, что чем быстрее ученик получает ощутимый эффект от занятия или тренировки, тем выше его мотивация и эффективнее само обучение. Традиционная методика изучения языков обещает конкретный результат лишь через длительное время — год, два, т.е. требует вложения значительных сил, времени и средств без немедленного эффекта. Мы считаем, что вполне реально получить «возврат инвестиций» быстро, если ставить перед собой небольшие конкретные задачи и решать их. Сегодня мы расскажем про один из наших служебных инструментов, предназначенный как раз для этого, и дадим читателям возможность попробовать его в деле, составить собственные списки слов, самые интересные из которых будут предложены всем пользователями Aword!

Если вам надо приготовить ирландское рагу по оригинальному рецепту на английском, традиционная школа предложит выучить 200 наименований кухонной утвари и 300 наименований различных продуктов. Мы предлагаем сразу учить слова, имеющие непосредственное отношение к задаче — т.е. встречающиеся в рецептах именно ирландского рагу. Инженеру-конструктору для чтения профессиональной литературы необязательно проходить уроки про «Лондон из зе капитэл» и экологию: ему достаточно знания базовой и узкоспециальной лексики.

Для решения таких конкретных задач мы готовим тематические наборы слов, которые могут заучивать пользователи нашего мобильного приложения Aword. А для подготовки этих сетов мы используем инструмент Wordset Generator, создающий упорядоченный список слов для запоминания из текста или набора текстов, которые хочет прочитать ученик.

b2018919f681430b8c7a7699709e2ea4.png
Результат обработки книги Дугласа Адамса «Автостопом по Галактике»

6c008d3439074378ba59dca94ff7b93f.png
Слова, встречающиеся в 5 сезонах игры престолов, наложенные на модельную кривую знания ученика. Координаты каждой точки (слова) — полезность от номера слова. Справа показаны наиболее полезные для такого ученика 25 слов из сериала.

Создание Wordset Generator стало возможно благодаря наличию у нас инструментов ранжирования слов и определения словарного запаса конкретного ученика (в одной из предыдущих статей мы рассказывали, зачем мы сделали эти инструменты, а не воспользовались готовыми корпусами). Для каждого слова может быть вычислена эффективная полезность: насколько изучение этого слова увеличит коэффициент понимания текста. С помощью Wordset Generator мы можем порекомендовать ученику изучать в первую очередь самые распространенные неизвестные ему слова или же, напротив, наиболее важные в его профессиональной деятельности.

Алгоритм


 — Составляется список всех использованных в тексте слов, с указанием количества вхождений.
 — Отсекаются (отправляются в отдельный список) все слова, отсутствующие в нашем словаре. Как правило, это выдуманные автором слова, имена, названия.
 — Определяется «тематичность» каждого слова в списке, для чего сравнивается частота вхождения слова в анализируемом тексте с частотой вхождения этого слова в корпусе текстов английского языка (его распространенности). Число означает, во сколько раз чаще слово присутствует в анализируемом тексте.

Дальше проводится полуавтоматическая подстройка списка под конкретные нужды (с помощью заданных параметров или перемещения ползунков).
 — Задается уровень знания ученика («сложность»). При этом отсекаются слова, с которыми ученик, скорее всего, уже знаком.
 — Выбираются веса тематичности и локальной частотности. Тематичность важна в том случае, если мы готовим список профессиональных терминов для использования по работе. В случае анализа художественной литературы важнее частотность.
 — Наконец, алгоритм умеет вычислять вероятность того, что конкретное слово в данном тексте является именем собственным (в веб-версии такие слова подсвечиваются разной интенсивности красным цветом). Ползунок «Имена собственные» позволяет удалять такие слова в соответствии с заданной вероятностью; в большинстве случаев здесь требуется ручное вмешательство, особенно если речь идет о художественной литературе.

Не только машина


Инструмент Wordset Generator значительно облегчил работу нашего контент-отдела, но, конечно, не взял ее на себя. Методисты по-прежнему играют важную роль в составлении тематических наборов слов для заучивания.
Во-первых, им необходимо подготовить корпус текстов, из которых будут извлекаться слова. Если с конкретной книгой или фильмом эта задача более-менее проста, то в случае тематических наборов типа «В аэропорту» нужно перелопатить довольно значительный объем информации, чтобы набрать хорошую репрезентативную выборку: классические тексты из учебников, статьи из путеводителей, правила авиакомпаний, отзывы в блогах (как правило, жалобы) и т.д. Важно, чтобы эти тексты были современные и живые, поскольку мы хотим учить студентов языку, на котором сегодня говорят и пишут американцы и британцы.

Во-вторых, необходимо настроить правильные параметры сложности, тематичности и прочие. Все это делается только ручным перетаскиванием ползунков, поскольку сильно зависит от цели набора, уровня подготовки ученика, специфики темы и т.д.

В-третьих, требуется серьезная работа с полученным набором слов. Необходимо выяснить точное значение слова в данном контексте. Кроме того, зачастую необходимый термин состоит не из одного слова, а из нескольких, их тоже надо найти и привести список в порядок. Так, в случае аэропортовой лексики мы обнаружили среди часто встречающихся слово metal: на самом деле речь шла о metal detector. Подобные словосочетания часто состоят из простых слов, которые инструмент отбрасывает — их надо найти и вернуть на место.

Наконец, надо еще подобрать ко всем словам картинки — так, чтобы они соответствовали нужному смыслу. Этим тоже занимается специальный человек.

Применение


Наиболее очевидное применение инструмента Wordset Generator для наших студентов — создание списков слов для заучивания под конкретные книги или фильмы. Если проанализировать текст книги, составить список из сотни слов и поучить его в мобильном приложении — читать будет значительно проще, не придется каждые пять минут лазить в словарь.

Благодаря инструменту мы можем быстро готовить наборы слов под конкретное событие: презентацию очередного Айфона, чемпионат по футболу, громкую премьеру или какой-нибудь медийный скандал. С такой просьбой к нам могут обращаться наши ученики, и мы сами стараемся отслеживать потенциально востребованные «скоропортящиеся» темы, чтобы своевременно предложить пользователям мобильного приложения набор слов под них.

0ca225274cc84fa3aaa06366795989b4.png

Анализ художественной литературы помогает методистам готовить рекомендационные списки для каждого уровня учеников. Чем меньше «сложных» слов выдает программа — тем доступнее текст для студентов, находящихся в середине пути изучения языка. Для высоких же уровней такие тексты не представляют трудности и не несут образовательной пользы — им надо подыскивать более богатые лексически произведения. Например, в произвольно выбранном детективе Агаты Кристи (After the Funeral) «сложных» слов насчитывается менее 300; в «Улиссе» Джеймса Джойса список заходит за 2000.

Очень полезен инструмент Wordset Generator в нашей работе с корпоративными клиентами, которым зачастую требуется изучение и заучивание специальной профессиональной лексики. Так, для одного из корпоративных клиентов, работающего в аэрокосмической отрасли, мы подготовили списки слов на основе анализа десятков статей в профессиональных журналах. Важно, что в высокотехнологичных областях лексика постоянно обновляется; использование нашего инструмента и подборки максимально свежих материалов позволяет создавать списки, содержащие наиболее актуальные термины.

К делу!


Мы решили дать читателям Хабра возможность самостоятельно поиграться с Wordset Generator — вот он: http://tools.skyeng.ru/sandbox/wordset-generator/

Он более-менее интуитивный, хотя стоит учитывать, что это наш внутренний инструмент, не предназначенный для широкой публики, а потому интерфейс его весьма аскетичен и непричесан.

В открытой версии есть ограничение на размер текста — не больше 80 тысяч знаков, включая пробелы и переносы строк. Практика показывает, что это оптимальное значение для полезного применения инструмента «в быту». Берите то, что собираетесь прочитать в ближайшее время: пару глав, десять страниц или несколько статей. Вы получите компактный набор, который можно тренировать в мобильном приложении в течение дня, а вечером закрепить выученное в контексте (попутно насладившись книгой). Например:

2829282d7d0f462da8aee7b40059f5d5.png

перед вами — результат парсинга первой главы «Автостопом по Галактике» Адамса. Сравните со скриншотом в начале статьи, где показан результат анализа всей книги с теми же параметрами. Эти слова там тоже есть, но где-то в третьей-четвертой сотне, а здесь они представлены, как на блюдечке.

Полученные слова можно добавить в приложение вручную с помощью встроенного словаря. А читатели Хабра могут создать собственный список слов, экспортировать его в CSV и поделиться ссылкой на полученный файл в комментариях к этому посту. Через неделю мы выберем самые интересные сеты, предложенные Хабром, и включим их в наше приложение в специальной категории «Сеты от хабровчан».

Само приложение Aword можно взять в App Store. Уже скоро оно будет доступно в Google Play, а в ноябре — в Web-версии!

Удачного изучения слов!

И традиционно напоминаем, что мы будем рады видеть в нашей команде ценных специалистов!

Комментарии (2)

  • 24 октября 2016 в 13:21

    0

    Не могли бы вы более подробно описать настройки генератора и на что они влияют?
  • 24 октября 2016 в 13:26

    0

    «Вес локальной частотности» — наверху слова, чаще всего встречающиеся в тексте.
    «Тематичность» — наверху наиболее «тематические» слова, т.е. те, которые в этом тексте встречаются чаще, чем в усредненном корпусе английских текстов.
    «Имена собственные» — можно убирать слова, которые инструмент считает именами.
    «Сложнее — проще — ползунок для выбора уровня знания лексики, отсекает простые слова.
    Универсального рецепта настройки ползунков нет, нужный список достигается экспериментами (набор перестраивается на лету).

© Habrahabr.ru