Построение ML модели для оценки текста языкового экзамена

cf383b771d1fa2de07404d14e3affa53.jpg

Путешествуя по просторам Kaggle, я встретила обычный, на первый взгляд, датасет с результатами письменной части языкового экзамена IELTS. Так как недавно я сама активно готовилась к сдаче подобного экзамена, тема меня чрезвычайно заинтересовала и я решила попробовать создать модель, способную предсказывать оценку на основе текста эссе.

Итак, сначала определимся с постановкой задачи. Результаты экзамена оцениваются по шкале от 0.0 до 9.0, с шагом 0.5, поэтому я рассматривала задачу как многоклассовую классификацию.

initial_data.info()

RangeIndex: 1435 entries, 0 to 1434
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Task_Type           1435 non-null   int64  
 1   Question            1435 non-null   object 
 2   Essay               1435 non-null   object 
 3   Examiner_Commen     62 non-null     object 
 4   Task_Response       0 non-null      float64
 5   Coherence_Cohesion  0 non-null      float64
 6   Lexical_Resource    0 non-null      float64
 7   Range_Accuracy      0 non-null      float64
 8   Overall             1435 non-null   float64
 9   Unnamed: 9          0 non-null      float64
dtypes: float64(6), int64(1), object(3)
memory usage: 112.2+ KB

В датасете присутствуют:

  • отметка о типе задания;

  • текст вопроса;

  • тест ответа, написанного кандидатом;

  • комментарий экзаменатора;

  • итоговая оценка.

К сожалению, оценки текста по каждому из 4 критериев (Task Response, Coherence/Cohesion, Lexical Resource и Grammatical Range and Accuracy) отсутствуют, поэтому мы не сможем имитировать процедуру оценки по всем критериям и выведение средней итогового результата, как это происходит в реальности, и не сможем «подсмотреть» в каком критерии мы ошибаемся больше.

Если говорить о распределении данных по типу задания, то оно практически равномерное. Однако, я дополнительно решила проверить к какому варианту экзамена относятся задания первого типа, потому что академический IELTS предполагает описание графика или рисунка, а общий — написание письма. Данные оказались однородными и все ответы относятся только к академической версии.

04333611e351b3d82dc0fd5204c05357.png

Настало время рассмотреть распределение целевой переменной.

plt.figure(figsize=(5,3))
sns.histplot(data=data['Overall']);
plt.show()

453539cbc1e8274dab159ecd64dbf49d.png

data.groupby('Overall').nunique()

7db9572d1c1be9c166f4e8c5d57c6ec8.png


Видно, что некоторые классы представлены слабо. Более того, классы 1.0 и 3.0 имеют 1
и 2 представителя соответственно. Очевидно, что данных для обучения недостаточно, поэтому исключим эти 2 класса из данных.

Чтобы как-то оценить отдельные аспекты ответа, я решила сгенерировать дополнительные признаки.

Во-первых, попробуем отразить лексическое разнообразие ответа. Для этого соберем списки слов разных уровней по классификации CEFR с сайта Кембриджского словаря и посчитаем количество слов каждого уровня, встретившихся в тексте ответа. Кроме того, я использовала список из 570 часто встречающихся академических слов, разработанный Школе лингвистики и прикладных языковых исследований Университета Виктории в Веллингтоне (Новая Зеландия).

Во-вторых, для отражения степени соответствия ответа вопросу, я вычислила cosine_similarity между эмбеддингом вопроса и суммарным эмбеддингом каждого абзаца, полученного суммой эмбеддингов их предложений. При этом эмбеддинги были получены с помощью предобученной модели Word2Vec («GoogleNews-vectors-negative300.bin.gz») из Gensim. Соответственно, для каждого текста ответа получился ряд значений cosine_similarity, соответствующий количеству абзацев в тексте. Я вычислила максимальное, минимальное и среднее значения и добавила их к признакам.

И, наконец, третий источник дополнительных признаков — это библиотека readability. В ней содержится реализация метрик удобочитаемости, основанных на поверхностных характеристиках текста (линейные регрессии, основанные на количестве слов, слогов и предложений). Примерами характеристик, которые можно найти в этой библиотеке, могут служить среднее количество букв в слове, автоматический индекс удобочитаемости (ARI) или индекс удобочитаемости LIX. Все характеристики разбиты на несколько секций, я объединила их в один список, скомбинировав названия секции и признака.

['readability grades-Kincaid',
 'readability grades-ARI',
 'readability grades-Coleman-Liau',
 'readability grades-FleschReadingEase',
 'readability grades-GunningFogIndex',
 'readability grades-LIX',
 'readability grades-SMOGIndex',
 'readability grades-RIX',
 'readability grades-DaleChallIndex',
 'sentence info-characters_per_word',
 'sentence info-syll_per_word',
 'sentence info-words_per_sentence',
 'sentence info-sentences_per_paragraph',
 'sentence info-type_token_ratio',
 'sentence info-characters',
 'sentence info-syllables',
 'sentence info-words',
 'sentence info-wordtypes',
 'sentence info-sentences',
 'sentence info-paragraphs',
 'sentence info-long_words',
 'sentence info-complex_words',
 'sentence info-complex_words_dc',
 'word usage-tobeverb',
 'word usage-auxverb',
 'word usage-conjunction',
 'word usage-pronoun',
 'word usage-preposition',
 'word usage-nominalization',
 'sentence beginnings-pronoun',
 'sentence beginnings-interrogative',
 'sentence beginnings-article',
 'sentence beginnings-subordination',
 'sentence beginnings-conjunction',
 'sentence beginnings-preposition']

После генерации признаков получилось суммарно 48 колонок данных; если отбросить сильно скоррелированные, то их останется 29.Теперь пришло время лемматизировать текстовые данные. Лемматизацию и токенизацию проведем с помощью spacy.

def lemmatize_column(data, column_name):
    nlp = spacy.load("en_core_web_sm", disable=['parser', 'ner'])
    new_columns = pd.Series(dtype='object')
    new_item = ''
    for item in tqdm(data[column_name]):
        item = re.sub(r'(?<=\d)\.(?=\d)', ':', item)
        for sentence in multiple_split(item, ['\n', '!', '?', '.']):
            doc = nlp(sentence.lower())
            new_item = ' '.join([new_item, ' '.join([token.lemma_ for token in doc])])
        new_columns = pd.concat([new_columns, pd.Series(new_item)], ignore_index=True)
        new_item = ''
    return pd.DataFrame(new_columns, columns=['Lemmatized'])

Далее разбиваем данные на train, test и validation в соотношении 70:15:15. В дальнейшем я использовала validation для подбора параметров, а test для сравнительного тестирования моделей. При построении моделей векторизация проводилась с помощью TfidfVectorizer. Оптимальные параметры векторизации я подбирала 1 раз для базовой модели и использовала их во всей работе.

questions_params = dict(norm = None, max_features = 800,
                      ngram_range=(1, 3), max_df=0.95, min_df=0.010)
essays_params = dict(norm = None, max_features = 450,
                      ngram_range=(1, 4), max_df=0.85, min_df=0.016)

В качестве baseline была построена логистическая регрессия, обученная на данных представленных в датасете изначально, то есть колонках 'Essay', 'Question', 'Task_Type'. На валидационной выборке accuracy_score получился 0.395, а на тестовой — 0.381. Представленные ниже данные показывают, что показатели модели сильно различаются для разных классов, что в общем то неудивительно, учитывая распределение имеющихся данных по классам.

50a5370f227aa955a1691130d1e512c7.png

              precision    recall  f1-score   support

         3.5       0.00      0.00      0.00         1
         4.0       0.50      1.00      0.67         1
         4.5       0.00      0.00      0.00         5
         5.0       0.24      0.24      0.24        17
         5.5       0.25      0.28      0.26        25
         6.0       0.44      0.50      0.47        34
         6.5       0.34      0.50      0.40        34
         7.0       0.33      0.37      0.35        35
         7.5       0.60      0.35      0.44        26
         8.0       0.53      0.36      0.43        25
         8.5       0.00      0.00      0.00         6
         9.0       1.00      0.83      0.91         6

    accuracy                           0.38       215
   macro avg       0.35      0.37      0.35       215
weighted avg       0.39      0.38      0.37       215

Далее мне было интересно влияние дополнительно сгенерированных признаков. Для этой проверки я использовала всю ту же логистическую регрессию, обучив её на двух наборах признаков: все признаки и уменьшенный набор, без сильно скоррелированных признаков. Результаты получились даже хуже baseline. Но, возможно, логистическая регрессия просто не может разделить данные лучше, поэтому вернемся к этому вопросу позднее.

baseline

все данные

без скоррелированных данных

validation_set accuracy_score

0.395

0.395

0.391

test_set accuracy_score

0.381

0.367

0.367

Теперь я взяла уменьшенный набор данных (без признаков с сильной корреляцией) и протестировала как на них ведут себя разные модели. При этом, при подборе оптимальных параметров для градиентного бустинга, случайного леса и SVC я использовала optuna и валидационной набор данных, а CatBoost взяла с параметрами по умолчанию. Результаты получились неравномерные: модели, показавшие наилучшие результаты, показали большую разницу в точности для тестовой и валидационной выборок.

baseline

LogisticRegression

Gradient Boosting

Random Forest

SVC

CatBoost

train time

6.03s

4.51s

2min 12s

2.75s

2.23s

36.2s

accuracy_score

validation_set

0.395

0.391

0.423

0.433

0.395

0.405

test_set

0.381

0.367

0.386

0.451

0.386

0.479

Более того, я заметила, что даже модели с одинаковыми значениями accuracy_score имеют разные матрицы ошибок.

GradientBoosting test_set (accuracy_score 0.386)

GradientBoosting test_set (accuracy_score 0.386)

SVC test_set (accuracy_score 0.386)

SVC test_set (accuracy_score 0.386)

Тогда я решила попробовать составить ансамбль всех этих пяти моделей, чтобы они компенсировали ошибки друг друга. Для этого я применила VotingClassifier с подбором оптимальных весов для моделей. В результате получилась модель со средней точностью, но меньшей разницей между результатами тестовой и валидационной выборок.

VotingClassifier

train time

2min 40s

accuracy_score

validation_set

0.405

test_set

0.414

Итак, я выбрала. Получились 2 лучших модели: RandomForestClassifier и VotingClassifier. Первая показала лучшую точность, а вторая более стабильный результат.

Теперь пришло время проверить их поведение на разных наборах данных и определить насколько удачные признаки мы сгенерировали. Сравнение я провела на 5 наборах данных:

  • изначально представленные в датасете (1);

  • все признаки, вместе со всеми сгенерированными (2);

  • все признаки, без сильно скоррелированных (на них проводился отбор наиболее эффективной модели ранее) (3);

  • начальные признаки + «простые» признаки (сгенерированные первыми 2 путями: количество слов разных уровней и «похожесть» вопроса на ответ) (4);

  • начальные признаки + «сложные» признаки (полученные с помощью readability) (5).

Начальные признаки

(1)

Все признаки

(2)

Без скоррелированных

(3)

Начальные + «простые»

(4)

Начальные + «сложные»

(5)

RandomForestClassifier

validation_set

0.381

0.386

0.433

0.386

0.391

test_set

0.367

0.465

0.451

0.437

0.442

VotingClassifier

validation_set

0.409

0.428

0.405

0.414

0.391

test_set

0.405

0.423

0.414

0.409

0.437

По полученным accuracy_score видно, что дополнительные признаки, практически во всех случаях не ухудшили качество моделей. Однако, нельзя сказать однозначно какие признаки оказались решающими для повышения эффективности. Кроме того, необходимо отметить, что если случайный лес показал наилучшую эффективность на данных под которые он подбирался, то VotingClassifier лучше отработал на полном датасете со всеми сгенерированными признаками. Вероятно, какая-то модель из ансамбля лучше использовала информацию из всех данных. В финал, таким образом, выходят RandomForest, обученный на нескоррелированных данных и VotingClassifier, обученный на всех данных.

Итак, настало время итогового теста. В связи с небольшим количеством данных, я решила провести тестирование лучших моделей с помощью «независимого» теста. Проверка заключалась в использовании сервиса Write & Improve от Cambridge. В нем предлагается написать эссе на предложенную тему и система его оценивает. Однако, здесь выставляется общая оценка за пару из задания первого и второго типов, поэтому в моем эксперименте я считала, что обе части имеют одинаковый балл. Моя тестовая пара текстов была оценена в 7.0 баллов. Когда я предложила эти тексты моим финалистам, то RandomForestClassifier оценил тестовые образцы в 6.0 и 7.0 баллов, а VotingClassifier — в 7.0 и 6.5. Я считаю, у обеих моделей вышла хорошая точность, хотя VotingClassifier мне нравится больше, так как он в целом дает более равномерные результаты.

Таким образом, в результате работы у меня получились 2 модели, которые без использования нейронных сетей способны прогнозировать итоговый балл с приемлемой точностью. Безусловно, необходимо учесть, что класс 7.0, использованный для теста, имел достаточное количество данных для обучения, но для сравнительно простых моделей этот результат все равно неожиданно высокий. Это подтверждает идею, что при достаточном количестве данных можно и сложные задачи успешно решать простыми моделями.

На этом все, а подробнее о курсе Machine Learning. Professional, обучаясь на котором я подготовила данный проект, вы можете узнать на сайте OTUS.

© Habrahabr.ru