Открытый вебинар «Наивный байесовский классификатор»
Всем привет!
В рамках нашего курса Data Scientist мы провели открытый урок на тему «Наивный баейсовский классификатор». Занятие вёл преподаватель курса Максим Кретов — ведущий исследователь в лаборатории нейронных сетей и глубокого обучения (МФТИ). Предлагаем ознакомиться с видео и кратким изложением.
Заранее спасибо.
Вступление
Представьте, что у вас есть тысяча объектов недвижимости. Как правило, каждый из них можно охарактеризовать определенным набором признаков, например:
- площадь дома;
- количество времени, прошедшее после последнего ремонта;
- удаленность от ближайшей остановки общественного транспорта.
Таким образом каждый дом можно представить, как х с размерностью 3. То есть х = (150; 5; 600), где 150 — площадь дома в метрах квадратных, 5 — количество лет после ремонта, 600 — расстояние до остановки в метрах. Цена, за которую этот дом можно продать на рынке, будет обозначаться y.
В результате мы имеем набор векторов, причем каждому объекту соответствует переменная. И если говорить о цене, то как раз ее то и можно научиться предсказывать, обладая навыками машинного обучения.
Основная классификация методов машинного обучения
Рассмотренный выше пример довольно типичен и относится к машинному обучению с учителем (есть целевая переменная). Если же последняя отсутствует, можно говорить о машинном обучении без учителя. Это и есть два основных и наиболее распространенных вида машинного обучения. При этом задача обучения с учителем, в свою очередь, делится на две группы:
- Классификация. Целевая переменная — это один из С-классов, т. е. каждому объекту дана метка класса (коттедж, садовый домик, хозпостройка и т. п.).
- Регрессия. Целевая переменная — это действительное число.
Какие задачи решает машинное обучение?
Сегодня с помощью методов машинного обучения решаются следующие задачи:
1. Синтаксические:
- разметка по частям речи и морфологическим признакам;
- деление слов в тексте на морфемы (приставку, суффикс и пр.);
- поиск имен и названий в тексте («распознавание именованных сущностей»);
- разрешение смысла слов в заданном контексте (типичный пример — зАмок или замОк).
2. Задачи на понимание текста, в которых есть «учитель»:
- машинный перевод;
- диалоговые модели (чат-боты).
3. Прочие задачи (описание изображения, распознавание речи и т. д.).
Сложности работы с текстом
Работа с текстом с точки зрения машинного обучения всегда несет в себе определенные сложности. Для этого достаточно вспомнить два предложения:
- мама мыла раму и теперь она блестит;
- мама мыла раму и теперь она устала.
Если классификатор, выполняющий машинное обучение, не обладает здравым смыслом, для него одинаково верно, когда рама и блестит, и устала, так как синтаксически слово рама во втором предложении расположено ближе к местоимению она.
Практическое задание
После предоставления общеознакомительной информации о некоторых аспектах машинного обучения преподаватель плавно перешел к практической задаче вебинара — классификации электронных писем на спам и на качество.
В первую очередь, был показан пример, как преобразовать входной текст в вектор из чисел. Для этого:
- был зафиксирован словарь размера К;
- каждое слово в тексте было представлено в следующем виде: (0, 0, 0, …0, 1, 0, …0).
Такой подход называется 1-hot-encoding, а слова в его контексте — токенами.
По результатам этого этапа обработки данных был создан словарь и сделаны счетчики слов для каждого текста. В итоге был получен вектор фиксированной длины для каждого текста. Также был рассмотрен более простой подход boolean mask.
Знакомство с байесовским классификатором
Наивный байесовский классификатор основан на применении теоремы Байеса со строгими (наивными) предположениями о независимости. Его достоинством является малое количество данных для обучения, необходимых для оценки параметров, требуемых для классификации.
В интерпретации к задаче по классификации электронных писем основная идея заключалась в следующем:
- все слова в тексте рассматриваются независимо друг от друга;
- если какие-нибудь слова встречаются в спаме чаще, чем в хороших письмах, эти слова считаются признаками принадлежности письма к спаму.
С учетом теоремы Байеса были прописаны соответствующие формулы для нескольких переменных, а также рассмотрены особенности вычисления дополнительных допущений. Для расчета параметров был использован псевдокод, после этого — сформирован подробный модельный пример, где были рассчитаны априорные вероятности и вероятности принадлежности к классам для нового объекта х. Окончательный этап практической работы — построение и тренировка модели, а также измерение качества.
THE END
Как всегда мы ждём вопросы и комментарии тут или вы можете задать их преподавателю напрямую, зайдя на день открытых дверей.