Заклинания для Героев машинного обучения
Привет, Хабр!
Иногда хочется обсудить что-то по-настоящему серьезное. Пора закрыть jupyter, остановить gpu и поговорить о магии.
В мире машинного обучения алгоритмы и методы обработки данных могут сравниться с магическими заклинаниями.
Только прожженные циники из дата сайентистов пренебрегают фазами луны при тюнинге гиперпараметров. Оставим эти потерянные души, для настоящих профи я подготовил несколько заклинаний, такого не найдешь на курсиках.
Stone Skin
Регуляризация
Регуляризация. Каменная кожа ограничит веса модели и защитит ее от переобучения. Очень желательно иметь это заклинание в своей книжке. Этот вид колдунства доступен даже не для самых продвинутых магов.
Magic Arrow
Линейная регрессия
Линейная регрессия. Базовый метод предсказания, простой, и, конечно же, не самый сильный. Помогает с простыми задачами прогнозирования, где зависимость между переменными линейна и легко интерпретируема. Со стрелкой уже можно ходить по собесам, главное правильно рассчитать свои силы.
Blind
Dropout
Dropout. Отключение случайных нейронов во время обучения. Тоже спасает от переобучения. Иногда магам задают каверзный вопрос: когда следует использовать dropout — на обучении или на инференсе. Не стоит вступать в дискуссии с профанами.
Bloodlust
Активационные функции
Функции активации. Заклинания, которые определяют «ярость» нейронов и контролируют их активацию. Сетка может не взлететь если вы напортачили с функциями. Хотя бы изредка наведываетесь в Университет Магии. Нет ничего практичней хорошей теории.
Dispel
Очистка данных
Очистка данных. Снимает чары шума и аномалий в данных. Вероятность фатальных последствий близка к единице, если своевременно не добавить его в книгу заклинаний. Иногда маг преисполняется собственной важностью и жалеет ману на очистку датки. Расплата за гордыню будет жестокой.
Precision
Метрики качества
Метрики качества. Даст оценку вашей работе. Перед тем, как что-то моделировать, лучше сразу прикинуть, какую метрику кастануть. Применять надо с умом, если c умом проблемы — используйте f1.
Clone
Аугментация данных
Аугментация данных. Создание новых примеров данных на основе существующих. Когда данные полны мусора и скверны, вы только умножите скорбь в этом мире.
Meteor Shower
Случайный лес
Случайный лес. Несколько «метеоритов» (деревьев решений) работают вместе для создания сильного классификатора. Работает надежно. Если не хочется заморачиваться — просто жахни рэндом форестом.
Chain Lightning
Градиентный бустинг
Градиентный бустинг. Начинает с первой базовой модели и ~~выигрывает~~ последовательно усиливается. Очень мощное заклинание в опытных руках. Требует продвинутой мудрости и хороший запас маны. Результат вас порадует.
Resurrection
Fine-tuning
Fine-tuning. Использование накопленных знаний для обучения на новой, связанной задаче. Если вы владеете тайнами файн-тюнинга, то практически неуязвимы. На собес можно вообще не приходить, просто скажите эйчар (у/ке), что вы шатаете берт. Требует маны и ресурсов гпу.
Armageddon
GPT-4
GPT-4. Просто заплатите 20$
Теперь вы почти готовы к битвам. Осталось подписаться на мой канал https://t.me/nlp_daily — где я пишу про магию NLP.
Спасибо за внимание!