Метрики оценки моделей нейронных сетей для чайников
Оценка моделей нейронных сетей играет ключевую роль в выборе наилучшего алгоритма для конкретной задачи. Выбор метрики должен соответствовать целям, поскольку очевидного показателя «Точность» (accuracy) обычно недостаточно. Критерии помогают определить эффективность и корректно сравнить различные подходы.
Меня зовут Александр Агеев, я ML‑разработчик в SL Soft AI. В этой статье я расскажу про три задачи и методы их оценки:
классификация — предсказание дискретных классов,
обнаружение объектов (детекция) — локализация и классификация объектов на изображении,
сегментация — разметка каждого пикселя изображения в соответствии с принадлежностью к определенному классу.
Внимание: материал предназначен для первого погружения в тему и не учитывает многовариативность подходов в узкоспециализированных задачах, где метрики могут изменяться и усложняться.

Метрики бинарной классификации
Бинарная классификация предполагает разделение объектов на два класса: положительный и отрицательный (кошка/собака, больной/здоровый…). Метрики основаны на возможных исходах предсказаний:
True Positive (TP) — истинноположительный класс,
True Negative (TN) — истинноотрицательный класс,
False Positive (FP) — ложноположительный класс,
False Negative (FN) — ложноотрицательный класс.
На основе этих результатов строится матрица ошибок (confusion matrix), которая позволяет вычислить основные метрики качества модели:
P+N | Положительный (предсказано) | Отрицательный (предсказано) |
Положительный (факт) | TP | FP |
Отрицательный (факт) | FN | TN |
Accuracy
Одна из самых простых и популярных метрик. Она показывает долю правильно классифицированных объектов от общего числа примеров:
Однако эта метрика походит только в идеальных случаях, когда классы сбалансированы, то есть имеют одинаковый для нас вес — кошки/собаки. В задачах, где ошибка на определение класса критична — болен/здоров — метрика не годится.
Precision
Измеряет, какая доля предсказанных моделью положительных случаев действительно является положительной:
Эта метрика важна в задачах, где критично минимизировать количество ложных срабатываний (FP). Например, при выявлении мошеннических транзакций.
Recall
Показывает, какую долю реальных положительных случаев модель смогла правильно предсказать:
Данная метрика важна в ситуациях, когда важно не пропустить положительный случай, например, при диагностике смертельных заболеваний.
F1-score
Гармоническое среднее Precision и Recall:
Эта метрика полезна, если требуется найти баланс между Precision и Recall.
ROC-кривая и AUC
ROC‑кривая (Receiver Operating Characteristic) показывает зависимость между True Positive Rate (Recall) и False Positive Rate:
AUC (Area Under Curve) — площадь под ROC‑кривой. Чем больше AUC, тем лучше модель различает классы. AUC = 0.5 соответствует случайному угадыванию, а AUC = 1 означает идеальную классификацию.

Классная статья на Хабре про эти метрики.
Мультиклассовая классификация
Если классов больше двух, метрики можно адаптировать следующим образом:
Micro‑averaging — суммирование TP, FP и FN по всем классам перед расчетом Precision, Recall и F1-score.
Macro‑averaging — вычисление Precision, Recall и F1-score отдельно для каждого класса и усреднение полученных значений.
Weighted‑averaging — аналог macro‑averaging, но с учетом частоты встречаемости каждого класса.
Метрики сегментации изображений
True Positive (TP) — истинноположительные пиксели.
True Negative (TN) — истинноотрицательные пиксели.
False Positive (FP) — ложноположительные пиксели.
False Negative (FN) — ложноотрицательные пиксели.
Попиксельная точность (Pixel Accuracy)
Попиксельная точность отражает долю правильно классифицированных пикселей изображения:
Как в случае с бинарной классификацией, при сильной несбалансированности классов метрика может дать искаженную картину эффективности модели, поэтому применяется с осторожностью.
Средняя попиксельная точность по классам (Mean Pixel Accuracy)
Для устранения недостатков попиксельной точности используется средняя попиксельная точность по классам. Она вычисляется отдельно для каждого класса и затем усредняется по всем классам:
где n — число классов.
IoU (Intersection over Union, Jaccard Index)
IoU оценивает степень пересечения между предсказанной и реальной областями сегментации:
Среднее значение IoU (Mean IoU) часто используется для оценки модели на полном наборе данных и может рассчитываться как взвешенное среднее по классам, учитывая частоту каждого класса.
Индекс Дайса (Dice Index или F1-score)
Индекс Дайса похож на IoU, но отличается небольшим изменением формулы, акцентируя внимание на пересечении:
Показывает, насколько хорошо предсказанная маска совпадает с истинной маской. Интерпретация:
Если TP велико, а FP и FN малы, то индекс Дайса близок к 1.
Если FP или FN велики, то индекс Дайса уменьшается.
Метрики IoU и Dice связаны следующим образом:
В связи с этой тесной связью нет необходимости одновременно вычислять обе метрики — достаточно одной.
Дополнительные метрики
Помимо указанных основных метрик, для детального анализа качества сегментации могут применяться:
Boundary IoU — вариант IoU, который учитывает пиксели на границе сегментируемых объектов с меньшим весом или полностью исключает их.
Hausdorff Distance (расстояние Хаусдорфа) — измеряет максимальное расстояние между двумя контурами сегментированных областей, что полезно для оценки точности границ.
Метрики детекции объектов
True Positive (TP) — объект верно обнаружен и классифицирован.
False Positive (FP) — ложное срабатывание: либо объект определен там, где его нет, либо ошибочно классифицирован при достаточном пересечении.
True Negative (TN) — система правильно не нашла объект (для задач детекции этот показатель обычно рассматривается редко, т.к. объект может быть найден в другом месте или выбрана иная зона интереса, поэтому большее значением имеет IoU, о чем читайте ниже).
False Negative (FN) — система пропустила объект, который реально есть на изображении.
Precision, Recall, F1-Score
Подобно задачам классификации и сегментации, в задачах детекции можно рассчитывать Precision и Recall:
Precision показывает, какая доля обнаруженных (предсказанных) объектов действительно является корректной.
Recall показывает, какая доля реальных объектов была обнаружена.
F1-Score — гармоническое среднее между Precision и Recall, объединяющее их в одну сводную метрику.
Однако в детекции объекты считаются истинно положительными, только если IoU между предсказанной и реальной рамкой превышает некоторый порог (например, 0.5). Если пересечение меньше порога, объект считается FP.
IoU (Intersection over Union, Jaccard Index)
Чтобы оценить качество локализации объекта, используют также IoU:
если IoU 0.5 (или другой выбранный порог), обычно говорят, что обнаружение корректно,
если IoU меньше порога, модель ошиблась, и предсказанная рамка считается ложноположительной.
Значение порога может варьироваться: при более высоком пороге модель должна точнее определять ограничивающие рамки.
Mean Average Precision (mAP)
Оценка Average Precision (AP) для одного класса рассчитывается как площадь под кривой Precision‑Recall.
Mean Average Precision (mAP) — это средняя по всем классам величина AP. В разных задачах детекции:
иногда AP считается при одном пороге IoU (например, 0.5), и результат усредняется по всем классам,
иногда AP вычисляется при разных порогах (0.5, 0.55, 0.6, …, 0.95) и усредняется, давая более строгую оценку.
mAP позволяет оценить и сравнить качество моделей детекции с учетом как локализации, так и классификации, учитывая все классы объектов.
Дополнительные аспекты оценки
IoU thresholds — использование нескольких порогов IoU дает более детальную информацию о том, насколько точно модель локализует объекты.
Size splits — оценка mAP по размерам объектов (small, medium, large) помогает понять, как модель работает на объектах разного масштаба.
Confidence score — прогнозируемая моделью уверенность в обнаружении объекта также влияет на подсчет метрик: чаще всего мы строим кривую Precision‑Recall, изменяя порог по confidence score.
Понимание сильных и слабых сторон каждой метрики и совместное использование нескольких показателей дают наиболее полное представление о возможностях и ограничениях модели. Так для классификации и детекции особенно актуальны Precision, Recall и F1-score и производные метрики: mAP — для детекции, усредненные варианты (Micro, Macro, Weighted) — при многоклассовых задачах. В сегментации фокус смещается на попиксельную точность (Pixel Accuracy) и метрики, оценивающие степень пересечения предсказанных и истинных масок: IoU и Dice. Совет: всегда обращайте внимание на то, как оценивать результаты вашего обучения модели.
Итого: сбалансированность выборки, определение оптимальных порогов IoU и confidence score, а также учет размера объектов в детекции оказывают значительное влияние на итоги экспериментов. Все это важно не только для объективной оценки модели, но и для поиска верного пути оптимизации, чтобы итоговые результаты были надежными и применимыми на практике.