Перейти к содержимому

Классификация

Классификация используется, когда нужно отнести объект к одному из заранее известных классов.

Например, модель может учиться отличать яблоки, груши и апельсины по признакам: размеру, весу, цвету и форме.

Классификация фруктов по признакам

Признаки (features) — это данные, по которым модель принимает решение.

Целевая переменная (target) — это то, что модель должна предсказать.

В задаче классификации целевая переменная принимает значения из конечного набора категорий: яблоко, груша, апельсин.

В программе признаки обычно записываются в матрицу X, а целевая переменная — в вектор y.

Признаки, целевая переменная, обучение и проверка классификатора

В классификации значения целевой переменной называются классами или метками классов.

Например:

  • яблоко
  • груша
  • апельсин

являются тремя классами задачи классификации фруктов.

Чтобы понять, действительно ли модель научилась решать задачу, данные обычно делят на две части:

  • обучающую выборку — на ней модель учится;
  • тестовую выборку — на ней проверяется качество модели.

Такой подход называется TrainTestSplit. Он помогает проверить модель на данных, которые она не видела во время обучения.

Самая простая метрика для классификации — Accuracy. Она показывает долю правильных ответов.

Например, Accuracy = 0.90 означает, что модель правильно ответила примерно в 90% случаев.

Для более сложных задач используют и другие метрики: Precision, Recall, F1 и матрицу ошибок. Они особенно важны, если классы встречаются неравномерно.