Перейти к содержимому

Обзор задач

Машинное обучение — это способ создания программ, которые обучаются на данных. Вместо того чтобы писать жёсткие правила «если — то», мы показываем программе множество примеров, а она сама находит в них закономерности. Затем эти знания применяются к новым, ранее не встречавшимся данным. Это похоже на то, как учится человек — на собственном опыте.

Качество результата напрямую зависит от объёма и качества обучающих данных. Именно поэтому современные системы машинного обучения часто работают с большими наборами данных (Big Data).

Центральное понятие машинного обучения — модель. Это программа, которая в процессе обучения выявляет закономерности в данных, а затем использует их для решения практических задач.

В зависимости от типа результата различают три основные задачи:

  • Классификация — отнесение объекта к одной из заранее известных категорий (классов).
  • Регрессия — предсказание числового значения.
  • Кластеризация — разбиение объектов на группы по схожести.

Библиотека ML PascalABC.NET позволяет создавать, обучать и использовать такие модели прямо в среде PascalABC.NET. Вам не нужно переходить на Python или другие языки. Всё делается в знакомом и понятном синтаксисе Pascal, что делает изучение машинного обучения доступным для школьников и удобным для профессионалов.

Рассмотрим эти задачи подробнее и для каждой приведём простые примеры.

Классификация используется, когда нужно выбрать один из нескольких вариантов.

Например, модель может учиться отличать яблоки, груши и апельсины по признакам: размеру, весу, цвету и форме.

Классификация фруктов по признакам

Другие примеры:

  • понять, является ли письмо спамом;
  • отнести товар к категории.

Результат классификации — класс: яблоко, груша, апельсин, spam / не spam, продано / не продано.

Регрессия используется, когда нужно предсказать число.

Например, модель может предсказывать цену квартиры по её площади и, возможно, другим признакам: числу комнат, району, этажу или году постройки.

Регрессия предсказывает цену квартиры по площади

Другие примеры:

  • оценить температуру завтра;
  • спрогнозировать время доставки.

Результат регрессии — числовое значение.

Кластеризация используется, когда заранее неизвестны правильные ответы, но нужно найти группы похожих объектов.

В отличие от классификации, здесь нет заранее заданных классов. Алгоритм сам ищет кластеры — группы объектов, которые похожи друг на друга по признакам.

Кластеризация находит группы похожих объектов

Например:

  • разбить покупателей на группы по поведению;
  • найти похожие товары;
  • обнаружить необычные объекты в данных.

Сначала нужно понять тип задачи:

  • если ответ — категория, нужна классификация;
  • если ответ — число, нужна регрессия;
  • если правильных ответов нет, но нужны группы, нужна кластеризация.

После этого выбирают конкретную модель и проверяют её качество на данных, которые не использовались при обучении.