Обзор задач
Машинное обучение — это способ создания программ, которые обучаются на данных. Вместо того чтобы писать жёсткие правила «если — то», мы показываем программе множество примеров, а она сама находит в них закономерности. Затем эти знания применяются к новым, ранее не встречавшимся данным. Это похоже на то, как учится человек — на собственном опыте.
Качество результата напрямую зависит от объёма и качества обучающих данных. Именно поэтому современные системы машинного обучения часто работают с большими наборами данных (Big Data).
Центральное понятие машинного обучения — модель. Это программа, которая в процессе обучения выявляет закономерности в данных, а затем использует их для решения практических задач.
Основные задачи
Заголовок раздела «Основные задачи»В зависимости от типа результата различают три основные задачи:
- Классификация — отнесение объекта к одной из заранее известных категорий (классов).
- Регрессия — предсказание числового значения.
- Кластеризация — разбиение объектов на группы по схожести.
Библиотека ML PascalABC.NET позволяет создавать, обучать и использовать такие модели прямо в среде PascalABC.NET. Вам не нужно переходить на Python или другие языки. Всё делается в знакомом и понятном синтаксисе Pascal, что делает изучение машинного обучения доступным для школьников и удобным для профессионалов.
Рассмотрим эти задачи подробнее и для каждой приведём простые примеры.
Классификация
Заголовок раздела «Классификация»Классификация используется, когда нужно выбрать один из нескольких вариантов.
Например, модель может учиться отличать яблоки, груши и апельсины по признакам: размеру, весу, цвету и форме.
Другие примеры:
- понять, является ли письмо спамом;
- отнести товар к категории.
Результат классификации — класс: яблоко, груша, апельсин, spam / не spam, продано / не продано.
Регрессия
Заголовок раздела «Регрессия»Регрессия используется, когда нужно предсказать число.
Например, модель может предсказывать цену квартиры по её площади и, возможно, другим признакам: числу комнат, району, этажу или году постройки.
Другие примеры:
- оценить температуру завтра;
- спрогнозировать время доставки.
Результат регрессии — числовое значение.
Кластеризация
Заголовок раздела «Кластеризация»Кластеризация используется, когда заранее неизвестны правильные ответы, но нужно найти группы похожих объектов.
В отличие от классификации, здесь нет заранее заданных классов. Алгоритм сам ищет кластеры — группы объектов, которые похожи друг на друга по признакам.
Например:
- разбить покупателей на группы по поведению;
- найти похожие товары;
- обнаружить необычные объекты в данных.
Как выбирать модель
Заголовок раздела «Как выбирать модель»Сначала нужно понять тип задачи:
- если ответ — категория, нужна классификация;
- если ответ — число, нужна регрессия;
- если правильных ответов нет, но нужны группы, нужна кластеризация.
После этого выбирают конкретную модель и проверяют её качество на данных, которые не использовались при обучении.