При контролируемом обучении (supervised learning) или обучении с учителем, алгоритму предоставляются пары объект-ответ. Алгоритм должен обучиться – выявить связь между признаками объекта (features) и ответами. Обученный алгоритм должен формировать ответ на предъявление ему ранее ему не известного объекта.
Две основные задачи, решаемые контролируемым машинным обучением:
- Классификация (classification)
- Регрессия (regression)
Цель классификации состоит в том, чтобы для представленного алгоритму объекту спрогнозировать метку класса (class label), которая представляет собой выбор из заранее определенного списка возможных вариантов.
Классификация иногда разделяется на бинарную классификацию (binary classification), в которой решается задача разделения на два класса, и мультиклассовую классификацию (multiclass classification), когда в классификации участвует более двух классов. Бинарную классификацию можно представить как попытку ответить на поставленный вопрос в формате «да/нет».
Цель регрессии состоит в том, чтобы спрогнозировать непрерывное число или число с плавающей точкой (floating-point number) или вещественное число (real number).
Результаты, полученные регрессией результаты непрерывно связаны друг с другом и в ответе заложена определенная непрерывность. Например, разница в предсказании наружной температуры 9.01 градусов Цельсия и 9 граду может считаться не существенной.
В задаче классификации ответы четко определены, например, в задаче определения языка документа. Между языками нет непрерывной связи, не существует языка, находящегося между английским и французским.
Чем сложнее модель, используемая для машинного обучения, тем лучше она будет работать на обучающих данных. Однако, если модель становится слишком сложной, то она начинает уделять слишком много внимания каждой отдельной точке данных в обучающем наборе, и эта модель не будет хорошо обобщать результат на новые данные.
Сложность модели тесно связана с изменчивостью входных данных, содержащихся в обучающем наборе: чем больше разнообразие точек данных в обучающем наборе, тем более сложную модель можно использовать, не беспокоясь о переобучении. Обычно больший объем данных дает большее разнообразие, таким образом, большие наборы данных позволяют строить более сложные модели. Однако простое дублирование одних и тех же точек данных или сбор очень похожих данных не повышает эффективность процесса обучения.