Логистическая регрессия — статистическая модель, используемая для прогнозирования вероятности возникновения некоторого события путём его сравнения с логистической кривой. Эта регрессия выдаёт ответ в виде вероятности бинарного события (1 или 0).
Двумя наиболее распространенными алгоритмами линейной классификации являются логистическая регрессия (logistic regression), реализованная в классе linear_model.LogisticRegression, и линейный метод опорных векторов (linear support vector machines) или линейный SVM, реализованный в классе svm.LinearSVC (SVC расшифровывается как support vector classifier – классификатор опорных векторов).
По умолчанию обе модели linear_model.LogisticRegression и svm.LinearSVC используют L2 регуляризацию, тот же самый метод, который используется в гребневой регрессии.
Для LogisticRegression и LinearSVC компромиссный параметр, который определяет степень регуляризации, называется C, и более высокие значения C соответствуют меньшей регуляризации. Высокое значение параметра C, LogisticRegression и LinearSVC подгоняет модель к обучающим данным как можно лучше, тогда как при низких значениях параметра C модели делают больший акцент на поиске вектора коэффициентов (w), близкого к нулю.
Использование низких значений C приводит к тому, что алгоритмы пытаются подстроиться под «большинство» точек данных, тогда как использование более высоких значений C подчеркивает важность того, чтобы каждая отдельная точка данных была классифицирована правильно.
При наличии большого числа измерений линейные модели классификации приобретают высокую прогнозную силу и с увеличением числа признаков защита от переобучения становится все более важной.
Логистическая регрессия представляет собой классификационную модель, которая крайне проста в реализации, но очень хорошо работает на линейно сепарабельных классах. Логистическая регрессия — один из наиболее широко применяемых в производственной среде алгоритмов, предназначенных для классификации.
Эффект логистической функции заключается в ограничении значения результата функции диапазоном между 0 и 1, чтобы его можно было интерпретировать как вероятность. Если значение функции больше 0.5, то предсказывается класс 1, в противном случае — класс 0.