Логистическая регрессия, ее назначение и расчеты

Зачем нужна логистическая регрессия?

Прогнозирование вероятности события полезно при использовании логистического регрессионного анализа. Это помогает рассчитать шансы между любыми двумя классами.

Логистическая регрессия направлена ​​на поиск наиболее точной модели, объясняющей связь между интересующими дихотомическими особенностями и набором независимых переменных.

В вопросах двоичной классификации, где переменная результата раскрывает одну из двух групп, часто используется логистическая регрессия (0 и 1).

Как он рассчитывается?

Логистическая функция, известная как сигмовидная функция, используется в логистической регрессии для отображения прогнозов и их вероятности. S-образная кривая, известная как сигмовидная функция, преобразует любое действительное значение в диапазон от 0 до 1.

Кроме того, модель прогнозирует, что экземпляр принадлежит этому классу, если выходные данные сигмовидной функции (оценочная вероятность) превышают заранее определенный порог на графике. Модель предсказывает, что экземпляр не принадлежит классу, если рассчитанная вероятность меньше установленного порога.

Для логистической регрессии сигмовидная функция известна как функция активации и описывается следующим образом:

Логистическая регрессия представлена ​​следующим уравнением:

,

где:

  • χ– входное значение,
  • — ожидаемый результат,
  • – смещение или термин перехвата,
  • – входной коэффициент (χ)

Как и линейная регрессия, это уравнение использует веса или значения коэффициентов для прогнозирования выходного значения путем линейного объединения входных значений. В отличие от линейной регрессии, описанное здесь выходное значение представляет собой двоичное значение (0 или 1), а не числовое значение.

Как используются результаты?

Обнаружение мошенничества

Команды могут обнаружить аномалии данных, свидетельствующие о мошенничестве, с помощью моделей логистической регрессии. Чтобы лучше защитить своих клиентов, банковские и другие финансовые организации могут обнаружить, что определенное поведение или атрибуты чаще связаны с мошенническими операциями.

Прогноз заболевания

В медицине эта аналитическая стратегия может прогнозировать вероятность развития заболевания или состояния у конкретной группы населения. Учреждения здравоохранения могут организовать профилактическое лечение для людей с повышенным риском развития того или иного заболевания.

Отток в различных организационных задачах может быть обозначен конкретными действиями. Если сильные работники рискуют покинуть фирму, сотрудники отдела кадров и управления могут быть заинтересованы в этом. Эта информация может спровоцировать дискуссии о культуре компании или практике оплаты труда.

Преимущества и недостатки

В машинном обучении логистический регрессионный анализ имеет как преимущества, так и недостатки.

  • Обучение и тестирование — важнейшие компоненты настройки модели машинного обучения. Посредством обучения обнаруживаются закономерности во входных данных и связываются с выходными данными. Алгоритмы регрессии могут обучать логистические модели, не требуя дополнительных ресурсов обработки. В результате, по сравнению с другими методами машинного обучения, логистическую регрессию проще применять, понимать и обучать.
  • График с прямой линией, разделяющей два класса данных, называется линейно разделимым набором данных. Переменная y в логистической регрессии принимает только два значения. Следовательно, если используются линейно разделимые данные, их можно эффективно разделить на две группы.
  • Направление их взаимосвязи или ассоциации также определяется размером коэффициента логистической регрессии, который количественно определяет, насколько важна или уместна независимая / предикторная переменная (положительная или отрицательная).
  • Логистическую регрессию не следует использовать, если данных меньше, чем признаков, поскольку это может привести к переобучению.
  • Поскольку результат логистической регрессии постоянно зависит от суммы входных данных и параметров, ее называют обобщенной линейной моделью. Граница принятия решения в модели логистической регрессии представляет собой прямую линию.
  • Предположение о линейности между зависимыми и независимыми переменными является основным недостатком логистической регрессии.

Рекомендации

Бартосик А. и Уиттингем Х. (2021). Оценка безопасности и токсичности. Эра искусственного интеллекта, машинного обучения и науки о данных в фармацевтической промышленности, 119–137.

Шобер П. и Веттер Т.Р. (2021). Логистическая регрессия в медицинских исследованиях. Анестезия и анальгезия, 132(2), 365–366.