Нелинейная регрессия

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
См. уравнение Михаэлиса — Ментен для деталей

Нелинейная регрессия — это вид регрессионного анализа, в котором экспериментальные данные моделируются функцией, являющейся нелинейной комбинацией параметров модели и зависящей от одной и более независимых переменных. Данные аппроксимируются методом последовательных приближений.

Общие положения

[править | править код]

Данные состоят из свободных от ошибок независимых переменных x и связанных наблюдаемых зависимых переменных (откликов) y. Каждая переменная y моделируется как случайная величина со средним значением, задаваемым нелинейной функцией f(x,β). Методическая погрешность может присутствовать, но её обработка выходит за границы регрессионного анализа. Если независимые переменные не свободны от ошибок, модель становится моделью с ошибками в переменных[англ.] и также выходит за рамки рассмотрения.

Например, модель Михаэлиса — Ментен для ферментативной кинетики

можно записать как

где  — параметр ,  — параметр , а [S] — независимая переменная (x). Эта функция нелинейна, поскольку не может быть выражена в виде линейной комбинации и .

Другими примерами нелинейных функций служат показательные функции, логарифмические функции, тригонометрические функции, степенные функции, гауссова функция и кривые Лоренца. Регрессионный анализ с такими функциями, как показательная или логарифмическая, иногда может быть сведён к линейному случаю и может быть применена стандартная линейная регрессия, но применять её следует осторожно. Подробнее в разделе «Линеаризация» ниже.

В общем случае представления в замкнутом виде (как в случае линейной регрессии) может и не быть. Обычно для определения наилучших оценок параметров используются оптимизационные алгоритмы. В отличие от линейной регрессии может оказаться несколько локальных минимумов оптимизируемой функции и глобальный минимум даже может дать смещённую оценку. На практике используются оценочные значения[англ.] параметров совместно с оптимизационным алгоритмом в попытке найти глобальный минимум суммы квадратов.

Подробнее о нелинейном моделировании см. «Метод наименьших квадратов» и «Нелинейный метод наименьших квадратов[англ.]».

Регрессионная статистика

[править | править код]

Предположение, лежащее в основе этой процедуры, заключается в возможности аппроксимации модели линейной функцией.

где . Это следует из того, что оценка по методу наименьших квадратов задаётся формулой

Статистика нелинейной регрессии вычисляется и используется как статистика линейной регрессии, но вместо X в формулах используется J. Линейная аппроксимация вносит смещение в статистику, поэтому следует более осторожно интерпретировать статистики, полученные из нелинейной модели.

Обычный и взвешенный метод наименьших квадратов

[править | править код]

Лучшей аппроксимирующей кривой часто предполагается та, что минимизирует сумму квадратов невязок[англ.]. Это подход (обычного) метода наименьших квадратов (МНК). Однако, в случае, когда зависимая переменная не имеет постоянной дисперсии, можно минимизировать сумму взвешенных квадратов. Каждый вес, в идеальном случае, должен быть равен обратной величине от дисперсии наблюдений, однако веса могут пересчитываться в итеративном алгоритме взвешенных наименьших квадратов на каждой итерации.

Линеаризация

[править | править код]

Преобразование

[править | править код]

Некоторые задачи нелинейной регрессии могут быть сведены к линейным путём подходящего преобразования формулировки модели.

Например, рассмотрим задачу нелинейной регрессии

с параметрами a и b и с мультипликативным множителем ошибки U. Если взять логарифм от обеих частей, мы получим

где u = ln(U). Из этого можно получить оценку неизвестных параметров с помощью линейной регрессии ln(y) от x и вычисления не потребуют итеративной оптимизации. Однако использование нелинейного преобразования требует осторожности. Влияние значений данных изменится, меняется структура ошибок модели и интерпретация любых полученных результатов, что может привести к нежелательным результатам. С другой стороны, в зависимости от наибольшего источника ошибки, нелинейное преобразование может распределять ошибки в виде распределения Гаусса, так что при применении нелинейного преобразования необходимо учитывать модель.

Например, для уравнения Михаэлиса — Ментен широко используется линейное представление Лайнуивер-Берка[англ.]

.

Тем не менее, из-за сильной чувствительности к ошибкам данных, а также вследствие сильного смещения, это не рекомендуется.

Для распределений ошибок, принадлежащих семейству экспоненциальных распределений, может быть использована связывающая функция для преобразования параметров под обобщённую линейную модель.

Сегментация

[править | править код]
Зависимость урожайности горчицы от засолённости почвы

Независимая переменная (скажем, X) может быть разбита на классы или сегменты и может быть осуществлена линейная регрессия посегментно. Сегментированная регрессия с анализом достоверности может дать результат, в котором зависимая переменная или отклик (скажем, Y) ведёт себя различно в различных сегментах[1] .

График справа показывает, что засолённость почвы[англ.] (X) начально не оказывает никакого влияния на урожайность (Y) горчицы, пока не будет достигнуто критического или порогового значения, после которого сказывается отрицательное влияние на урожайность[2]

Правило Тициуса — Боде в виде математической формулы представляет собой одномерное уравнение нелинейной регресии, связывающее порядковые номера планет солнечной системы, считая от Солнца, с приближёнными значениями больших полуосей их орбит. Точность вполне удовлетворительная не для астрономических целей.

Примечания

[править | править код]
  1. Oosterbaan, 1994, с. 175—224.
  2. (Oosterbaan 2002) Иллюстрация сделана программой SegReg[англ.]

Литература

[править | править код]
  • R.J.Oosterbaan. Frequency and Regression Analysis // Drainage Principles and Applications / H.P.Ritzema. — Wageningen, The Netherlands: International Institute for Land Reclamation and Improvement (ILRI), 1994. — Т. 16. — С. 175—224. — ISBN 90-70754-33-9.
  • R.J.Oosterbaan. Drainage research in farmers' fields: analysis of data. Part of project “Liquid Gold” of the International Institute for Land Reclamation and Improvement (ILRI). — Wageningen, The Netherlands, 2002.

Литература для дальнейшего чтения

[править | править код]