Регрессионный анализ: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[непроверенная версия][отпатрулированная версия]
Содержимое удалено Содержимое добавлено
Нет описания правки
 
(не показано 47 промежуточных версий 36 участников)
Строка 1: Строка 1:
{{К объединению|2021-04-11|Регрессия (математика)|раздел=Регрессия (математика) → Регрессионный анализ или Условное математическое ожидание}}
'''Регрессио́нный анализ''' — [[Статистические методы|статистический метод]] исследования влияния одной или нескольких [[Независимая и зависимая переменные|независимых переменных]] <math>X_1, X_2, ..., X_p</math> на [[Независимая и зависимая переменные|зависимую переменную]] <math>Y</math>. Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными. Терминология ''зависимых'' и ''независимых'' переменных отражает лишь математическую зависимость переменных (''см. [[Корреляционный анализ#Ложная корреляция|Ложная корреляция]]''), а не причинно-следственные отношения.
{{не путать|Теорема регрессии|экономической теоремой регрессии}}
'''Регрессио́нный анализ''' — набор [[Статистические методы|статистических методов]] исследования влияния одной или нескольких [[Независимая и зависимая переменные|независимых переменных]] <math>X_1, X_2, ..., X_p</math> на [[Независимая и зависимая переменные|зависимую переменную]] <math>Y</math>. Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными или регрессантами. Терминология ''зависимых'' и ''независимых'' переменных отражает лишь математическую зависимость переменных (''см. [[Корреляция]]''), а не причинно-следственные отношения. Наиболее распространённый вид регрессионного анализа — линейная регрессия, когда находят линейную функцию, которая, согласно определённым математическим критериям, наиболее соответствует данным. Например, в методе наименьших квадратов вычисляется прямая (или гиперплоскость), сумма квадратов между которой и данными минимальна.


== Цели регрессионного анализа ==
== Цели регрессионного анализа ==
# Определение степени [[Детерминированность|детерминированности]] [[Вариация (статистика)|вариации]] критериальной (зависимой) переменной [[предиктор]]ами (независимыми переменными)
# Определение степени [[Детерминированность|детерминированности]] [[Вариация (статистика)|вариации]] критериальной (зависимой) переменной предикторами (независимыми переменными)
# Предсказание значения зависимой переменной с помощью независимой(-ых)
# Предсказание значения зависимой переменной с помощью независимой(-ых)
# Определение вклада отдельных независимых переменных в вариацию зависимой
# Определение вклада отдельных независимых переменных в вариацию зависимой

Регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа.


== Математическое определение регрессии ==
== Математическое определение регрессии ==
Строго регрессионную зависимость можно определить следующим образом. Пусть <math>Y, X_1, X_2, \ldots, X_p</math> — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений <math>X_1=x_1, X_2=x_2, \ldots, X_p=x_p</math> определено [[условное математическое ожидание]]
Строго регрессионную зависимость можно определить следующим образом. Пусть <math>Y, X_1, X_2, \ldots, X_p</math> — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений <math>X_1=x_1, X_2=x_2, \ldots, X_p=x_p</math> определено [[условное математическое ожидание]]
: <math>y(x_1,x_2, \ldots, x_p)=\mathbb{E}(Y \mid X_1=x_1, X_2=x_2, \ldots, X_p=x_p)</math> (уравнение регрессии в общем виде),
: <math>y(x_1,x_2, \ldots, x_p)=\mathbb{E}(Y \mid X_1=x_1, X_2=x_2, \ldots, X_p=x_p)</math> (уравнение регрессии в общем виде),
то функция <math>y(x_1,x_2, \ldots, x_p)</math> называется [[Регрессия (математика)|'''регрессией''']] величины <math>Y</math> по величинам <math>X_1, X_2,\ldots, X_p</math>, а её [[график функции|график]] — '''линией регрессии''' <math>Y</math> по <math>X_1, X_2, \ldots, X_p</math>, или '''уравнением регрессии'''.
то функция <math>y(x_1,x_2, \ldots, x_p)</math> называется '''[[Регрессия (математика)|регрессией]]''' величины <math>Y</math> по величинам <math>X_1, X_2,\ldots, X_p</math>, а её [[график функции|график]] — '''линией регрессии''' <math>Y</math> по <math>X_1, X_2, \ldots, X_p</math>, или '''уравнением регрессии'''.


Зависимость <math>Y</math> от <math>X_1, X_2, \ldots, X_p</math> проявляется в изменении средних значений <math>Y</math> при изменении <math>X_1, X_2, \ldots, X_p</math>. Хотя при каждом фиксированном наборе значений <math>X_1=x_1, X_2=x_2, \ldots, X_p=x_p</math> величина <math>Y</math> остаётся [[случайная величина|случайной величиной]] с определённым рассеянием.
Зависимость <math>Y</math> от <math>X_1, X_2, \ldots, X_p</math> проявляется в изменении средних значений <math>Y</math> при изменении <math>X_1, X_2, \ldots, X_p</math>. Хотя при каждом фиксированном наборе значений <math>X_1=x_1, X_2=x_2, \ldots, X_p=x_p</math> величина <math>Y</math> остаётся [[случайная величина|случайной величиной]] с определённым [[Распределение вероятностей|распределением]].


Для выяснения вопроса, насколько точно регрессионный анализ оценивает изменение <math>Y</math> при изменении <math>X_1, X_2, ..., X_p</math>, используется средняя величина дисперсии <math>Y</math> при разных наборах значений <math>X_1, X_2, ..., X_p</math> (фактически речь идет о мере рассеяния зависимой переменной вокруг линии регрессии).
Для выяснения вопроса, насколько точно регрессионный анализ оценивает изменение <math>Y</math> при изменении <math>X_1, X_2, ..., X_p</math>, используется средняя величина [[Дисперсия случайной величины|дисперсии]] <math>Y</math> при разных наборах значений <math>X_1, X_2, ..., X_p</math> (фактически речь идёт о мере рассеяния зависимой переменной вокруг линии регрессии).


В матричной форме уравнение регрессии (УР) записывается в виде: Y=BX+U, где U- матрица ошибок. При обратимой матрице X◤X получается вектор столбец коэффициентов B с учётом U◤U=min(B). В частном случае для Х=(±1) матрица X◤X является рототабельной и УР может быть использовано при анализе временных рядов и обработки технических данных.
В матричной форме уравнение регрессии (УР) записывается в виде: <math>Y=BX+U</math>, где <math>U</math> — матрица ошибок. При обратимой матрице X◤X получается вектор-столбец коэффициентов B с учётом U◤U=min(B). В частном случае для Х=(±1) матрица X◤X является рототабельной, и УР может быть использовано при анализе временны́х рядов и обработке технических данных.


== Метод наименьших квадратов (расчёт коэффициентов) ==
== Метод наименьших квадратов (расчёт коэффициентов) ==
На практике линия регрессии чаще всего ищется в виде линейной функции <math>Y=b_0+b_1X_1+b_2X_2+...+b_NX_N</math> ([[линейная регрессия]]), наилучшим образом приближающей искомую кривую. Делается это с помощью [[Метод наименьших квадратов|метода наименьших квадратов]], когда минимизируется сумма квадратов отклонений реально наблюдаемых <math>{Y}</math> от их оценок <math>\hat{Y}</math> (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость):
На практике линия регрессии чаще всего ищется в виде линейной функции <math>Y=b_0+b_1X_1+b_2X_2+\ldots+b_NX_N</math> ([[линейная регрессия]]), наилучшим образом приближающей искомую кривую. Делается это с помощью [[Метод наименьших квадратов|метода наименьших квадратов]], когда минимизируется сумма квадратов отклонений реально наблюдаемых <math>{Y}</math> от их оценок <math>\hat{Y}</math> (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость):
: <math>\sum_{k=1}^{M} (Y_k-\hat{Y_k})^2 \to \min</math>
: <math>\sum_{k=1}^{M} (Y_k-\hat{Y_k})^2 \to \min</math>
(<math>M</math> — объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда <math>Y=y(x_1,x_2,...x_N)</math>.
(<math>M</math> — объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда <math>Y=y(x_1,x_2,...x_N)</math>.
Строка 29: Строка 29:
Условие минимума функции невязки:
Условие минимума функции невязки:
: <math>\left\{ \begin{matrix}
: <math>\left\{ \begin{matrix}
\frac{d\sigma(\bar{b})}{db_i}=0 \\
\frac{\partial\sigma(\bar{b})}{\partial b_i}=0 \\
i=0...N
i=0...N
\end{matrix} \right.
\end{matrix} \right.
\Leftrightarrow
\Leftrightarrow
\begin{cases}
\begin{cases}
\sum_{i=1}^{M}{y_i}=\sum_{i=1}^{M}{\sum_{j=1}^{N}{b_jx_{i,j}}}+b_0M \\
\sum\limits_{i=1}^{M}{y_i}=\sum\limits_{i=1}^{M}{\sum\limits_{j=1}^{N}{b_jx_{i,j}}}+b_0M \\
\sum_{i=1}^{M}{y_ix_{i,k}}=\sum_{i=1}^{M}{\sum_{j=1}^{N}{b_jx_{i,j}x_{i,k}}}+b_0\sum_{i=1}^{M}{x_{i,k}} \\
\sum\limits_{i=1}^{M}{y_ix_{i,k}}=\sum\limits_{i=1}^{M}{\sum\limits_{j=1}^{N}{b_jx_{i,j}x_{i,k}}}+b_0\sum\limits_{i=1}^{M}{x_{i,k}} \\
k=1,\ldots,N
k=1,\ldots,N
\end{cases}
\end{cases}
Строка 43: Строка 43:


Если представить свободные члены левой части уравнений матрицей
Если представить свободные члены левой части уравнений матрицей
: <math>B=\left\{ \begin{matrix}
: <math>B=\left( \begin{matrix}
\sum_{i=1}^{M}{y_i} \\
\sum\limits_{i=1}^{M}{y_i} \\
\sum_{i=1}^{M}{y_ix_{i,1}} \\
\sum\limits_{i=1}^{M}{y_ix_{i,1}} \\
\vdots \\
\vdots \\
\sum_{i=1}^{M}{y_ix_{i,N}}
\sum\limits_{i=1}^{M}{y_ix_{i,N}}
\end{matrix} \right\},</math>
\end{matrix} \right),</math>


а коэффициенты при неизвестных в правой части — матрицей
а коэффициенты при неизвестных в правой части — матрицей
: <math>A=\left\{ \begin{matrix}
: <math>A=\left( \begin{matrix}
M & \sum_{i=1}^{M}{x_{i,1}} & \sum_{i=1}^{M}{x_{i,2}} & ... & \sum_{i=1}^{M}{x_{i,N}} \\
M & \sum\limits_{i=1}^{M}{x_{i,1}} & \sum\limits_{i=1}^{M}{x_{i,2}} & ... & \sum\limits_{i=1}^{M}{x_{i,N}} \\
\sum_{i=1}^{M}{x_{i,1}} & \sum_{i=1}^{M}{x_{i,1}x_{i,1}} & \sum_{i=1}^{M}{x_{i,2}x_{i,1}} & ... & \sum_{i=1}^{M}{x_{i,N}x_{i,1}} \\
\sum\limits_{i=1}^{M}{x_{i,1}} & \sum\limits_{i=1}^{M}{x_{i,1}x_{i,1}} & \sum\limits_{i=1}^{M}{x_{i,2}x_{i,1}} & ... & \sum\limits_{i=1}^{M}{x_{i,N}x_{i,1}} \\
\sum_{i=1}^{M}{x_{i,2}} & \sum_{i=1}^{M}{x_{i,1}x_{i,2}} & \sum_{i=1}^{M}{x_{i,2}x_{i,2}} & ... & \sum_{i=1}^{M}{x_{i,N}x_{i,2}} \\
\sum\limits_{i=1}^{M}{x_{i,2}} & \sum\limits_{i=1}^{M}{x_{i,1}x_{i,2}} & \sum\limits_{i=1}^{M}{x_{i,2}x_{i,2}} & ... & \sum\limits_{i=1}^{M}{x_{i,N}x_{i,2}} \\
\vdots & \vdots & \vdots & \ddots & \vdots \\
\vdots & \vdots & \vdots & \ddots & \vdots \\
\sum_{i=1}^{M}{x_{i,N}} & \sum_{i=1}^{M}{x_{i,1}x_{i,N}} & \sum_{i=1}^{M}{x_{i,2}x_{i,N}} & ... & \sum_{i=1}^{M}{x_{i,N}x_{i,N}}
\sum\limits_{i=1}^{M}{x_{i,N}} & \sum\limits_{i=1}^{M}{x_{i,1}x_{i,N}} & \sum\limits_{i=1}^{M}{x_{i,2}x_{i,N}} & ... & \sum\limits_{i=1}^{M}{x_{i,N}x_{i,N}}
\end{matrix} \right\},</math>
\end{matrix} \right),</math>


то получаем матричное уравнение: <math>A \times X = B</math>, которое легко решается [[Метод Гаусса|методом Гаусса]]. Полученная матрица будет матрицей, содержащей коэффициенты уравнения линии регрессии:
то получаем матричное уравнение: <math>A \times X = B</math>, которое легко решается [[Метод Гаусса|методом Гаусса]]. Полученная матрица будет матрицей, содержащей коэффициенты уравнения линии регрессии:
: <math>X=\left\{ \begin{matrix}
: <math>X=\left( \begin{matrix}
b_0 \\
b_0 \\
b_1 \\
b_1 \\
\vdots \\
\vdots \\
b_N
b_N
\end{matrix} \right\}</math>
\end{matrix} \right)</math>
Для получения наилучших оценок необходимо выполнение [[Теорема Гаусса — Маркова|предпосылок МНК (условий Гаусса — Маркова)]]. В англоязычной литературе такие оценки называются {{lang-en2|BLUE}} ({{lang-en2|Best Linear Unbiased Estimators}} — «наилучшие линейные несмещенные оценки»).
Для получения наилучших оценок необходимо выполнение [[Теорема Гаусса — Маркова|предпосылок МНК (условий Гаусса — Маркова)]]. В англоязычной литературе такие оценки называются {{lang-en2|BLUE}} ({{lang-en2|Best Linear Unbiased Estimators}} — «наилучшие линейные несмещённые оценки»).
Большинство исследуемых зависимостей может быть представлено с помощью [[Метод наименьших квадратов|МНК]] нелинейными математическими функциями.
Большинство исследуемых зависимостей может быть представлено с помощью [[Метод наименьших квадратов|МНК]] нелинейными математическими функциями.


Строка 72: Строка 72:
Параметры <math>b_i</math> являются частными коэффициентами корреляции; <math>(b_i)^2</math> интерпретируется как доля дисперсии Y, объяснённая <math>X_i</math>, при закреплении влияния остальных предикторов, то есть измеряет индивидуальный вклад <math>X_i</math> в объяснение Y. В случае коррелирующих предикторов возникает проблема неопределённости в оценках, которые становятся зависимыми от порядка включения предикторов в модель. В таких случаях необходимо применение методов анализа [[Корреляционный анализ|корреляционного]] и пошагового регрессионного анализа.
Параметры <math>b_i</math> являются частными коэффициентами корреляции; <math>(b_i)^2</math> интерпретируется как доля дисперсии Y, объяснённая <math>X_i</math>, при закреплении влияния остальных предикторов, то есть измеряет индивидуальный вклад <math>X_i</math> в объяснение Y. В случае коррелирующих предикторов возникает проблема неопределённости в оценках, которые становятся зависимыми от порядка включения предикторов в модель. В таких случаях необходимо применение методов анализа [[Корреляционный анализ|корреляционного]] и пошагового регрессионного анализа.


Говоря о нелинейных моделях регрессионного анализа, важно обращать внимание на то, идет ли речь о нелинейности по независимым переменным (с формальной точки зрения легко сводящейся к линейной регрессии), или о нелинейности по оцениваемым параметрам (вызывающей серьёзные вычислительные трудности). При нелинейности первого вида с содержательной точки зрения важно выделять появление в модели членов вида <math>X_1X_2</math>, <math>X_1X_2X_3</math>, свидетельствующее о наличии взаимодействий между признаками <math>X_1</math>, <math>X_2</math> и т. д (см. [[Мультиколлинеарность]]).
Говоря о нелинейных моделях регрессионного анализа, важно обращать внимание на то, идёт ли речь о нелинейности по независимым переменным (с формальной точки зрения легко сводящейся к линейной регрессии), или о нелинейности по оцениваемым параметрам (вызывающей серьёзные вычислительные трудности). При нелинейности первого вида с содержательной точки зрения важно выделять появление в модели членов вида <math>X_1X_2</math>, <math>X_1X_2X_3</math>, свидетельствующее о наличии взаимодействий между признаками <math>X_1</math>, <math>X_2</math> и т. д. (см. [[Мультиколлинеарность]]).


== См. также ==
== См. также ==
Строка 83: Строка 83:
== Литература ==
== Литература ==
* {{книга
* {{книга
|автор = Норман Дрейпер, Гарри Смит
|автор = Дрейпер&nbsp;Н., Смит&nbsp;Г.
|заглавие = Прикладной регрессионный анализ. Множественная регрессия
|заглавие = Прикладной регрессионный анализ. Множественная регрессия
|оригинал = Applied Regression Analysis
|оригинал = Applied Regression Analysis
|ссылка =
|ссылка =
|издание = 3-е изд
|издание = 3-е изд
|место = М.
|место = М.
|издательство = «[[Диалектика (издательство)|Диалектика]]»
|издательство = «[[Диалектика (издательство)|Диалектика]]»
|год = 2007
|год = 2007
|страницы = 912
|страниц = 912
|isbn = 0-471-17082-8
|isbn = 0-471-17082-8
}}
}}
* {{книга
* {{книга
|автор = Фёрстер&nbsp;Э., Рёнц&nbsp;Б.
|автор = Фёрстер&nbsp;Э., Рёнц&nbsp;Б.
|заглавие = Методы корреляционного и регрессионного анализа
|заглавие = Методы корреляционного и регрессионного анализа
|оригинал = Methoden der Korrelation - und Regressiolynsanalyse
|оригинал = Methoden der Korrelation - und Regressiolynsanalyse
|ссылка =
|ссылка =
|издание =
|издание =
|место = М.
|место = М.
|издательство = Финансы и статистика
|издательство = Финансы и статистика
|год = 1981
|год = 1981
|страниц = 302
|страниц = 302
|isbn = <!-- нет -->
|isbn = <!-- нет -->
}}
* {{статья
|автор = {{nobr|Захаров С. И.}}, {{nobr|Холмская А. Г.}}
|заглавие = Повышение эффективности обработки сигналов вибрации и шума при испытаниях механизмов
|ссылка =
|язык =
|издание = Вестник машиностроения
|тип = журнал
|место = М.
|издательство = Машиностроение
|год = 2001
|выпуск =
|том =
|номер = 10
|страницы = 31—32
|issn = 0042-4633
|doi =
|bibcode =
|arxiv =
|pmid =
|ref =
|archiveurl =
|archivedate =
}}
}}
* Повышение эффективности обработки сигналов вибрации и шума при испытаниях механизмов. М: Машиностроение//Вестник машиностроения. 2001 №10, стр. 31-32.
* {{книга
* {{книга
|автор = Радченко Станислав Григорьевич,
|автор = Радченко С. Г.
|заглавие = Устойчивые методы оценивания статистических моделей: Монография
|заглавие = Устойчивые методы оценивания статистических моделей
|ссылка =
|оригинал =
|издание =
|ссылка =
|место = К.
|издание =
|издательство = ПП «Санспарель»
|место = К.
|год = 2005
|издательство = ПП «Санспарель»
|страниц = 504
|год = 2005
|isbn = 966-96574-0-7, УДК: 519.237.5:515.126.2, ББК 22.172+22.152
|страницы = 504
|isbn = 966-96574-0-7, УДК: 519.237.5:515.126.2, ББК 22.172+22.152
}}
}}
* {{книга
* {{книга
|автор = Радченко Станислав Григорьевич,
|автор = Радченко С. Г.
|заглавие = Методология регрессионного анализа: Монография
|заглавие = Методология регрессионного анализа
|ссылка =
|оригинал =
|издание =
|ссылка =
|место = К.
|издание =
|издательство = «Корнийчук»
|место = К.
|год = 2011
|издательство = «Корнийчук»
|страниц = 376
|год = 2011
|isbn = 978-966-7599-72-0
|страницы = 376
|isbn = 978-966-7599-72-0
}}
}}

* Регрессионный анализ-БСЭ-Яндекс.Словари
{{rq|img|refless}}
{{вс}}
{{Машинное обучение}}


[[Категория:Машинное обучение]]
[[Категория:Машинное обучение]]
[[Категория:Регрессионный анализ]]
[[Категория:Регрессионный анализ]]
[[Категория:Статистическое моделирование]]
[[Категория:Статистическое моделирование]]
[[Категория:Анализ временных рядов]]
[[Категория:Теория оценивания]]

Текущая версия от 11:04, 28 ноября 2024

Регрессио́нный анализ — набор статистических методов исследования влияния одной или нескольких независимых переменных на зависимую переменную . Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными или регрессантами. Терминология зависимых и независимых переменных отражает лишь математическую зависимость переменных (см. Корреляция), а не причинно-следственные отношения. Наиболее распространённый вид регрессионного анализа — линейная регрессия, когда находят линейную функцию, которая, согласно определённым математическим критериям, наиболее соответствует данным. Например, в методе наименьших квадратов вычисляется прямая (или гиперплоскость), сумма квадратов между которой и данными минимальна.

Цели регрессионного анализа

[править | править код]
  1. Определение степени детерминированности вариации критериальной (зависимой) переменной предикторами (независимыми переменными)
  2. Предсказание значения зависимой переменной с помощью независимой(-ых)
  3. Определение вклада отдельных независимых переменных в вариацию зависимой

Математическое определение регрессии

[править | править код]

Строго регрессионную зависимость можно определить следующим образом. Пусть  — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений определено условное математическое ожидание

(уравнение регрессии в общем виде),

то функция называется регрессией величины по величинам , а её график — линией регрессии по , или уравнением регрессии.

Зависимость от проявляется в изменении средних значений при изменении . Хотя при каждом фиксированном наборе значений величина остаётся случайной величиной с определённым распределением.

Для выяснения вопроса, насколько точно регрессионный анализ оценивает изменение при изменении , используется средняя величина дисперсии при разных наборах значений (фактически речь идёт о мере рассеяния зависимой переменной вокруг линии регрессии).

В матричной форме уравнение регрессии (УР) записывается в виде: , где  — матрица ошибок. При обратимой матрице X◤X получается вектор-столбец коэффициентов B с учётом U◤U=min(B). В частном случае для Х=(±1) матрица X◤X является рототабельной, и УР может быть использовано при анализе временны́х рядов и обработке технических данных.

Метод наименьших квадратов (расчёт коэффициентов)

[править | править код]

На практике линия регрессии чаще всего ищется в виде линейной функции (линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью метода наименьших квадратов, когда минимизируется сумма квадратов отклонений реально наблюдаемых от их оценок (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость):

( — объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда .

Для решения задачи регрессионного анализа методом наименьших квадратов вводится понятие функции невязки:

Условие минимума функции невязки:

Полученная система является системой линейных уравнений с неизвестными .

Если представить свободные члены левой части уравнений матрицей

а коэффициенты при неизвестных в правой части — матрицей

то получаем матричное уравнение: , которое легко решается методом Гаусса. Полученная матрица будет матрицей, содержащей коэффициенты уравнения линии регрессии:

Для получения наилучших оценок необходимо выполнение предпосылок МНК (условий Гаусса — Маркова). В англоязычной литературе такие оценки называются BLUE (Best Linear Unbiased Estimators — «наилучшие линейные несмещённые оценки»). Большинство исследуемых зависимостей может быть представлено с помощью МНК нелинейными математическими функциями.

Интерпретация параметров регрессии

[править | править код]

Параметры являются частными коэффициентами корреляции; интерпретируется как доля дисперсии Y, объяснённая , при закреплении влияния остальных предикторов, то есть измеряет индивидуальный вклад в объяснение Y. В случае коррелирующих предикторов возникает проблема неопределённости в оценках, которые становятся зависимыми от порядка включения предикторов в модель. В таких случаях необходимо применение методов анализа корреляционного и пошагового регрессионного анализа.

Говоря о нелинейных моделях регрессионного анализа, важно обращать внимание на то, идёт ли речь о нелинейности по независимым переменным (с формальной точки зрения легко сводящейся к линейной регрессии), или о нелинейности по оцениваемым параметрам (вызывающей серьёзные вычислительные трудности). При нелинейности первого вида с содержательной точки зрения важно выделять появление в модели членов вида , , свидетельствующее о наличии взаимодействий между признаками , и т. д. (см. Мультиколлинеарность).

Литература

[править | править код]
  • Дрейпер Н., Смит Г. Прикладной регрессионный анализ. Множественная регрессия = Applied Regression Analysis. — 3-е изд. — М.: «Диалектика», 2007. — 912 с. — ISBN 0-471-17082-8.
  • Фёрстер Э., Рёнц Б. Методы корреляционного и регрессионного анализа = Methoden der Korrelation - und Regressiolynsanalyse. — М.: Финансы и статистика, 1981. — 302 с.
  • Захаров С. И., Холмская А. Г. Повышение эффективности обработки сигналов вибрации и шума при испытаниях механизмов // Вестник машиностроения : журнал. — М.: Машиностроение, 2001. — № 10. — С. 31—32. — ISSN 0042-4633.
  • Радченко С. Г. Устойчивые методы оценивания статистических моделей. — Киев: ПП «Санспарель», 2005. — 504 с. — ISBN 966-96574-0-7, УДК: 519.237.5:515.126.2, ББК 22.172+22.152.
  • Радченко С. Г. Методология регрессионного анализа. — Киев: «Корнийчук», 2011. — 376 с. — ISBN 978-966-7599-72-0.