Регрессионный анализ: различия между версиями
[непроверенная версия] | [отпатрулированная версия] |
Нет описания правки |
|||
(не показано 45 промежуточных версий 36 участников) | |||
Строка 1: | Строка 1: | ||
{{К объединению|2021-04-11|Регрессия (математика)|раздел=Регрессия (математика) → Регрессионный анализ или Условное математическое ожидание}} |
|||
⚫ | '''Регрессио́нный анализ''' — [[Статистические методы| |
||
{{не путать|Теорема регрессии|экономической теоремой регрессии}} |
|||
⚫ | '''Регрессио́нный анализ''' — набор [[Статистические методы|статистических методов]] исследования влияния одной или нескольких [[Независимая и зависимая переменные|независимых переменных]] <math>X_1, X_2, ..., X_p</math> на [[Независимая и зависимая переменные|зависимую переменную]] <math>Y</math>. Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными или регрессантами. Терминология ''зависимых'' и ''независимых'' переменных отражает лишь математическую зависимость переменных (''см. [[Корреляция]]''), а не причинно-следственные отношения. Наиболее распространённый вид регрессионного анализа — линейная регрессия, когда находят линейную функцию, которая, согласно определённым математическим критериям, наиболее соответствует данным. Например, в методе наименьших квадратов вычисляется прямая (или гиперплоскость), сумма квадратов между которой и данными минимальна. |
||
== Цели регрессионного анализа == |
== Цели регрессионного анализа == |
||
# Определение степени [[Детерминированность|детерминированности]] [[Вариация (статистика)|вариации]] критериальной (зависимой) переменной |
# Определение степени [[Детерминированность|детерминированности]] [[Вариация (статистика)|вариации]] критериальной (зависимой) переменной предикторами (независимыми переменными) |
||
# Предсказание значения зависимой переменной с помощью независимой(-ых) |
# Предсказание значения зависимой переменной с помощью независимой(-ых) |
||
# Определение вклада отдельных независимых переменных в вариацию зависимой |
# Определение вклада отдельных независимых переменных в вариацию зависимой |
||
Регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа. |
|||
== Математическое определение регрессии == |
== Математическое определение регрессии == |
||
Строго регрессионную зависимость можно определить следующим образом. Пусть <math>Y, X_1, X_2, \ldots, X_p</math> — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений <math>X_1=x_1, X_2=x_2, \ldots, X_p=x_p</math> определено [[условное математическое ожидание]] |
Строго регрессионную зависимость можно определить следующим образом. Пусть <math>Y, X_1, X_2, \ldots, X_p</math> — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений <math>X_1=x_1, X_2=x_2, \ldots, X_p=x_p</math> определено [[условное математическое ожидание]] |
||
: <math>y(x_1,x_2, \ldots, x_p)=\mathbb{E}(Y \mid X_1=x_1, X_2=x_2, \ldots, X_p=x_p)</math> (уравнение регрессии в общем виде), |
: <math>y(x_1,x_2, \ldots, x_p)=\mathbb{E}(Y \mid X_1=x_1, X_2=x_2, \ldots, X_p=x_p)</math> (уравнение регрессии в общем виде), |
||
то функция <math>y(x_1,x_2, \ldots, x_p)</math> называется [[Регрессия (математика)| |
то функция <math>y(x_1,x_2, \ldots, x_p)</math> называется '''[[Регрессия (математика)|регрессией]]''' величины <math>Y</math> по величинам <math>X_1, X_2,\ldots, X_p</math>, а её [[график функции|график]] — '''линией регрессии''' <math>Y</math> по <math>X_1, X_2, \ldots, X_p</math>, или '''уравнением регрессии'''. |
||
Зависимость <math>Y</math> от <math>X_1, X_2, \ldots, X_p</math> проявляется в изменении средних значений <math>Y</math> при изменении <math>X_1, X_2, \ldots, X_p</math>. Хотя при каждом фиксированном наборе значений <math>X_1=x_1, X_2=x_2, \ldots, X_p=x_p</math> величина <math>Y</math> остаётся [[случайная величина|случайной величиной]] с определённым [[Распределение вероятностей|распределением]]. |
Зависимость <math>Y</math> от <math>X_1, X_2, \ldots, X_p</math> проявляется в изменении средних значений <math>Y</math> при изменении <math>X_1, X_2, \ldots, X_p</math>. Хотя при каждом фиксированном наборе значений <math>X_1=x_1, X_2=x_2, \ldots, X_p=x_p</math> величина <math>Y</math> остаётся [[случайная величина|случайной величиной]] с определённым [[Распределение вероятностей|распределением]]. |
||
Для выяснения вопроса, насколько точно регрессионный анализ оценивает изменение <math>Y</math> при изменении <math>X_1, X_2, ..., X_p</math>, используется средняя величина [[Дисперсия случайной величины|дисперсии]] <math>Y</math> при разных наборах значений <math>X_1, X_2, ..., X_p</math> (фактически речь |
Для выяснения вопроса, насколько точно регрессионный анализ оценивает изменение <math>Y</math> при изменении <math>X_1, X_2, ..., X_p</math>, используется средняя величина [[Дисперсия случайной величины|дисперсии]] <math>Y</math> при разных наборах значений <math>X_1, X_2, ..., X_p</math> (фактически речь идёт о мере рассеяния зависимой переменной вокруг линии регрессии). |
||
В матричной форме уравнение регрессии (УР) записывается в виде: <math>Y=BX+U</math>, где <math>U</math> — матрица ошибок. При обратимой матрице X◤X получается вектор-столбец коэффициентов B с учётом U◤U=min(B). В частном случае для Х=(±1) матрица X◤X является рототабельной, и УР может быть использовано при анализе временны́х рядов и обработке технических данных. |
В матричной форме уравнение регрессии (УР) записывается в виде: <math>Y=BX+U</math>, где <math>U</math> — матрица ошибок. При обратимой матрице X◤X получается вектор-столбец коэффициентов B с учётом U◤U=min(B). В частном случае для Х=(±1) матрица X◤X является рототабельной, и УР может быть использовано при анализе временны́х рядов и обработке технических данных. |
||
== Метод наименьших квадратов (расчёт коэффициентов) == |
== Метод наименьших квадратов (расчёт коэффициентов) == |
||
На практике линия регрессии чаще всего ищется в виде линейной функции <math>Y=b_0+b_1X_1+b_2X_2+ |
На практике линия регрессии чаще всего ищется в виде линейной функции <math>Y=b_0+b_1X_1+b_2X_2+\ldots+b_NX_N</math> ([[линейная регрессия]]), наилучшим образом приближающей искомую кривую. Делается это с помощью [[Метод наименьших квадратов|метода наименьших квадратов]], когда минимизируется сумма квадратов отклонений реально наблюдаемых <math>{Y}</math> от их оценок <math>\hat{Y}</math> (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость): |
||
: <math>\sum_{k=1}^{M} (Y_k-\hat{Y_k})^2 \to \min</math> |
: <math>\sum_{k=1}^{M} (Y_k-\hat{Y_k})^2 \to \min</math> |
||
(<math>M</math> — объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда <math>Y=y(x_1,x_2,...x_N)</math>. |
(<math>M</math> — объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда <math>Y=y(x_1,x_2,...x_N)</math>. |
||
Строка 29: | Строка 29: | ||
Условие минимума функции невязки: |
Условие минимума функции невязки: |
||
: <math>\left\{ \begin{matrix} |
: <math>\left\{ \begin{matrix} |
||
\frac{ |
\frac{\partial\sigma(\bar{b})}{\partial b_i}=0 \\ |
||
i=0...N |
i=0...N |
||
\end{matrix} \right. |
\end{matrix} \right. |
||
\Leftrightarrow |
\Leftrightarrow |
||
\begin{cases} |
\begin{cases} |
||
\ |
\sum\limits_{i=1}^{M}{y_i}=\sum\limits_{i=1}^{M}{\sum\limits_{j=1}^{N}{b_jx_{i,j}}}+b_0M \\ |
||
\ |
\sum\limits_{i=1}^{M}{y_ix_{i,k}}=\sum\limits_{i=1}^{M}{\sum\limits_{j=1}^{N}{b_jx_{i,j}x_{i,k}}}+b_0\sum\limits_{i=1}^{M}{x_{i,k}} \\ |
||
k=1,\ldots,N |
k=1,\ldots,N |
||
\end{cases} |
\end{cases} |
||
Строка 43: | Строка 43: | ||
Если представить свободные члены левой части уравнений матрицей |
Если представить свободные члены левой части уравнений матрицей |
||
: <math>B=\left |
: <math>B=\left( \begin{matrix} |
||
\ |
\sum\limits_{i=1}^{M}{y_i} \\ |
||
\ |
\sum\limits_{i=1}^{M}{y_ix_{i,1}} \\ |
||
\vdots \\ |
\vdots \\ |
||
\ |
\sum\limits_{i=1}^{M}{y_ix_{i,N}} |
||
\end{matrix} \right |
\end{matrix} \right),</math> |
||
а коэффициенты при неизвестных в правой части — матрицей |
а коэффициенты при неизвестных в правой части — матрицей |
||
: <math>A=\left |
: <math>A=\left( \begin{matrix} |
||
M & \sum\limits_{i=1}^{M}{x_{i,1}} & \sum\limits_{i=1}^{M}{x_{i,2}} & ... & \sum\limits_{i=1}^{M}{x_{i,N}} \\ |
|||
\ |
\sum\limits_{i=1}^{M}{x_{i,1}} & \sum\limits_{i=1}^{M}{x_{i,1}x_{i,1}} & \sum\limits_{i=1}^{M}{x_{i,2}x_{i,1}} & ... & \sum\limits_{i=1}^{M}{x_{i,N}x_{i,1}} \\ |
||
\ |
\sum\limits_{i=1}^{M}{x_{i,2}} & \sum\limits_{i=1}^{M}{x_{i,1}x_{i,2}} & \sum\limits_{i=1}^{M}{x_{i,2}x_{i,2}} & ... & \sum\limits_{i=1}^{M}{x_{i,N}x_{i,2}} \\ |
||
\vdots & \vdots & \vdots & \ddots & \vdots \\ |
\vdots & \vdots & \vdots & \ddots & \vdots \\ |
||
\ |
\sum\limits_{i=1}^{M}{x_{i,N}} & \sum\limits_{i=1}^{M}{x_{i,1}x_{i,N}} & \sum\limits_{i=1}^{M}{x_{i,2}x_{i,N}} & ... & \sum\limits_{i=1}^{M}{x_{i,N}x_{i,N}} |
||
\end{matrix} \right |
\end{matrix} \right),</math> |
||
то получаем матричное уравнение: <math>A \times X = B</math>, которое легко решается [[Метод Гаусса|методом Гаусса]]. Полученная матрица будет матрицей, содержащей коэффициенты уравнения линии регрессии: |
то получаем матричное уравнение: <math>A \times X = B</math>, которое легко решается [[Метод Гаусса|методом Гаусса]]. Полученная матрица будет матрицей, содержащей коэффициенты уравнения линии регрессии: |
||
: <math>X=\left |
: <math>X=\left( \begin{matrix} |
||
b_0 \\ |
b_0 \\ |
||
b_1 \\ |
b_1 \\ |
||
\vdots \\ |
\vdots \\ |
||
b_N |
b_N |
||
\end{matrix} \right |
\end{matrix} \right)</math> |
||
Для получения наилучших оценок необходимо выполнение [[Теорема Гаусса — Маркова|предпосылок МНК (условий Гаусса — Маркова)]]. В англоязычной литературе такие оценки называются {{lang-en2|BLUE}} ({{lang-en2|Best Linear Unbiased Estimators}} — «наилучшие линейные |
Для получения наилучших оценок необходимо выполнение [[Теорема Гаусса — Маркова|предпосылок МНК (условий Гаусса — Маркова)]]. В англоязычной литературе такие оценки называются {{lang-en2|BLUE}} ({{lang-en2|Best Linear Unbiased Estimators}} — «наилучшие линейные несмещённые оценки»). |
||
Большинство исследуемых зависимостей может быть представлено с помощью [[Метод наименьших квадратов|МНК]] нелинейными математическими функциями. |
Большинство исследуемых зависимостей может быть представлено с помощью [[Метод наименьших квадратов|МНК]] нелинейными математическими функциями. |
||
Строка 72: | Строка 72: | ||
Параметры <math>b_i</math> являются частными коэффициентами корреляции; <math>(b_i)^2</math> интерпретируется как доля дисперсии Y, объяснённая <math>X_i</math>, при закреплении влияния остальных предикторов, то есть измеряет индивидуальный вклад <math>X_i</math> в объяснение Y. В случае коррелирующих предикторов возникает проблема неопределённости в оценках, которые становятся зависимыми от порядка включения предикторов в модель. В таких случаях необходимо применение методов анализа [[Корреляционный анализ|корреляционного]] и пошагового регрессионного анализа. |
Параметры <math>b_i</math> являются частными коэффициентами корреляции; <math>(b_i)^2</math> интерпретируется как доля дисперсии Y, объяснённая <math>X_i</math>, при закреплении влияния остальных предикторов, то есть измеряет индивидуальный вклад <math>X_i</math> в объяснение Y. В случае коррелирующих предикторов возникает проблема неопределённости в оценках, которые становятся зависимыми от порядка включения предикторов в модель. В таких случаях необходимо применение методов анализа [[Корреляционный анализ|корреляционного]] и пошагового регрессионного анализа. |
||
Говоря о нелинейных моделях регрессионного анализа, важно обращать внимание на то, |
Говоря о нелинейных моделях регрессионного анализа, важно обращать внимание на то, идёт ли речь о нелинейности по независимым переменным (с формальной точки зрения легко сводящейся к линейной регрессии), или о нелинейности по оцениваемым параметрам (вызывающей серьёзные вычислительные трудности). При нелинейности первого вида с содержательной точки зрения важно выделять появление в модели членов вида <math>X_1X_2</math>, <math>X_1X_2X_3</math>, свидетельствующее о наличии взаимодействий между признаками <math>X_1</math>, <math>X_2</math> и т. д. (см. [[Мультиколлинеарность]]). |
||
== См. также == |
== См. также == |
||
Строка 91: | Строка 91: | ||
|издательство = «[[Диалектика (издательство)|Диалектика]]» |
|издательство = «[[Диалектика (издательство)|Диалектика]]» |
||
|год = 2007 |
|год = 2007 |
||
| |
|страниц = 912 |
||
|isbn = 0-471-17082-8 |
|isbn = 0-471-17082-8 |
||
}} |
}} |
||
Строка 130: | Строка 130: | ||
}} |
}} |
||
* {{книга |
* {{книга |
||
|автор = Радченко |
|автор = Радченко С. Г. |
||
|заглавие = Устойчивые методы оценивания статистических моделей |
|заглавие = Устойчивые методы оценивания статистических моделей |
||
|оригинал = |
|||
|ссылка = |
|ссылка = |
||
|издание = |
|издание = |
||
Строка 138: | Строка 137: | ||
|издательство = ПП «Санспарель» |
|издательство = ПП «Санспарель» |
||
|год = 2005 |
|год = 2005 |
||
| |
|страниц = 504 |
||
|isbn = 966-96574-0-7, УДК: 519.237.5:515.126.2, ББК 22.172+22.152 |
|isbn = 966-96574-0-7, УДК: 519.237.5:515.126.2, ББК 22.172+22.152 |
||
}} |
}} |
||
* {{книга |
* {{книга |
||
|автор = Радченко |
|автор = Радченко С. Г. |
||
|заглавие = Методология регрессионного анализа |
|заглавие = Методология регрессионного анализа |
||
|оригинал = |
|||
|ссылка = |
|ссылка = |
||
|издание = |
|издание = |
||
Строка 150: | Строка 148: | ||
|издательство = «Корнийчук» |
|издательство = «Корнийчук» |
||
|год = 2011 |
|год = 2011 |
||
| |
|страниц = 376 |
||
|isbn = 978-966-7599-72-0 |
|isbn = 978-966-7599-72-0 |
||
}} |
}} |
||
{{ |
{{вс}} |
||
{{Машинное обучение}} |
|||
[[Категория:Машинное обучение]] |
[[Категория:Машинное обучение]] |
||
[[Категория:Регрессионный анализ]] |
[[Категория:Регрессионный анализ]] |
||
[[Категория:Статистическое моделирование]] |
[[Категория:Статистическое моделирование]] |
||
[[Категория:Анализ временных рядов]] |
|||
[[Категория:Теория оценивания]] |
Текущая версия от 11:04, 28 ноября 2024
Эту страницу предлагается объединить со страницей Регрессия (математика). |
Регрессио́нный анализ — набор статистических методов исследования влияния одной или нескольких независимых переменных на зависимую переменную . Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными или регрессантами. Терминология зависимых и независимых переменных отражает лишь математическую зависимость переменных (см. Корреляция), а не причинно-следственные отношения. Наиболее распространённый вид регрессионного анализа — линейная регрессия, когда находят линейную функцию, которая, согласно определённым математическим критериям, наиболее соответствует данным. Например, в методе наименьших квадратов вычисляется прямая (или гиперплоскость), сумма квадратов между которой и данными минимальна.
Цели регрессионного анализа
[править | править код]- Определение степени детерминированности вариации критериальной (зависимой) переменной предикторами (независимыми переменными)
- Предсказание значения зависимой переменной с помощью независимой(-ых)
- Определение вклада отдельных независимых переменных в вариацию зависимой
Математическое определение регрессии
[править | править код]Строго регрессионную зависимость можно определить следующим образом. Пусть — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений определено условное математическое ожидание
- (уравнение регрессии в общем виде),
то функция называется регрессией величины по величинам , а её график — линией регрессии по , или уравнением регрессии.
Зависимость от проявляется в изменении средних значений при изменении . Хотя при каждом фиксированном наборе значений величина остаётся случайной величиной с определённым распределением.
Для выяснения вопроса, насколько точно регрессионный анализ оценивает изменение при изменении , используется средняя величина дисперсии при разных наборах значений (фактически речь идёт о мере рассеяния зависимой переменной вокруг линии регрессии).
В матричной форме уравнение регрессии (УР) записывается в виде: , где — матрица ошибок. При обратимой матрице X◤X получается вектор-столбец коэффициентов B с учётом U◤U=min(B). В частном случае для Х=(±1) матрица X◤X является рототабельной, и УР может быть использовано при анализе временны́х рядов и обработке технических данных.
Метод наименьших квадратов (расчёт коэффициентов)
[править | править код]На практике линия регрессии чаще всего ищется в виде линейной функции (линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью метода наименьших квадратов, когда минимизируется сумма квадратов отклонений реально наблюдаемых от их оценок (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость):
( — объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда .
Для решения задачи регрессионного анализа методом наименьших квадратов вводится понятие функции невязки:
Условие минимума функции невязки:
Полученная система является системой линейных уравнений с неизвестными .
Если представить свободные члены левой части уравнений матрицей
а коэффициенты при неизвестных в правой части — матрицей
то получаем матричное уравнение: , которое легко решается методом Гаусса. Полученная матрица будет матрицей, содержащей коэффициенты уравнения линии регрессии:
Для получения наилучших оценок необходимо выполнение предпосылок МНК (условий Гаусса — Маркова). В англоязычной литературе такие оценки называются BLUE (Best Linear Unbiased Estimators — «наилучшие линейные несмещённые оценки»). Большинство исследуемых зависимостей может быть представлено с помощью МНК нелинейными математическими функциями.
Интерпретация параметров регрессии
[править | править код]Параметры являются частными коэффициентами корреляции; интерпретируется как доля дисперсии Y, объяснённая , при закреплении влияния остальных предикторов, то есть измеряет индивидуальный вклад в объяснение Y. В случае коррелирующих предикторов возникает проблема неопределённости в оценках, которые становятся зависимыми от порядка включения предикторов в модель. В таких случаях необходимо применение методов анализа корреляционного и пошагового регрессионного анализа.
Говоря о нелинейных моделях регрессионного анализа, важно обращать внимание на то, идёт ли речь о нелинейности по независимым переменным (с формальной точки зрения легко сводящейся к линейной регрессии), или о нелинейности по оцениваемым параметрам (вызывающей серьёзные вычислительные трудности). При нелинейности первого вида с содержательной точки зрения важно выделять появление в модели членов вида , , свидетельствующее о наличии взаимодействий между признаками , и т. д. (см. Мультиколлинеарность).
См. также
[править | править код]- Корреляция
- Мультиколлинеарность
- Автокорреляция
- Перекрёстная проверка
- Линейная регрессия на корреляции
Литература
[править | править код]- Дрейпер Н., Смит Г. Прикладной регрессионный анализ. Множественная регрессия = Applied Regression Analysis. — 3-е изд. — М.: «Диалектика», 2007. — 912 с. — ISBN 0-471-17082-8.
- Фёрстер Э., Рёнц Б. Методы корреляционного и регрессионного анализа = Methoden der Korrelation - und Regressiolynsanalyse. — М.: Финансы и статистика, 1981. — 302 с.
- Захаров С. И., Холмская А. Г. Повышение эффективности обработки сигналов вибрации и шума при испытаниях механизмов // Вестник машиностроения : журнал. — М.: Машиностроение, 2001. — № 10. — С. 31—32. — ISSN 0042-4633.
- Радченко С. Г. Устойчивые методы оценивания статистических моделей. — Киев: ПП «Санспарель», 2005. — 504 с. — ISBN 966-96574-0-7, УДК: 519.237.5:515.126.2, ББК 22.172+22.152.
- Радченко С. Г. Методология регрессионного анализа. — Киев: «Корнийчук», 2011. — 376 с. — ISBN 978-966-7599-72-0.