Просмотр отдельных изменений
Эта страница позволяет вам проверить переменные, сгенерированные фильтром злоупотреблений, на предмет отдельного изменения.
Переменные, созданные для этого изменения
Переменная | Значение |
---|---|
Имя учётной записи (user_name ) | 'Sinisha-74' |
ID страницы (page_id ) | 726742 |
Пространство имён страницы (page_namespace ) | 0 |
Название страницы (без пространства имён) (page_title ) | 'Регрессионный анализ' |
Полное название страницы (page_prefixedtitle ) | 'Регрессионный анализ' |
Действие (action ) | 'edit' |
Описание правки/причина (summary ) | '/* Ссылки */' |
Была ли правка отмечена как «малое изменение» (больше не используется) (minor_edit ) | false |
Вики-текст старой страницы до правки (old_wikitext ) | ''''Регрессио́нный''' ('''линейный''') '''анализ''' — [[Статистические методы|статистический метод]] исследования зависимости между [[Независимая и зависимая переменные|зависимой переменной]] <math>Y</math> и одной или несколькими [[Независимая и зависимая переменные|независимыми переменными]] <math>X_1, X_2, ..., X_p</math>. Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными. Терминология ''зависимых'' и ''независимых'' переменных отражает лишь математическую зависимость переменных (''см. [[Корреляционный анализ#Ложная корреляция|Ложная корреляция]]''), а не причинно-следственные отношения.
== Цели регрессионного анализа ==
# Определение степени [[Детерминированность|детерминированности]] [[Вариация (статистика)|вариации]] критериальной (зависимой) переменной [[предиктор]]ами (независимыми переменными)
# Предсказание значения зависимой переменной с помощью независимой(-ых)
# Определение вклада отдельных независимых переменных в вариацию зависимой
Регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа.
== Математическое определение регрессии ==
Строго регрессионную зависимость можно определить следующим образом. Пусть <math>Y</math>, <math>X_1, X_2, ..., X_p</math> — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений <math>X_1=x_1, X_2=x_2, ..., X_p=x_p</math> определено [[условное математическое ожидание]]
: <math>y(x_1,x_2, ..., x_p)=E(Y|X_1=x_1, X_2=x_2, ..., X_p=x_p)</math> (уравнение линейной регрессии в общем виде),
то функция <math>y(x_1,x_2, ..., x_p)</math> называется '''регрессией''' величины Y по величинам <math>X_1, X_2, ..., X_p</math>, а её [[график]] — '''линией регрессии''' <math>Y</math> по <math>X_1, X_2, ..., X_p</math>, или '''уравнением регрессии'''.
Зависимость <math>Y</math> от <math>X_1, X_2, ..., X_p</math> проявляется в изменении средних значений Y при изменении <math>X_1, X_2, ..., X_p</math>. Хотя при каждом фиксированном наборе значений <math>X_1=x_1, X_2=x_2, ..., X_p=x_p</math> величина <math>Y</math> остаётся [[случайная величина|случайной величиной]] с определённым рассеянием.
Для выяснения вопроса, насколько точно регрессионный анализ оценивает изменение Y при изменении <math>X_1, X_2, ..., X_p</math>, используется средняя величина дисперсии Y при разных наборах значений <math>X_1, X_2, ..., X_p</math> (фактически речь идет о мере рассеяния зависимой переменной вокруг линии регрессии).
== Метод наименьших квадратов (расчёт коэффициентов) ==
На практике линия регрессии чаще всего ищется в виде линейной функции <math>Y=b_0+b_1X_1+b_2X_2+...+b_NX_N</math> (линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью [[Метод наименьших квадратов|метода наименьших квадратов]], когда минимизируется сумма квадратов отклонений реально наблюдаемых Y от их оценок <math>\hat{Y}</math> (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость):
: <math>\sum_{k=1}^{M} (Y_k-\hat{Y_k})^2 \to min</math>
(M — объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда <math>Y=y(x_1,x_2,...x_N)</math>.
Для решения задачи регрессионного анализа методом наименьших квадратов вводится понятие '''функции невязки''':
: <math>\sigma(\bar{b})=\frac{1}{2}\sum_{k=1}^{M}{(Y_k-\hat{Y}_k)^2}</math>
Условие минимума функции невязки:
: <math>\left\{ \begin{matrix}
\frac{d\sigma(\bar{b})}{db_i}=0 \\
i=0...N
\end{matrix} \right.
\Leftrightarrow
\left\{ \begin{matrix}
\sum_{i=1}^{M}{y_i}=\sum_{i=1}^{M}{\sum_{j=1}^{N}{b_jx_{i,j}}}+b_0M \\
\sum_{i=1}^{M}{y_ix_{i,k}}=\sum_{i=1}^{M}{\sum_{j=1}^{N}{b_jx_{i,j}x_{i,k}}}+Mb_0\sum_{i=1}^{M}{x_{i,k}} \\
k=1...N
\end{matrix} \right.
</math>
Полученная система является системой <math>N+1</math> линейных уравнений с <math>N+1</math> неизвестными <math>b_0...b_N</math>
Если представить свободные члены левой части уравнений матрицей
: <math>B=\left\{ \begin{matrix}
\sum_{i=1}^{M}{y_i} \\
\sum_{i=1}^{M}{y_ix_{i,1}} \\
... \\
\sum_{i=1}^{M}{y_ix_{i,N}}
\end{matrix} \right\}</math>
а коэффициенты при неизвестных в правой части матрицей
: <math>A=\left\{ \begin{matrix}
M & \sum_{i=1}^{M}{x_{i,1}} & \sum_{i=1}^{M}{x_{i,2}} & ... & \sum_{i=1}^{M}{x_{i,N}} \\
\sum_{i=1}^{M}{x_{i,1}} & \sum_{i=1}^{M}{x_{i,1}x_{i,1}} & \sum_{i=1}^{M}{x_{i,2}x_{i,1}} & ... & \sum_{i=1}^{M}{x_{i,N}x_{i,1}} \\
\sum_{i=1}^{M}{x_{i,2}} & \sum_{i=1}^{M}{x_{i,1}x_{i,2}} & \sum_{i=1}^{M}{x_{i,2}x_{i,2}} & ... & \sum_{i=1}^{M}{x_{i,N}x_{i,2}} \\
... & ... & ... & ... & ... \\
\sum_{i=1}^{M}{x_{i,N}} & \sum_{i=1}^{M}{x_{i,1}x_{i,N}} & \sum_{i=1}^{M}{x_{i,2}x_{i,N}} & ... & \sum_{i=1}^{M}{x_{i,N}x_{i,N}}
\end{matrix} \right\}</math>
то получаем матричное уравнение: <math>A \times X = B</math>, которое легко решается [[Метод Гаусса|методом Гаусса]]. Полученная матрица будет матрицей, содержащей коэффициенты уравнения линии регрессии:
: <math>X=\left\{ \begin{matrix}
b_0 \\
b_1 \\
... \\
b_N
\end{matrix} \right\}</math>
Для получения наилучших оценок необходимо выполнение предпосылок МНК (условий Гаусса−Маркова).
В англоязычной литературе такие оценки называются BLUE (Best Linear Unbiased Estimators) − наилучшие линейные несмещенные оценки.
== Интерпретация параметров регрессии ==
Параметры <math>b_i</math> являются частными коэффициентами корреляции; <math>(b_i)^2</math> интерпретируется как доля дисперсии Y, объяснённая <math>X_i</math>, при закреплении влияния остальных предикторов, то есть измеряет индивидуальный вклад <math>X_i</math> в объяснение Y. В случае коррелирующих предикторов возникает проблема неопределённости в оценках, которые становятся зависимыми от порядка включения предикторов в модель. В таких случаях необходимо применение методов анализа [[Корреляционный анализ|корреляционного]] и пошагового регрессионного анализа.
Говоря о нелинейных моделях регрессионного анализа, важно обращать внимание на то, идет ли речь о нелинейности по независимым переменным (с формальной точки зрения легко сводящейся к линейной регрессии), или о нелинейности по оцениваемым параметрам (вызывающей серьёзные вычислительные трудности). При нелинейности первого вида с содержательной точки зрения важно выделять появление в модели членов вида <math>X_1X_2</math>, <math>X_1X_2X_3</math>, свидетельствующее о наличии взаимодействий между признаками <math>X_1</math>, <math>X_2</math> и т. д.
== См. также ==
* [[Корреляция]]
* [[Мультиколлинеарность]]
* [[Перекрёстная проверка]]
== Ссылки ==
* [http://www.basegroup.ru/library/analysis/regression/feature_selection/ www.basegroup.ru] — методы отбора переменных в регрессионные модели
== Литература ==
* {{книга
|автор = Норман Дрейпер, Гарри Смит
|заглавие = Прикладной регрессионный анализ. Множественная регрессия
|оригинал = Applied Regression Analysis
|ссылка =
|издание = 3-е изд
|место = М.
|издательство = «[[Диалектика (издательство)|Диалектика]]»
|год = 2007
|страницы = 912
|isbn = 0-471-17082-8
}}
* {{книга
|автор = Радченко Станислав Григорьевич,
|заглавие = Устойчивые методы оценивания статистических моделей: Монография
|оригинал =
|ссылка =
|издание =
|место = К.
|издательство = ПП «Санспарель»
|год = 2005
|страницы = 504
|isbn = 966-96574-0-7, УДК: 519.237.5:515.126.2, ББК 22.172+22.152
}}
{{rq|img|refless}}
[[Категория:Машинное обучение]]
[[Категория:Регрессионный анализ]]
[[ar:تحليل الانحدار]]
[[bg:Регресионен анализ]]
[[ca:Anàlisi de la regressió]]
[[cs:Regresní analýza]]
[[da:Regressionsanalyse]]
[[de:Regressionsanalyse]]
[[en:Regression analysis]]
[[es:Análisis de la regresión]]
[[fa:تحلیل رگرسیون]]
[[fi:Regressioanalyysi]]
[[fr:Régression (statistiques)]]
[[hu:Regressziószámítás]]
[[id:Analisis regresi]]
[[it:Analisi di regressione]]
[[ja:回帰分析]]
[[ko:회귀분석]]
[[lv:Lineārās regresijas analīze]]
[[nl:Regressie-analyse]]
[[no:Regresjonsanalyse]]
[[pl:Regresja (statystyka)]]
[[pt:Regressão]]
[[simple:Regression analysis]]
[[su:Analisis régrési]]
[[sv:Regressionsanalys]]
[[tr:Regresyon analizi]]
[[uk:Регресійний аналіз]]
[[vi:Phân tích hồi quy]]
[[zh:迴歸分析]]' |
Вики-текст новой страницы после правки (new_wikitext ) | ''''Регрессио́нный''' ('''линейный''') '''анализ''' — [[Статистические методы|статистический метод]] исследования зависимости между [[Независимая и зависимая переменные|зависимой переменной]] <math>Y</math> и одной или несколькими [[Независимая и зависимая переменные|независимыми переменными]] <math>X_1, X_2, ..., X_p</math>. Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными. Терминология ''зависимых'' и ''независимых'' переменных отражает лишь математическую зависимость переменных (''см. [[Корреляционный анализ#Ложная корреляция|Ложная корреляция]]''), а не причинно-следственные отношения.
== Цели регрессионного анализа ==
# Определение степени [[Детерминированность|детерминированности]] [[Вариация (статистика)|вариации]] критериальной (зависимой) переменной [[предиктор]]ами (независимыми переменными)
# Предсказание значения зависимой переменной с помощью независимой(-ых)
# Определение вклада отдельных независимых переменных в вариацию зависимой
Регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа.
== Математическое определение регрессии ==
Строго регрессионную зависимость можно определить следующим образом. Пусть <math>Y</math>, <math>X_1, X_2, ..., X_p</math> — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений <math>X_1=x_1, X_2=x_2, ..., X_p=x_p</math> определено [[условное математическое ожидание]]
: <math>y(x_1,x_2, ..., x_p)=E(Y|X_1=x_1, X_2=x_2, ..., X_p=x_p)</math> (уравнение линейной регрессии в общем виде),
то функция <math>y(x_1,x_2, ..., x_p)</math> называется '''регрессией''' величины Y по величинам <math>X_1, X_2, ..., X_p</math>, а её [[график]] — '''линией регрессии''' <math>Y</math> по <math>X_1, X_2, ..., X_p</math>, или '''уравнением регрессии'''.
Зависимость <math>Y</math> от <math>X_1, X_2, ..., X_p</math> проявляется в изменении средних значений Y при изменении <math>X_1, X_2, ..., X_p</math>. Хотя при каждом фиксированном наборе значений <math>X_1=x_1, X_2=x_2, ..., X_p=x_p</math> величина <math>Y</math> остаётся [[случайная величина|случайной величиной]] с определённым рассеянием.
Для выяснения вопроса, насколько точно регрессионный анализ оценивает изменение Y при изменении <math>X_1, X_2, ..., X_p</math>, используется средняя величина дисперсии Y при разных наборах значений <math>X_1, X_2, ..., X_p</math> (фактически речь идет о мере рассеяния зависимой переменной вокруг линии регрессии).
== Метод наименьших квадратов (расчёт коэффициентов) ==
На практике линия регрессии чаще всего ищется в виде линейной функции <math>Y=b_0+b_1X_1+b_2X_2+...+b_NX_N</math> (линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью [[Метод наименьших квадратов|метода наименьших квадратов]], когда минимизируется сумма квадратов отклонений реально наблюдаемых Y от их оценок <math>\hat{Y}</math> (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость):
: <math>\sum_{k=1}^{M} (Y_k-\hat{Y_k})^2 \to min</math>
(M — объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда <math>Y=y(x_1,x_2,...x_N)</math>.
Для решения задачи регрессионного анализа методом наименьших квадратов вводится понятие '''функции невязки''':
: <math>\sigma(\bar{b})=\frac{1}{2}\sum_{k=1}^{M}{(Y_k-\hat{Y}_k)^2}</math>
Условие минимума функции невязки:
: <math>\left\{ \begin{matrix}
\frac{d\sigma(\bar{b})}{db_i}=0 \\
i=0...N
\end{matrix} \right.
\Leftrightarrow
\left\{ \begin{matrix}
\sum_{i=1}^{M}{y_i}=\sum_{i=1}^{M}{\sum_{j=1}^{N}{b_jx_{i,j}}}+b_0M \\
\sum_{i=1}^{M}{y_ix_{i,k}}=\sum_{i=1}^{M}{\sum_{j=1}^{N}{b_jx_{i,j}x_{i,k}}}+Mb_0\sum_{i=1}^{M}{x_{i,k}} \\
k=1...N
\end{matrix} \right.
</math>
Полученная система является системой <math>N+1</math> линейных уравнений с <math>N+1</math> неизвестными <math>b_0...b_N</math>
Если представить свободные члены левой части уравнений матрицей
: <math>B=\left\{ \begin{matrix}
\sum_{i=1}^{M}{y_i} \\
\sum_{i=1}^{M}{y_ix_{i,1}} \\
... \\
\sum_{i=1}^{M}{y_ix_{i,N}}
\end{matrix} \right\}</math>
а коэффициенты при неизвестных в правой части матрицей
: <math>A=\left\{ \begin{matrix}
M & \sum_{i=1}^{M}{x_{i,1}} & \sum_{i=1}^{M}{x_{i,2}} & ... & \sum_{i=1}^{M}{x_{i,N}} \\
\sum_{i=1}^{M}{x_{i,1}} & \sum_{i=1}^{M}{x_{i,1}x_{i,1}} & \sum_{i=1}^{M}{x_{i,2}x_{i,1}} & ... & \sum_{i=1}^{M}{x_{i,N}x_{i,1}} \\
\sum_{i=1}^{M}{x_{i,2}} & \sum_{i=1}^{M}{x_{i,1}x_{i,2}} & \sum_{i=1}^{M}{x_{i,2}x_{i,2}} & ... & \sum_{i=1}^{M}{x_{i,N}x_{i,2}} \\
... & ... & ... & ... & ... \\
\sum_{i=1}^{M}{x_{i,N}} & \sum_{i=1}^{M}{x_{i,1}x_{i,N}} & \sum_{i=1}^{M}{x_{i,2}x_{i,N}} & ... & \sum_{i=1}^{M}{x_{i,N}x_{i,N}}
\end{matrix} \right\}</math>
то получаем матричное уравнение: <math>A \times X = B</math>, которое легко решается [[Метод Гаусса|методом Гаусса]]. Полученная матрица будет матрицей, содержащей коэффициенты уравнения линии регрессии:
: <math>X=\left\{ \begin{matrix}
b_0 \\
b_1 \\
... \\
b_N
\end{matrix} \right\}</math>
Для получения наилучших оценок необходимо выполнение предпосылок МНК (условий Гаусса−Маркова).
В англоязычной литературе такие оценки называются BLUE (Best Linear Unbiased Estimators) − наилучшие линейные несмещенные оценки.
== Интерпретация параметров регрессии ==
Параметры <math>b_i</math> являются частными коэффициентами корреляции; <math>(b_i)^2</math> интерпретируется как доля дисперсии Y, объяснённая <math>X_i</math>, при закреплении влияния остальных предикторов, то есть измеряет индивидуальный вклад <math>X_i</math> в объяснение Y. В случае коррелирующих предикторов возникает проблема неопределённости в оценках, которые становятся зависимыми от порядка включения предикторов в модель. В таких случаях необходимо применение методов анализа [[Корреляционный анализ|корреляционного]] и пошагового регрессионного анализа.
Говоря о нелинейных моделях регрессионного анализа, важно обращать внимание на то, идет ли речь о нелинейности по независимым переменным (с формальной точки зрения легко сводящейся к линейной регрессии), или о нелинейности по оцениваемым параметрам (вызывающей серьёзные вычислительные трудности). При нелинейности первого вида с содержательной точки зрения важно выделять появление в модели членов вида <math>X_1X_2</math>, <math>X_1X_2X_3</math>, свидетельствующее о наличии взаимодействий между признаками <math>X_1</math>, <math>X_2</math> и т. д.
== См. также ==
* [[Корреляция]]
* [[Мультиколлинеарность]]
* [[Перекрёстная проверка]]
== Ссылки ==
* [http://www.basegroup.ru/library/analysis/regression/feature_selection/ www.basegroup.ru] — методы отбора переменных в регрессионные модели
* [http://www.sinisha.ru/math/mnk.html Линейный множественный регрессионный анализ] на [[JavaScript]].
== Литература ==
* {{книга
|автор = Норман Дрейпер, Гарри Смит
|заглавие = Прикладной регрессионный анализ. Множественная регрессия
|оригинал = Applied Regression Analysis
|ссылка =
|издание = 3-е изд
|место = М.
|издательство = «[[Диалектика (издательство)|Диалектика]]»
|год = 2007
|страницы = 912
|isbn = 0-471-17082-8
}}
* {{книга
|автор = Радченко Станислав Григорьевич,
|заглавие = Устойчивые методы оценивания статистических моделей: Монография
|оригинал =
|ссылка =
|издание =
|место = К.
|издательство = ПП «Санспарель»
|год = 2005
|страницы = 504
|isbn = 966-96574-0-7, УДК: 519.237.5:515.126.2, ББК 22.172+22.152
}}
{{rq|img|refless}}
[[Категория:Машинное обучение]]
[[Категория:Регрессионный анализ]]
[[ar:تحليل الانحدار]]
[[bg:Регресионен анализ]]
[[ca:Anàlisi de la regressió]]
[[cs:Regresní analýza]]
[[da:Regressionsanalyse]]
[[de:Regressionsanalyse]]
[[en:Regression analysis]]
[[es:Análisis de la regresión]]
[[fa:تحلیل رگرسیون]]
[[fi:Regressioanalyysi]]
[[fr:Régression (statistiques)]]
[[hu:Regressziószámítás]]
[[id:Analisis regresi]]
[[it:Analisi di regressione]]
[[ja:回帰分析]]
[[ko:회귀분석]]
[[lv:Lineārās regresijas analīze]]
[[nl:Regressie-analyse]]
[[no:Regresjonsanalyse]]
[[pl:Regresja (statystyka)]]
[[pt:Regressão]]
[[simple:Regression analysis]]
[[su:Analisis régrési]]
[[sv:Regressionsanalys]]
[[tr:Regresyon analizi]]
[[uk:Регресійний аналіз]]
[[vi:Phân tích hồi quy]]
[[zh:迴歸分析]]' |
Была ли правка сделана через выходной узел сети Tor (tor_exit_node ) | 0 |
Unix-время изменения (timestamp ) | 1309958444 |