Просмотр отдельных изменений

Фильтры правок (обсуждение) — это автоматизированный механизм проверок правок участников.
(Список | Последние изменения фильтров | Изучение правок | Журнал срабатываний)
Перейти к навигации Перейти к поиску

Эта страница позволяет вам проверить переменные, сгенерированные фильтром злоупотреблений, на предмет отдельного изменения.

Переменные, созданные для этого изменения

ПеременнаяЗначение
Имя учётной записи (user_name)
'Sinisha-74'
ID страницы (page_id)
726742
Пространство имён страницы (page_namespace)
0
Название страницы (без пространства имён) (page_title)
'Регрессионный анализ'
Полное название страницы (page_prefixedtitle)
'Регрессионный анализ'
Действие (action)
'edit'
Описание правки/причина (summary)
'/* Ссылки */'
Была ли правка отмечена как «малое изменение» (больше не используется) (minor_edit)
false
Вики-текст старой страницы до правки (old_wikitext)
''''Регрессио́нный''' ('''линейный''') '''анализ''' — [[Статистические методы|статистический метод]] исследования зависимости между [[Независимая и зависимая переменные|зависимой переменной]] <math>Y</math> и одной или несколькими [[Независимая и зависимая переменные|независимыми переменными]] <math>X_1, X_2, ..., X_p</math>. Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными. Терминология ''зависимых'' и ''независимых'' переменных отражает лишь математическую зависимость переменных (''см. [[Корреляционный анализ#Ложная корреляция|Ложная корреляция]]''), а не причинно-следственные отношения. == Цели регрессионного анализа == # Определение степени [[Детерминированность|детерминированности]] [[Вариация (статистика)|вариации]] критериальной (зависимой) переменной [[предиктор]]ами (независимыми переменными) # Предсказание значения зависимой переменной с помощью независимой(-ых) # Определение вклада отдельных независимых переменных в вариацию зависимой Регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа. == Математическое определение регрессии == Строго регрессионную зависимость можно определить следующим образом. Пусть <math>Y</math>, <math>X_1, X_2, ..., X_p</math> — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений <math>X_1=x_1, X_2=x_2, ..., X_p=x_p</math> определено [[условное математическое ожидание]] : <math>y(x_1,x_2, ..., x_p)=E(Y|X_1=x_1, X_2=x_2, ..., X_p=x_p)</math> (уравнение линейной регрессии в общем виде), то функция <math>y(x_1,x_2, ..., x_p)</math> называется '''регрессией''' величины Y по величинам <math>X_1, X_2, ..., X_p</math>, а её [[график]] — '''линией регрессии''' <math>Y</math> по <math>X_1, X_2, ..., X_p</math>, или '''уравнением регрессии'''. Зависимость <math>Y</math> от <math>X_1, X_2, ..., X_p</math> проявляется в изменении средних значений Y при изменении <math>X_1, X_2, ..., X_p</math>. Хотя при каждом фиксированном наборе значений <math>X_1=x_1, X_2=x_2, ..., X_p=x_p</math> величина <math>Y</math> остаётся [[случайная величина|случайной величиной]] с определённым рассеянием. Для выяснения вопроса, насколько точно регрессионный анализ оценивает изменение Y при изменении <math>X_1, X_2, ..., X_p</math>, используется средняя величина дисперсии Y при разных наборах значений <math>X_1, X_2, ..., X_p</math> (фактически речь идет о мере рассеяния зависимой переменной вокруг линии регрессии). == Метод наименьших квадратов (расчёт коэффициентов) == На практике линия регрессии чаще всего ищется в виде линейной функции <math>Y=b_0+b_1X_1+b_2X_2+...+b_NX_N</math> (линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью [[Метод наименьших квадратов|метода наименьших квадратов]], когда минимизируется сумма квадратов отклонений реально наблюдаемых Y от их оценок <math>\hat{Y}</math> (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость): : <math>\sum_{k=1}^{M} (Y_k-\hat{Y_k})^2 \to min</math> (M — объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда <math>Y=y(x_1,x_2,...x_N)</math>. Для решения задачи регрессионного анализа методом наименьших квадратов вводится понятие '''функции невязки''': : <math>\sigma(\bar{b})=\frac{1}{2}\sum_{k=1}^{M}{(Y_k-\hat{Y}_k)^2}</math> Условие минимума функции невязки: : <math>\left\{ \begin{matrix} \frac{d\sigma(\bar{b})}{db_i}=0 \\ i=0...N \end{matrix} \right. \Leftrightarrow \left\{ \begin{matrix} \sum_{i=1}^{M}{y_i}=\sum_{i=1}^{M}{\sum_{j=1}^{N}{b_jx_{i,j}}}+b_0M \\ \sum_{i=1}^{M}{y_ix_{i,k}}=\sum_{i=1}^{M}{\sum_{j=1}^{N}{b_jx_{i,j}x_{i,k}}}+Mb_0\sum_{i=1}^{M}{x_{i,k}} \\ k=1...N \end{matrix} \right. </math> Полученная система является системой <math>N+1</math> линейных уравнений с <math>N+1</math> неизвестными <math>b_0...b_N</math> Если представить свободные члены левой части уравнений матрицей : <math>B=\left\{ \begin{matrix} \sum_{i=1}^{M}{y_i} \\ \sum_{i=1}^{M}{y_ix_{i,1}} \\ ... \\ \sum_{i=1}^{M}{y_ix_{i,N}} \end{matrix} \right\}</math> а коэффициенты при неизвестных в правой части матрицей : <math>A=\left\{ \begin{matrix} M & \sum_{i=1}^{M}{x_{i,1}} & \sum_{i=1}^{M}{x_{i,2}} & ... & \sum_{i=1}^{M}{x_{i,N}} \\ \sum_{i=1}^{M}{x_{i,1}} & \sum_{i=1}^{M}{x_{i,1}x_{i,1}} & \sum_{i=1}^{M}{x_{i,2}x_{i,1}} & ... & \sum_{i=1}^{M}{x_{i,N}x_{i,1}} \\ \sum_{i=1}^{M}{x_{i,2}} & \sum_{i=1}^{M}{x_{i,1}x_{i,2}} & \sum_{i=1}^{M}{x_{i,2}x_{i,2}} & ... & \sum_{i=1}^{M}{x_{i,N}x_{i,2}} \\ ... & ... & ... & ... & ... \\ \sum_{i=1}^{M}{x_{i,N}} & \sum_{i=1}^{M}{x_{i,1}x_{i,N}} & \sum_{i=1}^{M}{x_{i,2}x_{i,N}} & ... & \sum_{i=1}^{M}{x_{i,N}x_{i,N}} \end{matrix} \right\}</math> то получаем матричное уравнение: <math>A \times X = B</math>, которое легко решается [[Метод Гаусса|методом Гаусса]]. Полученная матрица будет матрицей, содержащей коэффициенты уравнения линии регрессии: : <math>X=\left\{ \begin{matrix} b_0 \\ b_1 \\ ... \\ b_N \end{matrix} \right\}</math> Для получения наилучших оценок необходимо выполнение предпосылок МНК (условий Гаусса−Маркова). В англоязычной литературе такие оценки называются BLUE (Best Linear Unbiased Estimators) − наилучшие линейные несмещенные оценки. == Интерпретация параметров регрессии == Параметры <math>b_i</math> являются частными коэффициентами корреляции; <math>(b_i)^2</math> интерпретируется как доля дисперсии Y, объяснённая <math>X_i</math>, при закреплении влияния остальных предикторов, то есть измеряет индивидуальный вклад <math>X_i</math> в объяснение Y. В случае коррелирующих предикторов возникает проблема неопределённости в оценках, которые становятся зависимыми от порядка включения предикторов в модель. В таких случаях необходимо применение методов анализа [[Корреляционный анализ|корреляционного]] и пошагового регрессионного анализа. Говоря о нелинейных моделях регрессионного анализа, важно обращать внимание на то, идет ли речь о нелинейности по независимым переменным (с формальной точки зрения легко сводящейся к линейной регрессии), или о нелинейности по оцениваемым параметрам (вызывающей серьёзные вычислительные трудности). При нелинейности первого вида с содержательной точки зрения важно выделять появление в модели членов вида <math>X_1X_2</math>, <math>X_1X_2X_3</math>, свидетельствующее о наличии взаимодействий между признаками <math>X_1</math>, <math>X_2</math> и т. д. == См. также == * [[Корреляция]] * [[Мультиколлинеарность]] * [[Перекрёстная проверка]] == Ссылки == * [http://www.basegroup.ru/library/analysis/regression/feature_selection/ www.basegroup.ru] — методы отбора переменных в регрессионные модели == Литература == * {{книга |автор = Норман Дрейпер, Гарри Смит |заглавие = Прикладной регрессионный анализ. Множественная регрессия |оригинал = Applied Regression Analysis |ссылка = |издание = 3-е изд |место = М. |издательство = «[[Диалектика (издательство)|Диалектика]]» |год = 2007 |страницы = 912 |isbn = 0-471-17082-8 }} * {{книга |автор = Радченко Станислав Григорьевич, |заглавие = Устойчивые методы оценивания статистических моделей: Монография |оригинал = |ссылка = |издание = |место = К. |издательство = ПП «Санспарель» |год = 2005 |страницы = 504 |isbn = 966-96574-0-7, УДК: 519.237.5:515.126.2, ББК 22.172+22.152 }} {{rq|img|refless}} [[Категория:Машинное обучение]] [[Категория:Регрессионный анализ]] [[ar:تحليل الانحدار]] [[bg:Регресионен анализ]] [[ca:Anàlisi de la regressió]] [[cs:Regresní analýza]] [[da:Regressionsanalyse]] [[de:Regressionsanalyse]] [[en:Regression analysis]] [[es:Análisis de la regresión]] [[fa:تحلیل رگرسیون]] [[fi:Regressioanalyysi]] [[fr:Régression (statistiques)]] [[hu:Regressziószámítás]] [[id:Analisis regresi]] [[it:Analisi di regressione]] [[ja:回帰分析]] [[ko:회귀분석]] [[lv:Lineārās regresijas analīze]] [[nl:Regressie-analyse]] [[no:Regresjonsanalyse]] [[pl:Regresja (statystyka)]] [[pt:Regressão]] [[simple:Regression analysis]] [[su:Analisis régrési]] [[sv:Regressionsanalys]] [[tr:Regresyon analizi]] [[uk:Регресійний аналіз]] [[vi:Phân tích hồi quy]] [[zh:迴歸分析]]'
Вики-текст новой страницы после правки (new_wikitext)
''''Регрессио́нный''' ('''линейный''') '''анализ''' — [[Статистические методы|статистический метод]] исследования зависимости между [[Независимая и зависимая переменные|зависимой переменной]] <math>Y</math> и одной или несколькими [[Независимая и зависимая переменные|независимыми переменными]] <math>X_1, X_2, ..., X_p</math>. Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными. Терминология ''зависимых'' и ''независимых'' переменных отражает лишь математическую зависимость переменных (''см. [[Корреляционный анализ#Ложная корреляция|Ложная корреляция]]''), а не причинно-следственные отношения. == Цели регрессионного анализа == # Определение степени [[Детерминированность|детерминированности]] [[Вариация (статистика)|вариации]] критериальной (зависимой) переменной [[предиктор]]ами (независимыми переменными) # Предсказание значения зависимой переменной с помощью независимой(-ых) # Определение вклада отдельных независимых переменных в вариацию зависимой Регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа. == Математическое определение регрессии == Строго регрессионную зависимость можно определить следующим образом. Пусть <math>Y</math>, <math>X_1, X_2, ..., X_p</math> — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений <math>X_1=x_1, X_2=x_2, ..., X_p=x_p</math> определено [[условное математическое ожидание]] : <math>y(x_1,x_2, ..., x_p)=E(Y|X_1=x_1, X_2=x_2, ..., X_p=x_p)</math> (уравнение линейной регрессии в общем виде), то функция <math>y(x_1,x_2, ..., x_p)</math> называется '''регрессией''' величины Y по величинам <math>X_1, X_2, ..., X_p</math>, а её [[график]] — '''линией регрессии''' <math>Y</math> по <math>X_1, X_2, ..., X_p</math>, или '''уравнением регрессии'''. Зависимость <math>Y</math> от <math>X_1, X_2, ..., X_p</math> проявляется в изменении средних значений Y при изменении <math>X_1, X_2, ..., X_p</math>. Хотя при каждом фиксированном наборе значений <math>X_1=x_1, X_2=x_2, ..., X_p=x_p</math> величина <math>Y</math> остаётся [[случайная величина|случайной величиной]] с определённым рассеянием. Для выяснения вопроса, насколько точно регрессионный анализ оценивает изменение Y при изменении <math>X_1, X_2, ..., X_p</math>, используется средняя величина дисперсии Y при разных наборах значений <math>X_1, X_2, ..., X_p</math> (фактически речь идет о мере рассеяния зависимой переменной вокруг линии регрессии). == Метод наименьших квадратов (расчёт коэффициентов) == На практике линия регрессии чаще всего ищется в виде линейной функции <math>Y=b_0+b_1X_1+b_2X_2+...+b_NX_N</math> (линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью [[Метод наименьших квадратов|метода наименьших квадратов]], когда минимизируется сумма квадратов отклонений реально наблюдаемых Y от их оценок <math>\hat{Y}</math> (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость): : <math>\sum_{k=1}^{M} (Y_k-\hat{Y_k})^2 \to min</math> (M — объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда <math>Y=y(x_1,x_2,...x_N)</math>. Для решения задачи регрессионного анализа методом наименьших квадратов вводится понятие '''функции невязки''': : <math>\sigma(\bar{b})=\frac{1}{2}\sum_{k=1}^{M}{(Y_k-\hat{Y}_k)^2}</math> Условие минимума функции невязки: : <math>\left\{ \begin{matrix} \frac{d\sigma(\bar{b})}{db_i}=0 \\ i=0...N \end{matrix} \right. \Leftrightarrow \left\{ \begin{matrix} \sum_{i=1}^{M}{y_i}=\sum_{i=1}^{M}{\sum_{j=1}^{N}{b_jx_{i,j}}}+b_0M \\ \sum_{i=1}^{M}{y_ix_{i,k}}=\sum_{i=1}^{M}{\sum_{j=1}^{N}{b_jx_{i,j}x_{i,k}}}+Mb_0\sum_{i=1}^{M}{x_{i,k}} \\ k=1...N \end{matrix} \right. </math> Полученная система является системой <math>N+1</math> линейных уравнений с <math>N+1</math> неизвестными <math>b_0...b_N</math> Если представить свободные члены левой части уравнений матрицей : <math>B=\left\{ \begin{matrix} \sum_{i=1}^{M}{y_i} \\ \sum_{i=1}^{M}{y_ix_{i,1}} \\ ... \\ \sum_{i=1}^{M}{y_ix_{i,N}} \end{matrix} \right\}</math> а коэффициенты при неизвестных в правой части матрицей : <math>A=\left\{ \begin{matrix} M & \sum_{i=1}^{M}{x_{i,1}} & \sum_{i=1}^{M}{x_{i,2}} & ... & \sum_{i=1}^{M}{x_{i,N}} \\ \sum_{i=1}^{M}{x_{i,1}} & \sum_{i=1}^{M}{x_{i,1}x_{i,1}} & \sum_{i=1}^{M}{x_{i,2}x_{i,1}} & ... & \sum_{i=1}^{M}{x_{i,N}x_{i,1}} \\ \sum_{i=1}^{M}{x_{i,2}} & \sum_{i=1}^{M}{x_{i,1}x_{i,2}} & \sum_{i=1}^{M}{x_{i,2}x_{i,2}} & ... & \sum_{i=1}^{M}{x_{i,N}x_{i,2}} \\ ... & ... & ... & ... & ... \\ \sum_{i=1}^{M}{x_{i,N}} & \sum_{i=1}^{M}{x_{i,1}x_{i,N}} & \sum_{i=1}^{M}{x_{i,2}x_{i,N}} & ... & \sum_{i=1}^{M}{x_{i,N}x_{i,N}} \end{matrix} \right\}</math> то получаем матричное уравнение: <math>A \times X = B</math>, которое легко решается [[Метод Гаусса|методом Гаусса]]. Полученная матрица будет матрицей, содержащей коэффициенты уравнения линии регрессии: : <math>X=\left\{ \begin{matrix} b_0 \\ b_1 \\ ... \\ b_N \end{matrix} \right\}</math> Для получения наилучших оценок необходимо выполнение предпосылок МНК (условий Гаусса−Маркова). В англоязычной литературе такие оценки называются BLUE (Best Linear Unbiased Estimators) − наилучшие линейные несмещенные оценки. == Интерпретация параметров регрессии == Параметры <math>b_i</math> являются частными коэффициентами корреляции; <math>(b_i)^2</math> интерпретируется как доля дисперсии Y, объяснённая <math>X_i</math>, при закреплении влияния остальных предикторов, то есть измеряет индивидуальный вклад <math>X_i</math> в объяснение Y. В случае коррелирующих предикторов возникает проблема неопределённости в оценках, которые становятся зависимыми от порядка включения предикторов в модель. В таких случаях необходимо применение методов анализа [[Корреляционный анализ|корреляционного]] и пошагового регрессионного анализа. Говоря о нелинейных моделях регрессионного анализа, важно обращать внимание на то, идет ли речь о нелинейности по независимым переменным (с формальной точки зрения легко сводящейся к линейной регрессии), или о нелинейности по оцениваемым параметрам (вызывающей серьёзные вычислительные трудности). При нелинейности первого вида с содержательной точки зрения важно выделять появление в модели членов вида <math>X_1X_2</math>, <math>X_1X_2X_3</math>, свидетельствующее о наличии взаимодействий между признаками <math>X_1</math>, <math>X_2</math> и т. д. == См. также == * [[Корреляция]] * [[Мультиколлинеарность]] * [[Перекрёстная проверка]] == Ссылки == * [http://www.basegroup.ru/library/analysis/regression/feature_selection/ www.basegroup.ru] — методы отбора переменных в регрессионные модели * [http://www.sinisha.ru/math/mnk.html Линейный множественный регрессионный анализ] на [[JavaScript]]. == Литература == * {{книга |автор = Норман Дрейпер, Гарри Смит |заглавие = Прикладной регрессионный анализ. Множественная регрессия |оригинал = Applied Regression Analysis |ссылка = |издание = 3-е изд |место = М. |издательство = «[[Диалектика (издательство)|Диалектика]]» |год = 2007 |страницы = 912 |isbn = 0-471-17082-8 }} * {{книга |автор = Радченко Станислав Григорьевич, |заглавие = Устойчивые методы оценивания статистических моделей: Монография |оригинал = |ссылка = |издание = |место = К. |издательство = ПП «Санспарель» |год = 2005 |страницы = 504 |isbn = 966-96574-0-7, УДК: 519.237.5:515.126.2, ББК 22.172+22.152 }} {{rq|img|refless}} [[Категория:Машинное обучение]] [[Категория:Регрессионный анализ]] [[ar:تحليل الانحدار]] [[bg:Регресионен анализ]] [[ca:Anàlisi de la regressió]] [[cs:Regresní analýza]] [[da:Regressionsanalyse]] [[de:Regressionsanalyse]] [[en:Regression analysis]] [[es:Análisis de la regresión]] [[fa:تحلیل رگرسیون]] [[fi:Regressioanalyysi]] [[fr:Régression (statistiques)]] [[hu:Regressziószámítás]] [[id:Analisis regresi]] [[it:Analisi di regressione]] [[ja:回帰分析]] [[ko:회귀분석]] [[lv:Lineārās regresijas analīze]] [[nl:Regressie-analyse]] [[no:Regresjonsanalyse]] [[pl:Regresja (statystyka)]] [[pt:Regressão]] [[simple:Regression analysis]] [[su:Analisis régrési]] [[sv:Regressionsanalys]] [[tr:Regresyon analizi]] [[uk:Регресійний аналіз]] [[vi:Phân tích hồi quy]] [[zh:迴歸分析]]'
Была ли правка сделана через выходной узел сети Tor (tor_exit_node)
0
Unix-время изменения (timestamp)
1309958444