Просмотр отдельных изменений

Фильтры правок (обсуждение) — это автоматизированный механизм проверок правок участников.
(Список | Последние изменения фильтров | Изучение правок | Журнал срабатываний)
Перейти к навигации Перейти к поиску

Эта страница позволяет вам проверить переменные, сгенерированные фильтром злоупотреблений, на предмет отдельного изменения.

Переменные, созданные для этого изменения

ПеременнаяЗначение
Число правок участника (user_editcount)
23
Имя учётной записи (user_name)
'СтаниславС'
Возраст учётной записи (user_age)
369328
Группы (включая неявные) в которых состоит участник (user_groups)
[ 0 => '*', 1 => 'user', 2 => 'autoconfirmed' ]
Редактирует ли участник через мобильный интерфейс (user_mobile)
false
ID страницы (page_id)
167369
Пространство имён страницы (page_namespace)
0
Название страницы (без пространства имён) (page_title)
'Метод наименьших квадратов'
Полное название страницы (page_prefixedtitle)
'Метод наименьших квадратов'
Последние десять редакторов страницы (page_recent_contributors)
[ 0 => 'СтаниславС', 1 => '79.165.162.80', 2 => '95.153.160.44', 3 => '109.197.218.89', 4 => 'ArtfulVampire', 5 => 'Sunpriat', 6 => 'РоманСузи', 7 => '109.60.135.186', 8 => 'Copyweb', 9 => '195.88.252.132' ]
Действие (action)
'edit'
Описание правки/причина (summary)
'/* Сущность МНК */ '
Была ли правка отмечена как «малое изменение» (больше не используется) (minor_edit)
false
Вики-текст старой страницы до правки (old_wikitext)
'[[Файл:Linear least squares(2).svg|thumb|Пример кривой, проведённой через точки, имеющие нормально распределённое отклонение от истинного значения.]] {{redirect|МНК}} '''Метод наименьших квадратов (МНК, {{lang-en|Ordinary Least Squares, OLS}})''' — математический метод, применяемый для решения различных задач, основанный на минимизации отклонений суммы квадратов некоторых функций от искомых переменных. Он может использоваться для «решения» переопределенных систем уравнений (когда количество уравнений превышает количество неизвестных), для поиска решения в случае обычных (не переопределенных) нелинейных систем уравнений, для аппроксимации точечных значений некоторой функцией. МНК является одним из базовых методов [[регрессионный анализ|регрессионного анализа]] для оценки неизвестных параметров регрессионных моделей по выборочным данным. == История == До начала XIX в. учёные не имели определённых правил для решения [[система уравнений|системы уравнений]], в которой число неизвестных меньше, чем число уравнений; до этого времени употреблялись частные приёмы, зависевшие от вида уравнений и от остроумия вычислителей, и потому разные вычислители, исходя из тех же данных наблюдений, приходили к различным выводам. [[Гаусс, Карл Фридрих|Гауссу]] (1795) принадлежит первое применение метода, а [[Лежандр, Адриен Мари|Лежандр]] (1805) независимо открыл и опубликовал его под современным названием ({{lang-fr|Méthode des moindres quarrés}})<ref>[http://www.stat.ucla.edu/history/legendre.pdf Legendre, On Least Squares. Translated from the French by Professor Henry A. Ruger and Professor Helen M. Walker, Teachers College, Columbia University, New York City.]{{ref-en}}</ref>. [[Лаплас, Пьер-Симон|Лаплас]] связал метод с [[теория вероятностей|теорией вероятностей]], а американский математик Эдрейн (1808) рассмотрел его теоретико-вероятностные приложения{{sfn|Александрова|2008|с=102}}. Метод распространён и усовершенствован дальнейшими изысканиями [[Энке, Иоганн Франц|Энке]], [[Бессель, Фридрих Вильгельм|Бесселя]], Ганзена и других. == Сущность МНК == Пусть задан набор экспериментальных данных, <math>N</math> - точек <math>\{ (x_1, y_1), (x_2, y_2),\ldots (x_N, y_N)\}</math> на интервале <math>[x_1, x_N]</math>, требуется найти функцию <math>f(x)</math> которая наилучшим образом приближала бы набор <math>\{y_i\}^{N}_{i=1}</math>. <br> Рассмотрим две точки в <math>N</math>-мерном метрическом пространстве: <br> <math>T_1 = [y_1, y_2, \ldots, y_N ]</math><br> <math>T_2 = [f(x_1), f(x_2), \ldots, f(x_N)]</math><br><br> ( ''Непринципиально'': <br /> <math>T_1</math> — можно считать <math>N</math>-мерным [[Случайное событие|случайным событием]], <math>N</math>-мерной случайной величины <math>Y</math>. <br> <math>T_2</math> — <math>N</math>-мерное среднее случайной величины <math>Y</math>, с условием что <math>f(x)</math> - [[Непрерывная функция|непрерывна]] на <math>x</math>, <math>f(x)</math> - зависимость среднего значения <math>Y</math> от <math>x</math>.)<br/><br/> Далее: <br/> Требуется найти минимальное [[Евклидова метрика|расстояние]] между двумя точками <math>T_1</math> и <math>T_2</math>. <br> :<math>d(T_1, T_2) = \sqrt{[y_1 - f(x_1)]^2 + [y_2 - f(x_2)]^2 + ... + [y_N - f(x_N)]^2} = \sqrt{\sum_{i=1}^N [y_i - f(x_i)]^2}</math> Приближающую функцию будем искать в виде многочлена степени <math>m</math>: :<math>f(x_i) = c_0 + c_1 x_i + c_2 x_i^2 + ... + c_m x_i^m = \sum_{k=0}^m c_k x_i^k</math> Таким образом, функция расстояния между двумя точками, зависит от параметров <math>\{c_k\}_{k=0}^m</math>: :<math>D \equiv d(T_1, T_2) = \sqrt{\sum_{i=1}^N (y_i - \sum_{k=0}^m c_k x_{i}^k})^2</math> Требуется найти такой набор параметров <math>\{c_k\}_{k=0}^m</math> приближающей функции <math>f(x)</math> при котором расстояние <math>D</math> будет минимальным.<br /> Для этого дифференцируем <math>D</math> отдельно по каждому из параметров <math>c_k</math>, выбирая по параметру <math>c_j</math> из <math>\{c_k\}_{k=0}^m</math> :<br /> <math>\frac{\partial D}{\partial c_j } = 0 </math>, где <math>j=0..m</math><br /> Получаем [[Система линейных алгебраических уравнений|систему уравнений]] относительно параметров <math>\{c_k\}_{k=0}^m</math>:<br /> <math> \begin{cases} \frac{\partial D}{\partial c_0 } = 0 \\ \frac{\partial D}{\partial c_1 } = 0 \\ \ldots \\ \frac{\partial D}{\partial c_m } = 0 \end{cases} </math> <math>\frac{\partial D}{\partial c_j }= \frac{\partial \sqrt{\sum_{i=1}^N [y_i - \sum_{k=0}^m c_k x_{i}^k}]^2}{\partial c_j } = 0 </math>, где <math>j=0..m</math><br /><br /> <math>\frac{\partial \sqrt{\sum_{i=1}^N [y_i - \sum_{k=0}^m c_k x_{i}^k}]^2}{\partial c_j } = \frac{1}{\sqrt{\sum_{i=1}^N [y_i - \sum_{k=0}^m c_k x_i^k]^2} } \frac{\partial \sum_{i=1}^N [y_i - \sum_{k=0}^m c_k x_i^k ]^2 } {\partial c_j } = 0 </math><br /> Так как, <math>\frac{1}{\sqrt{\sum_{i=1}^N [y_i - \sum_{k=0}^m c_k x_i^k]^2} } > 0</math>, далее рассматриваем только: <math>\frac{\partial \sum_{i=1}^N [y_i - \sum_{k=0}^m c_k x_i^k ]^2 } {\partial c_j } = 0</math><br /><br /> <math>\frac{\partial \sum_{i=1}^N [y_i - \sum_{k=0}^m c_k x_i^k ]^2 } {\partial c_j } = 2 \sum_{i=1}^N [y_i - \sum_{k=0}^m c_k x_i^k ] \frac{\partial [y_i - \sum_{k=0}^m c_k x_i^k ]}{\partial c_j} = -2 \sum_{i=1}^N [y_i - \sum_{k=0}^m c_k x_i^k ] \sum_{k=0}^m \frac{\partial c_k}{\partial c_j} x_i^k = 0</math><br /> <math>\frac{\partial c_k}{\partial c_j} = \begin{cases} 1, j = k \\ 0, j \ne k \end{cases}\equiv \delta_{jk}</math> <math>-2 \sum_{i=1}^N [y_i - \sum_{k=0}^m c_k x_i^k ] \sum_{k=0}^m \delta_{jk} x_i^k = 0</math> <br /><br /> <math>\sum_{k=0}^m \delta_{jk} x_i^k = x_i^j</math><br /><br /> Приходим в итоге к:<br /> <math>\sum_{i=1}^N [y_i - \sum_{k=0}^m c_k x_i^k ] x_i^j = 0</math> &nbsp;&nbsp;где <math>j=0..m</math><br /><br/> <math>\sum_{i=1}^N \sum_{j=0}^m [y_i - \sum_{k=0}^m c_k x_i^k ] x_i^j = 0</math><br /> <math>\sum_{j=0}^m \sum_{i=1}^N \sum_{k=0}^m c_k x_i^k x_i^j = \sum_{j=0}^m \sum_{i=1}^N y_i x_i^j</math><br /> <math>\sum_{i=1}^N \sum_{j,k=0}^m x_i^k x_i^j c_k = \sum_{j=0}^m \sum_{i=1}^N y_i x_i^j</math><br/> === Решение систем уравнений === Пусть дана система уравнений <math>f_i(x)=y_i, i=1..n</math>, где <math>f_i</math> — некоторые функции, <math>y_i</math> — некоторые известные значения, x — набор неизвестных (искомых) переменных. Для произвольных значений <math>x</math> значения <math>y_i</math> отличаются от <math>f_i(x)</math>. Суть метода наименьших квадратов заключается в том, чтобы найти такие значения <math>x</math>, при которых минимизируется сумма квадратов отклонений (ошибок) <math>e_i=y_i-f_i(x)</math> : : <math>\sum_i e^2_i=\sum_i (y_i-f_i(x))^2 \rightarrow \min_x</math> То есть продифференцировать по всем параметрам <math>b</math> и решить систему уравнений: : <math>\sum_{t=1}^n(y_t-f(x_t,b))\frac {\partial f(x_t,b)}{\partial b}=0</math> В случае, если система уравнений имеет решение, то минимум суммы квадратов будет равен нулю и могут быть найдены точные решения системы уравнений аналитически или, например, различными численными методами оптимизации. Если система переопределена, то есть количество независимых уравнений больше количества искомых переменных, то система не имеет точного решения и метод наименьших квадратов позволяет найти некоторый «оптимальный» вектор <math>x</math>. Оптимальность здесь означает максимальную близость векторов <math>y</math> и <math>f(x)</math> или максимальную близость вектора отклонений <math>e</math> к нулю (близость понимается в смысле евклидова расстояния). В частности, метод наименьших квадратов может использоваться для «решения» системы линейных уравнений : <math>Ax=b</math>, где матрица <math>A</math> не квадратная, а прямоугольная размера <math>m\times n, m>n</math> (точнее ранг матрицы A больше количества искомых переменных). Такая система уравнений, в общем случае не имеет решения. Поэтому эту систему можно «решить» только в смысле выбора такого вектора <math>x</math>, чтобы минимизировать «расстояние» между векторами <math>Ax</math> и <math>b</math>. Для этого можно применить критерий минимизации суммы квадратов разностей левой и правой частей уравнений системы, то есть <math>(Ax-b)^T(Ax-b)\rightarrow \min</math>. Нетрудно показать, что решение этой задачи минимизации приводит к решению следующей системы уравнений : <math>A^TAx=A^Tb \Rightarrow x=(A^TA)^{-1}A^Tb</math> Используя оператор [[псевдообратная матрица|псевдоинверсии]], решение можно переписать так: : <math>x=A^+b</math>, где <math>A^+</math> — псевдообратная матрица для <math>A</math>. Данную задачу также можно «решить» используя так называемый ''взвешенный МНК'' (см. ниже), когда разные уравнения системы получают разный вес из теоретических соображений. Строгое обоснование и установление границ содержательной применимости метода даны [[Марков, Андрей Андреевич (младший)|А. А. Марковым]] и [[А. Н. Колмогоров]]ым. === Аппроксимация данных и регрессионный анализ === Пусть имеется <math>n</math> значений некоторой переменной <math>y</math> (это могут быть результаты наблюдений, экспериментов и т. д.) и соответствующих переменных <math>x</math>. Задача заключается в том, чтобы взаимосвязь между <math>y</math> и <math>x</math> аппроксимировать некоторой функцией <math>f(x,b)</math>, известной с точностью до некоторых неизвестных параметров <math>b</math>, то есть фактически найти наилучшие значения параметров <math>b</math>, максимально приближающие значения <math>f(x,b)</math> к фактическим значениям <math>y</math>. Фактически это сводится к случаю «решения» переопределенной системы уравнений относительно <math>b</math>: <math>f(x_t,b)=y_t, t=1..n</math> В регрессионном анализе и в частности в эконометрике используются вероятностные модели зависимости между переменными <math>y_t=f(x_t,b)+\varepsilon_t</math> где <math>\varepsilon_t</math> — так называемые ''случайные ошибки'' модели. Соответственно, отклонения наблюдаемых значений <math>y</math> от модельных <math>f(x,b)</math> предполагается уже в самой модели. Сущность МНК (обычного, классического) заключается в том, чтобы найти такие параметры <math>b</math>, при которых сумма квадратов отклонений (ошибок, для регрессионных моделей их часто называют остатками регрессии) <math>e_t</math> будет минимальной: : <math>\hat b_{OLS}=\arg \min_{b}RSS(b),</math> где <math>RSS</math> — {{lang-en|Residual Sum of Squares}}{{sfn|Магнус, Катышев, Пересецкий|2007|loc=Обозначение RSS не унифицировано. RSS может быть сокращением от regression sum of squares, а ESS — error sum of squares, то есть, RSS и ESS будут иметь обратный смысл. с. 52. Издания 2004 года.}} определяется как: : <math>RSS(b)=e^Te=\sum_{t=1}^n e^2_t=\sum_{t=1}^n (y_t-f(x_t,b))^2</math> В общем случае решение этой задачи может осуществляться численными методами оптимизации (минимизации). В этом случае говорят о ''нелинейном МНК'' (NLS или NLLS — {{lang-en|Non-Linear Least Squares}}). Во многих случаях можно получить аналитическое решение. Для решения задачи минимизации необходимо найти стационарные точки функции <math>RSS(b)</math>, продифференцировав её по неизвестным параметрам <math>b</math>, приравняв производные к нулю и решив полученную систему уравнений: : <math>\sum_{t=1}^n(y_t-f(x_t,b))\frac {\partial f(x_t,b)}{\partial b}=0</math> == МНК в случае [[линейная регрессия|линейной регрессии]] == Пусть регрессионная зависимость является линейной: : <math>y_t=\sum_{j=1}^k b_j x_{tj} +\varepsilon=x^T_t b+\varepsilon_t</math> Пусть ''y'' — вектор-столбец наблюдений объясняемой переменной, а <math>X</math> — это <math>({n\times k})</math>-матрица наблюдений факторов (строки матрицы — векторы значений факторов в данном наблюдении, по столбцам — вектор значений данного фактора во всех наблюдениях). [[Линейная регрессия#Матричное представление|Матричное представление]] линейной модели имеет вид: : <math>y=Xb+\varepsilon</math> Тогда вектор оценок объясняемой переменной и вектор остатков регрессии будут равны : <math>\hat y =Xb, \quad e=y-\hat{y}=y-Xb</math> соответственно сумма квадратов остатков регрессии будет равна : <math>RSS=e^Te=(y-Xb)^T(y-Xb)</math> Дифференцируя эту функцию по вектору параметров <math>b</math> и приравняв производные к нулю, получим систему уравнений (в матричной форме): : <math>(X^TX)b=X^Ty</math>. В расшифрованной матричной форме эта система уравнений выглядит следующим образом: <math> \begin{pmatrix} \sum x^2_{t1}&\sum x_{t1}x_{t2}&\sum x_{t1}x_{t3}&...&\sum x_{t1}x_{tk} \\ \sum x_{t2}x_{t1}&\sum x^2_{t2}&\sum x_{t2}x_{t3}&...&\sum x_{t2}x_{tk} \\ \sum x_{t3}x_{t1}&\sum x_{t3}x_{t2}&\sum x^2_{t3}&...&\sum x_{t3}x_{tk} \\ ...\\ \sum x_{tk}x_{t1}&\sum x_{tk}x_{t2}&\sum x_{tk}x_{t3}&...&\sum x^2_{tk} \\ \end{pmatrix} \begin{pmatrix} b_1 \\ b_2 \\ b_3 \\ ... \\ b_k \\ \end{pmatrix} = \begin{pmatrix} \sum x_{t1}y_{t} \\ \sum x_{t2}y_{t} \\ \sum x_{t3}y_{t} \\ ...\\ \sum x_{tk}y_{t} \\ \end{pmatrix}, </math> где все суммы берутся по всем допустимым значениям <math>t</math>. Если в модель включена константа (как обычно), то <math>x_{t1}=1</math> при всех <math>t</math>, поэтому в левом верхнем углу матрицы системы уравнений находится количество наблюдений <math>n</math>, а в остальных элементах первой строки и первого столбца — просто суммы значений переменных: <math>\sum x_{tj}</math> и первый элемент правой части системы — <math>\sum y_{t}</math>. Решение этой системы уравнений и дает общую формулу МНК-оценок для линейной модели: : <math>\hat{b}_{OLS}=(X^TX)^{-1}X^Ty=\left(\frac {1}{n}X^TX\right)^{-1}\frac {1}{n}X^Ty=V^{-1}_xC_{xy}</math> Для аналитических целей оказывается полезным последнее представление этой формулы (в системе уравнений при делении на n, вместо сумм фигурируют средние арифметические). Если в регрессионной модели данные ''центрированы'', то в этом представлении первая матрица имеет смысл выборочной ковариационной матрицы факторов, а вторая — вектор ковариаций факторов с зависимой переменной. Если кроме того данные ещё и ''нормированы'' на СКО (то есть в конечном итоге ''стандартизированы''), то первая матрица имеет смысл выборочной корреляционной матрицы факторов, второй вектор — вектора выборочных корреляций факторов с зависимой переменной. Немаловажное свойство МНК-оценок для моделей ''с константой'' — линия построенной регрессии проходит через центр тяжести выборочных данных, то есть выполняется равенство: : <math>\bar {y}=\hat {b_1} +\sum_{j=2}^{k} \hat{b}_j\bar {x}_j</math> В частности, в крайнем случае, когда единственным регрессором является константа, получаем, что МНК-оценка единственного параметра (собственно константы) равна среднему значению объясняемой переменной. То есть среднее арифметическое, известное своими хорошими свойствами из законов больших чисел, также является МНК-оценкой — удовлетворяет критерию минимума суммы квадратов отклонений от неё. === Простейшие частные случаи === В случае парной линейной регрессии <math>y_t=a+bx_t+\varepsilon_t</math>, когда оценивается линейная зависимость одной переменной от другой, формулы расчета упрощаются (можно обойтись без матричной алгебры). Система уравнений имеет вид: : <math> \begin{pmatrix} 1&\bar{x}\\ \bar{x}&\bar{x^2}\\ \end{pmatrix} \begin{pmatrix} a\\ b\\ \end{pmatrix} = \begin{pmatrix} \bar{y}\\ \overline{xy}\\ \end{pmatrix} </math> Отсюда несложно найти оценки коэффициентов: : <math> \begin{cases} \hat {b}=\frac {\mathop{\textrm{Cov}}(x,y)}{\mathop{\textrm{Var}}(x)}=\frac {\overline{xy}-\bar{x}\bar{y}}{\overline{x^2}-{\overline{x}}^2}\\ \hat {a}=\bar {y}-b \bar {x} \end{cases} </math> Несмотря на то что в общем случае модели с константой предпочтительней, в некоторых случаях из теоретических соображений известно, что константа <math>a</math> должна быть равна нулю. Например, в физике зависимость между напряжением и силой тока имеет вид <math>U=I \cdot R</math>; замеряя напряжение и силу тока, необходимо оценить сопротивление. В таком случае речь идёт о модели <math>y=bx</math>. В этом случае вместо системы уравнений имеем единственное уравнение <math>\left (\sum x^2_t \right )b = \sum x_ty_t </math> Следовательно, формула оценки единственного коэффициента имеет вид <math>\hat{b}=\frac{\sum_{t=1}^n x_ty_t}{\sum_{t=1}^n x^2_t}=\frac {\overline{xy}}{\overline{x^2}}</math> == Статистические свойства МНК-оценок == В первую очередь, отметим, что для линейных моделей МНК-оценки являются линейными оценками, как это следует из вышеприведённой формулы. Для [[несмещенная оценка|несмещенности]] МНК-оценок необходимо и достаточно выполнения важнейшего условия [[Регрессионный анализ|регрессионного анализа]]: условное по факторам [[математическое ожидание]] случайной ошибки должно быть равно нулю. Данное условие, в частности, выполнено, если # математическое ожидание случайных ошибок равно нулю, и # факторы и случайные ошибки — [[независимые случайные величины]]. Первое условие можно считать выполненным всегда для моделей с константой, так как константа берёт на себя ненулевое математическое ожидание ошибок (поэтому модели с константой в общем случае предпочтительнее). Второе условие — условие [[экзогенность|экзогенности]] факторов — принципиальное. Если это свойство не выполнено, то можно считать, что практически любые оценки будут крайне неудовлетворительными: они не будут даже [[Состоятельная оценка|состоятельными]] (то есть даже очень большой объём данных не позволяет получить качественные оценки в этом случае). В классическом случае делается более сильное предположение о детерминированности факторов, в отличие от случайной ошибки, что автоматически означает выполнение условия экзогенности. В общем случае для состоятельности оценок достаточно выполнения условия экзогенности вместе со сходимостью матрицы <math>V_x</math> к некоторой невырожденной матрице при увеличении объёма выборки до бесконечности. Для того, чтобы кроме состоятельности и [[несмещенная оценка|несмещенности]], оценки (обычного) МНК были ещё и эффективными (наилучшими в классе линейных несмещенных оценок) необходимо выполнение дополнительных свойств случайной ошибки: * Постоянная (одинаковая) дисперсия случайных ошибок во всех наблюдениях (отсутствие [[гетероскедастичность|гетероскедастичности]]): <math>V(\varepsilon_t)=\sigma^2=const</math> * Отсутствие корреляции ([[автокорреляция|автокорреляции]]) случайных ошибок в разных наблюдениях между собой <math>\forall i,j=1..n~i\not=j ~cov(\varepsilon_i,\varepsilon_j)=0</math> Данные предположения можно сформулировать для [[Ковариационная матрица|ковариационной матрицы]] вектора случайных ошибок <math>V(\varepsilon)=\sigma^2 I</math> Линейная модель, удовлетворяющая таким условиям, называется ''классической''. МНК-оценки для классической линейной регрессии являются [[несмещенная оценка|несмещёнными]], [[Состоятельная оценка|состоятельными]] и наиболее [[эффективная оценка|эффективными]] оценками в классе всех линейных несмещённых оценок (в англоязычной литературе иногда употребляют аббревиатуру ''BLUE'' (''Best Linear Unbiased Estimator'') — наилучшая линейная несмещённая оценка; в отечественной литературе чаще приводится [[теорема Гаусса — Маркова]]). Как нетрудно показать, ковариационная матрица вектора оценок коэффициентов будет равна: <math>V(\hat {b}_{OLS})=\sigma^2 (X^TX)^{-1}</math> [[эффективная оценка|Эффективность]] означает, что эта ковариационная матрица является «минимальной» (любая линейная комбинация коэффициентов, и в частности сами коэффициенты, имеют минимальную дисперсию), то есть в классе линейных несмещенных оценок оценки МНК-наилучшие. Диагональные элементы этой матрицы — дисперсии оценок коэффициентов — важные параметры качества полученных оценок. Однако рассчитать ковариационную матрицу невозможно, поскольку дисперсия случайных ошибок неизвестна. Можно доказать, что несмещённой и состоятельной (для классической линейной модели) оценкой дисперсии случайных ошибок является величина: <math>s^2=RSS/(n-k)</math> Подставив данное значение в формулу для ковариационной матрицы и получим оценку ковариационной матрицы. Полученные оценки также являются [[несмещенная оценка|несмещёнными]] и [[Состоятельная оценка|состоятельными]]. Важно также то, что оценка дисперсии ошибок (а значит и дисперсий коэффициентов) и оценки параметров модели являются независимыми случайными величинами, что позволяет получить тестовые статистики для проверки гипотез о коэффициентах модели. Необходимо отметить, что если классические предположения не выполнены, МНК-оценки параметров не являются наиболее [[эффективная оценка|эффективными]] оценками (оставаясь [[несмещенная оценка|несмещёнными]] и [[Состоятельная оценка|состоятельными]]). Однако, ещё более ухудшается оценка ковариационной матрицы — она становится [[несмещенная оценка|смещённой]] и [[состоятельная оценка|несостоятельной]]. Это означает, что статистические выводы о качестве построенной модели в таком случае могут быть крайне недостоверными. Одним из вариантов решения последней проблемы является применение специальных оценок ковариационной матрицы, которые являются состоятельными при нарушениях классических предположений ([[стандартные ошибки в форме Уайта]] и [[стандартные ошибки в форме Ньюи-Уеста]]). Другой подход заключается в применении так называемого [[обобщенный метод наименьших квадратов|обобщённого МНК]]. == Обобщенный МНК == {{main|Обобщенный метод наименьших квадратов}} Метод наименьших квадратов допускает широкое обобщение. Вместо минимизации суммы квадратов остатков можно минимизировать некоторую положительно определенную [[Квадратичная форма|квадратичную форму]] от вектора остатков <math>e^TWe</math>, где <math>W</math> — некоторая симметрическая положительно определенная весовая матрица. Обычный МНК является частным случаем данного подхода, когда весовая матрица пропорциональна единичной матрице. Как известно из теории симметрических матриц (или операторов) для таких матриц существует разложение <math>W=P^TP</math>. Следовательно, указанный функционал можно представить следующим образом <math>e^TP^TPe=(Pe)^TPe=e^T_*e_*</math>, то есть этот функционал можно представить как сумму квадратов некоторых преобразованных «остатков». Таким образом, можно выделить класс методов наименьших квадратов — LS-методы (Least Squares). Доказано (теорема Айткена), что для обобщенной линейной регрессионной модели (в которой на ковариационную матрицу случайных ошибок не налагается никаких ограничений) наиболее эффективными (в классе линейных несмещенных оценок) являются оценки т. н. '''обобщенного МНК (ОМНК, GLS — Generalized Least Squares)''' — LS-метода с весовой матрицей, равной обратной ковариационной матрице случайных ошибок: <math>W=V_{\varepsilon}^{-1}</math>. Можно показать, что формула ОМНК-оценок параметров линейной модели имеет вид <math>\hat {b}_{GLS}=(X^TV^{-1}X)^{-1}X^TV^{-1}y</math> Ковариационная матрица этих оценок соответственно будет равна <math>V(\hat {b}_{GLS})=(X^TV^{-1}X)^{-1}</math> Фактически сущность ОМНК заключается в определенном (линейном) преобразовании (P) исходных данных и применении обычного МНК к преобразованным данным. Цель этого преобразования — для преобразованных данных случайные ошибки уже удовлетворяют классическим предположениям. === Взвешенный МНК === В случае диагональной весовой матрицы (а значит и ковариационной матрицы случайных ошибок) имеем так называемый взвешенный МНК (WLS — Weighted Least Squares). В данном случае минимизируется взвешенная сумма квадратов остатков модели, то есть каждое наблюдение получает «вес», обратно пропорциональный дисперсии случайной ошибки в данном наблюдении: <math> e^TWe=\sum_{t=1}^n \frac {e^2_t}{\sigma^2_t}</math>. Фактически данные преобразуются взвешиванием наблюдений (делением на величину, пропорциональную предполагаемому стандартному отклонению случайных ошибок), а к взвешенным данным применяется обычный МНК. == См. также == * [[Обычный метод наименьших квадратов]] ({{lang-en|[[:en:Ordinary least squares|Ordinary least squares]]}}) * [[Обобщенный метод наименьших квадратов]] * [[Двухшаговый метод наименьших квадратов]] * [[Регрессионный анализ]] * [[Метод наименьших модулей]] * [[Рекурсивный МНК]] * [[Метод инструментальных переменных]] == Примечания == {{примечания}} == Литература == * {{книга |автор = [[Линник, Юрий Владимирович (математик)|Линник Ю. В]]. |заглавие = Метод наименьших квадратов и основы математико-статистической теории обработки наблюдений |издание = 2-е изд |место = М. |издательство = |год = 1962 |страниц = |isbn = }} (математическая теория) * {{книга |автор = Айвазян С. А. |заглавие = Прикладная статистика. Основы эконометрики. Том 2 |место = М. |издательство = Юнити-Дана |год = 2001 |страниц = 432 |isbn = 5-238-00305-6 }} * {{книга |автор = Доугерти К. |заглавие = Введение в эконометрику: Пер. с англ |место = М. |издательство = ИНФРА-М |год = 1999 |страниц = 402 |isbn = 8-86225-458-7 }} * {{книга |автор = Кремер Н. Ш., Путко Б. А. |заглавие = Эконометрика |место = М. |издательство = Юнити-Дана |год = 2003-2004 |страниц = 311 |isbn = 8-86225-458-7 }} * {{книга |автор = Магнус Я. Р., Катышев П. К., Пересецкий А. А. |заглавие = Эконометрика. Начальный курс |место = М. |издательство = Дело |год = 2007 |страниц = 504 |isbn = 978-5-7749-0473-0 |ref=Магнус, Катышев, Пересецкий }} * {{книга |ответственный = Под ред. Елисеевой И. И |заглавие = Эконометрика. Учебник |издание = 2-е изд |место = М. |издательство = Финансы и статистика |год = 2006 |страниц = 576 |isbn = 5-279-02786-3 }} * {{книга |автор = Александрова Н. В. |заглавие = История математических терминов, понятий, обозначений: словарь-справочник |издательство = ЛКИ |издание = 3-е изд. |место = М. |год = 2008 |страниц = 248 |isbn = 978-5-382-00839-4 |ref = Александрова }} == Ссылки == * [http://www.chem-astu.ru/science/lsq/ Метод наименьших квадратов онлайн для зависимости y = a + bx] с вычислением погрешностей коэффициентов и оцениванием автокорреляции. * [http://calculator-online.org/s/teoriya-veroyatnosti/method-naimenshih-kvadratov/ МНК для линейных и нелинейных зависимостей] (любой набор неизвестных коэффициентов) — на сайте «Контрольная работа РУ» {{ЭСБЕ}} {{rq|refless|cleanup|sources}} [[Категория:Эконометрика ]] [[Категория:Регрессионный анализ]] {{Link GA|de}}'
Вики-текст новой страницы после правки (new_wikitext)
'[[Файл:Linear least squares(2).svg|thumb|Пример кривой, проведённой через точки, имеющие нормально распределённое отклонение от истинного значения.]] {{redirect|МНК}} '''Метод наименьших квадратов (МНК, {{lang-en|Ordinary Least Squares, OLS}})''' — математический метод, применяемый для решения различных задач, основанный на минимизации отклонений суммы квадратов некоторых функций от искомых переменных. Он может использоваться для «решения» переопределенных систем уравнений (когда количество уравнений превышает количество неизвестных), для поиска решения в случае обычных (не переопределенных) нелинейных систем уравнений, для аппроксимации точечных значений некоторой функцией. МНК является одним из базовых методов [[регрессионный анализ|регрессионного анализа]] для оценки неизвестных параметров регрессионных моделей по выборочным данным. == История == До начала XIX в. учёные не имели определённых правил для решения [[система уравнений|системы уравнений]], в которой число неизвестных меньше, чем число уравнений; до этого времени употреблялись частные приёмы, зависевшие от вида уравнений и от остроумия вычислителей, и потому разные вычислители, исходя из тех же данных наблюдений, приходили к различным выводам. [[Гаусс, Карл Фридрих|Гауссу]] (1795) принадлежит первое применение метода, а [[Лежандр, Адриен Мари|Лежандр]] (1805) независимо открыл и опубликовал его под современным названием ({{lang-fr|Méthode des moindres quarrés}})<ref>[http://www.stat.ucla.edu/history/legendre.pdf Legendre, On Least Squares. Translated from the French by Professor Henry A. Ruger and Professor Helen M. Walker, Teachers College, Columbia University, New York City.]{{ref-en}}</ref>. [[Лаплас, Пьер-Симон|Лаплас]] связал метод с [[теория вероятностей|теорией вероятностей]], а американский математик Эдрейн (1808) рассмотрел его теоретико-вероятностные приложения{{sfn|Александрова|2008|с=102}}. Метод распространён и усовершенствован дальнейшими изысканиями [[Энке, Иоганн Франц|Энке]], [[Бессель, Фридрих Вильгельм|Бесселя]], Ганзена и других. == Сущность МНК == Пусть задан набор экспериментальных данных, <math>N</math> - точек <math>\{ (x_1, y_1), (x_2, y_2),\ldots (x_N, y_N)\}</math> на интервале <math>[x_1, x_N]</math>, требуется найти функцию <math>f(x)</math> которая наилучшим образом приближала бы набор <math>\{y_i\}^{N}_{i=1}</math>. <br> Рассмотрим две точки в <math>N</math>-мерном метрическом пространстве: <br> <math>T_1 = [y_1, y_2, \ldots, y_N ]</math><br> <math>T_2 = [f(x_1), f(x_2), \ldots, f(x_N)]</math><br><br> ( ''Непринципиально'': <br /> <math>T_1</math> — можно считать <math>N</math>-мерным [[Случайное событие|случайным событием]], <math>N</math>-мерной случайной величины <math>Y</math>. <br> <math>T_2</math> — <math>N</math>-мерное среднее случайной величины <math>Y</math>, с условием что <math>f(x)</math> - [[Непрерывная функция|непрерывна]] на <math>x</math>, <math>f(x)</math> - зависимость среднего значения <math>Y</math> от <math>x</math>.)<br/><br/> Далее: <br/> Требуется найти минимальное [[Евклидова метрика|расстояние]] между двумя точками <math>T_1</math> и <math>T_2</math>. <br> :<math>d(T_1, T_2) = \sqrt{[y_1 - f(x_1)]^2 + [y_2 - f(x_2)]^2 + ... + [y_N - f(x_N)]^2} = \sqrt{\sum_{i=1}^N [y_i - f(x_i)]^2}</math> Приближающую функцию будем искать в виде многочлена степени <math>m</math>: :<math>f(x_i) = c_0 + c_1 x_i + c_2 x_i^2 + ... + c_m x_i^m = \sum_{k=0}^m c_k x_i^k</math> Таким образом, функция расстояния между двумя точками, зависит от параметров <math>\{c_k\}_{k=0}^m</math>: :<math>D \equiv d(T_1, T_2) = \sqrt{\sum_{i=1}^N (y_i - \sum_{k=0}^m c_k x_{i}^k})^2</math> Требуется найти такой набор параметров <math>\{c_k\}_{k=0}^m</math> приближающей функции <math>f(x)</math> при котором расстояние <math>D</math> будет минимальным.<br /> Для этого дифференцируем <math>D</math> отдельно по каждому из параметров <math>c_k</math>, выбирая по параметру <math>c_j</math> из <math>\{c_k\}_{k=0}^m</math> :<br /> <math>\frac{\partial D}{\partial c_j } = 0 </math>, где <math>j=0..m</math><br /> Получаем [[Система линейных алгебраических уравнений|систему уравнений]] относительно параметров <math>\{c_k\}_{k=0}^m</math>:<br /> <math> \begin{cases} \frac{\partial D}{\partial c_0 } = 0 \\ \frac{\partial D}{\partial c_1 } = 0 \\ \ldots \\ \frac{\partial D}{\partial c_m } = 0 \end{cases} </math> <math>\frac{\partial D}{\partial c_j }= \frac{\partial \sqrt{\sum_{i=1}^N [y_i - \sum_{k=0}^m c_k x_{i}^k}]^2}{\partial c_j } = 0 </math>, где <math>j=0..m</math><br /><br /> <math>\frac{\partial \sqrt{\sum_{i=1}^N [y_i - \sum_{k=0}^m c_k x_{i}^k}]^2}{\partial c_j } = \frac{1}{\sqrt{\sum_{i=1}^N [y_i - \sum_{k=0}^m c_k x_i^k]^2} } \frac{\partial \sum_{i=1}^N [y_i - \sum_{k=0}^m c_k x_i^k ]^2 } {\partial c_j } = 0 </math><br /> Так как, <math>\frac{1}{\sqrt{\sum_{i=1}^N [y_i - \sum_{k=0}^m c_k x_i^k]^2} } > 0</math>, далее рассматриваем только: <math>\frac{\partial \sum_{i=1}^N [y_i - \sum_{k=0}^m c_k x_i^k ]^2 } {\partial c_j } = 0</math><br /><br /> <math>\frac{\partial \sum_{i=1}^N [y_i - \sum_{k=0}^m c_k x_i^k ]^2 } {\partial c_j } = 2 \sum_{i=1}^N [y_i - \sum_{k=0}^m c_k x_i^k ] \frac{\partial [y_i - \sum_{k=0}^m c_k x_i^k ]}{\partial c_j} = -2 \sum_{i=1}^N [y_i - \sum_{k=0}^m c_k x_i^k ] \sum_{k=0}^m \frac{\partial c_k}{\partial c_j} x_i^k = 0</math><br /> <math>\frac{\partial c_k}{\partial c_j} = \begin{cases} 1, j = k \\ 0, j \ne k \end{cases}\equiv \delta_{jk}</math> <math>-2 \sum_{i=1}^N [y_i - \sum_{k=0}^m c_k x_i^k ] \sum_{k=0}^m \delta_{jk} x_i^k = 0</math> <br /><br /> <math>\sum_{k=0}^m \delta_{jk} x_i^k = x_i^j</math><br /><br /> Приходим в итоге к:<br /> <math>\sum_{i=1}^N [y_i - \sum_{k=0}^m c_k x_i^k ] x_i^j = 0</math> &nbsp;&nbsp;где <math>j=0..m</math><br /><br/> Распишем систему в явном виде:<br /> : <math> \begin{cases} \sum_{i=1}^N (y_i - \sum_{k=0}^m c_k x_i^k ) x_i^0 = 0 \\ \sum_{i=1}^N (y_i - \sum_{k=0}^m c_k x_i^k ) x_i^1 = 0\\ \dots\\ \sum_{i=1}^N (y_i - \sum_{k=0}^m c_k x_i^k ) x_i^m = 0 \\ \end{cases} = \begin{cases} \sum_{i=1}^N (y_i - \sum_{k=0}^m c_k x_i^k ) 1 = 0 \\ \sum_{i=1}^N (y_i - \sum_{k=0}^m c_k x_i^k ) x_i = 0\\ \dots\\ \sum_{i=1}^N (y_i - \sum_{k=0}^m c_k x_i^k ) x_i^m = 0 \\ \end{cases} = \begin{cases} \sum_{k=0}^m \sum_{i=1}^N c_k x_i^k = \sum_{i=1}^N y_i \\ \sum_{k=0}^m \sum_{i=1}^N c_k x_i^k x_i = \sum_{i=1}^N y_i x_i \\ \dots\\ \sum_{k=0}^m \sum_{i=1}^N c_k x_i^k x_i^m = \sum_{i=1}^N y_i x_i^m \\ \end{cases} </math><br /><br /> Раскроем сумму по <math>k</math> <math>\begin{cases} \sum_{i=1}^N (c_0 + c_1 x_i + ... + c_m x_i^m) 1 = \sum_{i=1}^N y_i \\ \sum_{i=1}^N (c_0 + c_1 x_i + ... + c_m x_i^m) x_i = \sum_{i=1}^N y_i x_i \\ \dots\\ \sum_{i=1}^N (c_0 + c_1 x_i + ... + c_m x_i^m) x_i^m = \sum_{i=1}^N y_i x_i^m \\ \end{cases} = \begin{cases} \sum_{i=1}^N (c_0 + c_1 x_i + ... + c_m x_i^m) = \sum_{i=1}^N y_i \\ \sum_{i=1}^N (c_0 x_i + c_1 x_i^2 + ... + c_m x_i^{m+1}) = \sum_{i=1}^N y_i x_i \\ \dots\\ \sum_{i=1}^N (c_0 x_i^m + c_1 x_i^{m+1} + ... + c_m x_i^{2m}) = \sum_{i=1}^N y_i x_i^m \\ \end{cases} </math><br /> Запишем в систему уравнений в виде матрицы:<br /> <math>\begin{pmatrix} \sum_{i=1}^N 1 & \sum_{i=1}^N x_i & \cdots & \sum_{i=1}^N x_i^m \\ \sum_{i=1}^N x_i & \sum_{i=1}^N x_i^2 & \cdots & \sum_{i=1}^N x_i^{m+1} \\ \vdots & \vdots & \ddots & \vdots \\ \sum_{i=1}^N x_i^m & \sum_{i=1}^N x_i^{m+1} & \cdots & \sum_{i=1}^N x_i^{2m} \end{pmatrix} \begin{pmatrix} c_0 \\ c_1 \\ \vdots \\ c_m \end{pmatrix} = \begin{pmatrix} \sum_{i=1}^N y_i \\ \sum_{i=1}^N y_i x_i \\ \vdots \\ \sum_{i=1}^N y_i x_i^m \end{pmatrix} </math><br /> Что можно записать в краткой форме:<br /> <math>\sum_{j,k=0}^m \sum_{i=1}^N x_i^k x_i^j c_k = \sum_{j=0}^m \sum_{i=1}^N y_i x_i^j</math><br/> === Решение систем уравнений === Пусть дана система уравнений <math>f_i(x)=y_i, i=1..n</math>, где <math>f_i</math> — некоторые функции, <math>y_i</math> — некоторые известные значения, x — набор неизвестных (искомых) переменных. Для произвольных значений <math>x</math> значения <math>y_i</math> отличаются от <math>f_i(x)</math>. Суть метода наименьших квадратов заключается в том, чтобы найти такие значения <math>x</math>, при которых минимизируется сумма квадратов отклонений (ошибок) <math>e_i=y_i-f_i(x)</math> : : <math>\sum_i e^2_i=\sum_i (y_i-f_i(x))^2 \rightarrow \min_x</math> То есть продифференцировать по всем параметрам <math>b</math> и решить систему уравнений: : <math>\sum_{t=1}^n(y_t-f(x_t,b))\frac {\partial f(x_t,b)}{\partial b}=0</math> В случае, если система уравнений имеет решение, то минимум суммы квадратов будет равен нулю и могут быть найдены точные решения системы уравнений аналитически или, например, различными численными методами оптимизации. Если система переопределена, то есть количество независимых уравнений больше количества искомых переменных, то система не имеет точного решения и метод наименьших квадратов позволяет найти некоторый «оптимальный» вектор <math>x</math>. Оптимальность здесь означает максимальную близость векторов <math>y</math> и <math>f(x)</math> или максимальную близость вектора отклонений <math>e</math> к нулю (близость понимается в смысле евклидова расстояния). В частности, метод наименьших квадратов может использоваться для «решения» системы линейных уравнений : <math>Ax=b</math>, где матрица <math>A</math> не квадратная, а прямоугольная размера <math>m\times n, m>n</math> (точнее ранг матрицы A больше количества искомых переменных). Такая система уравнений, в общем случае не имеет решения. Поэтому эту систему можно «решить» только в смысле выбора такого вектора <math>x</math>, чтобы минимизировать «расстояние» между векторами <math>Ax</math> и <math>b</math>. Для этого можно применить критерий минимизации суммы квадратов разностей левой и правой частей уравнений системы, то есть <math>(Ax-b)^T(Ax-b)\rightarrow \min</math>. Нетрудно показать, что решение этой задачи минимизации приводит к решению следующей системы уравнений : <math>A^TAx=A^Tb \Rightarrow x=(A^TA)^{-1}A^Tb</math> Используя оператор [[псевдообратная матрица|псевдоинверсии]], решение можно переписать так: : <math>x=A^+b</math>, где <math>A^+</math> — псевдообратная матрица для <math>A</math>. Данную задачу также можно «решить» используя так называемый ''взвешенный МНК'' (см. ниже), когда разные уравнения системы получают разный вес из теоретических соображений. Строгое обоснование и установление границ содержательной применимости метода даны [[Марков, Андрей Андреевич (младший)|А. А. Марковым]] и [[А. Н. Колмогоров]]ым. === Аппроксимация данных и регрессионный анализ === Пусть имеется <math>n</math> значений некоторой переменной <math>y</math> (это могут быть результаты наблюдений, экспериментов и т. д.) и соответствующих переменных <math>x</math>. Задача заключается в том, чтобы взаимосвязь между <math>y</math> и <math>x</math> аппроксимировать некоторой функцией <math>f(x,b)</math>, известной с точностью до некоторых неизвестных параметров <math>b</math>, то есть фактически найти наилучшие значения параметров <math>b</math>, максимально приближающие значения <math>f(x,b)</math> к фактическим значениям <math>y</math>. Фактически это сводится к случаю «решения» переопределенной системы уравнений относительно <math>b</math>: <math>f(x_t,b)=y_t, t=1..n</math> В регрессионном анализе и в частности в эконометрике используются вероятностные модели зависимости между переменными <math>y_t=f(x_t,b)+\varepsilon_t</math> где <math>\varepsilon_t</math> — так называемые ''случайные ошибки'' модели. Соответственно, отклонения наблюдаемых значений <math>y</math> от модельных <math>f(x,b)</math> предполагается уже в самой модели. Сущность МНК (обычного, классического) заключается в том, чтобы найти такие параметры <math>b</math>, при которых сумма квадратов отклонений (ошибок, для регрессионных моделей их часто называют остатками регрессии) <math>e_t</math> будет минимальной: : <math>\hat b_{OLS}=\arg \min_{b}RSS(b),</math> где <math>RSS</math> — {{lang-en|Residual Sum of Squares}}{{sfn|Магнус, Катышев, Пересецкий|2007|loc=Обозначение RSS не унифицировано. RSS может быть сокращением от regression sum of squares, а ESS — error sum of squares, то есть, RSS и ESS будут иметь обратный смысл. с. 52. Издания 2004 года.}} определяется как: : <math>RSS(b)=e^Te=\sum_{t=1}^n e^2_t=\sum_{t=1}^n (y_t-f(x_t,b))^2</math> В общем случае решение этой задачи может осуществляться численными методами оптимизации (минимизации). В этом случае говорят о ''нелинейном МНК'' (NLS или NLLS — {{lang-en|Non-Linear Least Squares}}). Во многих случаях можно получить аналитическое решение. Для решения задачи минимизации необходимо найти стационарные точки функции <math>RSS(b)</math>, продифференцировав её по неизвестным параметрам <math>b</math>, приравняв производные к нулю и решив полученную систему уравнений: : <math>\sum_{t=1}^n(y_t-f(x_t,b))\frac {\partial f(x_t,b)}{\partial b}=0</math> == МНК в случае [[линейная регрессия|линейной регрессии]] == Пусть регрессионная зависимость является линейной: : <math>y_t=\sum_{j=1}^k b_j x_{tj} +\varepsilon=x^T_t b+\varepsilon_t</math> Пусть ''y'' — вектор-столбец наблюдений объясняемой переменной, а <math>X</math> — это <math>({n\times k})</math>-матрица наблюдений факторов (строки матрицы — векторы значений факторов в данном наблюдении, по столбцам — вектор значений данного фактора во всех наблюдениях). [[Линейная регрессия#Матричное представление|Матричное представление]] линейной модели имеет вид: : <math>y=Xb+\varepsilon</math> Тогда вектор оценок объясняемой переменной и вектор остатков регрессии будут равны : <math>\hat y =Xb, \quad e=y-\hat{y}=y-Xb</math> соответственно сумма квадратов остатков регрессии будет равна : <math>RSS=e^Te=(y-Xb)^T(y-Xb)</math> Дифференцируя эту функцию по вектору параметров <math>b</math> и приравняв производные к нулю, получим систему уравнений (в матричной форме): : <math>(X^TX)b=X^Ty</math>. В расшифрованной матричной форме эта система уравнений выглядит следующим образом: <math> \begin{pmatrix} \sum x^2_{t1}&\sum x_{t1}x_{t2}&\sum x_{t1}x_{t3}&...&\sum x_{t1}x_{tk} \\ \sum x_{t2}x_{t1}&\sum x^2_{t2}&\sum x_{t2}x_{t3}&...&\sum x_{t2}x_{tk} \\ \sum x_{t3}x_{t1}&\sum x_{t3}x_{t2}&\sum x^2_{t3}&...&\sum x_{t3}x_{tk} \\ ...\\ \sum x_{tk}x_{t1}&\sum x_{tk}x_{t2}&\sum x_{tk}x_{t3}&...&\sum x^2_{tk} \\ \end{pmatrix} \begin{pmatrix} b_1 \\ b_2 \\ b_3 \\ ... \\ b_k \\ \end{pmatrix} = \begin{pmatrix} \sum x_{t1}y_{t} \\ \sum x_{t2}y_{t} \\ \sum x_{t3}y_{t} \\ ...\\ \sum x_{tk}y_{t} \\ \end{pmatrix}, </math> где все суммы берутся по всем допустимым значениям <math>t</math>. Если в модель включена константа (как обычно), то <math>x_{t1}=1</math> при всех <math>t</math>, поэтому в левом верхнем углу матрицы системы уравнений находится количество наблюдений <math>n</math>, а в остальных элементах первой строки и первого столбца — просто суммы значений переменных: <math>\sum x_{tj}</math> и первый элемент правой части системы — <math>\sum y_{t}</math>. Решение этой системы уравнений и дает общую формулу МНК-оценок для линейной модели: : <math>\hat{b}_{OLS}=(X^TX)^{-1}X^Ty=\left(\frac {1}{n}X^TX\right)^{-1}\frac {1}{n}X^Ty=V^{-1}_xC_{xy}</math> Для аналитических целей оказывается полезным последнее представление этой формулы (в системе уравнений при делении на n, вместо сумм фигурируют средние арифметические). Если в регрессионной модели данные ''центрированы'', то в этом представлении первая матрица имеет смысл выборочной ковариационной матрицы факторов, а вторая — вектор ковариаций факторов с зависимой переменной. Если кроме того данные ещё и ''нормированы'' на СКО (то есть в конечном итоге ''стандартизированы''), то первая матрица имеет смысл выборочной корреляционной матрицы факторов, второй вектор — вектора выборочных корреляций факторов с зависимой переменной. Немаловажное свойство МНК-оценок для моделей ''с константой'' — линия построенной регрессии проходит через центр тяжести выборочных данных, то есть выполняется равенство: : <math>\bar {y}=\hat {b_1} +\sum_{j=2}^{k} \hat{b}_j\bar {x}_j</math> В частности, в крайнем случае, когда единственным регрессором является константа, получаем, что МНК-оценка единственного параметра (собственно константы) равна среднему значению объясняемой переменной. То есть среднее арифметическое, известное своими хорошими свойствами из законов больших чисел, также является МНК-оценкой — удовлетворяет критерию минимума суммы квадратов отклонений от неё. === Простейшие частные случаи === В случае парной линейной регрессии <math>y_t=a+bx_t+\varepsilon_t</math>, когда оценивается линейная зависимость одной переменной от другой, формулы расчета упрощаются (можно обойтись без матричной алгебры). Система уравнений имеет вид: : <math> \begin{pmatrix} 1&\bar{x}\\ \bar{x}&\bar{x^2}\\ \end{pmatrix} \begin{pmatrix} a\\ b\\ \end{pmatrix} = \begin{pmatrix} \bar{y}\\ \overline{xy}\\ \end{pmatrix} </math> Отсюда несложно найти оценки коэффициентов: : <math> \begin{cases} \hat {b}=\frac {\mathop{\textrm{Cov}}(x,y)}{\mathop{\textrm{Var}}(x)}=\frac {\overline{xy}-\bar{x}\bar{y}}{\overline{x^2}-{\overline{x}}^2}\\ \hat {a}=\bar {y}-b \bar {x} \end{cases} </math> Несмотря на то что в общем случае модели с константой предпочтительней, в некоторых случаях из теоретических соображений известно, что константа <math>a</math> должна быть равна нулю. Например, в физике зависимость между напряжением и силой тока имеет вид <math>U=I \cdot R</math>; замеряя напряжение и силу тока, необходимо оценить сопротивление. В таком случае речь идёт о модели <math>y=bx</math>. В этом случае вместо системы уравнений имеем единственное уравнение <math>\left (\sum x^2_t \right )b = \sum x_ty_t </math> Следовательно, формула оценки единственного коэффициента имеет вид <math>\hat{b}=\frac{\sum_{t=1}^n x_ty_t}{\sum_{t=1}^n x^2_t}=\frac {\overline{xy}}{\overline{x^2}}</math> == Статистические свойства МНК-оценок == В первую очередь, отметим, что для линейных моделей МНК-оценки являются линейными оценками, как это следует из вышеприведённой формулы. Для [[несмещенная оценка|несмещенности]] МНК-оценок необходимо и достаточно выполнения важнейшего условия [[Регрессионный анализ|регрессионного анализа]]: условное по факторам [[математическое ожидание]] случайной ошибки должно быть равно нулю. Данное условие, в частности, выполнено, если # математическое ожидание случайных ошибок равно нулю, и # факторы и случайные ошибки — [[независимые случайные величины]]. Первое условие можно считать выполненным всегда для моделей с константой, так как константа берёт на себя ненулевое математическое ожидание ошибок (поэтому модели с константой в общем случае предпочтительнее). Второе условие — условие [[экзогенность|экзогенности]] факторов — принципиальное. Если это свойство не выполнено, то можно считать, что практически любые оценки будут крайне неудовлетворительными: они не будут даже [[Состоятельная оценка|состоятельными]] (то есть даже очень большой объём данных не позволяет получить качественные оценки в этом случае). В классическом случае делается более сильное предположение о детерминированности факторов, в отличие от случайной ошибки, что автоматически означает выполнение условия экзогенности. В общем случае для состоятельности оценок достаточно выполнения условия экзогенности вместе со сходимостью матрицы <math>V_x</math> к некоторой невырожденной матрице при увеличении объёма выборки до бесконечности. Для того, чтобы кроме состоятельности и [[несмещенная оценка|несмещенности]], оценки (обычного) МНК были ещё и эффективными (наилучшими в классе линейных несмещенных оценок) необходимо выполнение дополнительных свойств случайной ошибки: * Постоянная (одинаковая) дисперсия случайных ошибок во всех наблюдениях (отсутствие [[гетероскедастичность|гетероскедастичности]]): <math>V(\varepsilon_t)=\sigma^2=const</math> * Отсутствие корреляции ([[автокорреляция|автокорреляции]]) случайных ошибок в разных наблюдениях между собой <math>\forall i,j=1..n~i\not=j ~cov(\varepsilon_i,\varepsilon_j)=0</math> Данные предположения можно сформулировать для [[Ковариационная матрица|ковариационной матрицы]] вектора случайных ошибок <math>V(\varepsilon)=\sigma^2 I</math> Линейная модель, удовлетворяющая таким условиям, называется ''классической''. МНК-оценки для классической линейной регрессии являются [[несмещенная оценка|несмещёнными]], [[Состоятельная оценка|состоятельными]] и наиболее [[эффективная оценка|эффективными]] оценками в классе всех линейных несмещённых оценок (в англоязычной литературе иногда употребляют аббревиатуру ''BLUE'' (''Best Linear Unbiased Estimator'') — наилучшая линейная несмещённая оценка; в отечественной литературе чаще приводится [[теорема Гаусса — Маркова]]). Как нетрудно показать, ковариационная матрица вектора оценок коэффициентов будет равна: <math>V(\hat {b}_{OLS})=\sigma^2 (X^TX)^{-1}</math> [[эффективная оценка|Эффективность]] означает, что эта ковариационная матрица является «минимальной» (любая линейная комбинация коэффициентов, и в частности сами коэффициенты, имеют минимальную дисперсию), то есть в классе линейных несмещенных оценок оценки МНК-наилучшие. Диагональные элементы этой матрицы — дисперсии оценок коэффициентов — важные параметры качества полученных оценок. Однако рассчитать ковариационную матрицу невозможно, поскольку дисперсия случайных ошибок неизвестна. Можно доказать, что несмещённой и состоятельной (для классической линейной модели) оценкой дисперсии случайных ошибок является величина: <math>s^2=RSS/(n-k)</math> Подставив данное значение в формулу для ковариационной матрицы и получим оценку ковариационной матрицы. Полученные оценки также являются [[несмещенная оценка|несмещёнными]] и [[Состоятельная оценка|состоятельными]]. Важно также то, что оценка дисперсии ошибок (а значит и дисперсий коэффициентов) и оценки параметров модели являются независимыми случайными величинами, что позволяет получить тестовые статистики для проверки гипотез о коэффициентах модели. Необходимо отметить, что если классические предположения не выполнены, МНК-оценки параметров не являются наиболее [[эффективная оценка|эффективными]] оценками (оставаясь [[несмещенная оценка|несмещёнными]] и [[Состоятельная оценка|состоятельными]]). Однако, ещё более ухудшается оценка ковариационной матрицы — она становится [[несмещенная оценка|смещённой]] и [[состоятельная оценка|несостоятельной]]. Это означает, что статистические выводы о качестве построенной модели в таком случае могут быть крайне недостоверными. Одним из вариантов решения последней проблемы является применение специальных оценок ковариационной матрицы, которые являются состоятельными при нарушениях классических предположений ([[стандартные ошибки в форме Уайта]] и [[стандартные ошибки в форме Ньюи-Уеста]]). Другой подход заключается в применении так называемого [[обобщенный метод наименьших квадратов|обобщённого МНК]]. == Обобщенный МНК == {{main|Обобщенный метод наименьших квадратов}} Метод наименьших квадратов допускает широкое обобщение. Вместо минимизации суммы квадратов остатков можно минимизировать некоторую положительно определенную [[Квадратичная форма|квадратичную форму]] от вектора остатков <math>e^TWe</math>, где <math>W</math> — некоторая симметрическая положительно определенная весовая матрица. Обычный МНК является частным случаем данного подхода, когда весовая матрица пропорциональна единичной матрице. Как известно из теории симметрических матриц (или операторов) для таких матриц существует разложение <math>W=P^TP</math>. Следовательно, указанный функционал можно представить следующим образом <math>e^TP^TPe=(Pe)^TPe=e^T_*e_*</math>, то есть этот функционал можно представить как сумму квадратов некоторых преобразованных «остатков». Таким образом, можно выделить класс методов наименьших квадратов — LS-методы (Least Squares). Доказано (теорема Айткена), что для обобщенной линейной регрессионной модели (в которой на ковариационную матрицу случайных ошибок не налагается никаких ограничений) наиболее эффективными (в классе линейных несмещенных оценок) являются оценки т. н. '''обобщенного МНК (ОМНК, GLS — Generalized Least Squares)''' — LS-метода с весовой матрицей, равной обратной ковариационной матрице случайных ошибок: <math>W=V_{\varepsilon}^{-1}</math>. Можно показать, что формула ОМНК-оценок параметров линейной модели имеет вид <math>\hat {b}_{GLS}=(X^TV^{-1}X)^{-1}X^TV^{-1}y</math> Ковариационная матрица этих оценок соответственно будет равна <math>V(\hat {b}_{GLS})=(X^TV^{-1}X)^{-1}</math> Фактически сущность ОМНК заключается в определенном (линейном) преобразовании (P) исходных данных и применении обычного МНК к преобразованным данным. Цель этого преобразования — для преобразованных данных случайные ошибки уже удовлетворяют классическим предположениям. === Взвешенный МНК === В случае диагональной весовой матрицы (а значит и ковариационной матрицы случайных ошибок) имеем так называемый взвешенный МНК (WLS — Weighted Least Squares). В данном случае минимизируется взвешенная сумма квадратов остатков модели, то есть каждое наблюдение получает «вес», обратно пропорциональный дисперсии случайной ошибки в данном наблюдении: <math> e^TWe=\sum_{t=1}^n \frac {e^2_t}{\sigma^2_t}</math>. Фактически данные преобразуются взвешиванием наблюдений (делением на величину, пропорциональную предполагаемому стандартному отклонению случайных ошибок), а к взвешенным данным применяется обычный МНК. == См. также == * [[Обычный метод наименьших квадратов]] ({{lang-en|[[:en:Ordinary least squares|Ordinary least squares]]}}) * [[Обобщенный метод наименьших квадратов]] * [[Двухшаговый метод наименьших квадратов]] * [[Регрессионный анализ]] * [[Метод наименьших модулей]] * [[Рекурсивный МНК]] * [[Метод инструментальных переменных]] == Примечания == {{примечания}} == Литература == * {{книга |автор = [[Линник, Юрий Владимирович (математик)|Линник Ю. В]]. |заглавие = Метод наименьших квадратов и основы математико-статистической теории обработки наблюдений |издание = 2-е изд |место = М. |издательство = |год = 1962 |страниц = |isbn = }} (математическая теория) * {{книга |автор = Айвазян С. А. |заглавие = Прикладная статистика. Основы эконометрики. Том 2 |место = М. |издательство = Юнити-Дана |год = 2001 |страниц = 432 |isbn = 5-238-00305-6 }} * {{книга |автор = Доугерти К. |заглавие = Введение в эконометрику: Пер. с англ |место = М. |издательство = ИНФРА-М |год = 1999 |страниц = 402 |isbn = 8-86225-458-7 }} * {{книга |автор = Кремер Н. Ш., Путко Б. А. |заглавие = Эконометрика |место = М. |издательство = Юнити-Дана |год = 2003-2004 |страниц = 311 |isbn = 8-86225-458-7 }} * {{книга |автор = Магнус Я. Р., Катышев П. К., Пересецкий А. А. |заглавие = Эконометрика. Начальный курс |место = М. |издательство = Дело |год = 2007 |страниц = 504 |isbn = 978-5-7749-0473-0 |ref=Магнус, Катышев, Пересецкий }} * {{книга |ответственный = Под ред. Елисеевой И. И |заглавие = Эконометрика. Учебник |издание = 2-е изд |место = М. |издательство = Финансы и статистика |год = 2006 |страниц = 576 |isbn = 5-279-02786-3 }} * {{книга |автор = Александрова Н. В. |заглавие = История математических терминов, понятий, обозначений: словарь-справочник |издательство = ЛКИ |издание = 3-е изд. |место = М. |год = 2008 |страниц = 248 |isbn = 978-5-382-00839-4 |ref = Александрова }} == Ссылки == * [http://www.chem-astu.ru/science/lsq/ Метод наименьших квадратов онлайн для зависимости y = a + bx] с вычислением погрешностей коэффициентов и оцениванием автокорреляции. * [http://calculator-online.org/s/teoriya-veroyatnosti/method-naimenshih-kvadratov/ МНК для линейных и нелинейных зависимостей] (любой набор неизвестных коэффициентов) — на сайте «Контрольная работа РУ» {{ЭСБЕ}} {{rq|refless|cleanup|sources}} [[Категория:Эконометрика ]] [[Категория:Регрессионный анализ]] {{Link GA|de}}'
Унифицированная разница изменений правки (edit_diff)
'@@ -52,10 +52,55 @@ Приходим в итоге к:<br /> <math>\sum_{i=1}^N [y_i - \sum_{k=0}^m c_k x_i^k ] x_i^j = 0</math> &nbsp;&nbsp;где <math>j=0..m</math><br /><br/> -<math>\sum_{i=1}^N \sum_{j=0}^m [y_i - \sum_{k=0}^m c_k x_i^k ] x_i^j = 0</math><br /> -<math>\sum_{j=0}^m \sum_{i=1}^N \sum_{k=0}^m c_k x_i^k x_i^j = \sum_{j=0}^m \sum_{i=1}^N y_i x_i^j</math><br /> +Распишем систему в явном виде:<br /> -<math>\sum_{i=1}^N \sum_{j,k=0}^m x_i^k x_i^j c_k = \sum_{j=0}^m \sum_{i=1}^N y_i x_i^j</math><br/> +: <math> +\begin{cases} + \sum_{i=1}^N (y_i - \sum_{k=0}^m c_k x_i^k ) x_i^0 = 0 \\ + \sum_{i=1}^N (y_i - \sum_{k=0}^m c_k x_i^k ) x_i^1 = 0\\ + \dots\\ + \sum_{i=1}^N (y_i - \sum_{k=0}^m c_k x_i^k ) x_i^m = 0 \\ +\end{cases} = \begin{cases} + \sum_{i=1}^N (y_i - \sum_{k=0}^m c_k x_i^k ) 1 = 0 \\ + \sum_{i=1}^N (y_i - \sum_{k=0}^m c_k x_i^k ) x_i = 0\\ + \dots\\ + \sum_{i=1}^N (y_i - \sum_{k=0}^m c_k x_i^k ) x_i^m = 0 \\ +\end{cases} = \begin{cases} + \sum_{k=0}^m \sum_{i=1}^N c_k x_i^k = \sum_{i=1}^N y_i \\ + \sum_{k=0}^m \sum_{i=1}^N c_k x_i^k x_i = \sum_{i=1}^N y_i x_i \\ + \dots\\ + \sum_{k=0}^m \sum_{i=1}^N c_k x_i^k x_i^m = \sum_{i=1}^N y_i x_i^m \\ +\end{cases} +</math><br /><br /> + + +Раскроем сумму по <math>k</math> +<math>\begin{cases} + \sum_{i=1}^N (c_0 + c_1 x_i + ... + c_m x_i^m) 1 = \sum_{i=1}^N y_i \\ + \sum_{i=1}^N (c_0 + c_1 x_i + ... + c_m x_i^m) x_i = \sum_{i=1}^N y_i x_i \\ + \dots\\ + \sum_{i=1}^N (c_0 + c_1 x_i + ... + c_m x_i^m) x_i^m = \sum_{i=1}^N y_i x_i^m \\ +\end{cases} = \begin{cases} + \sum_{i=1}^N (c_0 + c_1 x_i + ... + c_m x_i^m) = \sum_{i=1}^N y_i \\ + \sum_{i=1}^N (c_0 x_i + c_1 x_i^2 + ... + c_m x_i^{m+1}) = \sum_{i=1}^N y_i x_i \\ + \dots\\ + \sum_{i=1}^N (c_0 x_i^m + c_1 x_i^{m+1} + ... + c_m x_i^{2m}) = \sum_{i=1}^N y_i x_i^m \\ +\end{cases} +</math><br /> + + +Запишем в систему уравнений в виде матрицы:<br /> + +<math>\begin{pmatrix} \sum_{i=1}^N 1 & \sum_{i=1}^N x_i & \cdots & \sum_{i=1}^N x_i^m \\ + \sum_{i=1}^N x_i & \sum_{i=1}^N x_i^2 & \cdots & \sum_{i=1}^N x_i^{m+1} \\ + \vdots & \vdots & \ddots & \vdots \\ + \sum_{i=1}^N x_i^m & \sum_{i=1}^N x_i^{m+1} & \cdots & \sum_{i=1}^N x_i^{2m} +\end{pmatrix} \begin{pmatrix} c_0 \\ + c_1 \\ \vdots \\ c_m \end{pmatrix} = \begin{pmatrix} \sum_{i=1}^N y_i \\ + \sum_{i=1}^N y_i x_i \\ \vdots \\ \sum_{i=1}^N y_i x_i^m \end{pmatrix} +</math><br /> +Что можно записать в краткой форме:<br /> +<math>\sum_{j,k=0}^m \sum_{i=1}^N x_i^k x_i^j c_k = \sum_{j=0}^m \sum_{i=1}^N y_i x_i^j</math><br/> === Решение систем уравнений === Пусть дана система уравнений <math>f_i(x)=y_i, i=1..n</math>, где <math>f_i</math> — некоторые функции, <math>y_i</math> — некоторые известные значения, x — набор неизвестных (искомых) переменных. Для произвольных значений <math>x</math> значения <math>y_i</math> отличаются от <math>f_i(x)</math>. Суть метода наименьших квадратов заключается в том, чтобы найти такие значения <math>x</math>, при которых минимизируется сумма квадратов отклонений (ошибок) <math>e_i=y_i-f_i(x)</math> : '
Новый размер страницы (new_size)
43276
Старый размер страницы (old_size)
41404
Изменение размера в правке (edit_delta)
1872
Добавленные в правке строки (added_lines)
[ 0 => 'Распишем систему в явном виде:<br />', 1 => ': <math>', 2 => '\begin{cases}', 3 => ' \sum_{i=1}^N (y_i - \sum_{k=0}^m c_k x_i^k ) x_i^0 = 0 \\', 4 => ' \sum_{i=1}^N (y_i - \sum_{k=0}^m c_k x_i^k ) x_i^1 = 0\\', 5 => ' \dots\\', 6 => ' \sum_{i=1}^N (y_i - \sum_{k=0}^m c_k x_i^k ) x_i^m = 0 \\', 7 => '\end{cases} = \begin{cases}', 8 => ' \sum_{i=1}^N (y_i - \sum_{k=0}^m c_k x_i^k ) 1 = 0 \\', 9 => ' \sum_{i=1}^N (y_i - \sum_{k=0}^m c_k x_i^k ) x_i = 0\\', 10 => ' \dots\\', 11 => ' \sum_{i=1}^N (y_i - \sum_{k=0}^m c_k x_i^k ) x_i^m = 0 \\', 12 => '\end{cases} = \begin{cases}', 13 => ' \sum_{k=0}^m \sum_{i=1}^N c_k x_i^k = \sum_{i=1}^N y_i \\', 14 => ' \sum_{k=0}^m \sum_{i=1}^N c_k x_i^k x_i = \sum_{i=1}^N y_i x_i \\', 15 => ' \dots\\', 16 => ' \sum_{k=0}^m \sum_{i=1}^N c_k x_i^k x_i^m = \sum_{i=1}^N y_i x_i^m \\', 17 => '\end{cases}', 18 => '</math><br /><br />', 19 => false, 20 => false, 21 => 'Раскроем сумму по <math>k</math>', 22 => '<math>\begin{cases}', 23 => ' \sum_{i=1}^N (c_0 + c_1 x_i + ... + c_m x_i^m) 1 = \sum_{i=1}^N y_i \\', 24 => ' \sum_{i=1}^N (c_0 + c_1 x_i + ... + c_m x_i^m) x_i = \sum_{i=1}^N y_i x_i \\', 25 => ' \dots\\', 26 => ' \sum_{i=1}^N (c_0 + c_1 x_i + ... + c_m x_i^m) x_i^m = \sum_{i=1}^N y_i x_i^m \\', 27 => '\end{cases} = \begin{cases}', 28 => ' \sum_{i=1}^N (c_0 + c_1 x_i + ... + c_m x_i^m) = \sum_{i=1}^N y_i \\', 29 => ' \sum_{i=1}^N (c_0 x_i + c_1 x_i^2 + ... + c_m x_i^{m+1}) = \sum_{i=1}^N y_i x_i \\', 30 => ' \dots\\', 31 => ' \sum_{i=1}^N (c_0 x_i^m + c_1 x_i^{m+1} + ... + c_m x_i^{2m}) = \sum_{i=1}^N y_i x_i^m \\', 32 => '\end{cases}', 33 => '</math><br />', 34 => false, 35 => false, 36 => 'Запишем в систему уравнений в виде матрицы:<br />', 37 => false, 38 => '<math>\begin{pmatrix} \sum_{i=1}^N 1 & \sum_{i=1}^N x_i & \cdots & \sum_{i=1}^N x_i^m \\', 39 => ' \sum_{i=1}^N x_i & \sum_{i=1}^N x_i^2 & \cdots & \sum_{i=1}^N x_i^{m+1} \\ ', 40 => ' \vdots & \vdots & \ddots & \vdots \\', 41 => ' \sum_{i=1}^N x_i^m & \sum_{i=1}^N x_i^{m+1} & \cdots & \sum_{i=1}^N x_i^{2m}', 42 => '\end{pmatrix} \begin{pmatrix} c_0 \\', 43 => ' c_1 \\ \vdots \\ c_m \end{pmatrix} = \begin{pmatrix} \sum_{i=1}^N y_i \\', 44 => ' \sum_{i=1}^N y_i x_i \\ \vdots \\ \sum_{i=1}^N y_i x_i^m \end{pmatrix}', 45 => '</math><br />', 46 => 'Что можно записать в краткой форме:<br />', 47 => '<math>\sum_{j,k=0}^m \sum_{i=1}^N x_i^k x_i^j c_k = \sum_{j=0}^m \sum_{i=1}^N y_i x_i^j</math><br/>' ]
Удалённые в правке строки (removed_lines)
[ 0 => '<math>\sum_{i=1}^N \sum_{j=0}^m [y_i - \sum_{k=0}^m c_k x_i^k ] x_i^j = 0</math><br />', 1 => '<math>\sum_{j=0}^m \sum_{i=1}^N \sum_{k=0}^m c_k x_i^k x_i^j = \sum_{j=0}^m \sum_{i=1}^N y_i x_i^j</math><br />', 2 => '<math>\sum_{i=1}^N \sum_{j,k=0}^m x_i^k x_i^j c_k = \sum_{j=0}^m \sum_{i=1}^N y_i x_i^j</math><br/>' ]
Была ли правка сделана через выходной узел сети Tor (tor_exit_node)
0
Unix-время изменения (timestamp)
1408887316