Дисперсионный анализ: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[отпатрулированная версия][отпатрулированная версия]
Содержимое удалено Содержимое добавлено
м Принципы и применение: стилевые правки
дополнение, викификация
Строка 1: Строка 1:
'''Дисперсионный анализ''' — метод в [[Математическая статистика|математической статистике]], направленный на поиск зависимостей в экспериментальных данных путём исследования [[Статистическая значимость|значимости]] различий в [[Среднее значение|средних значениях]]<ref>{{cite web
'''Дисперсионный анализ''' — метод в [[Математическая статистика|математической статистике]], направленный на поиск зависимостей в экспериментальных данных путём исследования [[Статистическая значимость|значимости]] различий в [[Среднее значение|средних значениях]]<ref>{{cite web
| url = http://www.statsoft.ru/home/textbook/modules/stanman.html#basic
| url = http://www.statsoft.ru/home/textbook/modules/stanman.html#basic
| title = Дисперсионный анализ
| title = Дисперсионный анализ
Строка 8: Строка 8:
|название=Дисперсионный анализ (в математике)
|название=Дисперсионный анализ (в математике)
|автор=Большев, Л. Н.
|автор=Большев, Л. Н.
}}</ref>. В отличие от [[t-критерий Стьюдента|t-критерия]], позволяет сравнивать средние значения трех и более групп. Разработан [[Фишер, Рональд Эйлмер|Р. Фишером]] для анализа результатов экспериментальных исследований. В литературе также встречается обозначение ANOVA (от {{lang-en|ANalysis Of VAriance}})<ref>А. Д. Наследов. Математические методы психологического исследования. СПб, 2008. ISBN 5-9268-0275-7</ref>.
}}</ref>. В отличие от [[t-критерий Стьюдента|t-критерия]], позволяет сравнивать средние значения трех и более групп. Разработан [[Фишер, Рональд Эйлмер|Р. Фишером]] для анализа результатов экспериментальных исследований. В литературе также встречается обозначение ANOVA (от {{lang-en|ANalysis Of VAriance}})<ref>А. Д. Наследов. Математические методы психологического исследования. СПб, 2008. ISBN 5-9268-0275-7</ref>.


== Типы дисперсионного анализа ==
== Типы дисперсионного анализа ==
Строка 21: Строка 21:


== Математическая модель дисперсионного анализа ==
== Математическая модель дисперсионного анализа ==
Математическая модель дисперсионного анализа представляет собой частный случай [[Основная линейная модель|основной линейной модели]]. Пусть с помощью методов <math>A_1, ..., A_m</math> производится измерение нескольких параметров, чьи точные значения — <math>\mu_{1}, ..., \mu_{n}</math>. В таком случае, результаты измерений различных величин различными методами можно представить как:
Математическая модель дисперсионного анализа представляет собой частный случай [[Основная линейная модель|основной линейной модели]]. Пусть с помощью методов <math>A_1, ..., A_m</math> производится измерение нескольких параметров, чьи точные значения — <math>\mu_{1}, ..., \mu_{n}</math>. В таком случае, результаты измерений различных величин различными методами можно представить как:


<math>
<math>
Строка 28: Строка 28:


где:
где:
* <math>x_{i,j}</math> — результат измерения <math>i</math>-го параметра по методу <math>A_{j}</math>;
* <math>x_{i,j}</math> — результат измерения <math>i</math>-го параметра по методу <math>A_{j}</math>;
* <math>\mu_{i}</math> — точное значение <math>i</math>-го параметра;
* <math>\mu_{i}</math> — точное значение <math>i</math>-го параметра;
* <math>a_{i,j}</math> — систематическая ошибка измерения <math>i</math>-го параметра в группе по методу <math>A_{j}</math>;
* <math>a_{i,j}</math> — систематическая ошибка измерения <math>i</math>-го параметра в группе по методу <math>A_{j}</math>;
* <math>e_{i,j}</math> — случайная ошибка измерения <math>i</math>-го параметра по методу <math>A_{j}</math>.
* <math>e_{i,j}</math> — случайная ошибка измерения <math>i</math>-го параметра по методу <math>A_{j}</math>.


Тогда дисперсии случайных величин <math>x_{i,j}</math>, <math>x_{i,j} - x_{i,*} - x_{*,j} + x_{*,*}</math>, <math>x_{i,*}</math>, <math>x_{*,j}</math> (где:
Тогда дисперсии случайных величин <math>x_{i,j}</math>, <math>x_{i,j} - x_{i,*} - x_{*,j} + x_{*,*}</math>, <math>x_{i,*}</math>, <math>x_{*,j}</math> (где:
Строка 129: Строка 129:
</math>
</math>


и <math>N</math> есть объём полной выборки, а <math>J</math> — количество групп.
и <math>N</math> есть объём полной выборки, а <math>J</math> — количество групп.


Тогда дисперсия каждой части, именуемая в модели дисперсионного анализа как «средний квадрат», или <math>MS</math> (от [[английский язык|англ.]] ''Mean Square''), есть отношение суммы квадратов к числу их степеней свободы:
Тогда дисперсия каждой части, именуемая в модели дисперсионного анализа как «средний квадрат», или <math>MS</math> (от [[английский язык|англ.]] ''Mean Square''), есть отношение суммы квадратов к числу их степеней свободы:
Строка 155: Строка 155:
* случайный и независимый характер выборки.
* случайный и независимый характер выборки.


Нулевой гипотезой в дисперсионном анализе является утверждение о равенстве средних значений:
[[Нулевая гипотеза|Нулевой гипотезой]] в дисперсионном анализе является утверждение о равенстве средних значений:


<math>
<math>
Строка 168: Строка 168:


== Однофакторный дисперсионный анализ ==
== Однофакторный дисперсионный анализ ==
Простейшим случаем дисперсионного анализа является одномерный однофакторный анализ для двух или нескольких независимых групп, когда все группы объединены по одному признаку. В ходе анализа проверяется нулевая гипотеза о равенстве средних. При анализе двух групп дисперсионный анализ тождественен двухвыборочному [[t-критерий Стьюдента|t-критерию Стьюдента]] для независимых выборок, и величина F-статистики равна квадрату соответствующей [[t-критерий Стьюдента|t-статистики]].
Простейшим случаем дисперсионного анализа является одномерный однофакторный анализ для двух или нескольких независимых групп, когда все группы объединены по одному признаку. В ходе анализа проверяется [[нулевая гипотеза]] о равенстве средних. При анализе двух групп дисперсионный анализ тождественен двухвыборочному [[t-критерий Стьюдента|t-критерию Стьюдента]] для независимых выборок, и величина F-статистики равна квадрату соответствующей [[t-критерий Стьюдента|t-статистики]].


Для подтверждения положения о равенстве дисперсий обычно применяется критерий Ливена (F-тест). В случае отвержения гипотезы о равенстве дисперсий основной анализ неприменим. Если дисперсии равны, то для оценки межгрупповой и внутригрупповой изменчивости применятеся [[критерий Фишера]]. Если F-статистка превышает критическое значение, то нулевая гипотеза отвергается и делается вывод о неравенстве средних. При анализе средних двух групп результаты могут быть быть интерпретированы непосредственно после применения [[F-тест|критерия Фишера]].
Для подтверждения положения о равенстве дисперсий обычно применяется критерий Ливена (F-тест). В случае отвержения гипотезы о равенстве дисперсий основной анализ неприменим. Если дисперсии равны, то для оценки соотношения межгрупповой и внутригрупповой изменчивости применятеся [[критерий Фишера|F-критерий Фишера]]:
<math>F_{df_{bg},df_{wg}}=\frac {MS_{BG}}{MS_{WG}}.</math>
Если F-статистка превышает критическое значение, то нулевая гипотеза отвергается и делается вывод о неравенстве средних. При анализе средних двух групп результаты могут быть быть интерпретированы непосредственно после применения [[F-тест|критерия Фишера]].


При наличии трёх и более групп требуется попарное сравнение средних для выявления статистически значимых отличий между ними. Априорный анализ включает метод контрастов, при котором межгрупповая сумма квадратов дробится на суммы квадратов отдельных контрастов:
При наличии трёх и более групп требуется попарное сравнение средних для выявления статистически значимых отличий между ними. Априорный анализ включает метод контрастов, при котором межгрупповая сумма квадратов дробится на суммы квадратов отдельных контрастов:
Строка 196: Строка 200:


где:
где:
* <math>x_{i,j,k}</math> — результат измерения <math>i</math>-го параметра;
* <math>x_{i,j,k}</math> — результат измерения <math>i</math>-го параметра;
* <math>\mu_{i}</math> — среднее для <math>i</math>-го параметра;
* <math>\mu_{i}</math> — среднее для <math>i</math>-го параметра;
* <math>a_{i,j}</math> — систематическая ошибка измерения <math>i</math>-го параметра в <math>j</math> группе по методу <math>A</math>;
* <math>a_{i,j}</math> — систематическая ошибка измерения <math>i</math>-го параметра в <math>j</math> группе по методу <math>A</math>;
* <math>b_{i,k}</math> — систематическая ошибка измерения <math>i</math>-го параметра в <math>k</math> группе по методу <math>B</math>;
* <math>b_{i,k}</math> — систематическая ошибка измерения <math>i</math>-го параметра в <math>k</math> группе по методу <math>B</math>;
* <math>(ab)_{i,j,k}</math> — систематическая ошибка измерения <math>i</math>-го параметра в <math>j,k</math> группе в силу комбинации методов <math>A</math> и <math>B</math>;
* <math>(ab)_{i,j,k}</math> — систематическая ошибка измерения <math>i</math>-го параметра в <math>j,k</math> группе в силу комбинации методов <math>A</math> и <math>B</math>;
* <math>e_{i,j,k}</math> — случайная ошибка измерения <math>i</math>-го параметра.
* <math>e_{i,j,k}</math> — случайная ошибка измерения <math>i</math>-го параметра.


В отличие от однофакторной модели, где имеется одна межгрупповая сумма квадратов, модель многофакторного анализа включает суммы квадратов для каждого фактора в отдельности и суммы квадратов всех взаимодействий между ними. Так, в двухфакторной модели межгрупповая сумма квадратов раскладывается на сумму квадратов фактора A, сумму квадратов фактора В и сумму квадратов взаимодействия факторов A и B:
В отличие от однофакторной модели, где имеется одна межгрупповая сумма квадратов, модель многофакторного анализа включает суммы квадратов для каждого фактора в отдельности и суммы квадратов всех взаимодействий между ними. Так, в двухфакторной модели межгрупповая сумма квадратов раскладывается на сумму квадратов фактора <math>A</math>, сумму квадратов фактора <math>B</math> и сумму квадратов взаимодействия факторов <math>A</math> и <math>B</math>:


<math>
<math>
Строка 209: Строка 213:
</math>
</math>


Соответственно, трёхфакторная модель включает сумму квадратов фактора A, сумму квадратов фактора В, сумму квадратов фактора С и суммы квадратов взаимодействий факторов A и B, B и С, А и С, а также взаимодействия всех трёх факторов A, B, C:
Соответственно, трёхфакторная модель включает сумму квадратов фактора <math>A</math>, сумму квадратов фактора <math>B</math>, сумму квадратов фактора <math>C</math> и суммы квадратов взаимодействий факторов <math>A</math> и <math>B</math>, <math>B</math> и <math>C</math>, <math>A</math> и <math>C</math>, а также взаимодействия всех трёх факторов <math>A, B, C</math>:


<math>
<math>
Строка 215: Строка 219:
</math>
</math>



В ходе анализа проверяются несколько нулевых гипотез:
Степени свободы раскладываются аналогичным образом:

<math>
df_{total} = df_A + df_B + df_{AB} + df_{WG},
</math> где

<math>
df_{total} = N - 1,
</math>

<math>
df_A = J - 1,
</math>

<math>
df_B = K - 1,
</math>

<math>
df_{AB} = (J - 1)(K - 1),
</math>

<math>
df_{wg} = N - JK,
</math>

и <math>N</math> есть объём полной выборки, <math>J</math> — количество уровней (групп) фактора <math>A</math>, а <math>K</math> — количество уровней (групп) фактора <math>B</math>.


В ходе анализа проверяются несколько [[Нулевая гипотеза|нулевых гипотез]]:
* гипотеза о равенстве средних под влиянием фактора <math>A</math>: <math>H_0: \mu_{1,*} = \mu_{2,*} = ... = \mu_{j,*}</math>;
* гипотеза о равенстве средних под влиянием фактора <math>A</math>: <math>H_0: \mu_{1,*} = \mu_{2,*} = ... = \mu_{j,*}</math>;
* гипотеза о равенстве средних под влиянием фактора <math>B</math>: <math>H_0: \mu_{*,1} = \mu_{*,2} = ... = \mu_{*,k}</math>;
* гипотеза о равенстве средних под влиянием фактора <math>B</math>: <math>H_0: \mu_{*,1} = \mu_{*,2} = ... = \mu_{*,k}</math>;
Строка 228: Строка 262:
<math>F_{df_{AB},df_{wg}}=\frac {MS_{AB}}{MS_{WG}}.</math>
<math>F_{df_{AB},df_{wg}}=\frac {MS_{AB}}{MS_{WG}}.</math>


При отвержении нулевой гипотезы о влиянии отдельного фактора принимается утверждение, что присутствует главный эффект фактора <math>A</math> (<math>B,</math> и т. д.). При отвержении нулевой гипотезы о взаимодействии факторов принимается утверждение о том, что влияние фактора <math>A</math> проявляется по-разному на разных уровнях фактора <math>B</math>. Обычно в таком случае влияние фактора <math>A</math> проверяется отдельно на каждом уровне фактора <math>B</math> с помощью однофакторного дисперсионного анализа или [[t-критерий Стьюдента|t-критерия]].
При отвержении нулевой гипотезы о влиянии отдельного фактора принимается утверждение, что присутствует главный эффект фактора <math>A</math> (<math>B,</math> и т. д.). При отвержении нулевой гипотезы о взаимодействии факторов принимается утверждение о том, что влияние фактора <math>A</math> проявляется по-разному на разных уровнях фактора <math>B</math>. Обычно в таком случае результаты общего анализа признаются не имеющими силы, и влияние фактора <math>A</math> проверяется отдельно на каждом уровне фактора <math>B</math> с помощью однофакторного дисперсионного анализа или [[t-критерий Стьюдента|t-критерия]].


== Примечания ==
== Примечания ==

Версия от 21:54, 19 ноября 2013

Дисперсионный анализ — метод в математической статистике, направленный на поиск зависимостей в экспериментальных данных путём исследования значимости различий в средних значениях[1][2]. В отличие от t-критерия, позволяет сравнивать средние значения трех и более групп. Разработан Р. Фишером для анализа результатов экспериментальных исследований. В литературе также встречается обозначение ANOVA (от англ. ANalysis Of VAriance)[3].

Типы дисперсионного анализа

Суть дисперсионного анализа сводится к изучению влияния одной или нескольких независимых переменных, обычно именуемых факторам, на зависимую переменную. Зависимые переменные представлены в виде шкал. Независимые переменные являются номинативными, то есть отражают групповую принадлежность, и могут иметь две или более градации (или уровня). Примерами независимой переменной с двумя градациями могут служить пол (женский: , мужской: ) или тип экспериментальной группы (контрольная: , экспериментальная: ). Градации, соответствующие независимым выборкам объектов, называются межгрупповыми, а градации, соответствующие зависимым выборкам, называются внутригрупповыми.

В зависимости от типа и количества переменных, различают

  • однофакторный и многофакторный дисперсионный анализ (одна или несколько независимых переменных);
  • одномерный и многомерный дисперсионный анализ (одна или несколько зависимых переменных);
  • дисперсионный анализ с повторными измерениями (для зависимых выборок);
  • дисперсионный анализ с постоянными факторами, случайными факторами, и смешанные модели с факторами обоих типов;

Математическая модель дисперсионного анализа

Математическая модель дисперсионного анализа представляет собой частный случай основной линейной модели. Пусть с помощью методов производится измерение нескольких параметров, чьи точные значения — . В таком случае, результаты измерений различных величин различными методами можно представить как:

,

где:

  •  — результат измерения -го параметра по методу ;
  •  — точное значение -го параметра;
  •  — систематическая ошибка измерения -го параметра в группе по методу ;
  •  — случайная ошибка измерения -го параметра по методу .

Тогда дисперсии случайных величин , , , (где:

) выражаются как:

и удовлетворяют тождеству:

Процедура дисперсионного анализа состоит в определении соотношения систематической (межгрупповой) дисперсии к случайной (внутригрупповой) дисперсии в измеряемых данных. В качестве показателя изменчивости используется сумма квадратов отклонения значений параметра от среднего: (от англ. Sum of Squares). Можно показать, что общая сумма квадратов раскладывается на межгрупповую сумму квадратов и внутригрупповую сумму квадратов :

Пусть точное значение каждого параметра есть его математическое ожидание, равное среднему генеральной совокупности . При отсутствии систематических ошибок групповое среднее и среднее генеральной совокупности тождественны: . Тогда случайная ошибка измерения есть разница между результатом измерения и средним группы: . Если же метод оказывает систематическое воздействие, то систематическая ошибка при воздействии этого фактора есть разница между средним группы и средним генеральной совокупности: . Тогда уравнение может быть представлено в следующем виде:

, или

.

Тогда

где

Следовательно

Аналогичным образом раскладываются степени свободы:

где

и есть объём полной выборки, а  — количество групп.

Тогда дисперсия каждой части, именуемая в модели дисперсионного анализа как «средний квадрат», или (от англ. Mean Square), есть отношение суммы квадратов к числу их степеней свободы:

Соотношение межгрупповой и внутригрупповой дисперсий имеет F-распределение (распределение Фишера) и определяется при помощи (F-критерия Фишера):

Принципы и применение

Исходными положениями дисперсионного анализа являются

  • нормальное распределение зависимой переменной;
  • равенство дисперсий в сравниваемых генеральных совокупностях;
  • случайный и независимый характер выборки.

Нулевой гипотезой в дисперсионном анализе является утверждение о равенстве средних значений:

При отклонении нулевой гипотезы принимается альтернативная гипотеза о том, что не все средние равны, то есть имеются по крайней мере две группы, отличающиеся средними значениями:

При наличии трех и более групп для определения различий между средними применяются post-hoc t-тесты или метод контрастов.

Однофакторный дисперсионный анализ

Простейшим случаем дисперсионного анализа является одномерный однофакторный анализ для двух или нескольких независимых групп, когда все группы объединены по одному признаку. В ходе анализа проверяется нулевая гипотеза о равенстве средних. При анализе двух групп дисперсионный анализ тождественен двухвыборочному t-критерию Стьюдента для независимых выборок, и величина F-статистики равна квадрату соответствующей t-статистики.

Для подтверждения положения о равенстве дисперсий обычно применяется критерий Ливена (F-тест). В случае отвержения гипотезы о равенстве дисперсий основной анализ неприменим. Если дисперсии равны, то для оценки соотношения межгрупповой и внутригрупповой изменчивости применятеся F-критерий Фишера:

Если F-статистка превышает критическое значение, то нулевая гипотеза отвергается и делается вывод о неравенстве средних. При анализе средних двух групп результаты могут быть быть интерпретированы непосредственно после применения критерия Фишера.

При наличии трёх и более групп требуется попарное сравнение средних для выявления статистически значимых отличий между ними. Априорный анализ включает метод контрастов, при котором межгрупповая сумма квадратов дробится на суммы квадратов отдельных контрастов:

где есть контраст между средними двух групп, и затем при помощи критерия Фишера проверяется соотношение среднего квадрата для каждого контраста к внутригрупповому среднему квадрату:

Апостериорный анализ включает post-hoc t-критерии по методам Бонферрони или Шеффе, а также сравнение разностей средних по методу Тьюки. Особенностью post-hoc тестов является использование внутригруппового среднего квадрата для оценки любых пар средних. Тесты по методам Бонферрони и Шеффе являются наиболее консервативными, так как они используют наименьшую критическую область при заданном уровне значимости .

Помимо оценки средних, дисперсионный анализ включает определение коэффициента детерминации , показывающего, какую долю общей изменчивости объясняет данный фактор:

Многофакторный дисперсионный анализ

Многофакторный анализ позволяет проверить влияние нескольких факторов на зависимую переменную. Линейная модель многофакторной модели имеет вид

,

где:

  •  — результат измерения -го параметра;
  •  — среднее для -го параметра;
  •  — систематическая ошибка измерения -го параметра в группе по методу ;
  •  — систематическая ошибка измерения -го параметра в группе по методу ;
  •  — систематическая ошибка измерения -го параметра в группе в силу комбинации методов и ;
  •  — случайная ошибка измерения -го параметра.

В отличие от однофакторной модели, где имеется одна межгрупповая сумма квадратов, модель многофакторного анализа включает суммы квадратов для каждого фактора в отдельности и суммы квадратов всех взаимодействий между ними. Так, в двухфакторной модели межгрупповая сумма квадратов раскладывается на сумму квадратов фактора , сумму квадратов фактора и сумму квадратов взаимодействия факторов и :

Соответственно, трёхфакторная модель включает сумму квадратов фактора , сумму квадратов фактора , сумму квадратов фактора и суммы квадратов взаимодействий факторов и , и , и , а также взаимодействия всех трёх факторов :


Степени свободы раскладываются аналогичным образом:

где

и есть объём полной выборки,  — количество уровней (групп) фактора , а  — количество уровней (групп) фактора .


В ходе анализа проверяются несколько нулевых гипотез:

  • гипотеза о равенстве средних под влиянием фактора : ;
  • гипотеза о равенстве средних под влиянием фактора : ;
  • гипотеза об отсутствии взаимодействия факторов и : для всех и

Каждая гипотеза проверяется с помощью критерия Фишера:

При отвержении нулевой гипотезы о влиянии отдельного фактора принимается утверждение, что присутствует главный эффект фактора ( и т. д.). При отвержении нулевой гипотезы о взаимодействии факторов принимается утверждение о том, что влияние фактора проявляется по-разному на разных уровнях фактора . Обычно в таком случае результаты общего анализа признаются не имеющими силы, и влияние фактора проверяется отдельно на каждом уровне фактора с помощью однофакторного дисперсионного анализа или t-критерия.

Примечания

  1. Дисперсионный анализ. Архивировано 23 июля 2012 года.
  2. Дисперсионный анализ — статья из Большой советской энциклопедии. Большев, Л. Н.. 
  3. А. Д. Наследов. Математические методы психологического исследования. СПб, 2008. ISBN 5-9268-0275-7

Литература

  • Шеффе Г. Дисперсионный анализ, пер. с англ. — М., 1963.
  • Смирнов Н. В., Дунин-Барковский И. В. Курс теории вероятностей и математической статистики для технических приложений. — 2. — М., 1965.

Шаблон:Статистика