Дисперсионный анализ: различия между версиями
[отпатрулированная версия] | [отпатрулированная версия] |
Vkulikov (обсуждение | вклад) м →Многофакторный дисперсионный анализ: оформление |
Vkulikov (обсуждение | вклад) м →Многофакторный дисперсионный анализ: оформление |
||
Строка 200: | Строка 200: | ||
* <math>a_{i,j}</math> — систематическая ошибка измерения <math>i</math>-го параметра в <math>j</math> группе по методу <math>A</math>; |
* <math>a_{i,j}</math> — систематическая ошибка измерения <math>i</math>-го параметра в <math>j</math> группе по методу <math>A</math>; |
||
* <math>b_{i,k}</math> — систематическая ошибка измерения <math>i</math>-го параметра в <math>k</math> группе по методу <math>B</math>; |
* <math>b_{i,k}</math> — систематическая ошибка измерения <math>i</math>-го параметра в <math>k</math> группе по методу <math>B</math>; |
||
* <math>(ab)_{i,j,k}</math> — систематическая ошибка измерения <math>i</math>-го параметра в группе в силу комбинации методов <math>A</math> и <math>B</math>; |
* <math>(ab)_{i,j,k}</math> — систематическая ошибка измерения <math>i</math>-го параметра в <math>j,k</math> группе в силу комбинации методов <math>A</math> и <math>B</math>; |
||
* <math>e_{i,j,k}</math> — случайная ошибка измерения <math>i</math>-го параметра. |
* <math>e_{i,j,k}</math> — случайная ошибка измерения <math>i</math>-го параметра. |
||
Версия от 22:03, 17 ноября 2013
Дисперсионный анализ — метод в математической статистике, направленный на поиск зависимостей в экспериментальных данных путём исследования значимости различий в средних значениях[1][2]. В отличие от t-критерия, позволяет сравнивать средние значения трех и более групп. Разработан Р. Фишером для анализа результатов экспериментальных исследований. В литературе также встречается обозначение ANOVA (от англ. ANalysis Of VAriance)[3].
Типы дисперсионного анализа
Суть дисперсионного анализа сводится к изучению влияния одной или нескольких независимых переменных, обычно именуемых факторам, на зависимую переменную. Зависимые переменные представлены в виде шкал. Независимые переменные являются номинативными, то есть отражают групповую принадлежность, и могут иметь две или более градации (или уровня). Примерами независимой переменной с двумя градациями могут служить пол (женский: , мужской: ) или тип экспериментальной группы (контрольная: , экспериментальная: ). Градации, соответствующие независимым выборкам объектов, называются межгрупповыми, а градации, соответствующие зависимым выборкам, называются внутригрупповыми.
В зависимости от типа и количества переменных, различают
- однофакторный и многофакторный дисперсионный анализ (одна или несколько независимых переменных);
- одномерный и многомерный дисперсионный анализ (одна или несколько зависимых переменных);
- дисперсионный анализ с повторными измерениями (для зависимых выборок);
- дисперсионный анализ с постоянными факторами, случайными факторами, и смешанные модели с факторами обоих типов;
Математическая модель дисперсионного анализа
Математическая модель дисперсионного анализа представляет собой частный случай основной линейной модели. Пусть с помощью методов производится измерение нескольких параметров, чьи точные значения — . В таком случае, результаты измерений различных величин различными методами можно представить как:
,
где:
- — результат измерения -го параметра по методу ;
- — точное значение -го параметра;
- — систематическая ошибка измерения -го параметра в группе по методу ;
- — случайная ошибка измерения -го параметра по методу .
Тогда дисперсии случайных величин , , , (где:
) выражаются как:
и удовлетворяют тождеству:
Процедура дисперсионного анализа состоит в определении соотношения систематической (межгрупповой) дисперсии к случайной (внутригрупповой) дисперсии в измеряемых данных. В качестве показателя изменчивости используется сумма квадратов отклонения значений параметра от среднего: (от англ. Sum of Squares). Можно показать, что общая сумма квадратов раскладывается на межгрупповую сумму квадратов и внутригрупповую сумму квадратов :
Пусть точное значение каждого параметра есть его математическое ожидание, равное выборочному среднему . При отсутствии систематических ошибок групповое среднее и выборочное среднее тождественны: . Тогда случайная ошибка измерения есть разница между результатом измерения и средним группы: . Если же метод оказывает систематическое воздействие, то систематическая ошибка при воздействии этого фактора есть разница между средним группы и выборочным средним: . Тогда уравнение может быть представлено в следующем виде:
, или
.
Тогда
где
Следовательно
Аналогичным образом раскладываются степени свободы:
где
и есть величина полной выборки, а — количество групп.
Тогда дисперсия каждой части, именуемая в модели дисперсионного анализа как «средний квадрат», или (от англ. Mean Square), есть отношение суммы квадратов к числу их степеней свободы:
Соотношение межгрупповой и внутригрупповой дисперсий имеет F-распределение (распределение Фишера) и определяется при помощи F-критерия (критерий Фишера)
Принципы и применение
Исходными положениями дисперсионного анализа являются
- нормальное распределение зависимой переменной;
- равенство дисперсий в сравниваемых генеральных совокупностях;
- выборки являются случайными и независимыми.
Нулевой гипотезой в дисперсионном анализе является утверждение о равенстве средних значений:
При отклонении нулевой гипотезы принимается альтернативная гипотеза о том, что не все средние равны, то есть имеются по крайней мере две группы, отличающиеся средними значениями:
≠ ≠ ≠
При наличии трех и более групп для определения различий между средними применяются post-hoc t-тесты или метод контрастов.
Однофакторный дисперсионный анализ
Простейшим случаем дисперсионного анализа является одномерный однофакторный анализ для двух или нескольких независимых групп, когда все группы объединены по одному признаку. В ходе анализа проверяется нулевая гипотеза о равенстве средних. При анализе двух групп дисперсионный анализ аналогичен двухвыборочному t-критерию Стьюдента для независимых выборок, и величина F-статистики равна квадратному корню соответствующей t-статистики.
Для подтверждения положения о равенстве дисперсий обычно применяется критерий Ливена (F-тест). В случае отвержения гипотезы о равенстве дисперсий основной анализ неприменим. Если дисперсии равны, то для оценки межгрупповой и внутригрупповой изменчивости применятеся критерий Фишера. Нулевая гипотеза отвергается, если F-статистка превышает критическое значение, и делается вывод о неравенстве средних. При анализе средних двух групп результаты могут быть быть интерпретированы непосредственно после применения критерия Фишера.
При трёх и более группах требуется сравнение средних для выявления статистически значимых отличий между ними. Априорный анализ включает метод контрастов, при котором межгрупповая сумма квадратов дробится на суммы квадратов отдельных контрастов:
где есть контраст между двумя средними, и затем проверяется соотношение среднего квадрата для каждого контраста к внутригрупповому среднему квадрату:
Апостериорный анализ включает post-hoc t-критерии по методам Бонферрони или Шеффе, а также сравнение разностей средних по методу Тьюки. Особенностью post-hoc тестов является использование внутригруппового среднего квадрата для оценки любых пар средних. Тесты по методам Бонферрони и Шеффе являются наиболее консервативными, так как в них используется наименьшая критическая область.
Помимо оценки средних, дисперсионный анализ включает определение коэффициента детерминации , показывающего долю общей изменчивости, объясняемой данным фактором:
Многофакторный дисперсионный анализ
Многофакторный анализ позволяет проверить влияние нескольких факторов на зависимую переменную. Линейная модель многофакторной модели имеет вид
,
где:
- — результат измерения -го параметра;
- — среднее для -го параметра;
- — систематическая ошибка измерения -го параметра в группе по методу ;
- — систематическая ошибка измерения -го параметра в группе по методу ;
- — систематическая ошибка измерения -го параметра в группе в силу комбинации методов и ;
- — случайная ошибка измерения -го параметра.
В отличие от однофакторной модели, где имеется одна межгрупповая сумма квадратов, модель многофакторного анализа включает суммы квадратов для каждого фактора в отдельности и суммы квадратов всех взаимодействий между ними. Так, в двухфакторной модели межгрупповая сумма квадратов раскладывается на сумму квадратов фактора A, сумму квадратов фактора В и сумму квадратов взаимодействия факторов A и B:
Соответственно, трёхфакторная модель включает сумму квадратов фактора A, сумму квадратов фактора В, сумму квадратов фактора С и суммы квадратов взаимодействий факторов A и B, B и С, А и С, а также взаимодействия всех трёх факторов A, B, C:
В ходе анализа проверяются несколько нулевых гипотез:
- гипотеза о равенстве средних под влиянием фактора : ;
- гипотеза о равенстве средних под влиянием фактора : ;
- гипотеза об отсутствии взаимодействия факторов и : для всех и
Каждая гипотеза проверяется с помощью критерия Фишера:
При отвержении нулевой гипотезы о влиянии отдельного фактора принимается утверждение, что присутствует главный эффект фактора ( и т. д.). При отвержении нулевой гипотезы о взаимодействии факторов принимается утверждение о том, что влияние фактора проявляется по-разному на разных уровнях фактора . Обычно в таком случае влияние фактора проверяется отдельно на каждом уровне фактора с помощью однофакторного дисперсионного анализа или t-критерия.
Примечания
- ↑ Дисперсионный анализ . Архивировано 23 июля 2012 года.
- ↑ Дисперсионный анализ — статья из Большой советской энциклопедии. Большев, Л. Н..
- ↑ А. Д. Наследов. Математические методы психологического исследования. СПб, 2008. ISBN 5-9268-0275-7
Литература
- Наследов А. Д. (2004). Математические методы психологического исследования. С.-Пб.: Речь.
- Шеффе Г. Дисперсионный анализ, пер. с англ. — М., 1963.
- Смирнов Н. В., Дунин-Барковский И. В. Курс теории вероятностей и математической статистики для технических приложений. — 2. — М., 1965.
Это заготовка статьи по статистике. Помогите Википедии, дополнив её. |