Выброс (статистика): различия между версиями
[отпатрулированная версия] | [отпатрулированная версия] |
м Бот: Замена по результатам обсуждения |
внутренние ссылки |
||
Строка 8: | Строка 8: | ||
|издательство = Наука |
|издательство = Наука |
||
|год = 1965 |
|год = 1965 |
||
}}</ref> — в статистике результат измерения, выделяющийся из общей выборки. |
}}</ref> — в [[Статистика|статистике]] результат [[Измерение|измерения]], выделяющийся из общей [[Выборка|выборки]]. |
||
Статистический метод, способный действовать в условиях выбросов, называется [[Робастность в статистике|робастным]]. [[Медиана (статистика)|Медиана]] является робастной характеристикой, а [[выборочное среднее]] — нет. Существует пример ([[квартет Энскомба]]), демонстрирующий, насколько неробастные методы обработки статистических данных способны «врать», даже если выброс всего один на 10 «обычных» результатов. |
[[Статистический метод]], способный действовать в условиях выбросов, называется [[Робастность в статистике|робастным]]. [[Медиана (статистика)|Медиана]] является робастной характеристикой, а [[выборочное среднее]] — нет. Существует пример ([[квартет Энскомба]]), демонстрирующий, насколько неробастные методы обработки статистических данных способны «врать», даже если выброс всего один на 10 «обычных» результатов. |
||
== Причины выбросов == |
== Причины выбросов == |
||
* Из-за ошибки измерения. |
* Из-за ошибки измерения. |
||
* Из-за необычной природы входных данных. Например, если наугад измерять температуру предметов в комнате, получим цифры от 18 до 22 °C, но радиатор отопления будет иметь температуру в 70°. |
* Из-за необычной природы входных данных. Например, если наугад измерять температуру предметов в комнате, получим цифры от 18 до 22 °C, но [[радиатор отопления]] будет иметь температуру в 70°. |
||
* Выбросы могут быть и частью распределения — так, в [[нормальное распределение|нормальном распределении]] каждое 22-е измерение будет выходить из «[[правило трёх сигм|двух сигм]]», и каждое 370-е — из трёх. |
* Выбросы могут быть и частью распределения — так, в [[нормальное распределение|нормальном распределении]] каждое 22-е измерение будет выходить из «[[правило трёх сигм|двух сигм]]», и каждое 370-е — из трёх. |
||
Текущая версия от 09:17, 23 апреля 2022
Выброс (англ. outlier), промах[1] — в статистике результат измерения, выделяющийся из общей выборки.
Статистический метод, способный действовать в условиях выбросов, называется робастным. Медиана является робастной характеристикой, а выборочное среднее — нет. Существует пример (квартет Энскомба), демонстрирующий, насколько неробастные методы обработки статистических данных способны «врать», даже если выброс всего один на 10 «обычных» результатов.
Причины выбросов
[править | править код]- Из-за ошибки измерения.
- Из-за необычной природы входных данных. Например, если наугад измерять температуру предметов в комнате, получим цифры от 18 до 22 °C, но радиатор отопления будет иметь температуру в 70°.
- Выбросы могут быть и частью распределения — так, в нормальном распределении каждое 22-е измерение будет выходить из «двух сигм», и каждое 370-е — из трёх.
Определение выбросов
[править | править код]Поскольку множество статистических методов «буксуют» на выборках с выбросами, выбросы приходится обнаруживать (желательно — автоматически) и исключать из выборки. Простейшие способы основаны на межквартильном расстоянии — например, всё, что не попадает в диапазон
- ,
считается выбросами.
Более тонкие критерии — критерий Шовене[англ.], критерий Граббса, критерий Пирса[англ.], критерий Диксона[англ.].
См. также
[править | править код]Примечания
[править | править код]- ↑ Зайдель А.Н. Элементарные оценки ошибок измерений. — Москва: Наука, 1965.
Это заготовка статьи по математике. Помогите Википедии, дополнив её. |