Парадокс Симпсона
Парадокс Симпсона (Парадокс Юла—Симпсона, парадокс объединения) – эффект, явление в статистике, когда при наличии двух групп данных, в каждой из которых наблюдается одинаково направленная зависимость, при объединении этих групп направление зависимости меняется на противоположное.
Это явление было описано Эдвардом Симпсоном в 1951 году и Удни Юлом в 1903 году. Название «парадокс Симпсона» впервые предложил Колин Блайт (Blyth, Colin R.) в 1972 году. Однако, так как Симпсон не был первооткрывателем этого эффекта, некоторые авторы используют безличные названия, например, «парадокс объединения».
История открытия парадокса
Первый раз рассматриваемая ситуация отмечена Карлом Пирсоном в статье «Математический вклад в теорию эволюции»[1]. Он рассматривает зависимость признаков разнородных групп лошадей. У. Юл делает более подробный анализ подобных популяционных изменений, изучая механизмы наследственности. Симпсон рассматривает то, что он называет «любопытным случаем» в нескольких разделах статьи «The Interpretation of Interaction in Contingency Tables»[2]. Симпсон был первым автором, изучавшим это явление с точки зрения статистики. Поэтому впоследствии математик К. Р. Блайт в статье «On Simpson’s Paradox and the Sure-Thing Principle»[3] вводит термин «парадокс Симпсона».
Примеры
Пример с фишками
Пусть есть четыре шляпы (две чёрных и две серых), 41 фишка (23 цветных и 18 белых) и два стола (А и Б). Фишки распределены по шляпам следующим образом:
- В чёрной шляпе на столе А лежат 5 цветных и 6 белых фишек.
- В серой шляпе на столе А лежат 3 цветные и 4 белые фишки.
- В чёрной шляпе на столе Б лежат 6 цветных и 3 белых фишки.
- В серой шляпе на столе Б лежат 9 цветных и 5 белых фишек.
Допустим, что вы хотите вытащить цветную фишку.
Если вы находитесь около стола А, то вероятность извлечь цветную фишку из чёрной шляпы равна 5/11 = 35/77, а из серой шляпы на том же столе — 3/7 = 33/77; таким образом, цветную фишку больше шансов вытащить из чёрной шляпы, чем из серой.
Если вы находитесь около стола Б, то вероятность извлечь цветную фишку из чёрной шляпы равна 6/9 = 28/42, а из серой шляпы — 9/14 = 27/42; таким образом, и здесь цветную фишку больше шансов вытащить из чёрной шляпы, чем из серой.
Допустим теперь, что фишки из двух чёрных шляп сложены в одну чёрную шляпу на столе В, а фишки из двух серых шляп — в одну серую шляпу на столе В. На первый взгляд, логично было бы предположить, что вероятность вытащить цветную фишку из чёрной шляпы выше, чем из серой. Но это неверно:
- вероятность вытащить цветную фишку из чёрной шляпы на столе В равна 11/20 = 231/420,
- вероятность вытащить цветную фишку из серой шляпы на столе В равна 12/21 = 240/420,
т.е. больше шансов извлечь цветную фишку из серой шляпы, чем из чёрной[4].
Пример с камнями
Пусть мы имеем четыре набора камней. Вероятность вытащить чёрный камень из набора №1 выше, чем из набора №2. В свою очередь, вероятность вытащить чёрный камень из набора №3 больше, чем из набора №4. Объединим набор №1 с набором №3 (получим набор I), а набор №2 — с набором №4 (набор II). Интуитивно можно ожидать, что вероятность вытащить чёрный камень из набора I будет выше, чем из набора II. Однако в общем случае такое утверждение неверно.
Математическое доказательство такое. Пусть — число чёрных камней в -ом наборе (выборке), — общее число камней в -ом наборе при . По условию:
Вероятность вытащить чёрный камень из наборов I и II, соответственно:
Выражение для набора I не всегда больше выражения для набора II. Например: .
Легко проверить, что . В то время как .
Причины
Причина парадокса заключается в некорректном усреднении двух групп данных с различной долей контрольных наблюдений (нерепрезентативная выборка). Поскольку интуитивно предполагается, что при применении найденных зависимостей доля контрольных будет одинаковой в обеих группах, а в исходных данных это не выполняется, то к ним нельзя применять арифметическое усреднение.
Для устранения проблемы, при усреднении необходимо использовать веса, устраняющие перекос доли контрольных. Так, в примере с фишками, доля фишек в серой шляпе на столе А - 7 из 18 (39%), а на столе Б - 14 из 23 (61%).
Для репрезентативного усреднения шанса вытянуть цветную фишку, достаточно умножить количество фишек обоих цветов в одной из шляп на весовой коэффициент, устраняющий перекос. Например, если вместо одной серой шляпы на столе А поставить две таких же шляпы, то вероятности для каждого стола в отдельности не изменятся, но для объединения столов парадокс будет устранён: вероятность цветной фишки в серой шляпе станет 15/28, то есть меньше, чем из чёрной.
Другой способ разрешения парадокса - использование формулы полной вероятности.
Парадокс Симпсона показывает, что выводы из результатов социологических опросов с нерепрезентативной выборкой нельзя принимать как неопровержимые, доказанные научным путём.
Практическая значимость
Парадокс Симпсона иллюстрирует неправомерность обобщений по нерепрезентативным выборкам, иногда опасных для жизни. Так, например, в ходе эксперимента в группе мужчин и группе женщин, больных одной и той же болезнью, к стандартному лечению прибавили новый лекарственный препарат. Результат по обеим группам в отдельности подтверждал эффективность нового средства.
Мужчины | Принимавшие лекарство | Не принимавшие лекарство |
---|---|---|
Выздоровевшие | 700 | 80 |
Невыздоровевшие | 800 | 130 |
Соотношение | 0.875 | 0.615 |
Женщины | Принимавшие лекарство | Не принимавшие лекарство |
---|---|---|
Выздоровевшие | 150 | 400 |
Невыздоровевшие | 70 | 280 |
Соотношение | 2.142 | 1.429 |
Интуитивно предполагается, что если в обеих группах прослеживается зависимость, она должна проявиться и при объединении этих групп. Но хотя соотношение выздоровевших и больных среди и женщин, и мужчин, принимавших лекарство, больше чем среди тех из них, кто его не использовал, в связи с нерепрезентативностью контрольной группы в агрегированных данных эта закономерность не сохраняется.
Сумма | Принимавшие лекарство | Не принимавшие лекарство |
---|---|---|
Выздоровевшие | 850 | 480 |
Невыздоровевшие | 870 | 410 |
Соотношение | 0.977 | 1.171 |
Соотношение в агрегированных данных 850/870<480/410, то есть 0,977<1,171. Следовательно, доля выздоровевших среди принимавших лекарство меньше той же доли среди не принимавших.
Для устранения парадокса, нужно обратить внимание, что отношение контрольной группы к группе воздействия в приведённых группах резко различается: у мужчин составляет (80+130)/(700+800) = 14%, а у женщин (400+280)/(150+70) = 309%.
Для корректного усреднения, нужно обеспечить репрезентативность контрольной группы в обеих выборках, введя весовые коэффициенты так, чтобы взвешенная доля контрольных в обеих группах стала одинаковой. В данном случае, достаточно количество мужчин, не принимавших лекарства, умножить на весовой коэффициент 49.85. Измененные таблицы будут выглядеть так:
Мужчины | Принимавшие лекарство | Не принимавшие лекарство | С весом x50 |
---|---|---|---|
Выздоровевшие | 700 | 80 | 3988 |
Невыздоровевшие | 800 | 130 | 6480.5 |
Соотношение | 0.875 | 0.615 | 0.615 |
Сумма | Принимавшие лекарство | Не принимавшие лекарство | Не принимавшие лекарство,
с учетом веса |
---|---|---|---|
Выздоровевшие | 850 | 480 | 4388 |
Невыздоровевшие | 870 | 410 | 6760.5 |
Соотношение | 0.977 | 1.171 | 0.649 |
Соотношение взвешенного количества выздоровевших к не выздоровевшим среди не принимавших лекарство в этом случае составит 0,649, то есть ниже, чем у принимавших лекарство. Это устраняет парадокс и показывает отношение выздоровевших к не выздоровевшим без приема лекарства для такой же пропорции мужчин и женщин, как у принимавших лекарство, что позволяет сравнивать эти цифры.
См. также
Примечания
- ↑ Karl Pearson. Mathematical Contributions to the Theory of Evolution. V. On the Reconstruction of the Stature of Prehistoric Races. Phil. Trans. R. Soc. Lond. A. 1899 192:169-244 doi:10.1098/rsta.1899.0004
- ↑ The Interpretation of Interaction in Contingency Tables // Journal of the Royal Statistical Society, B, 13 (1951) — pp. 238-241
- ↑ Blyth, Colin R. On Simpson’s Paradox and the Sure-Thing Principle // Journal of the American Statistical Association, 67 (1972) — p. 364.
- ↑ М. Гарднер. Глава 19. Индукция и вероятность // Путешествие во времени = Time Travel and Other Mathematical Bewilderments / Перевод с английского Ю. А. Данилова. — М.: Мир, 1990. — С. 278-279. — 341 с. — ISBN 5-03-001166-8.
Ссылки
- Использование парадокса Симпсона в модели из живых бактерий — на сайте «Элементы»
- Секей Г. Парадоксы в теории вероятности и математической статистики — М.: Мир, 1990. — С. 132-133. — 240 с.
- (англ.) Judea Pearl. Simpson's Paradox: An Anatomy. — Technical report — April 1999 — 11 p.
- (англ.) Earliest Known Uses of Some of the Words of Mathematics (S) — Sept. 24, 2011
- (англ.) Simpson's Paradox — First published Mon Feb 2, 2004; substantive revision Thu Aug 6, 2009
- (англ.) And now, who should kick the penalty? — Практический пример парадокса Симпсона на сайте «Matifutbol»