Байесовское иерархическое моделирование: различия между версиями

[отпатрулированная версия]

Содержимое удалено Содержимое добавлено

Линейный

Текущая версия от 19:48, 4 ноября 2024

Байесовское иерархическое моделирование — это статистическая модель, записанная в виде нескольких уровней (в иерархическом виде), которая оценивает параметры^[англ.] апостериорного распределения используя байесовский метод^[1]. Подмодели комбинируются в иерархическую модель и используется теорема Байеса для объединения их с наблюдаемыми данными и учёта всех присутствующих неопределённостей. Результатом этого объединения является апостериорное распределение, известное также как уточнённая оценка вероятности после того, как получены дополнительные сведения об априорной вероятности.

Введение

Частотная статистика^[англ.], наиболее популярное основание статистики^[англ.], может дать заключение по внешнему виду несовместимое с заключением, которое даёт байесовская статистика, поскольку байесовский подход трактует параметры как случайные величины и использует субъективную информацию для установления допущений на эти параметры^[2]. Так как подходы отвечают на разные вопросы, формальные результаты технически не являются противоречивыми, но два подхода расходятся во мнении, какой ответ относится к конкретным приложениям. Приверженцы байесовского подхода утверждают, что относящаяся к принятию решения информация и обновление уверенностей нельзя игнорировать и что иерархическое моделирование имеет потенциал взять верх над классическими методами в приложениях, где респондент даёт несколько вариантов данных наблюдений. Более того доказано, что модель робастна с меньшей чувствительностью апостериорного распределения к изменчивым иерархическим априорным данным.

Иерархическое моделирование используется, когда информация доступна в нескольких различных уровнях наблюдаемых величин. Иерархический вид анализа и представления помогают в понимании многопараметрических задач и играют важную роль в разработке вычислительных стратегий^[3].

Философия

Многочисленные статистические приложения используют несколько параметров, которые можно считать как зависимые или связанные таким образом, что задача предполагает зависимость модели совместной вероятности этих параметров^[4].

Индивидуальные степени уверенности, выраженные в форме вероятностей, имеют свою неопределённость^[5]. Кроме того, возможны изменения степени уверенности со времени. Как утверждали профессор Жозе М. Бернардо и профессор Адриан Ф. Смит, «Актуальность процесса обучения состоит в эволюции индивидуальной и субъективной уверенности о реальности». Эти субъективные вероятности привлекаются в разум более непосредственно, чем физические вероятности^[6]. Следовательно, это требует обновления уверенности, и сторонники байесовского подхода сформулировали альтернативную статистическую модель, которая принимает во внимание априорные случаи конкретного события^[7].

Теорема Байеса

Предполагаемое получение реального события обычно изменяет предпочтения между определёнными вариантами. Это делается путём изменения степени доверия к событиям, определяющим варианты^[8].

Предположим, что при изучении эффективности сердечной терапии пациентов в госпитале j, имеющих вероятность выживания $\theta _{j}$ , вероятность выживания обновляется при событии y, заключающемся в создании гипотетической сомнительной сыворотки, которая, как думают некоторые, увеличивает выживание больных с сердечными проблемами.

Чтобы сделать обновлённые утверждения о вероятности $\theta _{j}$ , задающее возникновение события y, мы должны начать с модели, обеспечивающей совместное распределение вероятностей для $\theta _{j}$ и y. Это может быть записано как произведение двух распределений, которые часто упоминаются как априорная вероятность $P(\theta )$ и выборочное распределение $P(y\mid \theta )$ соответственно:

P(\theta ,y)=P(\theta )P(y\mid \theta )

Если использовать основное свойство условной вероятности, апостериорное распределение даст:

P(\theta \mid y)={\frac {P(\theta ,y)}{P(y)}}={\frac {P(y\mid \theta )P(\theta )}{P(y)}}

Равенство, показывающее связь между условной вероятностью и индивидуальными событиями, известно как теорема Байеса. Это простое выражение воплощает техническое ядро байесовского вывода, которое нацелено на включение обновлённого доверия $P(\theta \mid y)$ в уместном и разрешимом виде^[8].

Перестановочность

Обычной стартовой точкой статистического анализа является предположение, что n значений $y_{n}$ перестановочны. Если никакой информации, отличной от данных y, недоступно для различения любого $\theta _{j}$ от любого другого и никакого упорядочения или группировки параметров нельзя сделать, следует предполагать симметрию параметров относительно их априорной вероятности^[9]. Эта симметрия представлена вероятностной перестановочностью. Обычно полезно и приемлемо моделировать данные из перестановочного распределения как независимые и одинаково распределённые, если дан некоторый неизвестный вектор параметров $\theta$ с распределением $P(\theta )$ .

Конечная перестановочность

Для фиксированного числа n набор $y_{1},y_{2},\ldots ,y_{n}$ перестановочен, если совместное распределение $P(y_{1},y_{2},\ldots ,y_{n})$ инвариантно относительно перестановок индексов. То есть, для любой перестановки $\pi$ or $(\pi _{1},\pi _{2},\ldots ,\pi _{n})$ индексов (1, 2, …, n), $P(y_{1},y_{2},\ldots ,y_{n})=P(y_{\pi _{1}},y_{\pi _{2}},\ldots ,y_{\pi _{n}}).$ ^[10]

Ниже приведён пример перестановочной, но не независимой и одинаково распределённой последовательности: Рассмотрим урну с красными и синими шарами с вероятностями вытаскивания ${\frac {1}{2}}$ шаров. Шары вытаскиваются без возврата в урну, то есть, после вытаскивания одного из n шаров в урне остаётся n − 1 шаров для следующего вытаскивания.

Пусть $Y_{i}={\begin{cases}1,\\0,\end{cases}}$	если $i$ -й шар красный
	иначе.

Поскольку вероятность вытаскивания красного шара при первом вытаскивании и синего шара при втором вытаскивании равна вероятности вытаскивания синего шара при первом вытаскивании и красного при втором, которые обе равны 1/2 (то есть $[P(y_{1}=1,y_{2}=0)=P(y_{1}=0,y_{2}=1)={\frac {1}{2}}]$ ), то $y_{1}$ и $y_{2}$ перестановочны.

Однако вероятность выбора красного шара при втором вытаскивании уже не будет равна 1/2. Таким образом, $y_{1}$ и $y_{2}$ не независимы.

Если $x_{1},\ldots ,x_{n}$ независимы и одинаково распределены, то они перестановочны, но обратное не обязательно верно^[11].

Бесконечная перестановочность

Бесконечная перестановочность — это такое свойство, что любое конечное подмножество бесконечной последовательности $y_{1}$ , $y_{2},\ldots$ перестановочно. То есть, для любого n последовательность $y_{1},y_{2},\ldots ,y_{n}$ перестановочна^[11].

Иерархические модели

Составляющие

Байесовское иерархическое моделирование использует две важные концепции для получения апостериорного распределения^[1], а именно:

Гиперпараметр^[англ.]: параметры априорного распределения
Гиперприорные распределения^[англ.]: распределения гиперпараметров

Предположим, что случайная величина Y имеет нормальное распределение с параметром θ как среднее и параметром 1 в качестве дисперсии, то есть $Y\mid \theta \sim N(\theta ,1)$ . Предположим, что параметр $\theta$ имеет распределение, задаваемое нормальным распределением со средним $\mu$ и дисперсией 1, то есть $\theta \mid \mu \sim N(\mu ,1)$ . Кроме того, $\mu$ является другим распределением, заданным, например, стандартным нормальным распределением ${\text{N}}(0,1)$ . Параметр $\mu$ называется гиперпараметром, в то время как его распределение, заданное как ${\text{N}}(0,1)$ , является примером гиперприорного распределения. Обозначение для Y изменяется с добавлением другого параметра, то есть $Y\mid \theta ,\mu \sim N(\theta ,1)$ . Если имеется другой уровень, скажем, $\mu$ является другим нормальным распределением со средним $\beta$ и дисперсией $\epsilon$ , что означает $\mu \sim N(\beta ,\epsilon )$ , то ${\mbox{ }}$ $\beta$ и $\epsilon$ могут также быть названы гиперпараметрами, а их распределения являются гиперприорными распределениями^[4].

Система

Пусть $y_{j}$ будут наблюдениями и $\theta _{j}$ будет параметром, который управляет процессом генерации $y_{j}$ . Предположим далее, что параметры $\theta _{1},\theta _{2},\ldots ,\theta _{j}$ порождаются перестановочными из основной популяции с распределением, управляемым гиперпараметром $\phi$ .

Байесовская иерархическая модель содержит следующие уровни:

Уровень I:

y_{j}\mid \theta _{j},\phi \sim P(y_{j}\mid \theta _{j},\phi )

Уровень II:

\theta _{j}\mid \phi \sim P(\theta _{j}\mid \phi )

Уровень III:

\phi \sim P(\phi )

Правдоподобие, как видно из уровня I, равно $P(y_{j}\mid \theta _{j},\phi )$ , c $P(\theta _{j},\phi )$ в качестве его априорного распределения. Заметим, что правдоподобие зависит только от $\phi$ через $\theta _{j}$ .

Априорное распределение из уровня I может быть разбито на:

P(\theta _{j},\phi )=P(\theta _{j}\mid \phi )P(\phi )

[из определения условной вероятности]

где $\phi$ является гиперпараметром с гиперприорным распределением $P(\phi )$ .

Тогда апостериорное распределение пропорционально этой величине:

P(\phi ,\theta _{j}\mid y)\propto P(y_{j}\mid \theta _{j},\phi )P(\theta _{j},\phi )

[используя теорему Байеса]

P(\phi ,\theta _{j}\mid y)\propto P(y_{j}\mid \theta _{j})P(\theta _{j}\mid \phi )P(\phi )

^[12]

Пример

Для иллюстрации рассмотрим пример: Учитель хочет оценить, насколько хорошо студент выполнил свой SAT тест (англ. Scholastic Assessment Test^[13]). Он использует информацию о студенте в старших классах и его текущем среднем балле оценок (англ. grade point average, GPA), чтобы получить оценку. Текущая GPA, обозначим её $Y$ , имеет правдоподобие, задаваемое некоторой функцией вероятности с параметром $\theta$ , то есть $Y\mid \theta \sim P(Y\mid \theta )$ . Этот параметр $\theta$ является баллом SAT студента. Балл SAT рассматривается как элемент выборки, полученный из общей выборки, полученной из распределения общей популяции, индексированной другим параметром $\phi$ , которая является баллом студента в старших классах школы^[14]. То есть, $\theta \mid \phi \sim P(\theta \mid \phi )$ . Более того, гиперпараметр $\phi$ имеет своё собственное распределение с функцией $P(\phi )$ , которое называется гиперприорным распределением.

Чтобы получить балл SAT по информации о GPA,

P(\theta ,\phi \mid Y)\propto P(Y\mid \theta ,\phi )P(\theta ,\phi )

P(\theta ,\phi \mid Y)\propto P(Y\mid \theta )P(\theta \mid \phi )P(\phi )

Вся информация в задаче будет использована для получения апостериорного распределения. Вместо решения с использованием только априорной вероятности и функции правдоподобия, использование гиперприорных распределений даёт больше информации, что приводит к большей уверенности в поведении параметра^[15].

Двухуровневая иерархическая модель

В общем случае интересующее нас совместное апостериорное распределение 2-уровневых иерархических моделей равно:

P(\theta ,\phi \mid Y)={P(Y\mid \theta ,\phi )P(\theta ,\phi ) \over P(Y)}={P(Y\mid \theta )P(\theta \mid \phi )P(\phi ) \over P(Y)}

P(\theta ,\phi \mid Y)\propto P(Y\mid \theta )P(\theta \mid \phi )P(\phi )

^[15]

Трёхуровневая иерархическая модель

Для 3-уровневых иерархических моделей апостериорное распределение задаётся так:

P(\theta ,\phi ,X\mid Y)={P(Y\mid \theta )P(\theta \mid \phi )P(\phi \mid X)P(X) \over P(Y)}

P(\theta ,\phi ,X\mid Y)\propto P(Y\mid \theta )P(\theta \mid \phi )P(\phi \mid X)P(X)

^[15]

Примечания

↑ ¹ ² Allenby, Rossi, McCulloch, 2005, с. 3.
↑ Gelman, Carlin, Stern, Rubin, 2004, с. 4–5.
↑ Gelman, Carlin, Stern, Rubin, 2004, с. 6.
↑ ¹ ² Gelman, Carlin, Stern, Rubin, 2004, с. 117.
↑ Good, 1980, с. 480.
↑ Good, 1980, с. 489—490.
↑ Bernardo, Smith, 1994, с. 23.
↑ ¹ ² Gelman, Carlin, Stern, Rubin, 2004, с. 6—8.
↑ Dickey, Chen, 1983, с. 167–168.
↑ Gelman, Carlin, Stern, Rubin, 2004, с. 121—125.
↑ ¹ ² Diaconis, Freedman, 1980, с. 745–747.
↑ Kadane, Wasilkowski, 1983, с. 371–372.
↑ «Академический оценочный тест» — стандартизованный тест для приёма в высшие учебные заведения США
↑ Gelman, Carlin, Stern, Rubin, 2004, с. 120—121.
↑ ¹ ² ³ Box, Tiao, 1965.

Литература

Greg M. Allenby, Peter E. Rossi, Robert E. McCulloch. Hierarchical Bayes Model: A Practitioner’s Guide. — 2005. — Январь.
Andrew Gelman, John B. Carlin, Hal S. Stern, Donald B. Rubin. Bayesian Data Analysis. — 2nd. — Boca Raton, Florida: CRC Press, 2004. — ISBN 1-58488-388-X.
Good I.J. Some history of the hierarchical Bayesian methodology // Trabajos de Estadistica Y de Investigacion Operativa. — Springer – Verlag, 1980. — Февраль (т. 31, вып. 1).
Jose M. Bernardo, Adrian F.M. Smith. Bayesian Theory. — Chichester, England: John Wiley & Sons, 1994. — (Willey series in probability and statistics). — ISBN 0-471-92416-4.
Diaconis P., Freedman D. Finite exchangeable sequences // Annals of Probability. — 1980.
Greg M. Allenby, Peter E. Rossi. Bayesian Applications in Marketing // SSRN Electronic Journal. — 2009.
Box G. E. P., Tiao G. C. Multiparameter problem from a bayesian point of view. Multiparameter Problems From A Bayesian Point of View. — New York City: John Wiley & Sons, 1965. — Т. 36. — ISBN 0-471-57428-7. Другие тома Архивная копия от 15 января 2019 на Wayback Machine
Kadane J.B., Wasilkowski G.W. Average case $\epsilon$ -complexity in computer science, a Bayesian view // Bayesian Statistics 2 / Bernardo J.M., Degroot V.H., Lindley D.V., Smith A.F.M.. Proceedings of the Second Valencia International Meeting. — Amsterdam, New York, Oxford: Elsevier Science Publishers B.V, 1983. — ISBN 0-444-87746-0. Похожая книга Архивная копия от 26 июля 2020 на Wayback Machine
James M. Dickey, Chong-Hong Chen. Direct Subjective-Probability Modelling Using Ellipsoidal Distributions // Proceedings of the Second Valencia International Meeting / Bernardo J.M., Degroot V.H., Lindley D.V., Smith A.F.M.. — Amsterdam, New York, Oxford: Elsevier Science Publishers B.V, 1983. — ISBN 0-444-87746-0.

[_0595212c8e87a2e2-1] ¹ ² Allenby, Rossi, McCulloch, 2005, с. 3.

[_1c3b3454f38169a0-2] Gelman, Carlin, Stern, Rubin, 2004, с. 4–5.

[_de2b3b7f18e85be0-3] Gelman, Carlin, Stern, Rubin, 2004, с. 6.

[_09ffa541be82dceb-4] ¹ ² Gelman, Carlin, Stern, Rubin, 2004, с. 117.

[_7f25ca8e2cb4a086-5] Good, 1980, с. 480.

[_c50406d77da95b9a-6] Good, 1980, с. 489—490.

[_147200e8fec7cef5-7] Bernardo, Smith, 1994, с. 23.

[_2b11e93e38b7608a-8] ¹ ² Gelman, Carlin, Stern, Rubin, 2004, с. 6—8.

[_e07b6fc1541fea85-9] Dickey, Chen, 1983, с. 167–168.

[_750b08288798d2c8-10] Gelman, Carlin, Stern, Rubin, 2004, с. 121—125.

[_7520b80e39ae355c-11] ¹ ² Diaconis, Freedman, 1980, с. 745–747.

[_1fb11b20af3d6268-12] Kadane, Wasilkowski, 1983, с. 371–372.

[13] «Академический оценочный тест» — стандартизованный тест для приёма в высшие учебные заведения США

[_0433ba9a6315d6bd-14] Gelman, Carlin, Stern, Rubin, 2004, с. 120—121.

[_44b9649fe749e94c-15] ¹ ² ³ Box, Tiao, 1965.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

@@ Строка 1: / Строка 1: @@
-'''Байесовское иерархическое моделирование''' — это [[Статистическое моделирование|статистическая модель]], записанная в виде нескольких уровней (в иерархическом виде), которые оценивают {{не переведено 5|Параметрическая модель (статистика)|параметры||parametric model}} [[Апостериорная вероятность|апостериорного распределения]] используя [[Байесовский вывод|байесовский метод]]{{sfn|Allenby, Rossi, McCulloch|2005|с=3}}. Подмодели комбинируются в иерархическую модель и используется [[теорема Байеса]] для объединения их с наблюдаемыми данными и учёта всех присутствующих неопределённостей. Результатом этого объединения является апостериорное распределение, известное также как уточнённая оценка вероятности после того, как получены дополнительные сведения об [[Априорная вероятность|априорной вероятности]].
+'''Байесовское иерархическое моделирование''' — это [[Статистическое моделирование|статистическая модель]], записанная в виде нескольких уровней (в иерархическом виде), которая оценивает {{не переведено 5|Параметрическая модель (статистика)|параметры||parametric model}} [[Апостериорная вероятность|апостериорного распределения]] используя [[Байесовский вывод|байесовский метод]]{{sfn|Allenby, Rossi, McCulloch|2005|с=3}}. Подмодели комбинируются в иерархическую модель и используется [[теорема Байеса]] для объединения их с наблюдаемыми данными и учёта всех присутствующих неопределённостей. Результатом этого объединения является апостериорное распределение, известное также как уточнённая оценка вероятности после того, как получены дополнительные сведения об [[Априорная вероятность|априорной вероятности]].
 == Введение ==
-{{не переведено 5|Частотный вывод|Частотная статистика||Frequentist statistics}}, наиболее популярное {{не переведено 5|Основы статистики|основание статистики||Foundations of statistics}}, может дать заключение по внешнему виду несовместимое с заключением, которое даёт байесовская статистика, поскольку байесовский подход трактует параметры как [[Случайная величина|случайные величины]] и использует субъективную информацию для установления допущений на эти параметры {{sfn|Gelman, Carlin, Stern, Rubin|2004|с=4–5}}. Так как подходы отвечают на разные вопросы, формальные результаты технически не являются противоречивыми, но два подхода расходятся во мнении, какой ответ относится к конкретным приложениям.  Приверженцы байесовского подхода утверждают, что относящаяся к принятию решения информация и обновление уверенностей нельзя игнорировать и что иерархическое моделирование имеет потенциал взять вверх над классическими методами в приложениях, где респондент даёт несколько вариантов данных наблюдений. Более того доказано, что модель [[Робастность|робастна]] с меньшей чувствительностью апостериорного распределения к изменчивым иерархическим априорным данным.
+{{не переведено 5|Частотный вывод|Частотная статистика||Frequentist statistics}}, наиболее популярное {{не переведено 5|Основы статистики|основание статистики||Foundations of statistics}}, может дать заключение по внешнему виду несовместимое с заключением, которое даёт байесовская статистика, поскольку байесовский подход трактует параметры как [[Случайная величина|случайные величины]] и использует субъективную информацию для установления допущений на эти параметры{{sfn|Gelman, Carlin, Stern, Rubin|2004|с=4–5}}. Так как подходы отвечают на разные вопросы, формальные результаты технически не являются противоречивыми, но два подхода расходятся во мнении, какой ответ относится к конкретным приложениям. Приверженцы байесовского подхода утверждают, что относящаяся к принятию решения информация и обновление уверенностей нельзя игнорировать и что иерархическое моделирование имеет потенциал взять верх над классическими методами в приложениях, где респондент даёт несколько вариантов данных наблюдений. Более того доказано, что модель [[Робастность|робастна]] с меньшей чувствительностью апостериорного распределения к изменчивым иерархическим априорным данным.
 Иерархическое моделирование используется, когда информация доступна в нескольких различных уровнях наблюдаемых величин. Иерархический вид анализа и представления помогают в понимании многопараметрических задач и играют важную роль в разработке вычислительных стратегий{{sfn|Gelman, Carlin, Stern, Rubin|2004|с=6}}.
 == Философия ==
 Многочисленные статистические приложения используют несколько параметров, которые можно считать как зависимые или связанные таким образом, что задача предполагает зависимость модели совместной вероятности этих параметров{{sfn|Gelman, Carlin, Stern, Rubin|2004|с=117}}.
-Индивидуальные степени уверенности, выраженные в форме вероятностей, имеют свою неопределённость{{sfn|Good|1980|с=480}}. Кроме того, возможны изменения степени уверенности со времени. Как утверждали профессор Жозе М. Бернардо и профессор Адриан Ф. Смит, «Актуальность процесса обучения состоит в эволюции индивидуальной и субъективной уверенности о реальности». Эти субъективные вероятности привлекаются в разум более непосредственно, чем физические вероятности{{sfn|Good|1980|с=489-490}}. Следовательно, это требует обновления уверенности, и сторонники байесовского подхода сформулировали альтернативную статистическую модель, которая принимает во внимание априорные случаи конкретного события{{sfn|Bernardo, Smith|1994|с=23}}.
+Индивидуальные степени уверенности, выраженные в форме вероятностей, имеют свою неопределённость{{sfn|Good|1980|с=480}}. Кроме того, возможны изменения степени уверенности со времени. Как утверждали профессор Жозе М. Бернардо и профессор Адриан Ф. Смит, «Актуальность процесса обучения состоит в эволюции индивидуальной и субъективной уверенности о реальности». Эти субъективные вероятности привлекаются в разум более непосредственно, чем физические вероятности{{sfn|Good|1980|с=489—490}}. Следовательно, это требует обновления уверенности, и сторонники байесовского подхода сформулировали альтернативную статистическую модель, которая принимает во внимание априорные случаи конкретного события{{sfn|Bernardo, Smith|1994|с=23}}.
-== Теорема Байеса ==
+== Теорема Байеса ==
-Предполагаемое получение реального события обычно изменяет предпочтения между определёнными вариантами. Это делается путём изменения степени доверия к событиям, определяющим варианты{{sfn|Gelman, Carlin, Stern, Rubin|2004|с=6-8}}.
+Предполагаемое получение реального события обычно изменяет предпочтения между определёнными вариантами. Это делается путём изменения степени доверия к событиям, определяющим варианты{{sfn|Gelman, Carlin, Stern, Rubin|2004|с=6—8}}.
 Предположим, что при изучении эффективности сердечной терапии пациентов в госпитале ''j'', имеющих вероятность выживания <math>\theta_j</math>, вероятность выживания обновляется при событии ''y'', заключающемся в создании гипотетической сомнительной сыворотки, которая, как думают некоторые, увеличивает выживание больных с сердечными проблемами.
@@ Строка 24: / Строка 24: @@
 : <math>P(\theta\mid y)=\frac{P(\theta,y)}{P(y)} = \frac{P(y\mid\theta)P(\theta)}{P(y)}</math>
-Равенство, показывающее связь между условной вероятностью и индивидуальными событиями, известно как теорема Байеса. Это простое выражение воплощает техническое ядро байесовского вывода, которое нацелено на включение обновлённого доверия <math>P(\theta\mid y)</math> в уместном и разрешимом виде {{sfn|Gelman, Carlin, Stern, Rubin|2004|с=6-8}}.
+Равенство, показывающее связь между условной вероятностью и индивидуальными событиями, известно как теорема Байеса. Это простое выражение воплощает техническое ядро байесовского вывода, которое нацелено на включение обновлённого доверия <math>P(\theta\mid y)</math> в уместном и разрешимом виде{{sfn|Gelman, Carlin, Stern, Rubin|2004|с=6—8}}.
 == Перестановочность ==
 Обычной стартовой точкой статистического анализа является предположение, что ''n'' значений <math>y_n</math> перестановочны. Если никакой информации, отличной от данных ''y'', недоступно для различения любого <math>\theta_j</math> от любого другого и никакого упорядочения или группировки параметров нельзя сделать, следует предполагать симметрию параметров относительно их априорной вероятности{{sfn|Dickey, Chen|1983|с=167–168}}. Эта симметрия представлена вероятностной перестановочностью. Обычно полезно и приемлемо моделировать данные из перестановочного распределения как [[Независимые одинаково распределённые случайные величины|независимые и одинаково распределённые]], если дан некоторый неизвестный вектор параметров <math>\theta</math> с распределением <math>P(\theta)</math>.
 === Конечная перестановочность ===
+Для фиксированного числа ''n'' набор <math>y_1, y_2, \ldots, y_n</math> перестановочен, если совместное распределение <math>P(y_1, y_2, \ldots, y_n)</math> инвариантно относительно [[Перестановка|перестановок]] индексов. То есть, для любой перестановки <math>\pi</math> or <math>(\pi_1,  \pi_2, \ldots, \pi_n)</math> индексов (1, 2, …, ''n''), <math>P(y_1, y_2, \ldots, y_n)= P(y_{\pi_1}, y_{\pi_2}, \ldots, y_{\pi_n}).</math>{{sfn|Gelman, Carlin, Stern, Rubin|2004|с=121—125}}
-Для фиксированного числа ''n'' набор <math>y_1, y_2, \ldots, y_n</math> перестановочен, если совместное распределение <math>P(y_1, y_2, \ldots, y_n)</math> инвариантно относительно [[Перестановка|перестановок]] индексов. То есть, для любой перестановки <math>\pi</math> or <math>(\pi_1,  \pi_2, \ldots, \pi_n)</math>  индексов (1, 2, …, ''n''), <math>P(y_1, y_2, \ldots, y_n)= P(y_{\pi_1}, y_{\pi_2}, \ldots, y_{\pi_n}).</math>{{sfn|Gelman, Carlin, Stern, Rubin|2004|с=121-125}}
 Ниже приведён пример перестановочной, но не независимой и одинаково распределённой последовательности:
-Рассмотрим урну с красными и синими шарами с вероятностями вытаскивания  <math>\frac{1}{2}</math> шаров. Шары вытаскиваются без возврата в урну, то есть, после вытаскивания одного из ''n'' шаров в урне остаётся ''n''&nbsp;&minus;&nbsp;1 шаров для следующего вытаскивания.
+Рассмотрим урну с красными и синими шарами с вероятностями вытаскивания <math>\frac{1}{2}</math> шаров. Шары вытаскиваются без возврата в урну, то есть, после вытаскивания одного из ''n'' шаров в урне остаётся ''n'' − 1 шаров для следующего вытаскивания.
 : {|
@@ Строка 55: / Строка 53: @@
 === Бесконечная перестановочность ===
+Бесконечная перестановочность — это такое свойство, что любое конечное подмножество бесконечной последовательности <math>y_1</math>, <math>y_2, \ldots</math> перестановочно. То есть, для любого ''n'' последовательность <math>y_1, y_2, \ldots, y_n</math> перестановочна{{sfn|Diaconis, Freedman|1980|с=745–747}}.
-Бесконечная перестановочность — это такое свойство, что любое конечное подмножество бесконечной последовательности <math>y_1</math>, <math>y_2, \ldots</math> перестановочно. То есть, для любого ''n'' последовательность <math>y_1, y_2, \ldots, y_n</math> перестановочна{{sfn|Diaconis, Freedman|1980|с=745–747}}.
 == Иерархические модели ==
 === Составляющие ===
+Байесовское иерархическое моделирование использует две важные концепции для получения апостериорного распределения{{sfn|Allenby, Rossi, McCulloch|2005|с=3}}, а именно:
-Байесовское иерархическое моделирование использует две важные концепции для получения апостериорного распределениея{{sfn|Allenby, Rossi, McCulloch|2005|с=3}}, а именно:
 # {{не переведено 5|Гиперпараметр (статистика)|Гиперпараметр||Hyperparameters}}: параметры априорного распределения
 # {{не переведено 5|Гиперприорное распределение|Гиперприорные распределения||Hyperprior}}: распределения гиперпараметров
-Предположим, что случайная величина ''Y'' имеет нормальное распределение с параметром ''θ'' как [[Среднее значение|среднее]] и параметром 1 в качестве [[Дисперсия случайной величины|дисперсии]], то есть  is <math>Y\mid \theta \sim N(\theta,1)</math>. Предположим, что параметр <math>\theta</math> имеет распределение, задаваемое [[Нормальное распределение|нормальным распределением]] со средним <math>\mu</math> и дисперсией 1, то есть <math>\theta\mid\mu \sim N(\mu,1)</math>. Кроме того, <math>\mu</math> является другим распределением, заданным, например, [[Нормальное распределение|стандартным нормальным распределением]] <math>\text{N}(0,1)</math>. Параметр <math>\mu</math> называется гиперпараметром, в то время как его распределение, заданное как <math>\text{N}(0,1)</math>, является примером гиперприорного распределения. Обозначение для ''Y'' изменяется с добавлением другого параметра, то есть <math>Y \mid \theta,\mu \sim  N(\theta,1)</math>. Если имеется другой уровень, скажем, <math>\mu</math> является другим нормальным распределением со средним <math>\beta</math> и дисперсией <math>\epsilon</math>, что означает <math>\mu \sim N(\beta,\epsilon)</math>, то <math> \mbox { }</math><math>\beta</math> и <math>\epsilon</math> могут также быть названы гиперпараметрами, а их распределения являются гиперприорными распределениями{{sfn|Gelman, Carlin, Stern, Rubin|2004|с=117}}.
+Предположим, что случайная величина ''Y'' имеет нормальное распределение с параметром ''θ'' как [[Среднее значение|среднее]] и параметром 1 в качестве [[Дисперсия случайной величины|дисперсии]], то есть <math>Y\mid \theta \sim N(\theta,1)</math>. Предположим, что параметр <math>\theta</math> имеет распределение, задаваемое [[Нормальное распределение|нормальным распределением]] со средним <math>\mu</math> и дисперсией 1, то есть <math>\theta\mid\mu \sim N(\mu,1)</math>. Кроме того, <math>\mu</math> является другим распределением, заданным, например, [[Нормальное распределение|стандартным нормальным распределением]] <math>\text{N}(0,1)</math>. Параметр <math>\mu</math> называется гиперпараметром, в то время как его распределение, заданное как <math>\text{N}(0,1)</math>, является примером гиперприорного распределения. Обозначение для ''Y'' изменяется с добавлением другого параметра, то есть <math>Y \mid \theta,\mu \sim  N(\theta,1)</math>. Если имеется другой уровень, скажем, <math>\mu</math> является другим нормальным распределением со средним <math>\beta</math> и дисперсией <math>\epsilon</math>, что означает <math>\mu \sim N(\beta,\epsilon)</math>, то <math> \mbox { }</math><math>\beta</math> и <math>\epsilon</math> могут также быть названы гиперпараметрами, а их распределения являются гиперприорными распределениями{{sfn|Gelman, Carlin, Stern, Rubin|2004|с=117}}.
 === Система ===
+Пусть <math>y_j</math> будут наблюдениями и <math>\theta_j</math> будет параметром, который управляет процессом генерации <math>y_j</math>. Предположим далее, что параметры <math>\theta_1, \theta_2, \ldots, \theta_j</math> порождаются перестановочными из основной популяции с распределением, управляемым гиперпараметром <math>\phi</math>.
+Байесовская иерархическая модель содержит следующие уровни:
-Пусть <math>y_j</math> будут наблюдениями и <math>\theta_j</math> будет параметром, который управляет процессом генерации <math>y_j</math>. Предположим далее, что параметры <math>\theta_1, \theta_2, \ldots, \theta_j</math> порождаются перестановочными из основной популяции с распределением, управляемым гиперпараметром <math>\phi</math>.
-<br>Байесовская иерархическая модель содержит следующие уровни:
 : Уровень I: <math>y_j\mid\theta_j,\phi \sim P(y_j\mid\theta_j,\phi)</math>
 : Уровень II: <math>\theta_j\mid\phi \sim P(\theta_j\mid\phi)</math>
 : Уровень III: <math>\phi \sim P(\phi)</math>
-Правдоподобие, как видно из уровня I равно <math>P(y_j\mid\theta_j,\phi)</math>, c <math>P(\theta_j,\phi)</math> в качестве его априорного распределения. Заметим, что правдоподобие зависит только от <math>\phi</math> через <math>\theta_j</math>.
+Правдоподобие, как видно из уровня I, равно <math>P(y_j\mid\theta_j,\phi)</math>, c <math>P(\theta_j,\phi)</math> в качестве его априорного распределения. Заметим, что правдоподобие зависит только от <math>\phi</math> через <math>\theta_j</math>.
 Априорное распределение из уровня I может быть разбито на:
@@ Строка 90: / Строка 85: @@
 : <math>P(\phi,\theta_j\mid y)  \propto P(y_j \mid\theta_j,\phi) P(\theta_j,\phi)</math> ''[используя теорему Байеса]''
 : <math>P(\phi,\theta_j\mid y)  \propto P(y_j\mid\theta_j ) P(\theta_j \mid\phi ) P(\phi) </math>{{sfn|Kadane, Wasilkowski|1983|с=371–372}}
 === Пример ===
+Для иллюстрации рассмотрим пример:
+Учитель хочет оценить, насколько хорошо студент выполнил свой [[SAT]] тест ({{lang-en|Scholastic Assessment Test}}<ref>«Академический оценочный тест» — стандартизованный тест для приёма в высшие учебные заведения США</ref>). Он использует информацию о студенте в старших классах и его текущем среднем балле оценок ({{lang-en|grade point average}}, GPA), чтобы получить оценку. Текущая GPA, обозначим её <math>Y</math>, имеет правдоподобие, задаваемое некоторой функцией вероятности с параметром <math>\theta</math>, то есть <math>Y\mid\theta \sim P(Y\mid\theta)</math>. Этот параметр <math>\theta</math> является баллом SAT студента. Балл SAT рассматривается как элемент выборки, полученный из общей выборки, полученной из распределения общей популяции, индексированной другим параметром <math>\phi</math>, которая является баллом студента в старших классах школы{{sfn|Gelman, Carlin, Stern, Rubin|2004|с=120—121}}. То есть, <math>\theta\mid\phi \sim P(\theta\mid\phi)</math>. Более того, гиперпараметр <math>\phi</math> имеет своё собственное распределение с функцией <math>P(\phi)</math>, которое называется гиперприорным распределением.
-Для иллюстрации рассмотрим пример:
-Учитель хочет оценить, насколько хорошо студент выполнил свой [[SAT]] тест ({{lang-en|Scholastic Assessment Test}}<ref>«Академический оценочный тест» — стандартизованный тест для приёма в высшие учебные заведения США</ref>). Он использует информацию о студенте в старших классах и его текущем среднем балле оценок ({{lang-en|grade point average}}, GPA), чтобы получить оценку. Текущая GPA, обозначим её <math>Y</math>, имеет правдоподобие, задаваемое некоторой функцией вероятности с параметром <math>\theta</math>, то есть <math>Y\mid\theta \sim P(Y\mid\theta)</math>. Этот параметр <math>\theta</math> является баллом SAT студента. Балл SAT рассматривается как элемент выборки, полученный из общей выборки, полученной из распределения общей популяции, индексированной другим параметром <math>\phi</math>, которая является баллом студента в старших классах школы{{sfn|Gelman, Carlin, Stern, Rubin|2004|с=120-121}}. То есть, <math>\theta\mid\phi \sim P(\theta\mid\phi)</math>. Более того, гиперпараметр <math>\phi</math> имеет своё собственное распределение с функцией <math>P(\phi)</math>, которое называется гиперприорным распределением.
 Чтобы получить балл SAT по информации о GPA,
@@ Строка 105: / Строка 99: @@
 === Двухуровневая иерархическая модель ===
 В общем случае интересующее нас совместное апостериорное распределение 2-уровневых иерархических моделей равно:
@@ Строка 113: / Строка 106: @@
 === Трёхуровневая иерархическая модель ===
 Для 3-уровневых иерархических моделей апостериорное распределение задаётся так:
@@ Строка 120: / Строка 112: @@
 : <math>P(\theta,\phi, X\mid Y) \propto P(Y\mid\theta)P(\theta\mid\phi)P(\phi\mid X)P(X)</math>{{sfn|Box, Tiao|1965}}
-==Примечания==
+== Примечания ==
-{{примечания|2}}
+{{примечания}}
-==Литература==
+== Литература ==
-{{refbegin|colwidth=30em}}
-*{{статья
+* {{статья
 |ref=Allenby, Rossi, McCulloch
 |автор=Greg M. Allenby, Peter E. Rossi, Robert E. McCulloch
@@ Строка 132: / Строка 124: @@
 |заглавие=Hierarchical Bayes Model: A Practitioner’s Guide
 }}
-*{{книга
+* {{книга
 |автор=Andrew Gelman, John B. Carlin, Hal S. Stern, Donald B. Rubin
 |ref=Gelman, Carlin, Stern, Rubin
@@ Строка 143: / Строка 135: @@
 |ссылка=http://www.allbookez.com/pdf/e1qdo/
 }}
-*{{статья
+* {{статья
 |ref=Good
 |автор=Good I.J.
@@ Строка 154: / Строка 146: @@
 |издательство=Springer – Verlag
 }}
-*{{книга
+* {{книга
 |ref=Bernardo, Smith
 |автор=Jose M. Bernardo, Adrian F.M. Smith
 |год=1994
 |ссылка=https://books.google.com/books?id=11nSgIcd7xQC&pg=PA497&dq=bernardo+degroot+lindley&hl=en&sa=X&ei=aNRwU8SXFMzr8AX2lYHYAQ&ved=0CFoQ6AEwCA#v=onepage&q=bernardo%20degroot%20lindley&f=false
 |заглавие=Bayesian Theory
 |серия=Willey series in probability and statistics
@@ Строка 165: / Строка 157: @@
 |ISBN=0-471-92416-4
 }}
-*{{статья
+* {{статья
 |автор=Diaconis P., Freedman D.
 |ref=Diaconis, Freedman
@@ Строка 171: / Строка 163: @@
 |ссылка=http://projecteuclid.org/download/pdf_1/euclid.aop/1176994663
 |заглавие=Finite exchangeable sequences
-|издение=Annals of Probability
+|издание=Annals of Probability
 }}
-*{{статья
+* {{статья
 |ref=Allenby, Rossi
 |автор=Greg M. Allenby, Peter E. Rossi
-|ссыдка=https://www.researchgate.net/publication/228167480_Bayesian_Applications_in_Marketing
+|ссылка=https://www.researchgate.net/publication/228167480_Bayesian_Applications_in_Marketing
 |заглавие=Bayesian Applications in Marketing
 |издание=SSRN Electronic Journal
 |год=2009
 }}
-*{{книга
+* {{книга
 |автор=Box G. E. P., Tiao G. C.
 |ref=Box, Tiao
@@ Строка 193: / Строка 185: @@
 |издательство=John Wiley & Sons
 |ISBN=0-471-57428-7
-}} [http://projecteuclid.org/all/euclid.aoms Другие тома]
+}} [http://projecteuclid.org/all/euclid.aoms Другие тома] {{Wayback|url=http://projecteuclid.org/all/euclid.aoms |date=20190115022950 }}
-*{{книга
+* {{книга
 |автор=Kadane J.B., Wasilkowski G.W.
 |ответственный=Bernardo J.M., Degroot V.H., Lindley D.V., Smith A.F.M.
@@ Строка 207: / Строка 199: @@
 |издательство=Elsevier Science Publishers B.V
 |ISBN=0-444-87746-0
-}} [https://books.google.com/books?id=wYj-_uFLOe4C&dq=Proceedings%20of%20the%20Second%20Valencia%20International%20Meeting&source=gbs_similarbooks Похожая книга]
+}} [https://books.google.com/books?id=wYj-_uFLOe4C&dq=Proceedings%20of%20the%20Second%20Valencia%20International%20Meeting&source=gbs_similarbooks Похожая книга] {{Wayback|url=https://books.google.com/books?id=wYj-_uFLOe4C&dq=Proceedings%20of%20the%20Second%20Valencia%20International%20Meeting&source=gbs_similarbooks |date=20200726160416 }}
-*{{книга
+* {{книга
 |ответственный=Bernardo J.M., Degroot V.H., Lindley D.V., Smith A.F.M.
 |автор=James M. Dickey, Chong-Hong Chen
@@ Строка 221: / Строка 213: @@
 |ISBN=0-444-87746-0
 }}
+{{rq|checktranslate|style}}
-{{refend}}
 [[Категория:Байесовские сети]]
-{{rq|checktranslate|style|grammar}}

Байесовское иерархическое моделирование: различия между версиями

Текущая версия от 19:48, 4 ноября 2024

Содержание

Введение

Философия

Теорема Байеса