Байесовское иерархическое моделирование: различия между версиями
[отпатрулированная версия] | [отпатрулированная версия] |
м →Конечная перестановочность: орфография |
A.sav (обсуждение | вклад) м →Составляющие: clean up, replaced: ниея → ния |
||
(не показаны 2 промежуточные версии 2 участников) | |||
Строка 1: | Строка 1: | ||
'''Байесовское иерархическое моделирование''' |
'''Байесовское иерархическое моделирование''' — это [[Статистическое моделирование|статистическая модель]], записанная в виде нескольких уровней (в иерархическом виде), которая оценивает {{не переведено 5|Параметрическая модель (статистика)|параметры||parametric model}} [[Апостериорная вероятность|апостериорного распределения]] используя [[Байесовский вывод|байесовский метод]]{{sfn|Allenby, Rossi, McCulloch|2005|с=3}}. Подмодели комбинируются в иерархическую модель и используется [[теорема Байеса]] для объединения их с наблюдаемыми данными и учёта всех присутствующих неопределённостей. Результатом этого объединения является апостериорное распределение, известное также как уточнённая оценка вероятности после того, как получены дополнительные сведения об [[Априорная вероятность|априорной вероятности]]. |
||
== Введение == |
== Введение == |
||
{{не переведено 5|Частотный вывод|Частотная статистика||Frequentist statistics}}, наиболее популярное {{не переведено 5|Основы статистики|основание статистики||Foundations of statistics}}, может дать заключение по внешнему виду несовместимое с заключением, которое даёт байесовская статистика, поскольку байесовский подход трактует параметры как [[Случайная величина|случайные величины]] и использует субъективную информацию для установления допущений на эти параметры |
{{не переведено 5|Частотный вывод|Частотная статистика||Frequentist statistics}}, наиболее популярное {{не переведено 5|Основы статистики|основание статистики||Foundations of statistics}}, может дать заключение по внешнему виду несовместимое с заключением, которое даёт байесовская статистика, поскольку байесовский подход трактует параметры как [[Случайная величина|случайные величины]] и использует субъективную информацию для установления допущений на эти параметры{{sfn|Gelman, Carlin, Stern, Rubin|2004|с=4–5}}. Так как подходы отвечают на разные вопросы, формальные результаты технически не являются противоречивыми, но два подхода расходятся во мнении, какой ответ относится к конкретным приложениям. Приверженцы байесовского подхода утверждают, что относящаяся к принятию решения информация и обновление уверенностей нельзя игнорировать и что иерархическое моделирование имеет потенциал взять верх над классическими методами в приложениях, где респондент даёт несколько вариантов данных наблюдений. Более того доказано, что модель [[Робастность|робастна]] с меньшей чувствительностью апостериорного распределения к изменчивым иерархическим априорным данным. |
||
Иерархическое моделирование используется, когда информация доступна в нескольких различных уровнях наблюдаемых величин. Иерархический вид анализа и представления помогают в понимании многопараметрических задач и играют важную роль в разработке вычислительных стратегий{{sfn|Gelman, Carlin, Stern, Rubin|2004|с=6}}. |
Иерархическое моделирование используется, когда информация доступна в нескольких различных уровнях наблюдаемых величин. Иерархический вид анализа и представления помогают в понимании многопараметрических задач и играют важную роль в разработке вычислительных стратегий{{sfn|Gelman, Carlin, Stern, Rubin|2004|с=6}}. |
||
== Философия == |
== Философия == |
||
Многочисленные статистические приложения используют несколько параметров, которые можно считать как зависимые или связанные таким образом, что задача предполагает зависимость модели совместной вероятности этих параметров{{sfn|Gelman, Carlin, Stern, Rubin|2004|с=117}}. |
Многочисленные статистические приложения используют несколько параметров, которые можно считать как зависимые или связанные таким образом, что задача предполагает зависимость модели совместной вероятности этих параметров{{sfn|Gelman, Carlin, Stern, Rubin|2004|с=117}}. |
||
⚫ | Индивидуальные степени уверенности, выраженные в форме вероятностей, имеют свою неопределённость{{sfn|Good|1980|с=480}}. Кроме того, возможны изменения степени уверенности со времени. Как утверждали профессор Жозе М. Бернардо и профессор Адриан Ф. Смит, «Актуальность процесса обучения состоит в эволюции индивидуальной и субъективной уверенности о реальности». Эти субъективные вероятности привлекаются в разум более непосредственно, чем физические вероятности{{sfn|Good|1980|с= |
||
⚫ | Индивидуальные степени уверенности, выраженные в форме вероятностей, имеют свою неопределённость{{sfn|Good|1980|с=480}}. Кроме того, возможны изменения степени уверенности со времени. Как утверждали профессор Жозе М. Бернардо и профессор Адриан Ф. Смит, «Актуальность процесса обучения состоит в эволюции индивидуальной и субъективной уверенности о реальности». Эти субъективные вероятности привлекаются в разум более непосредственно, чем физические вероятности{{sfn|Good|1980|с=489—490}}. Следовательно, это требует обновления уверенности, и сторонники байесовского подхода сформулировали альтернативную статистическую модель, которая принимает во внимание априорные случаи конкретного события{{sfn|Bernardo, Smith|1994|с=23}}. |
||
⚫ | |||
⚫ | |||
Предполагаемое получение реального события обычно изменяет предпочтения между определёнными вариантами. Это делается путём изменения степени доверия к событиям, определяющим варианты{{sfn|Gelman, Carlin, Stern, Rubin|2004|с= |
Предполагаемое получение реального события обычно изменяет предпочтения между определёнными вариантами. Это делается путём изменения степени доверия к событиям, определяющим варианты{{sfn|Gelman, Carlin, Stern, Rubin|2004|с=6—8}}. |
||
Предположим, что при изучении эффективности сердечной терапии пациентов в госпитале ''j'', имеющих вероятность выживания <math>\theta_j</math>, вероятность выживания обновляется при событии ''y'', заключающемся в создании гипотетической сомнительной сыворотки, которая, как думают некоторые, увеличивает выживание больных с сердечными проблемами. |
Предположим, что при изучении эффективности сердечной терапии пациентов в госпитале ''j'', имеющих вероятность выживания <math>\theta_j</math>, вероятность выживания обновляется при событии ''y'', заключающемся в создании гипотетической сомнительной сыворотки, которая, как думают некоторые, увеличивает выживание больных с сердечными проблемами. |
||
Строка 24: | Строка 24: | ||
: <math>P(\theta\mid y)=\frac{P(\theta,y)}{P(y)} = \frac{P(y\mid\theta)P(\theta)}{P(y)}</math> |
: <math>P(\theta\mid y)=\frac{P(\theta,y)}{P(y)} = \frac{P(y\mid\theta)P(\theta)}{P(y)}</math> |
||
Равенство, показывающее связь между условной вероятностью и индивидуальными событиями, известно как теорема Байеса. Это простое выражение воплощает техническое ядро байесовского вывода, которое нацелено на включение обновлённого доверия <math>P(\theta\mid y)</math> в уместном и разрешимом виде |
Равенство, показывающее связь между условной вероятностью и индивидуальными событиями, известно как теорема Байеса. Это простое выражение воплощает техническое ядро байесовского вывода, которое нацелено на включение обновлённого доверия <math>P(\theta\mid y)</math> в уместном и разрешимом виде{{sfn|Gelman, Carlin, Stern, Rubin|2004|с=6—8}}. |
||
== Перестановочность == |
== Перестановочность == |
||
Обычной стартовой точкой статистического анализа является предположение, что ''n'' значений <math>y_n</math> перестановочны. Если никакой информации, отличной от данных ''y'', недоступно для различения любого <math>\theta_j</math> от любого другого и никакого упорядочения или группировки параметров нельзя сделать, следует предполагать симметрию параметров относительно их априорной вероятности{{sfn|Dickey, Chen|1983|с=167–168}}. Эта симметрия представлена вероятностной перестановочностью. Обычно полезно и приемлемо моделировать данные из перестановочного распределения как [[Независимые одинаково распределённые случайные величины|независимые и одинаково распределённые]], если дан некоторый неизвестный вектор параметров <math>\theta</math> с распределением <math>P(\theta)</math>. |
Обычной стартовой точкой статистического анализа является предположение, что ''n'' значений <math>y_n</math> перестановочны. Если никакой информации, отличной от данных ''y'', недоступно для различения любого <math>\theta_j</math> от любого другого и никакого упорядочения или группировки параметров нельзя сделать, следует предполагать симметрию параметров относительно их априорной вероятности{{sfn|Dickey, Chen|1983|с=167–168}}. Эта симметрия представлена вероятностной перестановочностью. Обычно полезно и приемлемо моделировать данные из перестановочного распределения как [[Независимые одинаково распределённые случайные величины|независимые и одинаково распределённые]], если дан некоторый неизвестный вектор параметров <math>\theta</math> с распределением <math>P(\theta)</math>. |
||
=== Конечная перестановочность === |
=== Конечная перестановочность === |
||
⚫ | Для фиксированного числа ''n'' набор <math>y_1, y_2, \ldots, y_n</math> перестановочен, если совместное распределение <math>P(y_1, y_2, \ldots, y_n)</math> инвариантно относительно [[Перестановка|перестановок]] индексов. То есть, для любой перестановки <math>\pi</math> or <math>(\pi_1, \pi_2, \ldots, \pi_n)</math> индексов (1, 2, …, ''n''), <math>P(y_1, y_2, \ldots, y_n)= P(y_{\pi_1}, y_{\pi_2}, \ldots, y_{\pi_n}).</math>{{sfn|Gelman, Carlin, Stern, Rubin|2004|с=121—125}} |
||
⚫ | Для фиксированного числа ''n'' набор <math>y_1, y_2, \ldots, y_n</math> перестановочен, если совместное распределение <math>P(y_1, y_2, \ldots, y_n)</math> инвариантно относительно [[Перестановка|перестановок]] индексов. То есть, для любой перестановки <math>\pi</math> or <math>(\pi_1, \pi_2, \ldots, \pi_n)</math> |
||
Ниже приведён пример перестановочной, но не независимой и одинаково распределённой последовательности: |
Ниже приведён пример перестановочной, но не независимой и одинаково распределённой последовательности: |
||
Рассмотрим урну с красными и синими шарами с вероятностями вытаскивания |
Рассмотрим урну с красными и синими шарами с вероятностями вытаскивания <math>\frac{1}{2}</math> шаров. Шары вытаскиваются без возврата в урну, то есть, после вытаскивания одного из ''n'' шаров в урне остаётся ''n'' − 1 шаров для следующего вытаскивания. |
||
: {| |
: {| |
||
Строка 55: | Строка 53: | ||
=== Бесконечная перестановочность === |
=== Бесконечная перестановочность === |
||
⚫ | Бесконечная перестановочность — это такое свойство, что любое конечное подмножество бесконечной последовательности <math>y_1</math>, <math>y_2, \ldots</math> перестановочно. То есть, для любого ''n'' последовательность <math>y_1, y_2, \ldots, y_n</math> перестановочна{{sfn|Diaconis, Freedman|1980|с=745–747}}. |
||
⚫ | Бесконечная перестановочность |
||
== Иерархические модели == |
== Иерархические модели == |
||
=== Составляющие === |
=== Составляющие === |
||
⚫ | |||
⚫ | |||
# {{не переведено 5|Гиперпараметр (статистика)|Гиперпараметр||Hyperparameters}}: параметры априорного распределения |
# {{не переведено 5|Гиперпараметр (статистика)|Гиперпараметр||Hyperparameters}}: параметры априорного распределения |
||
# {{не переведено 5|Гиперприорное распределение|Гиперприорные распределения||Hyperprior}}: распределения гиперпараметров |
# {{не переведено 5|Гиперприорное распределение|Гиперприорные распределения||Hyperprior}}: распределения гиперпараметров |
||
Предположим, что случайная величина ''Y'' имеет нормальное распределение с параметром ''θ'' как [[Среднее значение|среднее]] и параметром 1 в качестве [[Дисперсия случайной величины|дисперсии]], то есть |
Предположим, что случайная величина ''Y'' имеет нормальное распределение с параметром ''θ'' как [[Среднее значение|среднее]] и параметром 1 в качестве [[Дисперсия случайной величины|дисперсии]], то есть <math>Y\mid \theta \sim N(\theta,1)</math>. Предположим, что параметр <math>\theta</math> имеет распределение, задаваемое [[Нормальное распределение|нормальным распределением]] со средним <math>\mu</math> и дисперсией 1, то есть <math>\theta\mid\mu \sim N(\mu,1)</math>. Кроме того, <math>\mu</math> является другим распределением, заданным, например, [[Нормальное распределение|стандартным нормальным распределением]] <math>\text{N}(0,1)</math>. Параметр <math>\mu</math> называется гиперпараметром, в то время как его распределение, заданное как <math>\text{N}(0,1)</math>, является примером гиперприорного распределения. Обозначение для ''Y'' изменяется с добавлением другого параметра, то есть <math>Y \mid \theta,\mu \sim N(\theta,1)</math>. Если имеется другой уровень, скажем, <math>\mu</math> является другим нормальным распределением со средним <math>\beta</math> и дисперсией <math>\epsilon</math>, что означает <math>\mu \sim N(\beta,\epsilon)</math>, то <math> \mbox { }</math><math>\beta</math> и <math>\epsilon</math> могут также быть названы гиперпараметрами, а их распределения являются гиперприорными распределениями{{sfn|Gelman, Carlin, Stern, Rubin|2004|с=117}}. |
||
=== Система === |
=== Система === |
||
⚫ | Пусть <math>y_j</math> будут наблюдениями и <math>\theta_j</math> будет параметром, который управляет процессом генерации <math>y_j</math>. Предположим далее, что параметры <math>\theta_1, \theta_2, \ldots, \theta_j</math> порождаются перестановочными из основной популяции с распределением, управляемым гиперпараметром <math>\phi</math>. |
||
⚫ | |||
⚫ | Пусть <math>y_j</math> будут наблюдениями и <math>\theta_j</math> будет параметром, который управляет процессом генерации <math>y_j</math>. Предположим далее, что параметры <math>\theta_1, \theta_2, \ldots, \theta_j</math> порождаются перестановочными из основной популяции с распределением, управляемым гиперпараметром <math>\phi</math>. |
||
⚫ | |||
: Уровень I: <math>y_j\mid\theta_j,\phi \sim P(y_j\mid\theta_j,\phi)</math> |
: Уровень I: <math>y_j\mid\theta_j,\phi \sim P(y_j\mid\theta_j,\phi)</math> |
||
: Уровень II: <math>\theta_j\mid\phi \sim P(\theta_j\mid\phi)</math> |
: Уровень II: <math>\theta_j\mid\phi \sim P(\theta_j\mid\phi)</math> |
||
: Уровень III: <math>\phi \sim P(\phi)</math> |
: Уровень III: <math>\phi \sim P(\phi)</math> |
||
Правдоподобие, как видно из уровня I равно <math>P(y_j\mid\theta_j,\phi)</math>, c <math>P(\theta_j,\phi)</math> в качестве его априорного распределения. Заметим, что правдоподобие зависит только от <math>\phi</math> через <math>\theta_j</math>. |
Правдоподобие, как видно из уровня I, равно <math>P(y_j\mid\theta_j,\phi)</math>, c <math>P(\theta_j,\phi)</math> в качестве его априорного распределения. Заметим, что правдоподобие зависит только от <math>\phi</math> через <math>\theta_j</math>. |
||
Априорное распределение из уровня I может быть разбито на: |
Априорное распределение из уровня I может быть разбито на: |
||
Строка 90: | Строка 85: | ||
: <math>P(\phi,\theta_j\mid y) \propto P(y_j \mid\theta_j,\phi) P(\theta_j,\phi)</math> ''[используя теорему Байеса]'' |
: <math>P(\phi,\theta_j\mid y) \propto P(y_j \mid\theta_j,\phi) P(\theta_j,\phi)</math> ''[используя теорему Байеса]'' |
||
: <math>P(\phi,\theta_j\mid y) \propto P(y_j\mid\theta_j ) P(\theta_j \mid\phi ) P(\phi) </math>{{sfn|Kadane, Wasilkowski|1983|с=371–372}} |
: <math>P(\phi,\theta_j\mid y) \propto P(y_j\mid\theta_j ) P(\theta_j \mid\phi ) P(\phi) </math>{{sfn|Kadane, Wasilkowski|1983|с=371–372}} |
||
=== Пример === |
=== Пример === |
||
⚫ | |||
⚫ | Учитель хочет оценить, насколько хорошо студент выполнил свой [[SAT]] тест ({{lang-en|Scholastic Assessment Test}}<ref>«Академический оценочный тест» — стандартизованный тест для приёма в высшие учебные заведения США</ref>). Он использует информацию о студенте в старших классах и его текущем среднем балле оценок ({{lang-en|grade point average}}, GPA), чтобы получить оценку. Текущая GPA, обозначим её <math>Y</math>, имеет правдоподобие, задаваемое некоторой функцией вероятности с параметром <math>\theta</math>, то есть <math>Y\mid\theta \sim P(Y\mid\theta)</math>. Этот параметр <math>\theta</math> является баллом SAT студента. Балл SAT рассматривается как элемент выборки, полученный из общей выборки, полученной из распределения общей популяции, индексированной другим параметром <math>\phi</math>, которая является баллом студента в старших классах школы{{sfn|Gelman, Carlin, Stern, Rubin|2004|с=120—121}}. То есть, <math>\theta\mid\phi \sim P(\theta\mid\phi)</math>. Более того, гиперпараметр <math>\phi</math> имеет своё собственное распределение с функцией <math>P(\phi)</math>, которое называется гиперприорным распределением. |
||
⚫ | |||
⚫ | Учитель хочет оценить, насколько хорошо студент выполнил свой [[SAT]] тест ({{lang-en|Scholastic Assessment Test}}<ref>«Академический оценочный тест» |
||
Чтобы получить балл SAT по информации о GPA, |
Чтобы получить балл SAT по информации о GPA, |
||
Строка 105: | Строка 99: | ||
=== Двухуровневая иерархическая модель === |
=== Двухуровневая иерархическая модель === |
||
В общем случае интересующее нас совместное апостериорное распределение 2-уровневых иерархических моделей равно: |
В общем случае интересующее нас совместное апостериорное распределение 2-уровневых иерархических моделей равно: |
||
Строка 113: | Строка 106: | ||
=== Трёхуровневая иерархическая модель === |
=== Трёхуровневая иерархическая модель === |
||
Для 3-уровневых иерархических моделей апостериорное распределение задаётся так: |
Для 3-уровневых иерархических моделей апостериорное распределение задаётся так: |
||
Строка 120: | Строка 112: | ||
: <math>P(\theta,\phi, X\mid Y) \propto P(Y\mid\theta)P(\theta\mid\phi)P(\phi\mid X)P(X)</math>{{sfn|Box, Tiao|1965}} |
: <math>P(\theta,\phi, X\mid Y) \propto P(Y\mid\theta)P(\theta\mid\phi)P(\phi\mid X)P(X)</math>{{sfn|Box, Tiao|1965}} |
||
==Примечания== |
== Примечания == |
||
{{примечания |
{{примечания}} |
||
==Литература== |
== Литература == |
||
{{refbegin|colwidth=30em}} |
|||
*{{статья |
* {{статья |
||
|ref=Allenby, Rossi, McCulloch |
|ref=Allenby, Rossi, McCulloch |
||
|автор=Greg M. Allenby, Peter E. Rossi, Robert E. McCulloch |
|автор=Greg M. Allenby, Peter E. Rossi, Robert E. McCulloch |
||
Строка 132: | Строка 124: | ||
|заглавие=Hierarchical Bayes Model: A Practitioner’s Guide |
|заглавие=Hierarchical Bayes Model: A Practitioner’s Guide |
||
}} |
}} |
||
*{{книга |
* {{книга |
||
|автор=Andrew Gelman, John B. Carlin, Hal S. Stern, Donald B. Rubin |
|автор=Andrew Gelman, John B. Carlin, Hal S. Stern, Donald B. Rubin |
||
|ref=Gelman, Carlin, Stern, Rubin |
|ref=Gelman, Carlin, Stern, Rubin |
||
Строка 143: | Строка 135: | ||
|ссылка=http://www.allbookez.com/pdf/e1qdo/ |
|ссылка=http://www.allbookez.com/pdf/e1qdo/ |
||
}} |
}} |
||
*{{статья |
* {{статья |
||
|ref=Good |
|ref=Good |
||
|автор=Good I.J. |
|автор=Good I.J. |
||
Строка 154: | Строка 146: | ||
|издательство=Springer – Verlag |
|издательство=Springer – Verlag |
||
}} |
}} |
||
*{{книга |
* {{книга |
||
|ref=Bernardo, Smith |
|ref=Bernardo, Smith |
||
|автор=Jose M. Bernardo, Adrian F.M. Smith |
|автор=Jose M. Bernardo, Adrian F.M. Smith |
||
|год=1994 |
|год=1994 |
||
|ссылка=https://books.google.com/books?id=11nSgIcd7xQC&pg=PA497&dq=bernardo+degroot+lindley&hl=en&sa=X&ei=aNRwU8SXFMzr8AX2lYHYAQ&ved=0CFoQ6AEwCA#v=onepage&q=bernardo%20degroot%20lindley&f=false |
|ссылка=https://books.google.com/books?id=11nSgIcd7xQC&pg=PA497&dq=bernardo+degroot+lindley&hl=en&sa=X&ei=aNRwU8SXFMzr8AX2lYHYAQ&ved=0CFoQ6AEwCA#v=onepage&q=bernardo%20degroot%20lindley&f=false |
||
|заглавие=Bayesian Theory |
|заглавие=Bayesian Theory |
||
|серия=Willey series in probability and statistics |
|серия=Willey series in probability and statistics |
||
Строка 165: | Строка 157: | ||
|ISBN=0-471-92416-4 |
|ISBN=0-471-92416-4 |
||
}} |
}} |
||
*{{статья |
* {{статья |
||
|автор=Diaconis P., Freedman D. |
|автор=Diaconis P., Freedman D. |
||
|ref=Diaconis, Freedman |
|ref=Diaconis, Freedman |
||
Строка 171: | Строка 163: | ||
|ссылка=http://projecteuclid.org/download/pdf_1/euclid.aop/1176994663 |
|ссылка=http://projecteuclid.org/download/pdf_1/euclid.aop/1176994663 |
||
|заглавие=Finite exchangeable sequences |
|заглавие=Finite exchangeable sequences |
||
| |
|издание=Annals of Probability |
||
}} |
}} |
||
*{{статья |
* {{статья |
||
|ref=Allenby, Rossi |
|ref=Allenby, Rossi |
||
|автор=Greg M. Allenby, Peter E. Rossi |
|автор=Greg M. Allenby, Peter E. Rossi |
||
| |
|ссылка=https://www.researchgate.net/publication/228167480_Bayesian_Applications_in_Marketing |
||
|заглавие=Bayesian Applications in Marketing |
|заглавие=Bayesian Applications in Marketing |
||
|издание=SSRN Electronic Journal |
|издание=SSRN Electronic Journal |
||
|год=2009 |
|год=2009 |
||
}} |
}} |
||
*{{книга |
* {{книга |
||
|автор=Box G. E. P., Tiao G. C. |
|автор=Box G. E. P., Tiao G. C. |
||
|ref=Box, Tiao |
|ref=Box, Tiao |
||
Строка 193: | Строка 185: | ||
|издательство=John Wiley & Sons |
|издательство=John Wiley & Sons |
||
|ISBN=0-471-57428-7 |
|ISBN=0-471-57428-7 |
||
}} [http://projecteuclid.org/all/euclid.aoms Другие тома] |
}} [http://projecteuclid.org/all/euclid.aoms Другие тома] {{Wayback|url=http://projecteuclid.org/all/euclid.aoms |date=20190115022950 }} |
||
*{{книга |
* {{книга |
||
|автор=Kadane J.B., Wasilkowski G.W. |
|автор=Kadane J.B., Wasilkowski G.W. |
||
|ответственный=Bernardo J.M., Degroot V.H., Lindley D.V., Smith A.F.M. |
|ответственный=Bernardo J.M., Degroot V.H., Lindley D.V., Smith A.F.M. |
||
Строка 207: | Строка 199: | ||
|издательство=Elsevier Science Publishers B.V |
|издательство=Elsevier Science Publishers B.V |
||
|ISBN=0-444-87746-0 |
|ISBN=0-444-87746-0 |
||
}} [https://books.google.com/books?id=wYj-_uFLOe4C&dq=Proceedings%20of%20the%20Second%20Valencia%20International%20Meeting&source=gbs_similarbooks Похожая книга] |
}} [https://books.google.com/books?id=wYj-_uFLOe4C&dq=Proceedings%20of%20the%20Second%20Valencia%20International%20Meeting&source=gbs_similarbooks Похожая книга] {{Wayback|url=https://books.google.com/books?id=wYj-_uFLOe4C&dq=Proceedings%20of%20the%20Second%20Valencia%20International%20Meeting&source=gbs_similarbooks |date=20200726160416 }} |
||
*{{книга |
* {{книга |
||
|ответственный=Bernardo J.M., Degroot V.H., Lindley D.V., Smith A.F.M. |
|ответственный=Bernardo J.M., Degroot V.H., Lindley D.V., Smith A.F.M. |
||
|автор=James M. Dickey, Chong-Hong Chen |
|автор=James M. Dickey, Chong-Hong Chen |
||
Строка 221: | Строка 213: | ||
|ISBN=0-444-87746-0 |
|ISBN=0-444-87746-0 |
||
}} |
}} |
||
⚫ | |||
{{refend}} |
|||
[[Категория:Байесовские сети]] |
[[Категория:Байесовские сети]] |
||
⚫ |
Текущая версия от 19:48, 4 ноября 2024
Байесовское иерархическое моделирование — это статистическая модель, записанная в виде нескольких уровней (в иерархическом виде), которая оценивает параметры[англ.] апостериорного распределения используя байесовский метод[1]. Подмодели комбинируются в иерархическую модель и используется теорема Байеса для объединения их с наблюдаемыми данными и учёта всех присутствующих неопределённостей. Результатом этого объединения является апостериорное распределение, известное также как уточнённая оценка вероятности после того, как получены дополнительные сведения об априорной вероятности.
Введение
[править | править код]Частотная статистика[англ.], наиболее популярное основание статистики[англ.], может дать заключение по внешнему виду несовместимое с заключением, которое даёт байесовская статистика, поскольку байесовский подход трактует параметры как случайные величины и использует субъективную информацию для установления допущений на эти параметры[2]. Так как подходы отвечают на разные вопросы, формальные результаты технически не являются противоречивыми, но два подхода расходятся во мнении, какой ответ относится к конкретным приложениям. Приверженцы байесовского подхода утверждают, что относящаяся к принятию решения информация и обновление уверенностей нельзя игнорировать и что иерархическое моделирование имеет потенциал взять верх над классическими методами в приложениях, где респондент даёт несколько вариантов данных наблюдений. Более того доказано, что модель робастна с меньшей чувствительностью апостериорного распределения к изменчивым иерархическим априорным данным.
Иерархическое моделирование используется, когда информация доступна в нескольких различных уровнях наблюдаемых величин. Иерархический вид анализа и представления помогают в понимании многопараметрических задач и играют важную роль в разработке вычислительных стратегий[3].
Философия
[править | править код]Многочисленные статистические приложения используют несколько параметров, которые можно считать как зависимые или связанные таким образом, что задача предполагает зависимость модели совместной вероятности этих параметров[4].
Индивидуальные степени уверенности, выраженные в форме вероятностей, имеют свою неопределённость[5]. Кроме того, возможны изменения степени уверенности со времени. Как утверждали профессор Жозе М. Бернардо и профессор Адриан Ф. Смит, «Актуальность процесса обучения состоит в эволюции индивидуальной и субъективной уверенности о реальности». Эти субъективные вероятности привлекаются в разум более непосредственно, чем физические вероятности[6]. Следовательно, это требует обновления уверенности, и сторонники байесовского подхода сформулировали альтернативную статистическую модель, которая принимает во внимание априорные случаи конкретного события[7].
Теорема Байеса
[править | править код]Предполагаемое получение реального события обычно изменяет предпочтения между определёнными вариантами. Это делается путём изменения степени доверия к событиям, определяющим варианты[8].
Предположим, что при изучении эффективности сердечной терапии пациентов в госпитале j, имеющих вероятность выживания , вероятность выживания обновляется при событии y, заключающемся в создании гипотетической сомнительной сыворотки, которая, как думают некоторые, увеличивает выживание больных с сердечными проблемами.
Чтобы сделать обновлённые утверждения о вероятности , задающее возникновение события y, мы должны начать с модели, обеспечивающей совместное распределение вероятностей для и y. Это может быть записано как произведение двух распределений, которые часто упоминаются как априорная вероятность и выборочное распределение соответственно:
Если использовать основное свойство условной вероятности, апостериорное распределение даст:
Равенство, показывающее связь между условной вероятностью и индивидуальными событиями, известно как теорема Байеса. Это простое выражение воплощает техническое ядро байесовского вывода, которое нацелено на включение обновлённого доверия в уместном и разрешимом виде[8].
Перестановочность
[править | править код]Обычной стартовой точкой статистического анализа является предположение, что n значений перестановочны. Если никакой информации, отличной от данных y, недоступно для различения любого от любого другого и никакого упорядочения или группировки параметров нельзя сделать, следует предполагать симметрию параметров относительно их априорной вероятности[9]. Эта симметрия представлена вероятностной перестановочностью. Обычно полезно и приемлемо моделировать данные из перестановочного распределения как независимые и одинаково распределённые, если дан некоторый неизвестный вектор параметров с распределением .
Конечная перестановочность
[править | править код]Для фиксированного числа n набор перестановочен, если совместное распределение инвариантно относительно перестановок индексов. То есть, для любой перестановки or индексов (1, 2, …, n), [10]
Ниже приведён пример перестановочной, но не независимой и одинаково распределённой последовательности: Рассмотрим урну с красными и синими шарами с вероятностями вытаскивания шаров. Шары вытаскиваются без возврата в урну, то есть, после вытаскивания одного из n шаров в урне остаётся n − 1 шаров для следующего вытаскивания.
Пусть если -й шар красный иначе.
Поскольку вероятность вытаскивания красного шара при первом вытаскивании и синего шара при втором вытаскивании равна вероятности вытаскивания синего шара при первом вытаскивании и красного при втором, которые обе равны 1/2 (то есть ), то и перестановочны.
Однако вероятность выбора красного шара при втором вытаскивании уже не будет равна 1/2. Таким образом, и не независимы.
Если независимы и одинаково распределены, то они перестановочны, но обратное не обязательно верно[11].
Бесконечная перестановочность
[править | править код]Бесконечная перестановочность — это такое свойство, что любое конечное подмножество бесконечной последовательности , перестановочно. То есть, для любого n последовательность перестановочна[11].
Иерархические модели
[править | править код]Составляющие
[править | править код]Байесовское иерархическое моделирование использует две важные концепции для получения апостериорного распределения[1], а именно:
- Гиперпараметр[англ.]: параметры априорного распределения
- Гиперприорные распределения[англ.]: распределения гиперпараметров
Предположим, что случайная величина Y имеет нормальное распределение с параметром θ как среднее и параметром 1 в качестве дисперсии, то есть . Предположим, что параметр имеет распределение, задаваемое нормальным распределением со средним и дисперсией 1, то есть . Кроме того, является другим распределением, заданным, например, стандартным нормальным распределением . Параметр называется гиперпараметром, в то время как его распределение, заданное как , является примером гиперприорного распределения. Обозначение для Y изменяется с добавлением другого параметра, то есть . Если имеется другой уровень, скажем, является другим нормальным распределением со средним и дисперсией , что означает , то и могут также быть названы гиперпараметрами, а их распределения являются гиперприорными распределениями[4].
Система
[править | править код]Пусть будут наблюдениями и будет параметром, который управляет процессом генерации . Предположим далее, что параметры порождаются перестановочными из основной популяции с распределением, управляемым гиперпараметром .
Байесовская иерархическая модель содержит следующие уровни:
- Уровень I:
- Уровень II:
- Уровень III:
Правдоподобие, как видно из уровня I, равно , c в качестве его априорного распределения. Заметим, что правдоподобие зависит только от через .
Априорное распределение из уровня I может быть разбито на:
- [из определения условной вероятности]
где является гиперпараметром с гиперприорным распределением .
Тогда апостериорное распределение пропорционально этой величине:
- [используя теорему Байеса]
- [12]
Пример
[править | править код]Для иллюстрации рассмотрим пример: Учитель хочет оценить, насколько хорошо студент выполнил свой SAT тест (англ. Scholastic Assessment Test[13]). Он использует информацию о студенте в старших классах и его текущем среднем балле оценок (англ. grade point average, GPA), чтобы получить оценку. Текущая GPA, обозначим её , имеет правдоподобие, задаваемое некоторой функцией вероятности с параметром , то есть . Этот параметр является баллом SAT студента. Балл SAT рассматривается как элемент выборки, полученный из общей выборки, полученной из распределения общей популяции, индексированной другим параметром , которая является баллом студента в старших классах школы[14]. То есть, . Более того, гиперпараметр имеет своё собственное распределение с функцией , которое называется гиперприорным распределением.
Чтобы получить балл SAT по информации о GPA,
Вся информация в задаче будет использована для получения апостериорного распределения. Вместо решения с использованием только априорной вероятности и функции правдоподобия, использование гиперприорных распределений даёт больше информации, что приводит к большей уверенности в поведении параметра[15].
Двухуровневая иерархическая модель
[править | править код]В общем случае интересующее нас совместное апостериорное распределение 2-уровневых иерархических моделей равно:
Трёхуровневая иерархическая модель
[править | править код]Для 3-уровневых иерархических моделей апостериорное распределение задаётся так:
Примечания
[править | править код]- ↑ 1 2 Allenby, Rossi, McCulloch, 2005, с. 3.
- ↑ Gelman, Carlin, Stern, Rubin, 2004, с. 4–5.
- ↑ Gelman, Carlin, Stern, Rubin, 2004, с. 6.
- ↑ 1 2 Gelman, Carlin, Stern, Rubin, 2004, с. 117.
- ↑ Good, 1980, с. 480.
- ↑ Good, 1980, с. 489—490.
- ↑ Bernardo, Smith, 1994, с. 23.
- ↑ 1 2 Gelman, Carlin, Stern, Rubin, 2004, с. 6—8.
- ↑ Dickey, Chen, 1983, с. 167–168.
- ↑ Gelman, Carlin, Stern, Rubin, 2004, с. 121—125.
- ↑ 1 2 Diaconis, Freedman, 1980, с. 745–747.
- ↑ Kadane, Wasilkowski, 1983, с. 371–372.
- ↑ «Академический оценочный тест» — стандартизованный тест для приёма в высшие учебные заведения США
- ↑ Gelman, Carlin, Stern, Rubin, 2004, с. 120—121.
- ↑ 1 2 3 Box, Tiao, 1965.
Литература
[править | править код]- Greg M. Allenby, Peter E. Rossi, Robert E. McCulloch. Hierarchical Bayes Model: A Practitioner’s Guide. — 2005. — Январь.
- Andrew Gelman, John B. Carlin, Hal S. Stern, Donald B. Rubin. Bayesian Data Analysis. — 2nd. — Boca Raton, Florida: CRC Press, 2004. — ISBN 1-58488-388-X.
- Good I.J. Some history of the hierarchical Bayesian methodology // Trabajos de Estadistica Y de Investigacion Operativa. — Springer – Verlag, 1980. — Февраль (т. 31, вып. 1).
- Jose M. Bernardo, Adrian F.M. Smith. Bayesian Theory. — Chichester, England: John Wiley & Sons, 1994. — (Willey series in probability and statistics). — ISBN 0-471-92416-4.
- Diaconis P., Freedman D. Finite exchangeable sequences // Annals of Probability. — 1980.
- Greg M. Allenby, Peter E. Rossi. Bayesian Applications in Marketing // SSRN Electronic Journal. — 2009.
- Box G. E. P., Tiao G. C. Multiparameter problem from a bayesian point of view. Multiparameter Problems From A Bayesian Point of View. — New York City: John Wiley & Sons, 1965. — Т. 36. — ISBN 0-471-57428-7. Другие тома Архивная копия от 15 января 2019 на Wayback Machine
- Kadane J.B., Wasilkowski G.W. Average case -complexity in computer science, a Bayesian view // Bayesian Statistics 2 / Bernardo J.M., Degroot V.H., Lindley D.V., Smith A.F.M.. Proceedings of the Second Valencia International Meeting. — Amsterdam, New York, Oxford: Elsevier Science Publishers B.V, 1983. — ISBN 0-444-87746-0. Похожая книга Архивная копия от 26 июля 2020 на Wayback Machine
- James M. Dickey, Chong-Hong Chen. Direct Subjective-Probability Modelling Using Ellipsoidal Distributions // Proceedings of the Second Valencia International Meeting / Bernardo J.M., Degroot V.H., Lindley D.V., Smith A.F.M.. — Amsterdam, New York, Oxford: Elsevier Science Publishers B.V, 1983. — ISBN 0-444-87746-0.
Для улучшения этой статьи желательно:
|