Вероятность

Вероя́тность — степень (относительная мера, количественная оценка) возможности наступления некоторого события. Когда основания для того, чтобы какое-нибудь возможное событие произошло в действительности, перевешивают противоположные основания, то это событие называют вероятным, в противном случае — маловероятным или невероятным. Перевес положительных оснований над отрицательными, и наоборот, может быть в различной степени, вследствие чего вероятность (и невероятность) бывает большей или меньшей^[1]. Поэтому часто вероятность оценивается на качественном уровне, особенно в тех случаях, когда более или менее точная количественная оценка невозможна или крайне затруднительна. Возможны различные градации «уровней» вероятности^[2].

Исследование вероятности с математической точки зрения составляет особую дисциплину — теорию вероятностей^[1]. В теории вероятностей и математической статистике понятие вероятности формализуется как числовая характеристика события — вероятностная мера (или её значение) — мера на множестве событий (подмножеств множества элементарных событий), принимающая значения от $0$ до $1$ . Значение $1$ соответствует достоверному событию. Невозможное событие имеет вероятность 0 (обратное вообще говоря не всегда верно). Если вероятность наступления события равна $p$ , то вероятность его ненаступления равна $1-p$ . В частности, вероятность $1/2$ означает равную вероятность наступления и ненаступления события.

Классическое определение вероятности основано на понятии равновозможности исходов. В качестве вероятности выступает отношение количества исходов, благоприятствующих данному событию, к общему числу равновозможных исходов. Например, вероятность выпадения «орла» или «решки» при случайном подбрасывании монетки равна 1/2, если предполагается, что только эти две возможности имеют место^[3] и они являются равновозможными. Данное классическое «определение» вероятности можно обобщить на случай бесконечного количества возможных значений — например, если некоторое событие может произойти с равной вероятностью в любой точке (количество точек бесконечно) некоторой ограниченной области пространства (плоскости), то вероятность того, что оно произойдет в некоторой части этой допустимой области равна отношению объёма (площади) этой части к объёму (площади) области всех возможных точек.

Эмпирическое «определение» вероятности связано с частотой наступления события исходя из того, что при достаточно большом числе испытаний частота должна стремиться к объективной степени возможности этого события. В современном изложении теории вероятностей вероятность определяется аксиоматически, как частный случай абстрактной теории меры множества. Тем не менее, связующим звеном между абстрактной мерой и вероятностью, выражающей степень возможности наступления события, является именно частота его наблюдения.

Вероятностное описание тех или иных явлений получило широкое распространение в современной науке, в частности в эконометрике, статистической физике макроскопических (термодинамических) систем, где даже в случае классического детерминированного описания движения частиц детерминированное описание всей системы частиц не представляется практически возможным и целесообразным. В квантовой физике сами описываемые процессы имеют вероятностную природу.

История

Предыстория понятия вероятности

Необходимость понятия вероятности и исследований в этом направлении была исторически связана с азартными играми, особенно с играми в кости. До появления понятия вероятности формулировались в основном комбинаторные задачи подсчета числа возможных исходов при бросании нескольких костей, а также задача раздела ставки между игроками, когда игра закончена досрочно. Первую задачу при бросании трех костей «решил» в 960 году епископ Виболд из г. Камбрэ^[4]. Он насчитал 56 вариантов. Однако это количество по сути не отражает количество равновероятных возможностей, поскольку каждый из 56 вариантов может реализоваться разным количеством способов. В первой половине 13 века эти аспекты учел Ришар де Форниваль. Несмотря на то, что у него тоже фигурирует число 56, но он в рассуждениях учитывает, что, например, «одинаковое количество очков на трех костях можно получить шестью способами». Основываясь на его рассуждениях уже можно установить, что число равновозможных вариантов — 216. В дальнейшем многие не совсем верно решали эту задачу. Впервые четко количество равновозможных исходов при подбрасывании трех костей подсчитал Галилео Галилей, возводя шестерку (количество вариантов выпадения одной кости) в степень 3 (количество костей): 6³=216. Он же составил таблицы количества способов получения различных сумм очков.

Задачи второго типа в конце 15 века сформулировал и предложил первое (вообще говоря ошибочное) решение Лука Пачоли^[4]. Его решение заключалось в делении ставки пропорционально уже выигранным партиям. Существенное дальнейшее продвижение в начале 16 века связано с именами итальянских ученых Джероламо Кардано и Н. Тарталья. Кардано дал правильный подсчет количества случаев при бросании двух костей (36). Он также впервые соотнес количество случаев выпадения некоторого числа хотя бы на одной кости (11) к общему числу исходов (что соответствует классическому определению вероятности) — 11/36. Аналогично и для трех костей он рассматривал, например, что девять очков может получиться количеством способов, равным 1/9 «всей серии» (то есть общего количества равновозможных исходов — 216). Кардано формально не вводил понятие вероятности, но по существу рассматривал относительное количество исходов, что по сути эквивалентно рассмотрению вероятностей. Необходимо также отметить, что в зачаточном состоянии у Кардано можно найти также идеи, связанные с законом больших чисел. По поводу задачи деления ставки Кардано предлагал учитывать количество оставшихся партий, которые надо выиграть. Н. Тарталья также сделал замечания по поводу решения Луки и предложил свое решение (вообще говоря, тоже ошибочное).

Заслуга Галилея также заключается в расширении области исследований на область ошибок наблюдений. Он впервые указал на неизбежность ошибок и классифицировал их на систематические и случайные (такая классификация применяется и сейчас).

Возникновение понятия и теории вероятностей

Первые работы о вероятности относятся к 17 веку. Такие как переписка французских учёных Б. Паскаля, П. Ферма (1654 год) и голландского учёного X. Гюйгенса (1657 год) давшего самую раннюю из известных научных трактовок вероятности^[5]. По существу Гюйгенс уже оперировал понятием математического ожидания. Швейцарский математик Я. Бернулли, установил закон больших чисел для схемы независимых испытаний с двумя исходами (посмертно, 1713 год).

В XVIII в. — начале ХIХ в. теория вероятностей получает развитие в работах А. Муавра (Англия)(1718 год), П. Лаплас (Франция), К. Гаусса (Германия) и С. Пуассона (Франция). Теория вероятностей начинает применяться в теории ошибок наблюдений, развившейся в связи с потребностями геодезии и астрономии, и в теории стрельбы. Необходимо отметить, что закон распределения ошибок по сути предложил Лаплас сначала как экспоненциальная зависимость от ошибки без учета знака (в 1774 год), затем как экспоненциальную функцию квадрата ошибки (в 1778 году). Последний закон обычно называют распределением Гаусса или нормальным распределением. Бернулли (1778 год) ввел принцип произведения вероятностей одновременных событий. Адриен Мари Лежандр (1805) разработал метод наименьших квадратов.

Во второй половине XIX в. развитие теории вероятностей связано с работами русских математиков П. Л. Чебышёва, А. М. Ляпунова и А. А. Маркова (старшего), а также работы по математической статистике А. Кетле (Бельгия) и Ф. Гальтона (Англия) и статистической физике Л. Больцмана (в Австрии), которые создали основу для существенного расширения проблематики теории вероятностей. Наиболее распространённая в настоящее время логическая (аксиоматическая) схема построения основ теории вероятностей разработана в 1933 советским математиком А. Н. Колмогоровым.

Определения вероятности

Классическое определение

Классическое «определение» вероятности исходит из понятия равновозможности как объективного свойства изучаемых явлений. Равновозможность является неопределяемым понятием и устанавливается из общих соображений симметрии изучаемых явлений. Например, при подбрасывании монетки исходят из того, что в силу предполагаемой симметрии монетки, однородности материала и случайности (непредвзятости) подбрасывания нет никаких оснований для предпочтения «решки» перед «орлом» или наоборот, то есть выпадение этих сторон можно считать равновозможными (равновероятными).

Наряду с понятием равновозможности в общем случае для классического определения необходимо также понятие элементарного события (исхода), благоприятствующего или нет изучаемому событию A. Речь идет об исходах, наступление которых исключает возможность наступления иных исходов. Это несовместимые элементарные события. К примеру при бросании игральной кости выпадение конкретного числа исключает выпадение остальных чисел.

Классическое определение вероятности можно сформулировать следующим образом:

Вероятностью случайного события A называется отношение числа n несовместимых равновероятных элементарных событий, составляющих событие A, к числу всех возможных элементарных событий N:

P(A)={\frac {n}{N}}

Например, пусть подбрасываются две кости. Общее количество равновозможных исходов (элементарных событий) равно 36 (так как на каждый из 6 возможных исходов одной кости возможно по 6 вариантов исхода другой). Оценим вероятность выпадения семи очков. Получить 7 очков можно лишь при следующих сочетаниях исходов броска двух костей: 1+6, 2+5, 3+4, 4+3, 5+2, 6+1. То есть всего 6 равновозможных исходов, благоприятствующих получению 7 очков, из 36 возможных исходов броска костей. Следовательно, вероятность будет равна 6/36 или, если сократить, 1/6. Для сравнения: вероятность получения 12 очков или 2 очков равна всего 1/36 — в 6 раз меньше.

Геометрическое определение

Несмотря на то, что классическое определение является интуитивно понятным и выведенным из практики, оно, как минимум, не может быть непосредственно применено в случае, если количество равновозможных исходов бесконечно. Ярким примером бесконечного числа возможных исходов является ограниченная геометрическая область G, например, на плоскости, с площадью S. Случайно «подброшенная» «точка» с равной вероятностью может оказаться в любой точке этой области. Задача заключается в определении вероятности попадания точки в некоторую подобласть g с площадью s. В таком случае, обобщая классическое определение, можно прийти к геометрическому определению вероятности попадания в подобласть $g$ :

P(A)={\frac {s}{S}}

В виду равновозможности вероятность эта не зависит от формы области g, она зависит только от её площади. Данное определение естественно можно обобщить и на пространство любой размерности, где вместо площади использовать понятие «объёма». Более того, именно такое определение приводит к современному аксиоматическому определению вероятности. Понятие объёма обобщается до понятия меры некоторого абстрактного множества, к которой предъявляются требования, которыми обладает и «объём» в геометрической интерпретации — в первую очередь, это неотрицательность и аддитивность.

Частотное (статистическое) определение

Классическое определение при рассмотрении сложных проблем наталкивается на трудности непреодолимого характера. В частности, в некоторых случаях выявить равновозможные случаи может быть невозможно. Даже в случае с монеткой, как известно, существует явно не равновероятная возможность выпадения «ребра», которую из теоретических соображений оценить невозможно (можно только сказать, что оно маловероятно и то это соображение скорее практическое). Поэтому еще на заре становления теории вероятностей было предложено альтернативное «частотное» определение вероятности. А именно, формально вероятность можно определить как предел частоты наблюдений события A, предполагая однородность наблюдений (то есть одинаковость всех условий наблюдения) и их независимость друг от друга:

$P(A)=\lim _{N\rightarrow \infty }{\frac {n}{N}},$

где $N$ — количество наблюдений, а $n$ — количество наступлений события $A$ .

Несмотря на то, что данное определение скорее указывает на способ оценки неизвестной вероятности — путем большого количества однородных и независимых наблюдений — тем не менее в таком определении отражено содержание понятия вероятности. А именно, если событию приписывается некоторая вероятность, как объективная мера его возможности, то это означает, что при фиксированных условиях и многократном повторении мы должны получить частоту его появления, близкую к $p$ (тем более близкую, чем больше наблюдений). Собственно, в этом заключается исходный смысл понятия вероятности. В основе лежит объективистский взгляд на явления природы. Ниже будут рассмотрены так называемые законы больших чисел, которые дают теоретическую основу (в рамках излагаемого ниже современного аксиоматического подхода) в том числе для частотной оценки вероятности.

Аксиоматическое определение

В современном математическом подходе вероятность задаётся аксиоматикой Колмогорова. Предполагается, что задано некоторое пространство элементарных событий $X$ . Подмножества этого пространства интерпретируются как случайные события. Объединение (сумма) некоторых подмножеств (событий) интерпретируется как событие, заключающееся в наступлении хотя бы одного из этих событий. Пересечение (произведение) подмножеств (событий) интерпретируется как событие, заключающееся в наступлении всех этих событий. Непересекающиеся множества интерпретируются как несовместные события (их совместное наступление невозможно). Соответственно, пустое множество означает невозможное событие.

Вероятностью (вероятностной мерой) называется мера (числовая функция) $\mathbf {P}$ , заданная на множестве событий, обладающая следующими свойствами:

Неотрицательность: $\forall A\subset X\colon \mathbf {P} (A)\geqslant 0$ ,
Аддитивность: вероятность наступления хотя бы одного (то есть суммы) из попарно несовместных событий равна сумме вероятностей этих событий; другими словами, если $A_{i}A_{j}=\varnothing$ при $i\neq j$ , то $P(\sum _{i}A_{i})=\sum _{i}\mathbf {P} (A_{i})$ .
Конечность (ограниченность единицей): $\mathbf {P} (X)=1$ ,

В случае если пространство элементарных событий X конечно, то достаточно указанного условия аддитивности для произвольных двух несовместных событий, из которого будет следовать аддитивность для любого конечного количества несовместных событий. Однако, в случае бесконечного (счётного или несчётного) пространства элементарных событий этого условия оказывается недостаточно. Требуется так называемая счётная или сигма-аддитивность, то есть выполнение свойства аддитивности для любого не более чем счётного семейства попарно несовместных событий. Это необходимо для обеспечения «непрерывности» вероятностной меры.

Вероятностная мера может быть определена не для всех подмножеств множества $X$ . Предполагается, что она определена на некоторой сигма-алгебре $\Omega$ подмножеств^[6]. Эти подмножества называются измеримыми по данной вероятностной мере и именно они являются случайными событиями. Совокупность $(X,\Omega ,P)$ — то есть множество элементарных событий, сигма-алгебра его подмножеств и вероятностная мера — называется вероятностным пространством.

Свойства вероятности

Основные свойства вероятности проще всего определить, исходя из аксиоматического определения вероятности.

1) вероятность невозможного события (пустого множества $\varnothing$ ) равна нулю:

\mathbf {P} \{\varnothing \}=0;

Это следует из того, что каждое событие можно представить как сумму этого события и невозможного события, что в силу аддитивности и конечности вероятностной меры означает, что вероятность невозможного события должна быть равна нулю.

2) если событие A включается («входит») в событие B, то есть $A\subset B$ , то есть наступление события A влечёт также наступление события B, то:

\mathbf {P} \{A\}\leqslant \mathbf {P} \{B\};

Это следует из неотрицательности и аддитивности вероятностной меры, так как событие $B$ , возможно, «содержит» кроме события $A$ ещё какие-то другие события, несовместные с $A$ .

3) вероятность каждого события $A$ находится от 0 до 1, то есть удовлетворяет неравенствам:

0\leqslant \mathbf {P} \{A\}\leqslant 1;

Первая часть неравенства (неотрицательность) утверждается аксиоматически, а вторая следует из предыдущего свойства с учётом того, что любое событие «входит» в $X$ , а для $X$ аксиоматически предполагается $\mathbf {P} \{X\}=1$ .

4) вероятность наступления события $B\setminus A$ , где $A\subset B$ , заключающегося в наступлении события $B$ при одновременном ненаступлении события $A$ , равна:

\mathbf {P} \{B\setminus A\}=\mathbf {P} \{B\}-\mathbf {P} \{A\};

Это следует из аддитивности вероятности для несовместных событий и из того, что события $A$ и $B\setminus A$ являются несовместными по условию, а их сумма равна событию $B$ .

5) вероятность события ${\bar {A}}$ , противоположного событию $A$ , равна:

\mathbf {P} \{{\bar {A}}\}=1-\mathbf {P} \{A\};

Это следует из предыдущего свойства, если в качестве множества $B$ использовать всё пространство $X$ и учесть, что $\mathbf {P} \{X\}=1$ .

6) (теорема сложения вероятностей) вероятность наступления хотя бы одного из (то есть суммы) произвольных (не обязательно несовместных) двух событий $A$ и $B$ равна:

\mathbf {P} \{A+B\}=\mathbf {P} \{A\}+\mathbf {P} \{B\}-\mathbf {P} \{AB\}.

Это свойство можно получить, если представить объединение двух произвольных множеств как объединение двух непересекающихся — первого и разности между вторым и пересечением исходных множеств: $A+B=A+(B\setminus (AB))$ . Отсюда учитывая аддитивность вероятности для непересекающихся множеств и формулу для вероятности разности (см. свойство 4) множеств, получаем требуемое свойство.

Условная вероятность

Формула Байеса

Вероятность наступления события $A$ , при условии наступления события $B$ , называется условной вероятностью $A$ (при данном условии) и обозначается $P(A|B)$ . Наиболее просто вывести формулу определения условной вероятности исходя из классического определения вероятности. Для данных двух событий $A$ и $B$ рассмотрим следующий набор несовместных событий: $A{\overline {B}},AB,{\overline {A}}B,{\overline {A}}\cdot {\overline {B}}$ , которые исчерпывают все возможные варианты исходов (такой набор событий называют полным — см. ниже). Общее количество равновозможных исходов равно $n$ . Если событие $B$ уже наступило, то равновозможные исходы ограничивается лишь двумя событиями $AB,{\overline {A}}B$ , что эквивалентно событию $B$ . Пусть количество этих исходов равно $n_{B}$ . Из этих исходов событию $A$ благоприятствуют лишь те, что связаны с событием $AB$ . Количество соответствующих исходов обозначим $n_{AB}$ . Тогда согласно классическому определению вероятности вероятность события $A$ при условии наступления события $B$ будет равна $P(A|B)=n_{AB}/n_{B}$ , разделив числитель и знаменатель на общее количество равновозможных исходов $n$ и повторно учитывая классическое определение, окончательно получим формулу условной вероятности:

P(A|B)={\frac {P(AB)}{P(B)}}

.

Отсюда следует так называемая теорема умножения вероятностей:

P(AB)=P(B)P(A|B)

.

В силу симметрии, аналогично можно показать, что также $P(AB)=P(A)P(B|A)$ , отсюда следует формула Байеса:

P(A|B)={\frac {P(A)P(B|A)}{P(B)}}

Независимость событий

События A и B называются независимыми, если вероятность наступления одного из них не зависит от того, наступило ли другое событие. С учетом понятия условной вероятности это означает, что $P(A|B)=P(A)$ , откуда следует, что для независимых событий выполняется равенство

P(AB)=P(A)P(B).

В рамках аксиоматического подхода данная формула принимается как определение понятия независимости двух событий. Для произвольной (конечной) совокупности событий $A_{i}$ их независимость в совокупности означает, что вероятность их совместного наступления равна произведению их вероятностей:

P(A_{1}A_{2}\times \ldots \times A_{n})=P(A_{1})P(A_{2})\times \ldots \times P(A_{n}).

Выведенная (в рамках классического определения вероятности) выше формула условной вероятности при аксиоматическом определении вероятности является определением условной вероятности. Соответственно, как следствие определений независимых событий и условной вероятности, получается равенство условной и безусловной вероятностей события.

Полная вероятность и формула Байеса

Набор событий $A_{j}$ , хотя бы одно из которых обязательно (с единичной вероятностью) наступит в результате испытания, называется полным. Это означает, что набор таких событий исчерпывает все возможные варианты исходов. Формально в рамках аксиоматического подхода это означает, что $\sum _{i}A_{i}=X$ . Если эти события несовместны, то в рамках классического определения это означает, что сумма количеств элементарных событий, благоприятствующих тому или иному событию, равно общему количеству равновозможных исходов.

Пусть имеется полный набор попарно несовместных событий $A_{i}$ . Тогда для любого события $B$ верна следующая формула расчета его вероятности (формула полной вероятности):

P(B)=\sum _{i=1}^{n}P(B|A_{i})P(A_{i})

Тогда вышеописанную формулу Байеса с учетом полной вероятности можно записать в следующем виде:

$P(A_{j}|B)={\frac {P(A_{j})P(B|A_{j})}{\sum _{i=1}^{n}P(A_{i})P(B|A_{i})}}$

Данная формула является основой альтернативного подхода к вероятности — байесовского или субъективного подхода (см. ниже).

Вероятность и случайные величины

Важнейший частный случай применения «вероятности» — вероятность получения в результате испытания или наблюдения того или иного числового значения некоторой измеряемой (наблюдаемой) величины. Предполагается, что до проведения испытания (наблюдения) точное значение этой величины неизвестно, то есть имеется явная неопределенность, связанная обычно (за исключением квантовой физики) с невозможностью учета всех факторов, влияющих на результат. Такие величины называют случайными. В современной теории вероятностей понятие случайной величины формализуется и она определяется как функция «случая» — функция на пространстве элементарных событий. При таком определении наблюдаются не сами элементарные события, а «реализации», конкретные значения случайной величины. Например, при подбрасывании монетки выпадает «решка» или «орел». Если ввести функцию, ставящую в соответствие «решке» — число 1, а «орлу» — 0, то получим случайную величину как функцию указанных исходов. При этом понятие случайной величины обобщается на функции, отображающие пространство элементарных событий в некоторое пространство произвольной природы, соответственно можно ввести понятия случайного вектора, случайного множества и т. д. Однако, обычно под случайной величиной подразумевают именно числовую функцию (величину).

Отвлекаясь от описанной формализации под пространством элементарных событий можно понимать множество возможных значений случайной величины. Сигма-алгеброй подмножеств являются произвольные интервалы на числовой оси, их всевозможные (счетные) объединения и пересечения. Вероятностную меру называют в данном случае распределением случайной величины. Достаточно задать вероятностную меру для интервалов вида $(-\infty ;x)$ , поскольку произвольный интервал можно представить как объединение или пересечение таких интервалов. Предполагается, что каждому интервалу вышеуказаного вида поставлена в соответствие некоторая вероятность $F(x)=P(X<x)$ , то есть некоторая функция возможных значений $x$ . Такую функцию называют интегральной, кумулятивной или просто функцией распределения случайной величины. В случае дифференцируемости этой функции (в этом случае соответствующие случайные величины называются непрерывными) вводится также аналитически часто более удобная функция — плотность распределения — производная функции распределения: $f(x)=F'(x)$ . В случае дискретных случайных величин вместо плотности (она не существует в этом случае) можно использовать непосредственно ряд распределения $p_{i}$ — вероятность $i$ -го значения. Соответствующая функция распределения будет связана с рядом распределения как: $F(x)=\sum _{x_{i}<x}p_{i}$ . Вероятность того, что случайная величина окажется в некотором интервале $(x_{1},x_{2})$ определяется как разность значений функции распределения на концах этого интервала. Через плотность распределения — это соответствующий интеграл от плотности на данном интервале (для дискретной случайной величины — просто сумма вероятностей значений из этого интервала).

Распределение случайной величины дает её полную характеристику. Однако, часто используют отдельные характеристики этого распределения. В первую очередь это математическое ожидание случайной величины — среднее ожидаемое значение случайной величины с учетом взвешивания по вероятностям появления тех или иных значений, и дисперсия или вариация — средний квадрат отклонения случайной величины от её математического ожидания. В некоторых случаях используются и иные характеристики, среди которых важное значение имеют асимметрия и эксцесс. Описанные показатели являются частными случаями так называемых моментов распределения.

Существуют некоторые стандартные законы распределения, часто используемые на практике. В первую очередь — это нормальное распределение (распределение Гаусса). Оно полностью характеризуется двумя параметрами — математическим ожиданием и дисперсией. Его широкое использование связано, в частности, с так называемыми предельными теоремами (см. ниже). При проверке гипотез часто возникают распределения Хи-квадрат, распределение Стьюдента, распределение Фишера. При анализе дискретных случайных величин рассматриваются биномиальное распределение, распределение Пуассона и др. Также часто рассматривается гамма-распределение, частным случаем которого является экспоненциальное распределение, а также указанное выше распределение Хи-квадрат Естественно, используемые на практике распределения не ограничиваются только этими распределениями.

Часто на практике исходя из априорных соображений делается предположение, что распределение вероятностей данной случайной величины относится к некоторому известному с точностью до параметров распределению. Например, к тому же нормальному распределению, но с неизвестным математическим ожиданием и дисперсией (эти два параметра однозначно определяют все нормальное распределение). Задачей статистических наук (математическая статистика, эконометрика и т. д.) в таком случае является оценка значений этих параметров наиболее эффективным (точным) способом. Существуют критерии, с помощью которых можно установить степень «истинности» соответствующих методов оценки. Обычно требуется как минимум состоятельность оценки, несмещенность и эффективность в некотором классе оценок.

На практике применяются также непараметрические методы оценки распределений.

Законы больших чисел

Важнейшее значение в теории вероятностей и в её приложениях имеет группа теорем, объединяемых обычно под названием «закон больших чисел» или предельных теорем. Не прибегая к строгим формулировкам, можно сказать, например, что при некоторых слабых условиях среднее значение независимых одинаково распределенных случайных величин стремится к их математическому ожиданию при достаточно большом количестве этих случайных величин. Если в качестве совокупности случайных величин рассматривать независимые наблюдения одной и той же случайной величины, то это означает, что среднее по выборочным наблюдениям должно стремиться к истинному (неизвестному) математическому ожиданию этой случайной величины. Это закон больших чисел в форме Чебышёва. Это даёт основу для получения соответствующих оценок.

Весьма частным, но очень важным случаем является схема Бернулли — независимые испытания, в результате которых некоторое событие либо происходит, либо нет. Предполагается, что в каждом испытании вероятность наступления события одинакова и равна $p$ (но она неизвестна). Эту схему можно свести к средней величине, если ввести формальную случайную величину X, являющуюся индикатором наступления события: она равна 1 при наступлении события и 0 при ненаступлении события. Для такой случайной величины математическое ожидание также равно $p$ . Тогда среднее значение такой случайной величины — это фактически частота наступления события $A$ . Согласно вышеуказанной теореме это среднее (частота) должно стремиться к истинному математическому ожиданию этой случайной величины, то есть к неизвестной вероятности $p$ . Таким образом, с увеличением количества наблюдений частоту наступления события можно использовать в качестве хорошей оценки неизвестной вероятности. Это так называемый закон больших чисел Бернулли. Это закон был исторически первым законом больших чисел. Более строго можно как минимум утверждать, что вероятность того, что частота будет отклоняться от $p$ на некоторую величину $\varepsilon$ , стремится к нулю для любых значений $\varepsilon$ . Более общий результат (теорема Гливенко — Кантелли) заключается в том, что эмпирическое распределение в целом стремится к истинному распределению вероятностей с ростом количества наблюдений.

Наряду с указанными теоремами существует так называемая центральная предельная теорема, которая дает предельное распределение вероятностей для средней, а именно, при определенных слабых условиях среднее значение наблюдений случайной величины при достаточно большом количестве наблюдений имеют нормальное распределение (независимо от исходного распределения самой случайной величины). Например, такое имеет место для среднего значения независимых одинаково распределенных случайных величин. В частности эта теорема применима и к схеме Бернулли. Вообще количество появлений события A в n испытаниях имеет биномиальное распределение, однако при достаточно большом количестве наблюдений это распределение согласно указанной теореме стремится к нормальному распределению в данном случае с математическим ожиданием $np$ и дисперсией $np(1-p)$ , где $p$ — вероятность появления события А в каждом испытании. Это утверждается в локальной и интегральной теоремах Муавра-Лапласа. Отсюда же следует и указанный выше вывод, а именно: среднее значение случайной величины-индикатора события — то есть частота появления события в испытаниях — будет иметь в пределе математическое ожидание $p$ и дисперсию $p(1-p)/n$ , которая стремится к нулю с ростом количества испытаний. Таким образом, частота стремится к истинной вероятности наступления события при увеличении количества независимых испытаний, причем мы знаем распределение частоты при достаточно большом количестве наблюдений.

Байесовский подход к вероятности

В основе вышеописанного объективного (частотного) подхода лежит предположение о наличии объективной неопределенности, присущей изучаемым явлениям. В альтернативном байесовском подходе неопределенность трактуется субъективно — как мера нашего незнания. В рамках байесовского подхода под вероятностью понимается степень уверенности в истинности суждения — субъективная вероятность.

Идея байесовского подхода заключается в переходе от априорных знаний к апостерирорным с учетом наблюдаемых явлений. Суть байесовского подхода следует из описанной выше формулы Байеса. Пусть имеются полный набор гипотез $A_{i}$ , причем из априорных соображений оценены вероятности справедливости этих гипотез (степень уверенности в них). Полнота набора означает, что хотя бы одна из этих гипотез верна и сумма априорных вероятностей $p(A_{i})$ равна 1. Также для изучаемого события $B$ из априорных соображений известны вероятности $P(B|A_{i})$ — вероятности наступления события $B$ , при условии справедливости гипотезы $A_{i}$ . Тогда с помощью формулы Байеса можно определить апостериорные вероятности $P(A_{j}|B)$ — то есть степень уверенности в справедливости гипотезы $A_{j}$ после того, как событие $B$ произошло. Собственно, процедуру можно повторить принимая новые вероятности за априорные и снова делая испытание, тем самым итеративно уточняя апостериорные вероятности гипотез.

В частности в отличие от базового подхода к оценке распределений случайных величин, где предполагается, что на основе наблюдений оцениваются значения неизвестных параметров распределений, в байесовском подходе предполагается что параметры — тоже случайные величины (с точки зрения нашего незнания их значений). В качестве гипотез выступают те или иные возможные значения параметров и предполагаются данными некоторые априорные плотности неизвестных параметров $p(\theta )$ . В качестве оценки неизвестных параметров выступает апостериорное распределение. Пусть в результате наблюдений получены некоторые значения $x$ изучаемой случайной величины. Тогда для значений данной выборки предполагая известным правдоподобие — вероятность (плотность) получения данной выборки при данных значениях параметров $p(x|\theta )$ , по формуле Байеса (в данном случае непрерывный аналог этой формулы, где вместо вероятностей участвуют плотности, а суммирование заменено интегрированием) получим апостериорную вероятность (плотность) $p(\theta |x)$ параметров при данной выборке.

Вероятность, информация и энтропия

Пусть имеется $N$ равновероятных исходов. Степень неопределенности опыта в этой ситуации можно характеризовать числом $H=\log _{2}N$ . Этот показатель, введенный инженером-связистом Хартли в 1928 году характеризует информацию, которую необходимо иметь, чтобы знать какой именно из $N$ равновозможных вариантов имеет место, то есть свести неопределенность опыта к нулю. Простейший способ выяснить это — задать вопросы типа «номер исхода меньше половины N», если да, то аналогичный вопрос можно задать и для одной из половин (в зависимости от ответа на вопрос) и т. д. Ответ на каждый подобный вопрос сокращает неопределенность. Всего таких вопросов для полного снятия неопределенности понадобится как раз $H$ . Более формально, номера исходов можно представить в двоичной системе счисления, тогда $H$ — это количество необходимых разрядов для такого представления, то есть количество информации в битах, с помощью которого можно закодировать реализацию равновозможных исходов. В общем случае, единица информации может быть и иной, поэтому логарифм теоретически можно использовать с любым основанием.

В общем случае (исходы не обязательно равновероятны) количество информации, связанное с реализацией одного из $N$ исходов, вероятности которых равны $p_{i}$ (предполагается $\sum _{i}p_{i}=1$ ) определяется следующим образом (формула Шеннона):

H=\sum _{i}p_{i}\log {\frac {1}{p_{i}}}=-\sum _{i}p_{i}\log p_{i}=-E(\log p)

где $E$ — знак математического ожидания.

Очевидно, при равновероятности всех исходов ( $p_{i}=1/N$ ) получаем уже известное соотношение $H=\log N$ . Для непрерывной случайной величины в этой формуле необходимо использовать вместо вероятностей — функцию плотности распределения и вместо суммы — соответствующий интеграл.

Указанную величину называют информацией, информационным количеством, информационной энтропией и т. д. Необходимо отметить, что такое определение информации абстрагируется от какого-либо содержания информации, содержания конкретных исходов. Информационное количество определяется только на основе вероятностей. Величину $H$ Шеннон назвал энтропией в связи со схожестью с термодинамической энтропией. Последнее понятие впервые ввел Рудольф Клаузис в 1865 году, а вероятностное толкование энтропии дал Людвиг Больцман в 1877 году. Энтропия макроскопической системы — это мера числа возможных микросостояний для данного макросостояния (более конкретно она пропорциональна логарифму количества микросостояний — статистическому весу) или мера «внутреннего беспорядка» макросистемы.

Вероятность и квантовая физика

В квантовой механике состояние системы (частицы) характеризуется волновой функцией (вообще говоря вектором состояния) — комплекснозначной функцией «координат», квадрат модуля которого интерпретируется как плотность вероятности получения заданных значений «координат». Согласно современным представлениям вероятностное определение состояния является полным и причиной вероятностного характера квантовой физики не являются какие-либо «скрытые» факторы — это связано с природой самих процессов. В квантовой физике оказываются возможными любые взаимопревращения различных частиц, не запрещенные теми или иными законами сохранения. И эти взаимопревращения подчиняются закономерностям — вероятностным закономерностям. По современным представлениям принципиально невозможно предсказать ни момент взаимопревращения, ни конкретный результат. Можно лишь говорить о вероятностях тех или иных процессов превращения. Вместо точных классических величин в квантовой физике возможна только оценка средних значений (математических ожиданий) этих величин, например, среднее время жизни частицы.

Вероятность в других сферах

Кроме вопроса о вероятности факта, может возникать, как в области права, так и в области нравственной (при известной этической точке зрения) вопрос о том, насколько вероятно, что данный частный факт составляет нарушение общего закона. Этот вопрос, служащий основным мотивом в религиозной юриспруденции Талмуда, вызвал и в римско-католическом нравственном богословии (особенно с конца XVI века) весьма сложные систематические построения и огромную литературу, догматическую и полемическую (см. Пробабилизм)^[1].

См. также

Примечания

↑ ¹ ² ³ В. С. Соловьёв Вероятность // Энциклопедический словарь Брокгауза и Ефрона : в 86 т. (82 т. и 4 доп.). — СПб., 1890—1907.
↑ Так, например, в юриспруденции, когда подлежащий суду факт устанавливается на основании свидетельских показаний, он всегда остаётся, строго говоря, лишь вероятным, и необходимо знать, насколько эта вероятность значительна. В римском праве здесь принималось четверное деление: probatio plena (где вероятность практически переходит в достоверность), далее — probatio minus plena, затем — probatio semiplena major и, наконец, probatio semiplena minor. Необходимо отметить что в римском языке слово вероятность этимологически родственно слову честность.
↑ Вообще говоря, существует ненулевая (но пренебрежимо малая) вероятность того, что монетка, например, встанет «ребром», поэтому истинная вероятность выпадения решки или орла несколько меньше 50 %
↑ ¹ ² Гнеденко Б. В. Курс теории вероятностей: Учебник — Изд. 6-е, перераб. и доп. — М.: Наука. Гл. ред. физ. мат. лит., 1988 — 448с.- с.386-387
↑ Abrams, William, A Brief History of Probability, Second Moment, Дата обращения: 23 мая 2008
↑ Точнее предполагается, что мера определена как минимум на некотором полукольце подмножеств и далее доказывается, что она в таком случае определена и на минимальном кольце, содержащем это полукольцо и более того, эту меру можно продолжить на сигма-алгебру подмножеств

Литература

Альфред Реньи. Письма о вероятности / пер. с венг. Д.Сааса и А.Крамли под ред. Б. В. Гнеденко. М.: Мир. 1970
Гнеденко Б. В. Курс теории вероятностей. М., 2007. 42 с.
Купцов В. И. Детерминизм и вероятность. М., 1976. 256 с.

[ЭСБЕ-1] ¹ ² ³ В. С. Соловьёв Вероятность // Энциклопедический словарь Брокгауза и Ефрона : в 86 т. (82 т. и 4 доп.). — СПб., 1890—1907.

[2] Так, например, в юриспруденции, когда подлежащий суду факт устанавливается на основании свидетельских показаний, он всегда остаётся, строго говоря, лишь вероятным, и необходимо знать, насколько эта вероятность значительна. В римском праве здесь принималось четверное деление: probatio plena (где вероятность практически переходит в достоверность), далее — probatio minus plena, затем — probatio semiplena major и, наконец, probatio semiplena minor. Необходимо отметить что в римском языке слово вероятность этимологически родственно слову честность.

[3] Вообще говоря, существует ненулевая (но пренебрежимо малая) вероятность того, что монетка, например, встанет «ребром», поэтому истинная вероятность выпадения решки или орла несколько меньше 50 %

[Gnedenko-4] ¹ ² Гнеденко Б. В. Курс теории вероятностей: Учебник — Изд. 6-е, перераб. и доп. — М.: Наука. Гл. ред. физ. мат. лит., 1988 — 448с.- с.386-387

[5] Abrams, William, A Brief History of Probability, Second Moment, Дата обращения: 23 мая 2008

[6] Точнее предполагается, что мера определена как минимум на некотором полукольце подмножеств и далее доказывается, что она в таком случае определена и на минимальном кольце, содержащем это полукольцо и более того, эту меру можно продолжить на сигма-алгебру подмножеств

[1]

[2]

[3]

[4]

[5]

[6]

Вероятность

Содержание