Перекрёстная энтропия: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[непроверенная версия][отпатрулированная версия]
Содержимое удалено Содержимое добавлено
PixelBot (обсуждение | вклад)
м робот добавил: ja:クロスエントロピー
м См. также: обработка источников, мелкие правки
 
(не показано 15 промежуточных версий 12 участников)
Строка 1: Строка 1:
{{сирота}}
<!-- Взято с английской версии страницы -->
<!-- Взято с английской версии страницы -->
В [[теория информации|теории информации]] '''перекрёстная энтропия''' между двумя [[Распределение вероятностей|распределениями вероятностей]] измеряет среднее число [[бит]], необходимых для опознания события из набора возможностей, если используемая схема кодирования базируется на заданном распределении вероятностей <math>q</math>, вместо «истинного» распределения <math>p</math>.
В [[теория информации|теории информации]] '''перекрёстная энтропия''' между двумя [[Распределение вероятностей|распределениями вероятностей]] измеряет среднее число [[бит]], необходимых для опознания события из набора возможностей, если используемая схема кодирования базируется на заданном распределении вероятностей <math>q</math>, вместо «истинного» распределения <math>p</math>.
Строка 5: Строка 4:
Перекрестная энтропия для двух распределений <math>p</math> и <math>q</math> над одним и тем же [[вероятностное пространство|вероятностным пространством]] определяется следующим образом:
Перекрестная энтропия для двух распределений <math>p</math> и <math>q</math> над одним и тем же [[вероятностное пространство|вероятностным пространством]] определяется следующим образом:


:<math>\mathrm{H}(p, q) = \mathrm{E}_p[-\log q] = \mathrm{H}(p) + D_{\mathrm{KL}}(p \| q)\!</math>,
:<math>\mathrm{H}(p, q) \stackrel{\mathrm{df}}{\;=\;} \mathrm{E}_p[-\log q] = \mathrm{H}(p) + D_{\mathrm{KL}}(p \| q)</math>,


где <math>H(p)</math> — [[Информационная энтропия|энтропия]] <math>p</math>, и <math>D_{\mathrm{KL}}(p || q)</math> — [[Расстояние Кульбака — Лейблера]] от <math>q</math> до <math>p</math> (также известная как ''относительная энтропия'').
где <math>H(p)</math> — [[Информационная энтропия|энтропия]] <math>p</math>, и <math>D_{\mathrm{KL}}(p || q)</math> — [[Расстояние Кульбака — Лейблера|расстояние Кульбака—Лейблера]] от <math>p</math> до <math>q</math> (также известная как ''относительная энтропия'').


Для [[Случайная величина|дискретного]] <math>p</math> и <math>q</math> это означает
Для [[Случайная величина|дискретного]] <math>p</math> и <math>q</math> это означает
:<math>\mathrm{H}(p, q) = -\sum_x p(x)\, \log q(x). \!</math>
:<math>\mathrm{H}(p, q) = -\sum_x p(x)\, \log q(x).</math>


Ситуация для [[Случайная величина|непрерывного]] распределения аналогично:
Ситуация для [[Случайная величина|непрерывного]] распределения аналогична:


:<math>-\int_X p(x)\, \log q(x)\, dx. \!</math>
:<math>\mathrm{H}(p, q) = -\int\limits_X p(x)\, \log q(x)\, dx.</math>


Нужно учесть, что, несмотря на формальную аналогию функционалов для непрерывного и дискретного случаев, они обладают разными свойствами и имеют разный смысл. Непрерывный случай имеет ту же специфику, что и понятие [[Дифференциальная энтропия|дифференциальной энтропии]].
'''NB''': Запись <math>\mathrm{H}(p,q)</math> иногда используется как для перекрестной энтропии, так и для [[:en:joint entropy|присоединенной энтропии]] <math>p</math> и <math>q</math>.


'''NB''': Запись <math>\mathrm{H}(p,q)</math> иногда используется как для перекрёстной энтропии, так и для [[:en:joint entropy|совместной энтропии]] <math>p</math> и <math>q</math>.
==Минимизация перекрестной энтропии==

Минимизация перекрестной энтропии часто используется в оптимизации и для оценки вероятностей редких событий.
== Минимизация перекрёстной энтропии ==
Минимизация перекрёстной энтропии часто используется в оптимизации и для оценки вероятностей редких событий.


<!--
<!--
Строка 37: Строка 38:
* [[Информационная энтропия]]
* [[Информационная энтропия]]


{{нет ссылок|дата=8 июня 2019}}
[[Категория:Теория информации]]
[[Категория:Оптимизация]]


[[Категория:Теория информации]]
[[de:Kreuzentropie]]
[[Категория:Теория оптимизации]]
[[en:Cross entropy]]
[[Категория:Энтропия]]
[[ja:クロスエントロピー]]

Текущая версия от 08:28, 8 июня 2019

В теории информации перекрёстная энтропия между двумя распределениями вероятностей измеряет среднее число бит, необходимых для опознания события из набора возможностей, если используемая схема кодирования базируется на заданном распределении вероятностей , вместо «истинного» распределения .

Перекрестная энтропия для двух распределений и над одним и тем же вероятностным пространством определяется следующим образом:

,

где энтропия , и расстояние Кульбака—Лейблера от до (также известная как относительная энтропия).

Для дискретного и это означает

Ситуация для непрерывного распределения аналогична:

Нужно учесть, что, несмотря на формальную аналогию функционалов для непрерывного и дискретного случаев, они обладают разными свойствами и имеют разный смысл. Непрерывный случай имеет ту же специфику, что и понятие дифференциальной энтропии.

NB: Запись иногда используется как для перекрёстной энтропии, так и для совместной энтропии и .

Минимизация перекрёстной энтропии

[править | править код]

Минимизация перекрёстной энтропии часто используется в оптимизации и для оценки вероятностей редких событий.