Вероятностный латентно-семантический анализ: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[отпатрулированная версия][отпатрулированная версия]
Содержимое удалено Содержимое добавлено
м Перемещение 3 интервики-ссылок в Викиданные (d:Q2845258)
м дополнение
Строка 18: Строка 18:
{{примечания}}
{{примечания}}


== См. также ==
* [[Тематическое моделирование]]
[[Категория:Информационный поиск]]
[[Категория:Информационный поиск]]

Версия от 11:03, 29 июля 2014

Вероятностный латентно-семантический анализ (ВЛСА), также известный как вероятностое латентно-семантическое индексирование (ВЛСИ, особенно в области информационного поиска) — это статистический метод анализа корреляции двух типов данных. Данный метод являлется дальнейшим развитием латентно-семантического анализа. ВЛСА применяется в таких областях как информационный поиск, обработка естественного языка, машинное обучение и смежных областях. Данный метод был впервые опубликован в 1999 году Thomas Hofmann[1].

По сравнению со обычным латентно-семантическим анализом, который основан на линейной алгебре и является способом снижения размерности матрицы (как правило, с помощью разложения диагональной матрицы по сингулярным значениям - SVD), вероятностный латентно-семантический анализ основан на смешанном разложении, в свою очередь ведущем своё начало из модели скрытых классов. Данный подход более принципиален, поскольку имеет прочную основу в области статистики.

Варианты pLSA

  • Иерархические расширения:
    • Асимметричное: MASHA ("Multinomial ASymmetric Hierarchical Analysis", "полиномиальный асимметричный иерархический анализ") [2]
    • Симметричное: HPLSA ("Hierarchical Probabilistic Latent Semantic Analysis", «Иерархический вероятностный латентно-семантический анализ»), [3]
  • Генеративные модели: разработаны для решения часто критикуемых недостатков pLSA, а именно - того, что он является неправильной порождающей моделью для новых документов.
  • Данные высшего порядка: Хотя это редко обсуждается в научной литературе, pLSA, естественно, примени́м и для данных более высокого порядка (трёхуровневых и выше), т.е. он может моделировать совместное поведение трёх и более переменных. В симметричной формулировке, данной выше, это делается простым добавлением условного распределения вероятностей для этих дополнительных переменных. Это вероятностный аналог неотрицательной тензорной факторизации.

Примечания

  1. Thomas Hofmann, Probabilistic Latent Semantic Indexing, Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in en:Information Retrieval (SIGIR-99), 1999
  2. Alexei Vinokourov and Mark Girolami, A Probabilistic Framework for the Hierarchic Organisation and Classification of Document Collections, in Information Processing and Management, 2002
  3. Eric Gaussier, Cyril Goutte, Kris Popat and Francine Chen, A Hierarchical Model for Clustering and Categorising Documents, in "Advances in Information Retrieval -- Proceedings of the 24th BCS-IRSG European Colloquium on IR Research (ECIR-02)", 2002

См. также