Тематическое моделирование

Материал из Википедии — свободной энциклопедии
Это старая версия этой страницы, сохранённая Serg Karpovich (обсуждение | вклад) в 11:27, 29 июля 2014 (дополнение). Она может серьёзно отличаться от текущей версии.
Перейти к навигации Перейти к поиску
Построение тематической модели документа: : искомые условные распределения : - документ : - слово : - наблюдаемые переменные : - тема (скрытая переменная)

Тематическое моделирование — это способ построения модели коллекции текстовых документов, которая определяет, к каким темам относится каждый из документов.[1]

Тематическая модель (topic model) коллекции текстовых документов определяет, к каким темам относится каждый документ и какие слова (термины) образуют каждую тему. [2]

Переход из пространства терминов в пространство найденных тематик помогает разрешать синонимию и полисемию терминов, а также эффективнее решать такие задачи, как тематический поиск, классификация, суммаризация и аннотация коллекций документов и новостных потоков.

Тематическое моделирование как вид статистических моделей для нахождения скрытых тем встреченных в коллекции документов, нашло свое применение в таких областях как машинное обучение и обработка естественного языка. Исследователи используют различные тематические модели для анализа текстов, текстовых архивов документов, для анализа изменения тем в наборах документов. Интуитивно понимая, что документ относится к определенной теме, в документах посвященных одной теме можно встретить некоторые слова чаще других. Например: «собака» и «кость» встречаются чаще в документах про собак, «кошки» и «молоко» будут встречаться в документах о котятах, предлоги «и» и «в» будут встречаться в обеих тематиках. Обычно документ касается нескольких тем в разных пропорциях, таким образом, документ в котором 10% темы составляют кошки, а 90% темы про собак, можно предположить, что слов про собак в 9 раз больше. Тематическое моделирование отражает эту интуицию в математическую структуру, которая позволяет на основании изучения коллекции документов и исследования частотных характеристик слов в каждом документе, сделать вывод, что каждый документ это некоторый баланс тем.

Наибольшее применение в современных приложениях находят подходы, основанные на Байесовских сетях — ориентированных графических вероятностных моделях. Ориентированные вероятностные тематические модели — это относительно молодая область исследований в теории самообучения (unsupervised learning). Одним из первых был предложен вероятностный латентно-семантический анализ (probabilistic latent semantic analysis, PLSA), основанный на принципе максимума правдоподобия, как альтернатива классическим методам кластеризации, основанным на вычислении функций расстояния. Вслед за PLSA был предложен метод латентного размещения Дирихле (latent Dirichlet allocation, LDA) и его многочисленные обобщения. [3] Вероятностные тематические модели осуществляют «мягкую» кластеризацию, позволяя документу или термину относиться сразу к нескольким темам с различными вероятностями. Вероятностные тематические модели описывает каждую тему дискретным распределением на множестве терминов, каждый документ — дискретным распределением на множестве тем. Предполагается, что коллекция документов — это последовательность терминов, выбранных случайно и независимо из смеси таких распределений, и ставится задача восстановления компонент смеси по выборке. [4]

Хотя тематическое моделирование описывали и применяли в обработке естественного языка, они нашли свое применение и в других областях таких как биоинформатика.

История

Первое описание тематического моделирования появилось в работе Рагавана, Пападимитриу, Томаки и Вемполы 1998 году [5]. Томас Хофманн в 1999 году[6] предложил вероятностное скрытое семантическое индексирование (PLSI). Одна из самых распространенных тематических моделей — это латентное размещение Дирихле (LDA), эта модель является обобщением вероятностного семантического индексирования и разработана Дэвидом Блейем, Эндрю Ыном и Майклом Джорданом в 2002 году[7]. Другие тематические модели как правило являются расширением LDA, например, размещение патинко улучшает LDA за счёт введения дополнительных корреляционных коэффициентов для каждого слова, которое составляет тему.

Тематические исследования

Тэмплтон сделал обзор работ по тематическому моделированию в гуманитарных науках, сгруппированных по синхронному и диахроническому подходу. Синхронные подходы выделяют темы в некоторый момент времени, например, Джокерс с помощью тематической модели исследовал, о чём писали блогеры в День Цифровых Гуманитарных наук в 2010 году. Дроуин исследовал работы Пруста и визуализировал найденные темы в графической сети.

Диахронические подходы, включая определение Блока и Ньюмана о временной динамике тем в Пенсильванской газете 1728—1800 года. Грифитс и Стейверс использовали тематическое моделирование для обзоров журнала PNAS, определяли изменения популярности тем с 1991 по 2001 год. Нельсон проанализировал изменение тем в Ричмонд Таймс для понимания социальных и политических изменений в Ричмонде во времена Американской Гражданской войны. Блевинс создал тематическую модель дневника Марты Балладс. Мимно использовал тематическое моделирование для анализа 24 журналов по классической филологии и археологии за 150 лет, чтобы определить изменения популярности тем и узнать, насколько сильно изменились журналы за это время.

Алгоритмы тематического моделирования

В работе Девида Блея «Введение в тематическое моделирование» рассмотрен наиболее популярный алгоритм Латентное размещение Дирихле [8] . На практике исследователи используют одну из эвристик метода максимального правдоподобия, методы сингулярного разложения (SVD), метод моментов, алгоритм, основанный на неотрицательной матрице факторизации (NMF), вероятностные тематические модели, вероятностный латентно-семантический анализ, латентное размещение Дирихле. В работе Воронцова К. В. рассмотрены вариации основных алгоритмов тематического моделирования: робастная тематическая модель, тематические модели классификации, динамические тематические модели, иерархические тематические модели, многоязычные тематические модели, модели текста как последовательности слов, многомодальные тематические модели [2].

Вероятностные тематические модели основаны на следующих предположениях [9] [10] [11] [12]:

  • Порядок документов в коллекции не имеет значения
  • Порядок слов в документе не имеет значения, документ — мешок слов
  • Слова, встречающиеся часто в большинстве документов, не важны для определения тематики
  • Коллекцию документов можно представить как выборку пар документ-слово , ,
  • Каждая тема описывается неизвестным распределением на множестве слов
  • Каждый документ описывается неизвестным распределением на множестве тем
  • Гипотеза условной независимости

Построить тематическую модель — значит, найти матрицы и по коллекции В более сложных вероятностных тематических моделях некоторые из этих предположений заменяются более реалистичными.

Вероятностный латентно-семантический анализ

Вероятностный Латентно Семантический Анализ PLSA. : — документ: — слово: — наблюдаемые переменные: — тема (скрытая переменная): — априорное распределение на множестве документов: искомые условные распределения : — коллекция документов: — длинна документа в словах

Вероятностный латентно-семантический анализ (probabilistic latent semantic analysis, PLSA) предложен Томасом Хофманном в 1999 году. Вероятностная модель появления пары «документ-слово» может быть записана тремя эквивалентными способами:

где  — множество тем;

 — неизвестное априорное распределение тем во всей коллекции;
 — априорное распределение на множестве документов, эмпирическая оценка , где  — суммарная длина всех документов;
 — априорное распределение на множестве слов, эмпирическая оценка , где  — число вхождений слова во все документы;

Искомые условные распределения выражаются через по формуле Байеса:

Для идентификации параметров тематической модели по коллекции документов применяется принцип максимума правдоподобия, который приводит к задаче минимизации функционала

при ограничениях нормировки

где  — число вхождений слова в документ . Для решения данной оптимизационной задачи обычно применяется EM-алгоритм.

Основные недостатки PLSA:

  • Число параметров растёт линейно по числу документов в коллекции, что может приводить к переобучению модели.
  • При добавлении нового документа в коллекцию распределение невозможно вычислить по тем же формулам, что и для остальных документов, не перестраивая всю модель заново.

Латентное размещение Дирихле

Латентное размещение Дирихле LDA. : — слово (наблюдаемая переменная) : — тема (скрытая переменная) : — коллекция документов : — длинна документа в словах : — количество тем в коллекции : — распределение тем в документе : — распределение слов в теме

Метод латентного размещения Дирихле (latent Dirichlet allocation, LDA) предложен Дэвидом Блеем в 2003 году.

В этом методе устранены основные недостатки PLSA.

Метод LDA основан на той же вероятностной модели

при дополнительных предположениях:

  • векторы документов порождаются одним и тем же вероятностным распределением на нормированных -мерных векторах; это распределение удобно взять из параметрического семейства распределений Дирихле ;
  • векторы тем порождаются одним и тем же вероятностным распределением на нормированных векторах размерности ; это распределение удобно взять из параметрического семейства распределений Дирихле .

Для идентификации параметров модели LDA по коллекции документов применяется сэмплирование Гиббса, вариационный байесовский вывод или метод Expectation-Propagation.

Примечания

Литература

Смотрите также:

Программное обеспечение / библиотеки кода

Ссылки: