Латентно-семантический анализ

Материал из Википедии — свободной энциклопедии
Это старая версия этой страницы, сохранённая Serg Karpovich (обсуждение | вклад) в 11:04, 29 июля 2014 (См.также: дополнение). Она может серьёзно отличаться от текущей версии.
Перейти к навигации Перейти к поиску

Латентно-семантический анализ (ЛСА) — это метод обработки информации на естественном языке, анализирующий взаимосвязь между коллекцией документов и терминами в них встречающимися, сопоставляющий некоторые факторы (тематики) всем документам и терминам.

В основе метода латентно-семантического анализа лежат принципы факторного анализа, в частности, выявление латентных связей изучаемых явлений или объектов. При классификации / кластеризации документов этот метод используется для извлечения контекстно-зависимых значений лексических единиц при помощи статистической обработки больших корпусов текстов[1].

История

ЛСА был запатентован в 1988 году [2] Scott Deerwester, Susan Dumais, George Furnas, Richard Harshman, Thomas Landauer, Karen Lochbaum и Lynn Streeter. В области информационного поиска данный подход называют латентно-семантическим индексированием (ЛСИ).

Впервые ЛСА был применен для автоматического индексирования текстов, выявления семантической структуры текста и получения псевдодокументов [3]. Затем этот метод был довольно успешно использован для представления баз знаний[4] и построения когнитивных моделей [5].

В последние годы метод ЛСА часто используется для поиска информации (индексация документов), классификации документов [6], моделях понимания [7] и других областях, где требуется выявление главных факторов из массива информационных данных .

Описание работы ЛСА

ЛСА можно сравнить с простым видом нейросети, состоящей из трех слоев: первый слой содержит множество слов (термов), второй – некое множество документов, соответствующих определенным ситуациям, а третий, средний, скрытый слой представляет собой множество узлов с различными весовыми коэффициентами, связывающих первый и второй слои.

В качестве исходной информации ЛСА использует матрицу термы-на-документы, описывающую набор данных, используемый для обучения системы. Элементы этой матрицы содержат, как правило, веса, учитывающие частоты использования каждого терма в каждом документе и участие терма во всех документах (TF-IDF). Наиболее распространенный вариант ЛСА основан на использовании разложения диагональной матрицы по сингулярным значениям (SVD – Singular Value Decomposition). С помощью SVD-разложения любая матрица раскладывается во множество ортогональных матриц, линейная комбинация которых является достаточно точным приближением к исходной матрице.

Говоря более формально, согласно теореме о сингулярном разложении[8], любая вещественная прямоугольная матрица может быть разложена на произведение трех матриц:

,

где матрицы и – ортогональные, а – диагональная матрица, значения на диагонали которой называются сингулярными значениями матрицы . Буква Т в выражении означает транспонирование матрицы.

Такое разложение обладает замечательной особенностью: если в матрице оставить только наибольших сингулярных значений, а в матрицах и – только соответствующие этим значениям столбцы, то произведение получившихся матриц , и будет наилучшим приближением исходной матрицы к матрице ранга :

,

Основная идея латентно-семантического анализа состоит в том, что если в качестве матрицы использовалась матрица термы-на-документы, то матрица , содержащая только первых линейно независимых компонент , отражает основную структуру различных зависимостей, присутствующих в исходной матрице. Структура зависимостей определяется весовыми функциями термов.

Таким образом, каждый терм и документ представляются при помощи векторов в общем пространстве размерности (так называемом пространстве гипотез). Близость между любой комбинацией термов и/или документов легко вычисляется при помощи скалярного произведения векторов.

Как правило, выбор зависит от поставленной задачи и подбирается эмпирически. Если выбранное значение слишком велико, то метод теряет свою мощность и приближается по характеристикам к стандартным векторным методам. Слишком маленькое значение k не позволяет улавливать различия между похожими термами или документами.

Применение

Существуют три основных разновидности решения задачи методом ЛСА:

  • сравнение двух термов между собой;
  • сравнение двух документов между собой;
  • сравнение терма и документа.

Достоинства и недостатки ЛСА

Достоинства метода:

  • метод является наилучшим для выявления латентных зависимостей внутри множества документов;
  • метод может быть применен как с обучением, так и без обучения (например, для кластеризации);
  • используются значения матрицы близости, основанной на частотных характеристиках документов и лексических единиц;
  • частично снимается полисемия и омонимия.

Недостатки:

  • Существенным недостатком метода является значительное снижение скорости вычисления при увеличении объема входных данных (например, при SVD-преобразовании). Как показано в [9], скорость вычисления соответствует порядку , где - сумма количества документов и термов , – размерность пространства факторов.
  • Вероятностная модель метода не соответствует реальности. Предполагается, что слова и документы имеют Нормальное распределение, хотя ближе к реальности Распределение Пуассона. В связи с этим для практических применений лучше подходит Вероятностный латентно-семантический анализ, основанный на мультиномиальном распределении.

Примечания

  1. Thomas Landauer, Peter W. Foltz, & Darrell Laham (1998). "Introduction to Latent Semantic Analysis" (PDF). Discourse Processes. 25: 259—284. doi:10.1080/01638539809545028.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка)
  2. U.S. Patent 4,839,853
  3. Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer, Richard Harshman (1990). "Indexing by Latent Semantic Analysis" (PDF). Journal of the American Society for Information Science. 41 (6): 391—407. doi:10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка)
  4. Thomas Landauer, Susan T. Dumais. A Solution to Plato's Problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and Representation of Knowledge 211–240 (1997). Дата обращения: 2 июля 2007. Архивировано 14 марта 2012 года.
  5. B. Lemaire, G. Denhière. Cognitive Models based on Latent Semantic Analysis (2003).
  6. Некрестьянов И.С. Тематико-ориентированные методы информационного поиска / Диссертация на соискание степени к. ф-м.н. СПбГУ, 2000.
  7. Соловьев А.Н. Моделирование процессов понимания речи с использованием латентно-семантического анализа / Диссертация на соискание степени к.ф.н. СПбГУ, 2008.
  8. Голуб Дж., Ван Лоун Ч. Матричные вычисления. М.: «Мир», 1999.
  9. Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer, Richard Harshman (1990). "Indexing by Latent Semantic Analysis" (PDF). Journal of the American Society for Information Science. 41 (6): 391—407. doi:10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка)

Ссылки

См.также