Латентно-семантический анализ: различия между версиями

Интерактивная навигация по истории

(Показать все непатрулированные изменения)

[непроверенная версия]

← Предыдущая правка

Содержимое удалено Содержимое добавлено

ВизуальныйВики-текст

Линейный

Текущая версия от 08:48, 25 июля 2024

Латентно-семантический анализ (ЛСА) (англ. Latent semantic analysis, LSA) — это метод обработки информации на естественном языке, анализирующий взаимосвязь между библиотекой документов и терминами, в них встречающимися, и выявляющий характерные факторы (тематики), присущие всем документам и терминам.

В основе метода латентно-семантического анализа лежат принципы факторного анализа, в частности, выявление латентных связей изучаемых явлений или объектов. При классификации / кластеризации документов этот метод используется для извлечения контекстно-зависимых значений лексических единиц при помощи статистической обработки больших корпусов текстов^[1].

История

ЛСА был запатентован в 1988 году^[2] Scott Deerwester, Susan Dumais, George Furnas, Richard Harshman, Thomas Landauer, Karen Lochbaum и Lynn Streeter. В области информационного поиска данный подход называют латентно-семантическим индексированием (ЛСИ).

Впервые ЛСА был применен для автоматического индексирования текстов, выявления семантической структуры текста и получения псевдодокументов^[3]. Затем этот метод был довольно успешно использован для представления баз знаний^[4] и построения когнитивных моделей^[5].

В последние годы метод ЛСА часто используется для поиска информации (индексация документов), классификации документов^[6], моделях понимания^[7] и других областях, где требуется выявление главных факторов из массива информационных данных.

Описание работы ЛСА

Анимация процесса обнаружения тематик в матрице «документы-слова». Каждый столбец матрицы соответствует документу, каждая строка — слову. Ячейки матрицы содержат веса слов в документах (например, значения TF-IDF), более тёмные оттенки соответствуют более высокому весу. Алгоритм LSA группирует как документы, которые используют похожие слова, так и слова, которые встречаются в похожем наборе документов. Полученные кластеры в матрице используются для обнаружения латентных (скрытых) компонентов в исходных данных, соответствующих определённым тематикам.^[8]

ЛСА можно сравнить с простым видом нейросети, состоящей из трех слоев: первый слой содержит множество слов (термов), второй — некое множество документов, соответствующих определённым ситуациям, а третий, средний, скрытый слой представляет собой множество узлов с различными весовыми коэффициентами, связывающих первый и второй слои.

В качестве исходной информации ЛСА использует матрицу термы-на-документы, описывающую набор данных, используемый для обучения системы. Элементы этой матрицы содержат, как правило, веса, учитывающие частоты использования каждого терма в каждом документе и участие терма во всех документах (TF-IDF). Наиболее распространенный вариант ЛСА основан на использовании разложения матрицы по сингулярным значениям (SVD — Singular Value Decomposition). С помощью SVD-разложения любая матрица раскладывается во множество ортогональных матриц, линейная комбинация которых является достаточно точным приближением к исходной матрице.

Говоря более формально, согласно теореме о сингулярном разложении^[9], любая вещественная прямоугольная матрица может быть разложена на произведение трех матриц:

${\begin{matrix}A=USV^{T}\end{matrix}}$ ,

где матрицы ${\textbf {U}}$ и ${\textbf {V}}$ — ортогональные, а ${\textbf {S}}$ — диагональная матрица, значения на диагонали которой называются сингулярными значениями матрицы ${\textbf {A}}$ . Буква Т в выражении ${\textbf {V}}^{T}$ означает транспонирование матрицы.

Такое разложение обладает замечательной особенностью: если в матрице ${\textbf {S}}$ оставить только ${\textbf {k}}$ наибольших сингулярных значений, а в матрицах ${\textbf {U}}$ и ${\textbf {V}}$ — только соответствующие этим значениям столбцы, то произведение получившихся матриц ${\textbf {S}}$ , ${\textbf {U}}$ и ${\textbf {V}}$ будет наилучшим приближением исходной матрицы ${\textbf {A}}$ к матрице ${\hat {\textbf {A}}}$ ранга ${\textbf {k}}$ :

${\begin{matrix}{\hat {A}}\approx A=USV^{T}\end{matrix}}$ ,

Основная идея латентно-семантического анализа состоит в том, что если в качестве матрицы ${\textbf {A}}$ использовалась матрица термы-на-документы, то матрица ${\hat {\textbf {A}}}$ , содержащая только ${\textbf {k}}$ первых линейно независимых компонент ${\textbf {A}}$ , отражает основную структуру различных зависимостей, присутствующих в исходной матрице. Структура зависимостей определяется весовыми функциями термов.

Таким образом, каждый терм и документ представляются при помощи векторов в общем пространстве размерности ${\textbf {k}}$ (так называемом пространстве гипотез). Близость между любой комбинацией термов и/или документов легко вычисляется при помощи скалярного произведения векторов.

Как правило, выбор ${\textbf {k}}$ зависит от поставленной задачи и подбирается эмпирически. Если выбранное значение ${\textbf {k}}$ слишком велико, то метод теряет свою мощность и приближается по характеристикам к стандартным векторным методам. Слишком маленькое значение k не позволяет улавливать различия между похожими термами или документами.

Применение

Существуют три основных разновидности решения задачи методом ЛСА:

сравнение двух термов между собой;
сравнение двух документов между собой;
сравнение терма и документа.

Достоинства и недостатки ЛСА

Достоинства метода:

метод является наилучшим для выявления латентных зависимостей внутри множества документов;
метод может быть применен как с обучением, так и без обучения (например, для кластеризации);
используются значения матрицы близости, основанной на частотных характеристиках документов и лексических единиц;
частично снимается полисемия и омонимия.

Недостатки:

Существенным недостатком метода является значительное снижение скорости вычисления при увеличении объёма входных данных (например, при SVD-преобразовании). Как показано в^[3], скорость вычисления соответствует порядку ${\textbf {N}}^{2*k}$ , где ${\textbf {N}}={\textbf {N}}_{doc}+{\textbf {N}}_{term}$ — сумма количества документов и термов , ${\textbf {k}}$ — размерность пространства факторов.
Вероятностная модель метода не соответствует реальности. Предполагается, что слова и документы имеют Нормальное распределение, хотя ближе к реальности Распределение Пуассона. В связи с этим для практических применений лучше подходит Вероятностный латентно-семантический анализ, основанный на мультиномиальном распределении.

Примечания

↑ Thomas Landauer, Peter W. Foltz, & Darrell Laham. Introduction to Latent Semantic Analysis (англ.) // Discourse Processes^[англ.] : journal. — 1998. — Vol. 25. — P. 259—284. — doi:10.1080/01638539809545028. Архивировано 24 декабря 2010 года.
↑ U.S. Patent 4,839,853
↑ ¹ ² Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer, Richard Harshman. Indexing by Latent Semantic Analysis (англ.) // Journal of the American Society for Information Science^[англ.] : journal. — 1990. — Vol. 41, no. 6. — P. 391—407. — doi:10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9. Архивировано 17 июля 2012 года.
↑ Thomas Landauer, Susan T. Dumais. A Solution to Plato's Problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and Representation of Knowledge (англ.) // JPsychological Review. : journal. — 1997. — Vol. 104. — P. 211—240. Архивировано 14 марта 2012 года.
↑ B. Lemaire, G. Denhière. Cognitive Models based on Latent Semantic Analysis (неопр.) // Tutorial given at the 5th International Conference on Cognitive Modeling (ICCM'2003), Bamberg, Germany, April 9 2003.. — 2003. (недоступная ссылка)
↑ Некрестьянов И. С. Тематико-ориентированные методы информационного поиска / Диссертация на соискание степени к. ф-м.н. СПбГУ, 2000.
↑ Соловьев А. Н. Моделирование процессов понимания речи с использованием латентно-семантического анализа / Диссертация на соискание степени к.ф.н. СПбГУ, 2008.
↑ Архивированная копия (неопр.). Дата обращения: 1 сентября 2017. Архивировано 1 сентября 2017 года.
↑ Голуб Дж., Ван Лоун Ч. Матричные вычисления. М.: «Мир», 1999.

Ссылки

https://web.archive.org/web/20090131212818/http://www-timc.imag.fr/Benoit.Lemaire/lsa.html - Readings in Latent Semantic Analysis for Cognitive Science and Education. — Сборник статей и ссылок о ЛСА.
http://lsa.colorado.edu/ - сайт, посвященный моделированию ЛСА.

[1] Thomas Landauer, Peter W. Foltz, & Darrell Laham. Introduction to Latent Semantic Analysis (англ.) // Discourse Processes^[англ.] : journal. — 1998. — Vol. 25. — P. 259—284. — doi:10.1080/01638539809545028. Архивировано 24 декабря 2010 года.

[2] U.S. Patent 4,839,853

[автоссылка1-3] ¹ ² Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer, Richard Harshman. Indexing by Latent Semantic Analysis (англ.) // Journal of the American Society for Information Science^[англ.] : journal. — 1990. — Vol. 41, no. 6. — P. 391—407. — doi:10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9. Архивировано 17 июля 2012 года.

[4] Thomas Landauer, Susan T. Dumais. A Solution to Plato's Problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and Representation of Knowledge (англ.) // JPsychological Review. : journal. — 1997. — Vol. 104. — P. 211—240. Архивировано 14 марта 2012 года.

[5] B. Lemaire, G. Denhière. Cognitive Models based on Latent Semantic Analysis (неопр.) // Tutorial given at the 5th International Conference on Cognitive Modeling (ICCM'2003), Bamberg, Germany, April 9 2003.. — 2003. (недоступная ссылка)

[6] Некрестьянов И. С. Тематико-ориентированные методы информационного поиска / Диссертация на соискание степени к. ф-м.н. СПбГУ, 2000.

[7] Соловьев А. Н. Моделирование процессов понимания речи с использованием латентно-семантического анализа / Диссертация на соискание степени к.ф.н. СПбГУ, 2008.

[8] Архивированная копия (неопр.). Дата обращения: 1 сентября 2017. Архивировано 1 сентября 2017 года.

[9] Голуб Дж., Ван Лоун Ч. Матричные вычисления. М.: «Мир», 1999.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

@@ Строка 1: / Строка 1: @@
-{{Ложное перенаправление|Семантический анализ}}
+{{Не путать|Семантический анализ}}
-'''Латентно-семантический анализ (ЛСА)''' (англ. ''Latent semantic analysis, LSA'') — это метод обработки [[информация|информации]] на естественном языке, анализирующий взаимосвязь между библиотекой документов и терминами, в них встречающимися, и выявляющий характерные факторы (тематики), присущие всем документам и терминам.
+'''Латентно-семантический анализ (ЛСА)''' ({{lang-en|Latent semantic analysis, LSA}}) — это метод [[Обработка естественного языка|обработки информации на естественном языке]], анализирующий взаимосвязь между библиотекой документов и терминами, в них встречающимися, и выявляющий характерные факторы ([[Тематическое моделирование|тематики]]), присущие всем документам и терминам.
-В основе метода латентно-семантического анализа лежат принципы [[факторный анализ|факторного анализа]], в частности, выявление латентных связей изучаемых явлений или объектов. При [[классификация|классификации]] / [[кластеризация|кластеризации]] документов этот метод используется для извлечения контекстно-зависимых значений лексических единиц при помощи статистической обработки больших корпусов текстов<ref>
+В основе метода латентно-семантического анализа лежат принципы [[факторный анализ|факторного анализа]], в частности, выявление [[Латентность|латентных]] связей изучаемых явлений или объектов. При [[классификация|классификации]] / [[кластеризация|кластеризации]] документов этот метод используется для извлечения контекстно-зависимых значений [[Лексические единицы|лексических единиц]] при помощи статистической обработки больших [[Корпус текстов|корпусов текстов]]<ref>{{статья
+|ссылка=http://lsa.colorado.edu/papers/dp1.LSAintro.pdf
- {{cite journal
+|заглавие=Introduction to Latent Semantic Analysis
- | url=http://lsa.colorado.edu/papers/dp1.LSAintro.pdf
+|издание={{Нп3|Discourse Processes}}
- | format=PDF| title=Introduction to Latent Semantic Analysis
+|том=25
- | author=[[Thomas Landauer]], Peter W. Foltz, & Darrell Laham
+|страницы=259—284
- | journal=Discourse Processes
+|doi=10.1080/01638539809545028
- | volume=25
+|язык=en
- | pages=259–284
+|автор=[[Thomas Landauer]], Peter W. Foltz, & Darrell Laham
- | year=1998
+|год=1998
- | doi=10.1080/01638539809545028
+|тип=journal
+|archivedate=2010-12-24
+|archiveurl=https://web.archive.org/web/20101224122523/http://lsa.colorado.edu/papers/dp1.LSAintro.pdf
 }}</ref>.
 == История ==
+ЛСА был запатентован в [[1988 год]]у<ref>{{US patent|4,839,853}}</ref> [[:en:Scott Deerwester|Scott Deerwester]], [[:en:Susan Dumais|Susan Dumais]], [[Фурнас, Джордж|George Furnas]], [[:en:Richard Harshman|Richard Harshman]], [[Ландауэр, Томас|Thomas Landauer]], [[:en:Karen Lochbaum|Karen Lochbaum]] и [[:en:Lynn Streeter|Lynn Streeter]]. В области информационного поиска данный подход называют '''латентно-семантическим индексированием (ЛСИ)'''.
+Впервые ЛСА был применен для автоматического индексирования текстов, выявления семантической структуры текста и [[Генерация текста|получения псевдодокументов]]<ref name="автоссылка1">{{статья
-ЛСА был запатентован в [[1988]] году <ref>{{US patent|4,839,853}}</ref> [[:en:Scott Deerwester|Scott Deerwester]], [[:en:Susan Dumais|Susan Dumais]], [[:en:George Furnas|George Furnas]], [[:en:Richard Harshman|Richard Harshman]], [[:en:Thomas Landauer|Thomas Landauer]], [[:en:Karen Lochbaum|Karen Lochbaum]] и [[:en:Lynn Streeter|Lynn Streeter]]. В области информационного поиска данный подход называют '''латентно-семантическое индексирование|латентно-семантическим индексированием (ЛСИ)'''.
+|ссылка=http://lsi.research.telcordia.com/lsi/papers/JASIS90.pdf
+|заглавие=Indexing by Latent Semantic Analysis
+|издание={{Нп3|Journal of the Association for Information Science and Technology|Journal of the American Society for Information Science||Journal of the Association for Information Science and Technology}}
+|том=41
+|номер=6
+|страницы=391—407
+|doi=10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9
+|accessdate=2011-02-05
+|язык=en
+|автор=[[Scott Deerwester]], [[Susan Dumais|Susan T. Dumais]], [[George Furnas|George W. Furnas]], [[Thomas Landauer|Thomas K. Landauer]], [[Richard Harshman]]
+|год=1990
+|тип=journal
+|archiveurl=https://web.archive.org/web/20120717020428/http://lsi.research.telcordia.com/lsi/papers/JASIS90.pdf
+|archivedate=2012-07-17
+}}</ref>. Затем этот метод был довольно успешно использован для представления [[База знаний|баз знаний]]<ref>{{статья
+|ссылка=http://www.welchco.com/02/14/01/60/96/02/2901.HTM
+|заглавие=A Solution to Plato's Problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and Representation of Knowledge
+|издание=JPsychological Review.
+|том=104
+|страницы=211—240
+|accessdate=2007-07-02
+|archiveurl=https://www.webcitation.org/669WP3Drm?url=http://www.welchco.com/02/14/01/60/96/02/2901.HTM
+|archivedate=2012-03-14
+|deadlink=no
+|язык=en
+|тип=journal
+|автор=[[Thomas Landauer]], [[Susan Dumais|Susan T. Dumais]]
+|год=1997
+}}</ref> и построения [[Когнитивная модель|когнитивных моделей]]<ref>{{статья
+|ссылка=http://membres-timc.imag.fr/Benoit.Lemaire/activites/tutorialLSA.pdf
+|заглавие=Cognitive Models based on Latent Semantic Analysis
+|издание=Tutorial given at the 5th International Conference on Cognitive Modeling (ICCM'2003), Bamberg, Germany, April 9 2003.
+|deadlink=no
+|язык=und
+|автор=[[B. Lemaire]], [[G. Denhière]]
+|год=2003
+}}{{Недоступная ссылка|date=2019-05|bot=InternetArchiveBot }}
+</ref>.
+В последние годы метод ЛСА часто используется для поиска информации ([[индексация документов]]), [[классификация документов|классификации документов]]<ref>Некрестьянов И. С. Тематико-ориентированные методы информационного поиска / Диссертация на соискание степени к. ф-м.н. СПбГУ, 2000.</ref>, [[модель понимания|моделях понимания]]<ref>Соловьев А. Н. Моделирование процессов понимания речи с использованием латентно-семантического анализа / Диссертация на соискание степени к.ф.н. СПбГУ, 2008.</ref> и других областях, где требуется выявление главных факторов из массива информационных данных.
-Впервые ЛСА был применен для автоматического индексирования текстов, выявления семантической структуры текста и получения псевдодокументов <ref>{{cite journal
- |url        = http://lsi.research.telcordia.com/lsi/papers/JASIS90.pdf
- |format     = PDF
- |title      = Indexing by Latent Semantic Analysis
- |author     = [[Scott Deerwester]], [[Susan Dumais|Susan T. Dumais]], [[George Furnas|George W. Furnas]], [[Thomas Landauer|Thomas K. Landauer]], [[Richard Harshman]]
- |journal    = Journal of the American Society for Information Science
- |volume     = 41
- |issue      = 6
- |pages      = 391–407
- |year       = 1990
- |doi        = 10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9
- |accessdate = 2011-02-05
-}}</ref>. Затем этот метод был довольно успешно использован для представления баз знаний<ref>{{cite web
- |url         = http://www.welchco.com/02/14/01/60/96/02/2901.HTM
- |title       = A Solution to Plato's Problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and Representation of Knowledge
- |author      = [[Thomas Landauer]], [[Susan Dumais|Susan T. Dumais]]
- |journal     = JPsychological Review.
- |volume      = 104
- |pages       = 211–240
- |year        = 1997
- |accessdate  = 2007-07-02
- |archiveurl  = https://www.webcitation.org/669WP3Drm?url=http://www.welchco.com/02/14/01/60/96/02/2901.HTM
- |archivedate = 2012-03-14
- |deadlink    = no
-}}</ref>  и построения когнитивных моделей <ref>
-{{cite web
- | url      = http://membres-timc.imag.fr/Benoit.Lemaire/activites/tutorialLSA.pdf
- | title    = Cognitive Models based on Latent Semantic Analysis
- | author   = [[B. Lemaire]], [[G. Denhière]]
- | journal  = Tutorial given at the 5th International Conference on Cognitive Modeling (ICCM'2003), Bamberg, Germany, April 9 2003.
- | year     = 2003
- | deadlink = 404
-}}
-</ref>.
-В последние годы метод ЛСА часто используется для поиска информации ([[индексация документов]]), [[классификация документов|классификации документов]] <ref>Некрестьянов И.С. Тематико-ориентированные методы информационного поиска / Диссертация на соискание степени к. ф-м.н. СПбГУ, 2000.</ref>, [[модель понимания|моделях понимания]] <ref>Соловьев А.Н.  Моделирование процессов понимания речи с использованием латентно-семантического анализа / Диссертация на соискание степени к.ф.н. СПбГУ, 2008.</ref> и других областях, где требуется выявление главных факторов из массива информационных данных .
 == Описание работы ЛСА ==
-[[File:Topic model scheme.webm|thumb|450px|thumbtime=24|start=1|end=24|Анимация процесса обнаружения тематик в матрице “документы-слова”. Каждый столбец матрицы соответствует документу, каждая строка - слову. Ячейки матрицы содержат веса слов в документах (например, значения TF-IDF), более тёмные оттенки соответствуют более высокому весу. Алгоритм LSA группирует как документы, которые используют похожие слова, так и слова, которые встречаются в похожем наборе документов. Полученные кластеры в матрице используются для обнаружения латентных (скрытых) компонентов в исходных данных, соответствующих определённым тематикам.<ref>http://topicmodels.west.uni-koblenz.de/ckling/tmt/svd_ap.html</ref>]]
+[[Файл:Topic model scheme.webm|thumb|450px|thumbtime=24|start=1|end=24|Анимация процесса обнаружения тематик в матрице «документы-слова». Каждый столбец матрицы соответствует документу, каждая строка — слову. Ячейки матрицы содержат веса слов в документах (например, значения TF-IDF), более тёмные оттенки соответствуют более высокому весу. Алгоритм LSA группирует как документы, которые используют похожие слова, так и слова, которые встречаются в похожем наборе документов. Полученные кластеры в матрице используются для обнаружения латентных (скрытых) компонентов в исходных данных, соответствующих определённым тематикам.<ref>{{Cite web |url=http://topicmodels.west.uni-koblenz.de/ckling/tmt/svd_ap.html |title=Архивированная копия |access-date=2017-09-01 |archive-date=2017-09-01 |archive-url=https://web.archive.org/web/20170901201901/http://topicmodels.west.uni-koblenz.de/ckling/tmt/svd_ap.html |deadlink=no }}</ref>]]
-ЛСА можно сравнить с простым видом [[Искусственная нейронная сеть|нейросети]], состоящей из трех слоев: первый слой содержит множество слов ([[терм]]ов), второй – некое множество документов, соответствующих определенным ситуациям, а третий, средний, скрытый слой представляет собой множество узлов с различными весовыми коэффициентами, связывающих первый и второй слои.
+ЛСА можно сравнить с простым видом [[Искусственная нейронная сеть|нейросети]], состоящей из трех слоев: первый слой содержит множество слов ([[терм]]ов), второй — некое множество документов, соответствующих определённым ситуациям, а третий, средний, скрытый слой представляет собой множество узлов с различными весовыми коэффициентами, связывающих первый и второй слои.
-В качестве исходной информации ЛСА использует  [[матрица термы-на-документы|матрицу термы-на-документы]], описывающую набор данных, используемый для обучения системы. Элементы этой матрицы содержат, как правило, веса, учитывающие частоты использования каждого терма в каждом документе и участие терма во всех документах ([[TF-IDF]]).
+В качестве исходной информации ЛСА использует [[матрица термы-на-документы|матрицу термы-на-документы]], описывающую набор данных, используемый для обучения системы. Элементы этой матрицы содержат, как правило, веса, учитывающие частоты использования каждого терма в каждом документе и участие терма во всех документах ([[TF-IDF]]).
-Наиболее распространенный вариант ЛСА основан на использовании разложения матрицы по сингулярным значениям ([[SVD|SVD – Singular Value Decomposition]]). С помощью SVD-разложения любая матрица раскладывается во множество ортогональных матриц, линейная комбинация которых является достаточно точным приближением к исходной матрице.
+Наиболее распространенный вариант ЛСА основан на использовании разложения матрицы по сингулярным значениям ([[SVD|SVD — Singular Value Decomposition]]). С помощью SVD-разложения любая матрица раскладывается во множество ортогональных матриц, линейная комбинация которых является достаточно точным приближением к исходной матрице.
 Говоря более формально, согласно теореме о сингулярном разложении<ref>Голуб Дж., Ван Лоун Ч. Матричные вычисления. М.: «Мир», 1999.</ref>, любая вещественная прямоугольная матрица может быть разложена на произведение трех матриц:
@@ Строка 69: / Строка 76: @@
 A=U S V ^T
 \end{matrix}
 </math>
 ,
-где матрицы <math>\textbf{U}</math> и <math>\textbf{V}</math> – ортогональные, а <math>\textbf{S}</math> – диагональная матрица, значения на диагонали которой называются сингулярными значениями матрицы <math>\textbf{A}</math>.
+где матрицы <math>\textbf{U}</math> и <math>\textbf{V}</math> — ортогональные, а <math>\textbf{S}</math> — диагональная матрица, значения на диагонали которой называются сингулярными значениями матрицы <math>\textbf{A}</math>.
 Буква Т в выражении <math>\textbf{V} ^T</math> означает [[Транспонированная матрица|транспонирование]] матрицы.
-Такое разложение обладает замечательной особенностью: если в матрице <math>\textbf{S}</math> оставить только <math>\textbf{k}</math> наибольших сингулярных значений, а в матрицах <math>\textbf{U}</math> и <math>\textbf{V}</math> – только соответствующие этим значениям столбцы, то произведение получившихся матриц <math>\textbf{S}</math> , <math>\textbf{U}</math> и <math>\textbf{V}</math> будет наилучшим приближением исходной матрицы <math>\textbf{A}</math> к матрице <math>\hat\textbf{A}</math> ранга <math>\textbf{k}</math>:
+Такое разложение обладает замечательной особенностью: если в матрице <math>\textbf{S}</math> оставить только <math>\textbf{k}</math> наибольших сингулярных значений, а в матрицах <math>\textbf{U}</math> и <math>\textbf{V}</math> — только соответствующие этим значениям столбцы, то произведение получившихся матриц <math>\textbf{S}</math> , <math>\textbf{U}</math> и <math>\textbf{V}</math> будет наилучшим приближением исходной матрицы <math>\textbf{A}</math> к матрице <math>\hat\textbf{A}</math> ранга <math>\textbf{k}</math>:
 <math>
@@ Строка 81: / Строка 88: @@
 \hat A \approx A = U S V ^T
 \end{matrix}
 </math>
 ,
-Основная идея латентно-семантического анализа состоит в том, что если в качестве матрицы <math>\textbf{A}</math> использовалась [[матрица термы-на-документы]], то матрица <math>\hat\textbf{A}</math> , содержащая только <math>\textbf{k}</math> первых линейно независимых компонент <math>\textbf{A}</math>, отражает основную структуру различных зависимостей, присутствующих в исходной матрице. Структура зависимостей определяется весовыми функциями термов.
+Основная идея латентно-семантического анализа состоит в том, что если в качестве матрицы <math>\textbf{A}</math> использовалась [[матрица термы-на-документы]], то матрица <math>\hat\textbf{A}</math> , содержащая только <math>\textbf{k}</math> первых [[Линейная независимость|линейно независимых]] компонент <math>\textbf{A}</math>, отражает основную структуру различных зависимостей, присутствующих в исходной матрице. Структура зависимостей определяется весовыми функциями термов.
-Таким образом, каждый терм и документ представляются при помощи векторов в общем пространстве размерности <math>\textbf{k}</math> (так называемом пространстве гипотез). Близость между любой комбинацией термов и/или документов легко вычисляется при помощи скалярного произведения векторов.
+Таким образом, каждый терм и документ представляются при помощи векторов в общем пространстве размерности <math>\textbf{k}</math> (так называемом пространстве гипотез). Близость между любой комбинацией термов и/или документов легко вычисляется при помощи [[Скалярное произведение|скалярного произведения]] векторов.
 Как правило, выбор <math>\textbf{k}</math> зависит от поставленной задачи и подбирается эмпирически. Если выбранное значение <math>\textbf{k}</math> слишком велико, то метод теряет свою мощность и приближается по характеристикам к стандартным векторным методам. Слишком маленькое значение k не позволяет улавливать различия между похожими термами или документами.
 == Применение ==
+Существуют три основных разновидности решения задачи методом ЛСА:
-Существуют три основных разновидности решения задачи методом ЛСА:
 * сравнение двух термов между собой;
 * сравнение двух документов между собой;
@@ Строка 98: / Строка 104: @@
 == Достоинства и недостатки ЛСА ==
+Достоинства метода:
+* метод является наилучшим для выявления латентных зависимостей внутри множества документов;
-Достоинства метода:
-* метод является наилучшим для выявления латентных зависимостей внутри множества документов;
 * метод может быть применен как с обучением, так и без обучения (например, для [[кластеризация|кластеризации]]);
 * используются значения матрицы близости, основанной на частотных характеристиках документов и лексических единиц;
-* частично снимается [[полисемия]] и  [[омонимия]].
+* частично снимается [[полисемия]] и [[омонимия]].
 Недостатки:
-* Существенным недостатком метода является значительное снижение скорости вычисления при увеличении объема входных данных (например, при SVD-преобразовании). Как показано в <ref>{{cite journal
+* Существенным недостатком метода является значительное снижение скорости вычисления при увеличении объёма входных данных (например, при SVD-преобразовании). Как показано в<ref name="автоссылка1" />, скорость вычисления соответствует порядку <math>\textbf {N}^{2*k}</math>, где <math> \textbf{N}=\textbf{N}_{doc} + \textbf{N}_{term}</math> — сумма количества документов и термов , <math>\textbf{k}</math> — размерность пространства факторов.
- |url        = http://lsi.research.telcordia.com/lsi/papers/JASIS90.pdf
- |format     = PDF
- |title      = Indexing by Latent Semantic Analysis
- |author     = [[Scott Deerwester]], [[Susan Dumais|Susan T. Dumais]], [[George Furnas|George W. Furnas]], [[Thomas Landauer|Thomas K. Landauer]], [[Richard Harshman]]
- |journal    = Journal of the American Society for Information Science
- |volume     = 41
- |issue      = 6
- |pages      = 391–407
- |year       = 1990
- |doi        = 10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9
- |accessdate = 2011-02-05
-}}</ref>, скорость вычисления соответствует порядку <math>\textbf {N}^{2*k}</math>, где <math> \textbf{N}=\textbf{N}_{doc} + \textbf{N}_{term}</math> - сумма количества документов и термов , <math>\textbf{k}</math> – размерность пространства факторов.
 * Вероятностная модель метода не соответствует реальности. Предполагается, что слова и документы имеют [[Нормальное распределение]], хотя ближе к реальности [[Распределение Пуассона]]. В связи с этим для практических применений лучше подходит [[Вероятностный латентно-семантический анализ]], основанный на [[Мультиномиальное распределение|мультиномиальном распределении]].
@@ Строка 127: / Строка 120: @@
 == Ссылки ==
-* http://www-timc.imag.fr/Benoit.Lemaire/lsa.html – Readings in Latent Semantic Analysis for Cognitive Science and Education. – Сборник статей и ссылок о ЛСА.
+* https://web.archive.org/web/20090131212818/http://www-timc.imag.fr/Benoit.Lemaire/lsa.html - Readings in Latent Semantic Analysis for Cognitive Science and Education. — Сборник статей и ссылок о ЛСА.
+* http://lsa.colorado.edu/ - сайт, посвященный моделированию ЛСА.
+{{Обработка естественного языка}}
-* http://lsa.colorado.edu/ – сайт, посвященный моделированию ЛСА.
 [[Категория:Информационный поиск]]
+[[Категория:Обработка естественного языка]]

Обработка естественного языка
Общие определения	Языковая модель Корпус текстов Речевой корпус Стоп-слова Мешок слов AI-полнота N-грамма Биграммный шифр Триграмма
Анализ текста	Сегментация текста^[англ.] Частеречная разметка Поверхностно-синтаксический анализ Обработка сложных слов^[англ.] Извлечение коллокаций^[англ.] Стемминг Лемматизация Распознавание именованных сущностей^[англ.] Разрешение кореферентности Анализ тональности текста Извлечение концептов^[англ.] Синтаксический анализ Разрешение лексической многозначности Извлечение терминологии^[англ.] Извлечение информации Идентификация языка Определение регистра^[англ.]
Реферирование	Извлечение предложений^[англ.] Генерация реферата Многодокументное реферирование^[англ.] Упрощение текста^[англ.]
Машинный перевод	Автоматизированный Гибридный Интерлингвальный^[англ.] На основе правил На основе примеров На основе словаря^[англ.] На основе трансформации Нейронный Статистический Синхронный
Идентификация и сбор данных	Распознавание речи Синтез речи Оптическое распознавание символов Генерация текста
Тематическая модель	Размещение патинко Латентное размещение Дирихле Латентно-семантический анализ
Рецензирование	Автоматизированная оценка сочинений^[англ.] Конкордансер Предиктивный ввод текста Система проверки грамматики^[англ.] Система проверки правописания Угадывание синтаксиса^[англ.]
Интерфейс на естественном языке^[англ.]	Виртуальный ассистент Виртуальный собеседник Вопросно-ответная система Голосовой интерфейс Интерактивная литература

Латентно-семантический анализ: различия между версиями

Текущая версия от 08:48, 25 июля 2024

Содержание

История

Описание работы ЛСА

Применение

Достоинства и недостатки ЛСА

Примечания

Ссылки

Навигация

Латентно-семантический анализ: различия между версиями

Текущая версия от 08:48, 25 июля 2024

История

Описание работы ЛСА

Применение

Достоинства и недостатки ЛСА

Примечания

Ссылки

Навигация

Поиск