Латентно-семантический анализ: различия между версиями
[непроверенная версия] | [непроверенная версия] |
РобоСтася (обсуждение | вклад) |
|||
(не показана 21 промежуточная версия 11 участников) | |||
Строка 1: | Строка 1: | ||
{{ |
{{Не путать|Семантический анализ}} |
||
'''Латентно-семантический анализ (ЛСА)''' ( |
'''Латентно-семантический анализ (ЛСА)''' ({{lang-en|Latent semantic analysis, LSA}}) — это метод [[Обработка естественного языка|обработки информации на естественном языке]], анализирующий взаимосвязь между библиотекой документов и терминами, в них встречающимися, и выявляющий характерные факторы ([[Тематическое моделирование|тематики]]), присущие всем документам и терминам. |
||
В основе метода латентно-семантического анализа лежат принципы [[факторный анализ|факторного анализа]], в частности, выявление латентных связей изучаемых явлений или объектов. При |
В основе метода латентно-семантического анализа лежат принципы [[факторный анализ|факторного анализа]], в частности, выявление [[Латентность|латентных]] связей изучаемых явлений или объектов. При [[классификация|классификации]] / [[кластеризация|кластеризации]] документов этот метод используется для извлечения контекстно-зависимых значений [[Лексические единицы|лексических единиц]] при помощи статистической обработки больших [[Корпус текстов|корпусов текстов]]<ref>{{статья |
||
|ссылка=http://lsa.colorado.edu/papers/dp1.LSAintro.pdf |
|||
{{cite journal |
|||
|заглавие=Introduction to Latent Semantic Analysis |
|||
| url=http://lsa.colorado.edu/papers/dp1.LSAintro.pdf |
|||
|издание={{Нп3|Discourse Processes}} |
|||
| format=PDF| title=Introduction to Latent Semantic Analysis |
|||
|том=25 |
|||
| author=[[Thomas Landauer]], Peter W. Foltz, & Darrell Laham |
|||
|страницы=259—284 |
|||
| journal=Discourse Processes |
|||
|doi=10.1080/01638539809545028 |
|||
| volume=25 |
|||
|язык=en |
|||
| pages=259–284 |
|||
|автор=[[Thomas Landauer]], Peter W. Foltz, & Darrell Laham |
|||
| year=1998 |
|||
|год=1998 |
|||
| doi=10.1080/01638539809545028 |
|||
|тип=journal |
|||
|archivedate=2010-12-24 |
|||
|archiveurl=https://web.archive.org/web/20101224122523/http://lsa.colorado.edu/papers/dp1.LSAintro.pdf |
|||
}}</ref>. |
}}</ref>. |
||
== История == |
== История == |
||
ЛСА был запатентован в [[1988 год]]у<ref>{{US patent|4,839,853}}</ref> [[:en:Scott Deerwester|Scott Deerwester]], [[:en:Susan Dumais|Susan Dumais]], [[Фурнас, Джордж|George Furnas]], [[:en:Richard Harshman|Richard Harshman]], [[Ландауэр, Томас|Thomas Landauer]], [[:en:Karen Lochbaum|Karen Lochbaum]] и [[:en:Lynn Streeter|Lynn Streeter]]. В области информационного поиска данный подход называют '''латентно-семантическим индексированием (ЛСИ)'''. |
|||
Впервые ЛСА был применен для автоматического индексирования текстов, выявления семантической структуры текста и [[Генерация текста|получения псевдодокументов]]<ref name="автоссылка1">{{статья |
|||
ЛСА был запатентован в [[1988]] году <ref>{{US patent|4,839,853}}</ref> [[:en:Scott Deerwester|Scott Deerwester]], [[:en:Susan Dumais|Susan Dumais]], [[:en:George Furnas|George Furnas]], [[:en:Richard Harshman|Richard Harshman]], [[:en:Thomas Landauer|Thomas Landauer]], [[:en:Karen Lochbaum|Karen Lochbaum]] и [[:en:Lynn Streeter|Lynn Streeter]]. В области информационного поиска данный подход называют '''[[латентно-семантическое индексирование|латентно-семантическим индексированием (ЛСИ)]]'''. |
|||
|ссылка=http://lsi.research.telcordia.com/lsi/papers/JASIS90.pdf |
|||
|заглавие=Indexing by Latent Semantic Analysis |
|||
|издание={{Нп3|Journal of the Association for Information Science and Technology|Journal of the American Society for Information Science||Journal of the Association for Information Science and Technology}} |
|||
|том=41 |
|||
|номер=6 |
|||
|страницы=391—407 |
|||
|doi=10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9 |
|||
|accessdate=2011-02-05 |
|||
|язык=en |
|||
|автор=[[Scott Deerwester]], [[Susan Dumais|Susan T. Dumais]], [[George Furnas|George W. Furnas]], [[Thomas Landauer|Thomas K. Landauer]], [[Richard Harshman]] |
|||
|год=1990 |
|||
|тип=journal |
|||
|archiveurl=https://web.archive.org/web/20120717020428/http://lsi.research.telcordia.com/lsi/papers/JASIS90.pdf |
|||
|archivedate=2012-07-17 |
|||
}}</ref>. Затем этот метод был довольно успешно использован для представления [[База знаний|баз знаний]]<ref>{{статья |
|||
|ссылка=http://www.welchco.com/02/14/01/60/96/02/2901.HTM |
|||
|заглавие=A Solution to Plato's Problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and Representation of Knowledge |
|||
|издание=JPsychological Review. |
|||
|том=104 |
|||
|страницы=211—240 |
|||
|accessdate=2007-07-02 |
|||
|archiveurl=https://www.webcitation.org/669WP3Drm?url=http://www.welchco.com/02/14/01/60/96/02/2901.HTM |
|||
|archivedate=2012-03-14 |
|||
|deadlink=no |
|||
|язык=en |
|||
|тип=journal |
|||
|автор=[[Thomas Landauer]], [[Susan Dumais|Susan T. Dumais]] |
|||
|год=1997 |
|||
}}</ref> и построения [[Когнитивная модель|когнитивных моделей]]<ref>{{статья |
|||
|ссылка=http://membres-timc.imag.fr/Benoit.Lemaire/activites/tutorialLSA.pdf |
|||
|заглавие=Cognitive Models based on Latent Semantic Analysis |
|||
|издание=Tutorial given at the 5th International Conference on Cognitive Modeling (ICCM'2003), Bamberg, Germany, April 9 2003. |
|||
|deadlink=no |
|||
|язык=und |
|||
|автор=[[B. Lemaire]], [[G. Denhière]] |
|||
|год=2003 |
|||
}}{{Недоступная ссылка|date=2019-05|bot=InternetArchiveBot }} |
|||
</ref>. |
|||
В последние годы метод ЛСА часто используется для поиска информации ([[индексация документов]]), [[классификация документов|классификации документов]]<ref>Некрестьянов И. С. Тематико-ориентированные методы информационного поиска / Диссертация на соискание степени к. ф-м.н. СПбГУ, 2000.</ref>, [[модель понимания|моделях понимания]]<ref>Соловьев А. Н. Моделирование процессов понимания речи с использованием латентно-семантического анализа / Диссертация на соискание степени к.ф.н. СПбГУ, 2008.</ref> и других областях, где требуется выявление главных факторов из массива информационных данных. |
|||
Впервые ЛСА был применен для автоматического индексирования текстов, выявления семантической структуры текста и получения псевдодокументов <ref> |
|||
{{cite journal |
|||
| url=http://lsi.research.telcordia.com/lsi/papers/JASIS90.pdf |
|||
|format=PDF| title=Indexing by Latent Semantic Analysis |
|||
| author=[[Scott Deerwester]], [[Susan Dumais|Susan T. Dumais]], [[George Furnas|George W. Furnas]], [[Thomas Landauer|Thomas K. Landauer]], [[Richard Harshman]] |
|||
| journal=Journal of the American Society for Information Science |
|||
| volume=41 |
|||
| issue=6 |
|||
| pages=391–407 |
|||
| year=1990 |
|||
| doi=10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9 |
|||
}} </ref>. Затем этот метод был довольно успешно использован для представления баз знаний<ref> |
|||
{{cite web |
|||
| url = http://www.welchco.com/02/14/01/60/96/02/2901.HTM |
|||
| title = A Solution to Plato's Problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and Representation of Knowledge |
|||
| author = [[Thomas Landauer]], [[Susan Dumais|Susan T. Dumais]] |
|||
| journal = JPsychological Review. |
|||
| volume = 104 |
|||
| pages = 211–240 |
|||
| year = 1997 |
|||
| accessdate = 2007-07-02 |
|||
| archiveurl = http://www.webcitation.org/669WP3Drm |
|||
| archivedate = 2012-03-14 |
|||
}}</ref> и построения когнитивных моделей <ref> |
|||
{{cite web |
|||
| url = http://membres-timc.imag.fr/Benoit.Lemaire/activites/tutorialLSA.pdf |
|||
| title = Cognitive Models based on Latent Semantic Analysis |
|||
| author = [[B. Lemaire]], [[G. Denhière]] |
|||
| journal = Tutorial given at the 5th International Conference on Cognitive Modeling (ICCM'2003), Bamberg, Germany, April 9 2003. |
|||
| year = 2003 |
|||
| deadlink = 404 |
|||
}} |
|||
</ref>. |
|||
В последние годы метод ЛСА часто используется для поиска информации ([[индексация документов]]), [[классификация документов|классификации документов]] <ref>Некрестьянов И.С. Тематико-ориентированные методы информационного поиска / Диссертация на соискание степени к. ф-м.н. СПбГУ, 2000.</ref>, [[модель понимания|моделях понимания]] <ref>Соловьев А.Н. Моделирование процессов понимания речи с использованием латентно-семантического анализа / Диссертация на соискание степени к.ф.н. СПбГУ, 2008.</ref> и других областях, где требуется выявление главных факторов из массива информационных данных . |
|||
== Описание работы ЛСА == |
== Описание работы ЛСА == |
||
[[ |
[[Файл:Topic model scheme.webm|thumb|450px|thumbtime=24|start=1|end=24|Анимация процесса обнаружения тематик в матрице «документы-слова». Каждый столбец матрицы соответствует документу, каждая строка — слову. Ячейки матрицы содержат веса слов в документах (например, значения TF-IDF), более тёмные оттенки соответствуют более высокому весу. Алгоритм LSA группирует как документы, которые используют похожие слова, так и слова, которые встречаются в похожем наборе документов. Полученные кластеры в матрице используются для обнаружения латентных (скрытых) компонентов в исходных данных, соответствующих определённым тематикам.<ref>{{Cite web |url=http://topicmodels.west.uni-koblenz.de/ckling/tmt/svd_ap.html |title=Архивированная копия |access-date=2017-09-01 |archive-date=2017-09-01 |archive-url=https://web.archive.org/web/20170901201901/http://topicmodels.west.uni-koblenz.de/ckling/tmt/svd_ap.html |deadlink=no }}</ref>]] |
||
ЛСА можно сравнить с простым видом [[Искусственная нейронная сеть|нейросети]], состоящей из трех слоев: первый слой содержит множество слов ([[терм]]ов), второй |
ЛСА можно сравнить с простым видом [[Искусственная нейронная сеть|нейросети]], состоящей из трех слоев: первый слой содержит множество слов ([[терм]]ов), второй — некое множество документов, соответствующих определённым ситуациям, а третий, средний, скрытый слой представляет собой множество узлов с различными весовыми коэффициентами, связывающих первый и второй слои. |
||
В качестве исходной информации ЛСА использует |
В качестве исходной информации ЛСА использует [[матрица термы-на-документы|матрицу термы-на-документы]], описывающую набор данных, используемый для обучения системы. Элементы этой матрицы содержат, как правило, веса, учитывающие частоты использования каждого терма в каждом документе и участие терма во всех документах ([[TF-IDF]]). |
||
Наиболее распространенный вариант ЛСА основан на использовании разложения матрицы по сингулярным значениям ([[SVD|SVD |
Наиболее распространенный вариант ЛСА основан на использовании разложения матрицы по сингулярным значениям ([[SVD|SVD — Singular Value Decomposition]]). С помощью SVD-разложения любая матрица раскладывается во множество ортогональных матриц, линейная комбинация которых является достаточно точным приближением к исходной матрице. |
||
Говоря более формально, согласно теореме о сингулярном разложении<ref>Голуб Дж., Ван Лоун Ч. Матричные вычисления. М.: «Мир», 1999.</ref>, любая вещественная прямоугольная матрица может быть разложена на произведение трех матриц: |
Говоря более формально, согласно теореме о сингулярном разложении<ref>Голуб Дж., Ван Лоун Ч. Матричные вычисления. М.: «Мир», 1999.</ref>, любая вещественная прямоугольная матрица может быть разложена на произведение трех матриц: |
||
Строка 68: | Строка 76: | ||
A=U S V ^T |
A=U S V ^T |
||
\end{matrix} |
\end{matrix} |
||
</math> |
</math> |
||
, |
, |
||
где матрицы <math>\textbf{U}</math> и <math>\textbf{V}</math> |
где матрицы <math>\textbf{U}</math> и <math>\textbf{V}</math> — ортогональные, а <math>\textbf{S}</math> — диагональная матрица, значения на диагонали которой называются сингулярными значениями матрицы <math>\textbf{A}</math>. |
||
Буква Т в выражении <math>\textbf{V} ^T</math> означает [[Транспонированная матрица|транспонирование]] матрицы. |
Буква Т в выражении <math>\textbf{V} ^T</math> означает [[Транспонированная матрица|транспонирование]] матрицы. |
||
Такое разложение обладает замечательной особенностью: если в матрице <math>\textbf{S}</math> оставить только <math>\textbf{k}</math> наибольших сингулярных значений, а в матрицах <math>\textbf{U}</math> и <math>\textbf{V}</math> |
Такое разложение обладает замечательной особенностью: если в матрице <math>\textbf{S}</math> оставить только <math>\textbf{k}</math> наибольших сингулярных значений, а в матрицах <math>\textbf{U}</math> и <math>\textbf{V}</math> — только соответствующие этим значениям столбцы, то произведение получившихся матриц <math>\textbf{S}</math> , <math>\textbf{U}</math> и <math>\textbf{V}</math> будет наилучшим приближением исходной матрицы <math>\textbf{A}</math> к матрице <math>\hat\textbf{A}</math> ранга <math>\textbf{k}</math>: |
||
<math> |
<math> |
||
Строка 80: | Строка 88: | ||
\hat A \approx A = U S V ^T |
\hat A \approx A = U S V ^T |
||
\end{matrix} |
\end{matrix} |
||
</math> |
</math> |
||
, |
, |
||
Основная идея латентно-семантического анализа состоит в том, что если в качестве матрицы <math>\textbf{A}</math> использовалась [[матрица термы-на-документы]], то матрица <math>\hat\textbf{A}</math> , содержащая только <math>\textbf{k}</math> первых линейно независимых компонент <math>\textbf{A}</math>, отражает основную структуру различных зависимостей, присутствующих в исходной матрице. Структура зависимостей определяется весовыми функциями термов. |
Основная идея латентно-семантического анализа состоит в том, что если в качестве матрицы <math>\textbf{A}</math> использовалась [[матрица термы-на-документы]], то матрица <math>\hat\textbf{A}</math> , содержащая только <math>\textbf{k}</math> первых [[Линейная независимость|линейно независимых]] компонент <math>\textbf{A}</math>, отражает основную структуру различных зависимостей, присутствующих в исходной матрице. Структура зависимостей определяется весовыми функциями термов. |
||
Таким образом, каждый терм и документ представляются при помощи векторов в общем пространстве размерности <math>\textbf{k}</math> (так называемом пространстве гипотез). Близость между любой комбинацией термов и/или документов легко вычисляется при помощи скалярного произведения векторов. |
Таким образом, каждый терм и документ представляются при помощи векторов в общем пространстве размерности <math>\textbf{k}</math> (так называемом пространстве гипотез). Близость между любой комбинацией термов и/или документов легко вычисляется при помощи [[Скалярное произведение|скалярного произведения]] векторов. |
||
Как правило, выбор <math>\textbf{k}</math> зависит от поставленной задачи и подбирается эмпирически. Если выбранное значение <math>\textbf{k}</math> слишком велико, то метод теряет свою мощность и приближается по характеристикам к стандартным векторным методам. Слишком маленькое значение k не позволяет улавливать различия между похожими термами или документами. |
Как правило, выбор <math>\textbf{k}</math> зависит от поставленной задачи и подбирается эмпирически. Если выбранное значение <math>\textbf{k}</math> слишком велико, то метод теряет свою мощность и приближается по характеристикам к стандартным векторным методам. Слишком маленькое значение k не позволяет улавливать различия между похожими термами или документами. |
||
== Применение == |
== Применение == |
||
Существуют три основных разновидности решения задачи методом ЛСА: |
|||
Существуют три основных разновидности решения задачи методом ЛСА: |
|||
* сравнение двух термов между собой; |
* сравнение двух термов между собой; |
||
* сравнение двух документов между собой; |
* сравнение двух документов между собой; |
||
Строка 97: | Строка 104: | ||
== Достоинства и недостатки ЛСА == |
== Достоинства и недостатки ЛСА == |
||
Достоинства метода: |
|||
* метод является наилучшим для выявления латентных зависимостей внутри множества документов; |
|||
Достоинства метода: |
|||
* метод является наилучшим для выявления латентных зависимостей внутри множества документов; |
|||
* метод может быть применен как с обучением, так и без обучения (например, для [[кластеризация|кластеризации]]); |
* метод может быть применен как с обучением, так и без обучения (например, для [[кластеризация|кластеризации]]); |
||
* используются значения матрицы близости, основанной на частотных характеристиках документов и лексических единиц; |
* используются значения матрицы близости, основанной на частотных характеристиках документов и лексических единиц; |
||
* частично снимается [[полисемия]] и |
* частично снимается [[полисемия]] и [[омонимия]]. |
||
Недостатки: |
Недостатки: |
||
* Существенным недостатком метода является значительное снижение скорости вычисления при увеличении |
* Существенным недостатком метода является значительное снижение скорости вычисления при увеличении объёма входных данных (например, при SVD-преобразовании). Как показано в<ref name="автоссылка1" />, скорость вычисления соответствует порядку <math>\textbf {N}^{2*k}</math>, где <math> \textbf{N}=\textbf{N}_{doc} + \textbf{N}_{term}</math> — сумма количества документов и термов , <math>\textbf{k}</math> — размерность пространства факторов. |
||
{{cite journal |
|||
| url=http://lsi.research.telcordia.com/lsi/papers/JASIS90.pdf |
|||
|format=PDF| title=Indexing by Latent Semantic Analysis |
|||
| author=[[Scott Deerwester]], [[Susan Dumais|Susan T. Dumais]], [[George Furnas|George W. Furnas]], [[Thomas Landauer|Thomas K. Landauer]], [[Richard Harshman]] |
|||
| journal=Journal of the American Society for Information Science |
|||
| volume=41 |
|||
| issue=6 |
|||
| pages=391–407 |
|||
| year=1990 |
|||
| doi=10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9 |
|||
}} |
|||
</ref>, скорость вычисления соответствует порядку <math>\textbf {N}^{2*k}</math>, где <math> \textbf{N}=\textbf{N}_{doc} + \textbf{N}_{term}</math> - сумма количества документов и термов , <math>\textbf{k}</math> – размерность пространства факторов. |
|||
* Вероятностная модель метода не соответствует реальности. Предполагается, что слова и документы имеют [[Нормальное распределение]], хотя ближе к реальности [[Распределение Пуассона]]. В связи с этим для практических применений лучше подходит [[Вероятностный латентно-семантический анализ]], основанный на [[Мультиномиальное распределение|мультиномиальном распределении]]. |
* Вероятностная модель метода не соответствует реальности. Предполагается, что слова и документы имеют [[Нормальное распределение]], хотя ближе к реальности [[Распределение Пуассона]]. В связи с этим для практических применений лучше подходит [[Вероятностный латентно-семантический анализ]], основанный на [[Мультиномиальное распределение|мультиномиальном распределении]]. |
||
Строка 126: | Строка 120: | ||
== Ссылки == |
== Ссылки == |
||
* http://www-timc.imag.fr/Benoit.Lemaire/lsa.html |
* https://web.archive.org/web/20090131212818/http://www-timc.imag.fr/Benoit.Lemaire/lsa.html - Readings in Latent Semantic Analysis for Cognitive Science and Education. — Сборник статей и ссылок о ЛСА. |
||
* http://lsa.colorado.edu/ - сайт, посвященный моделированию ЛСА. |
|||
{{Обработка естественного языка}} |
|||
* http://lsa.colorado.edu/ – сайт, посвященный моделированию ЛСА. |
|||
[[Категория:Информационный поиск]] |
[[Категория:Информационный поиск]] |
||
[[Категория:Обработка естественного языка]] |
Текущая версия от 08:48, 25 июля 2024
Латентно-семантический анализ (ЛСА) (англ. Latent semantic analysis, LSA) — это метод обработки информации на естественном языке, анализирующий взаимосвязь между библиотекой документов и терминами, в них встречающимися, и выявляющий характерные факторы (тематики), присущие всем документам и терминам.
В основе метода латентно-семантического анализа лежат принципы факторного анализа, в частности, выявление латентных связей изучаемых явлений или объектов. При классификации / кластеризации документов этот метод используется для извлечения контекстно-зависимых значений лексических единиц при помощи статистической обработки больших корпусов текстов[1].
История
[править | править код]ЛСА был запатентован в 1988 году[2] Scott Deerwester, Susan Dumais, George Furnas, Richard Harshman, Thomas Landauer, Karen Lochbaum и Lynn Streeter. В области информационного поиска данный подход называют латентно-семантическим индексированием (ЛСИ).
Впервые ЛСА был применен для автоматического индексирования текстов, выявления семантической структуры текста и получения псевдодокументов[3]. Затем этот метод был довольно успешно использован для представления баз знаний[4] и построения когнитивных моделей[5].
В последние годы метод ЛСА часто используется для поиска информации (индексация документов), классификации документов[6], моделях понимания[7] и других областях, где требуется выявление главных факторов из массива информационных данных.
Описание работы ЛСА
[править | править код]ЛСА можно сравнить с простым видом нейросети, состоящей из трех слоев: первый слой содержит множество слов (термов), второй — некое множество документов, соответствующих определённым ситуациям, а третий, средний, скрытый слой представляет собой множество узлов с различными весовыми коэффициентами, связывающих первый и второй слои.
В качестве исходной информации ЛСА использует матрицу термы-на-документы, описывающую набор данных, используемый для обучения системы. Элементы этой матрицы содержат, как правило, веса, учитывающие частоты использования каждого терма в каждом документе и участие терма во всех документах (TF-IDF). Наиболее распространенный вариант ЛСА основан на использовании разложения матрицы по сингулярным значениям (SVD — Singular Value Decomposition). С помощью SVD-разложения любая матрица раскладывается во множество ортогональных матриц, линейная комбинация которых является достаточно точным приближением к исходной матрице.
Говоря более формально, согласно теореме о сингулярном разложении[9], любая вещественная прямоугольная матрица может быть разложена на произведение трех матриц:
,
где матрицы и — ортогональные, а — диагональная матрица, значения на диагонали которой называются сингулярными значениями матрицы . Буква Т в выражении означает транспонирование матрицы.
Такое разложение обладает замечательной особенностью: если в матрице оставить только наибольших сингулярных значений, а в матрицах и — только соответствующие этим значениям столбцы, то произведение получившихся матриц , и будет наилучшим приближением исходной матрицы к матрице ранга :
,
Основная идея латентно-семантического анализа состоит в том, что если в качестве матрицы использовалась матрица термы-на-документы, то матрица , содержащая только первых линейно независимых компонент , отражает основную структуру различных зависимостей, присутствующих в исходной матрице. Структура зависимостей определяется весовыми функциями термов.
Таким образом, каждый терм и документ представляются при помощи векторов в общем пространстве размерности (так называемом пространстве гипотез). Близость между любой комбинацией термов и/или документов легко вычисляется при помощи скалярного произведения векторов.
Как правило, выбор зависит от поставленной задачи и подбирается эмпирически. Если выбранное значение слишком велико, то метод теряет свою мощность и приближается по характеристикам к стандартным векторным методам. Слишком маленькое значение k не позволяет улавливать различия между похожими термами или документами.
Применение
[править | править код]Существуют три основных разновидности решения задачи методом ЛСА:
- сравнение двух термов между собой;
- сравнение двух документов между собой;
- сравнение терма и документа.
Достоинства и недостатки ЛСА
[править | править код]Достоинства метода:
- метод является наилучшим для выявления латентных зависимостей внутри множества документов;
- метод может быть применен как с обучением, так и без обучения (например, для кластеризации);
- используются значения матрицы близости, основанной на частотных характеристиках документов и лексических единиц;
- частично снимается полисемия и омонимия.
Недостатки:
- Существенным недостатком метода является значительное снижение скорости вычисления при увеличении объёма входных данных (например, при SVD-преобразовании). Как показано в[3], скорость вычисления соответствует порядку , где — сумма количества документов и термов , — размерность пространства факторов.
- Вероятностная модель метода не соответствует реальности. Предполагается, что слова и документы имеют Нормальное распределение, хотя ближе к реальности Распределение Пуассона. В связи с этим для практических применений лучше подходит Вероятностный латентно-семантический анализ, основанный на мультиномиальном распределении.
Примечания
[править | править код]- ↑ Thomas Landauer, Peter W. Foltz, & Darrell Laham. Introduction to Latent Semantic Analysis (англ.) // Discourse Processes[англ.] : journal. — 1998. — Vol. 25. — P. 259—284. — doi:10.1080/01638539809545028. Архивировано 24 декабря 2010 года.
- ↑ U.S. Patent 4,839,853
- ↑ 1 2 Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer, Richard Harshman. Indexing by Latent Semantic Analysis (англ.) // Journal of the American Society for Information Science[англ.] : journal. — 1990. — Vol. 41, no. 6. — P. 391—407. — doi:10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9. Архивировано 17 июля 2012 года.
- ↑ Thomas Landauer, Susan T. Dumais. A Solution to Plato's Problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and Representation of Knowledge (англ.) // JPsychological Review. : journal. — 1997. — Vol. 104. — P. 211—240. Архивировано 14 марта 2012 года.
- ↑ B. Lemaire, G. Denhière. Cognitive Models based on Latent Semantic Analysis (неопр.) // Tutorial given at the 5th International Conference on Cognitive Modeling (ICCM'2003), Bamberg, Germany, April 9 2003.. — 2003. (недоступная ссылка)
- ↑ Некрестьянов И. С. Тематико-ориентированные методы информационного поиска / Диссертация на соискание степени к. ф-м.н. СПбГУ, 2000.
- ↑ Соловьев А. Н. Моделирование процессов понимания речи с использованием латентно-семантического анализа / Диссертация на соискание степени к.ф.н. СПбГУ, 2008.
- ↑ Архивированная копия . Дата обращения: 1 сентября 2017. Архивировано 1 сентября 2017 года.
- ↑ Голуб Дж., Ван Лоун Ч. Матричные вычисления. М.: «Мир», 1999.
Ссылки
[править | править код]- https://web.archive.org/web/20090131212818/http://www-timc.imag.fr/Benoit.Lemaire/lsa.html - Readings in Latent Semantic Analysis for Cognitive Science and Education. — Сборник статей и ссылок о ЛСА.
- http://lsa.colorado.edu/ - сайт, посвященный моделированию ЛСА.