Тематическое моделирование: различия между версиями
[непроверенная версия] | [непроверенная версия] |
м оформление |
м оформление |
||
Строка 2: | Строка 2: | ||
[[File:Тематическая модель.png|thumb|Представление документа в тематической модели]] |
[[File:Тематическая модель.png|thumb|Представление документа в тематической модели]] |
||
'''Тематическое моделирование''' — это способ построения модели коллекции текстовых документов, которая определяет, к каким темам относится каждый из документов. |
'''Тематическое моделирование''' — это способ построения модели коллекции текстовых документов, которая определяет, к каким темам относится каждый из документов.{{sfn|Коршунов|2012}} |
||
{{sfn|Коршунов|2012}} |
|||
Тематическая модель (topic model) коллекции текстовых документов определяет, к каким темам относится каждый документ и какие слова (термины) образуют каждую тему. |
'''Тематическая модель''' (topic model) коллекции текстовых документов определяет, к каким темам относится каждый документ и какие слова (термины) образуют каждую тему. |
||
{{sfn|Воронцов|2013}} |
{{sfn|Воронцов|2013}} |
||
Переход из пространства терминов в пространство найденных тематик помогает разрешать синонимию и полисемию терминов, а также эффективнее решать такие задачи, как тематический [[поиск]], [[классификация]], суммаризация и аннотация коллекций документов и новостных потоков. |
|||
Тематическое моделирование как вид статистических моделей для нахождения скрытых тем встреченных в коллекции документов, нашло свое применение в таких областях как [[машинное обучение]] и [[обработка естественного языка]]. Исследователи используют различные тематические модели для анализа текстов, текстовых архивов документов, для анализа изменения тем в наборах документов. Интуитивно понимая, что документ относится к определенной теме, в документах посвященных одной теме можно встретить определенные слова чаще других. Например: «собака» и «кость» встречаются чаще в документах про собак, «кошки» и «молоко» будут встречаться в документах о котятах, предлоги «и» и «в» будут встречаться в обеих тематиках. Обычно документ касается нескольких тем в разных пропорциях, таким образом, документ в котором 10% темы составляют кошки, а 90% темы про собак, можно предположить, что слов про собак в 9 раз больше. Тематическое моделирование отражает эту интуицию в математическую структуру, которая позволяет на основании изучения коллекции документов и исследования частотных характеристик слов в каждом документе, сделать вывод, что каждый документ это некоторый баланс тем. |
Тематическое моделирование как вид статистических моделей для нахождения скрытых тем встреченных в коллекции документов, нашло свое применение в таких областях как [[машинное обучение]] и [[обработка естественного языка]]. Исследователи используют различные тематические модели для анализа текстов, текстовых архивов документов, для анализа изменения тем в наборах документов. Интуитивно понимая, что документ относится к определенной теме, в документах посвященных одной теме можно встретить определенные слова чаще других. Например: «собака» и «кость» встречаются чаще в документах про собак, «кошки» и «молоко» будут встречаться в документах о котятах, предлоги «и» и «в» будут встречаться в обеих тематиках. Обычно документ касается нескольких тем в разных пропорциях, таким образом, документ в котором 10% темы составляют кошки, а 90% темы про собак, можно предположить, что слов про собак в 9 раз больше. Тематическое моделирование отражает эту интуицию в математическую структуру, которая позволяет на основании изучения коллекции документов и исследования частотных характеристик слов в каждом документе, сделать вывод, что каждый документ это некоторый баланс тем. |
||
Строка 20: | Строка 21: | ||
==История== |
==История== |
||
Первое описание тематического моделирования было в работе Равана Пападимитр, Томаки и Вемпола 1998 |
Первое описание тематического моделирования было в работе Равана Пападимитр, Томаки и Вемпола 1998 |
||
{{sfn|Пападимитриу|1998}}. Томас Хофман в 1999 {{sfn|Хофманн|1999}} |
|||
<ref name="PRTV1998">{{cite journal |
|||
предложил вероятностное скрытое семантическое индексирование (PLSI). Одна из самых распространенных тематических моделей это Латентное размещение Дирехле (LDA), эта модель является обобщением вероятностного семантического индексирования разработана Девидом Блейем, Эндрю Иг, и Михаэлем Джорданом в 2002 {{sfn|Блей2003|2003}}. Другие тематические модели как правило являются расширением LDA, такие как Распределение Пачино, которое улучшает LDA за счет введения дополнительных корреляционных коэффициентов для каждого слова которое составляет тему. |
|||
| last1 = Пападимитриу | first1= Христос |
|||
|last2 = Рагван | first2 = Прабхакар |
|||
|last3 = Тамаки | first3 = Хисао |
|||
|last4= Вемпала | first4= Сантос |
|||
| title = Скрытое семантическое индексирование вероятностный анализ. |
|||
| journal = Proceedings of ACM PODS |
|||
| year = 1998 |
|||
| url = http://www.cs.berkeley.edu/~christos/ir.ps |format=Postscript |
|||
}}</ref> |
|||
. Томас Хофман в 1999 |
|||
<ref name="hofmann1999">{{cite journal |
|||
| last1 = Хофманн | first1 = Томас |
|||
| title = Вероятностное скрытое семантическое индексирование |
|||
| journal = Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval |
|||
| year = 1999 |
|||
| url = http://www.cs.brown.edu/~th/papers/Hofmann-SIGIR99.pdf |format=PDF |
|||
}}</ref> |
|||
предложил вероятностное скрытое семантическое индексирование (PLSI). Одна из самых распространенных тематических моделей это Латентное размещение Дирехле (LDA), эта модель является обобщением вероятностного семантического индексирования разработана Девидом Блейем, Эндрю Иг, и Михаэлем Джорданом в 2002 |
|||
<ref name="blei2003">{{cite journal |
|||
| last1 = Блей | first1 = Девид M. |
|||
| last2 = Нг |first2 = Андрю Y. |
|||
| last3 = Джордан |first3 = Михаель I |authorlink3=Михаель I. Джордан |
|||
| title = Латентное размещение Дирихле |
|||
| journal = Journal of Machine Learning Research |
|||
| year = 2003 |
|||
| month = January |
|||
| volume = 3 |
|||
| pages =993–1022 |
|||
| url = http://jmlr.csail.mit.edu/papers/v3/blei03a.html |
|||
| doi = 10.1162/jmlr.2003.3.4-5.993 |
|||
| last4 = Lafferty |
|||
| first4 = John |
|||
}}</ref> |
|||
. Другие тематические модели как правило являются расширением LDA, такие как Распределение Пачино, которое улучшает LDA за счет введения дополнительных корреляционных коэффициентов для каждого слова которое составляет тему. |
|||
==Тематические исследования== |
==Тематические исследования== |
||
Строка 60: | Строка 28: | ||
==Алгоритмы== |
==Алгоритмы== |
||
В работе Девида Блея «Введение в тематическое моделирование» рассмотрены наиболее популярные наборы алгоритмов |
В работе Девида Блея «Введение в тематическое моделирование» рассмотрены наиболее популярные наборы алгоритмов {{sfn|Блей2012|2012}}. На практике исследователи используют одну из эвристик метода максимального правдоподобия, методы [[сингулярное разложение|сингулярного разложения]] (SVD), [[метод моментов]], алгоритм, основанный на неотрицательной матрице факторизации (NMF), вероятностные тематические модели, вероятностный латентно-семантический анализ, латентное размещение Дирехле,. |
||
| last1 = Блей | first1 = Девид M. |
|||
| title = Введение в вероятностное тематическое моделирование. |
|||
| journal = Comm. ACM |
|||
| date = April 2012 |format=PDF |volume=55 |issue=4 |pages=77–84 |doi=10.1145/2133806.2133826 |
|||
| url = http://www.cs.princeton.edu/~blei/papers/Blei2011.pdf |
|||
}}</ref>. На практике исследователи используют одну из эвристик метода максимального правдоподобия, методы [[сингулярное разложение|сингулярного разложения]] (SVD)<ref>{{Cite arxiv |
|||
| author1 = Sanjeev Arora |author2=Rong Ge |author3=Ankur Moitra |
|||
| title = Обучение тематических моделей с использованием SVD |eprint=1204.1956 |
|||
| booktitle = arxiv |
|||
| date = April 2012 |
|||
}} |
|||
</ref>, [[метод моментов]], алгоритм, основанный на неотрицательной матрице факторизации (NMF), вероятностные тематические модели, вероятностный латентно-семантический анализ, латентное размещение Дирехле,. |
|||
===Вероятностные тематические модели=== |
===Вероятностные тематические модели=== |
||
Вероятностные тематические модели основаны на следующих предположениях {{sfn|Коршунов|2012|с=229}} {{sfn|Воронцов|2013|с=6}} |
Вероятностные тематические модели основаны на следующих предположениях {{sfn|Коршунов|2012|с=229}} {{sfn|Воронцов|2013|с=6}} {{sfn|Воронцов13|2013|с=5}} {{sfn|ВоронцовМЛ|2013|с=5}}: |
||
<ref> {{cite web | title=Аддитивная регуляризация вероятностных тематических моделей Константин Воронцов Презентация | page=5 | url=http://www.machinelearning.ru/wiki/images/6/63/Voron13mmro-talk.pdf }} |
|||
</ref> |
|||
<ref>{{cite web | title=Вероятностные тематические модели коллекции текстовых документов К.В. Вороноцов Презентация | page=5 | url=http://www.machinelearning.ru/wiki/images/7/7e/Voron-ML-TopicModels-slides.pdf }}</ref>: |
|||
*Порядок документов в коллекции не имеет значения |
*Порядок документов в коллекции не имеет значения |
||
*Порядок слов в документе не имеет значения, документ – мешок слов |
*Порядок слов в документе не имеет значения, документ – мешок слов |
||
Строка 164: | Строка 117: | ||
}} |
}} |
||
* {{статья |
* {{статья |
||
|автор = Воронцов К.В. |
|автор = Воронцов К.В., Потапенко А.А. |
||
|заглавие = Регуляризация, робастность и разреженность вероятностных тематических моделей |
|заглавие = Регуляризация, робастность и разреженность вероятностных тематических моделей |
||
|ссылка = http:// |
|ссылка = http://crm.ics.org.ru/journal/article/1950/ |
||
|издание = Компьютерные исследования и моделирование |
|издание = Компьютерные исследования и моделирование |
||
|тип = журнал |
|тип = журнал |
||
|страницы = 693-706 |
|||
|год = 2012 |
|год = 2012 |
||
|ref = Воронцов12 |
|ref = Воронцов12 |
||
}} |
|||
* {{статья |
|||
|автор = Воронцов К.В. |
|||
|заглавие = Аддитивная регуляризация вероятностных тематических моделей Презентация |
|||
|ссылка = http://www.machinelearning.ru/wiki/images/6/63/Voron13mmro-talk.pdf |
|||
|издание = www.machinelearning.ru |
|||
|тип = web |
|||
|год = 2013 |
|||
|ref = Воронцов13 |
|||
}} |
|||
* {{статья |
|||
|автор = Воронцов К.В. |
|||
|заглавие = Вероятностные тематические модели коллекции текстовых документов Презентация |
|||
|ссылка = http://www.machinelearning.ru/wiki/images/7/7e/Voron-ML-TopicModels-slides.pdf |
|||
|издание = www.machinelearning.ru |
|||
|тип = web |
|||
|год = 2013 |
|||
|ref = ВоронцовМЛ |
|||
}} |
}} |
||
* {{книга |
* {{книга |
||
Строка 192: | Строка 164: | ||
|ref = Ali10 |
|ref = Ali10 |
||
}} |
}} |
||
* {{статья |
|||
|автор = Пападимитриу Христос, Рагван Прабхакар, Тамаки Хисао, Вемпала Сантос |
|||
|заглавие = Скрытое семантическое индексирование вероятностный анализ |
|||
* {{cite web |
|||
|ссылка = http://www.cs.berkeley.edu/~christos/ir.ps |
|||
|last1=Блей |
|||
|издание = Proceedings of ACM PODS |
|||
|first1=Девид |
|||
|тип = журнал |
|||
|last2=Lafferty |
|||
|год = 1998 |
|||
|first2=J.D. |
|||
|ref = Пападимитриу |
|||
|title=Тематическое моделирование |
|||
|date=2009 |
|||
|url=http://www.cs.princeton.edu/~blei/papers/BleiLafferty2009.pdf |
|||
|format=PDF |
|||
}} |
}} |
||
* {{ |
* {{статья |
||
|автор = Хофманн Томас |
|||
|last1=Блей |
|||
|заглавие = Вероятностное скрытое семантическое индексирование |
|||
|first1=Девид |
|||
|ссылка = http://www.cs.brown.edu/~th/papers/Hofmann-SIGIR99.pdf |
|||
|last2=Lafferty |
|||
|издание = Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval |
|||
|first2=J. |
|||
|тип = журнал |
|||
|title=Корреляция тематической модели в науке |
|||
|год = 1999 |
|||
|journal=Annals of Applied Statistics |
|||
|ref = Хофманн |
|||
|volume=1 |
|||
|issue=1 |
|||
|pages=17–35 |
|||
|year=2007 |
|||
|doi=10.1214/07-AOAS114 |
|||
}} |
}} |
||
* {{ |
* {{статья |
||
|автор = Девид Блей, Андрю Нг, Джордан Михаель, Lafferty John |
|||
|last1=Мимно |
|||
|заглавие = Латентное размещение Дирихле |
|||
|first1=Д. |
|||
|ссылка = http://jmlr.csail.mit.edu/papers/v3/blei03a.html |
|||
|title=Вычислительная историография: анализ данных в век классических журналов |
|||
|издание = Journal of Machine Learning Research |
|||
|journal=Journal on Computing and Cultural Heritag |
|||
|тип = журнал |
|||
|volume=5 |
|||
|год = 2003 |
|||
|issue=1 |
|||
|ref = Блей2003 |
|||
|year=April 2012 |
|||
|doi=10.1145/2160165.2160168 |
|||
|url=http://www.perseus.tufts.edu/~amahoney/02-jocch-mimno.pdf |
|||
|format=PDF |
|||
}} |
}} |
||
* {{статья |
|||
* Джокерс, M. 2011 [http://www.stanford.edu/~mjockers/cgi-bin/drupal/node/39 Who's your DH Blog Mate: Match-Making the Day of DH Bloggers with Topic Modeling] Matthew L. Jockers, posted 19 March 2010 |
|||
|автор = Девид Блей, Андрю Нг, Джордан Михаель, Lafferty John |
|||
* Микс, E. 2011 [https://dhs.stanford.edu/comprehending-the-digital-humanities/ Понимание цифровых гуманитарных наук, posted 19 February 2011 |
|||
|заглавие = Введение в вероятностное тематическое моделирование. |
|||
* Темплтон, C. 2011 [http://mith.umd.edu/topic-modeling-in-the-humanities-an-overview/ Тематическое моделирование в гуманитарных науках: обзор.] Maryland Institute for Technology in the Humanities Blog. posted 1 August 2011 |
|||
|ссылка = http://www.cs.princeton.edu/~blei/papers/Blei2011.pdf |
|||
* {{cite journal |
|||
|издание = Comm. ACM |
|||
|last1=Гифитс |
|||
|тип = журнал |
|||
|first1=T. |
|||
|страницы = 77–84 |
|||
|last2=Steyvers |
|||
|год = 2012 |
|||
|first2=M. |
|||
|ref = Блей2012 |
|||
|title=Нахождение научных тем |
|||
|journal=Proceedings of the National Academy of Sciences |
|||
|volume=101 |
|||
|issue=Suppl 1 |
|||
|pages=5228–35 |
|||
|year=2004 |
|||
|doi=10.1073/pnas.0307752101 |
|||
|pmid=14872004 |
|||
|pmc=387300 |
|||
}} |
}} |
||
* {{статья |
|||
* Янг , T., A Торгет и Р. Mihalcea (2011) Тематическое моделирование в исторических газетах. [http://www.aclweb.org/anthology/ruwiki/w/W11/W11-15.pdf#page=108 Proceedings of the 5th ACL-HLT Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities]. The Association for Computational Linguistics, Madison, WI. pages 96–104. |
|||
|автор = Девид Блей, J.D. Lafferty |
|||
* {{cite journal |
|||
|заглавие = Тематическое моделирование |
|||
|last1=Блок |
|||
|ссылка = http://www.cs.princeton.edu/~blei/papers/BleiLafferty2009.pdf |
|||
|first1=С. |
|||
|тип = web |
|||
|title=Делаем больше с оцифровкой- введение в тематическое моделирование в ранних американских источниках |
|||
|год = 2009 |
|||
|journal=Common-place The Interactive Journal of Early American Life |
|||
|volume=6 |
|||
|issue=2 |
|||
|date=January 2006 |
|||
|url=http://www.common-place.org/vol-06/no-02/tales/ |
|||
}} |
}} |
||
* {{ |
* {{статья |
||
|автор = Девид Блей, John Lafferty |
|||
|last1=Ньюман |
|||
|заглавие = Корреляция тематической модели в науке |
|||
|first1=Д. |
|||
|ссылка = http://www.cs.princeton.edu/~blei/papers/Blei2011.pdf |
|||
|first2=S. |
|||
|издание = Annals of Applied Statistics |
|||
|last2=Block |
|||
|тип = журнал |
|||
|title=Вероятностное тематическое разложение в газетах 18 века |
|||
|страницы = 17–35 |
|||
|journal=Journal of the American Society for Information Science and Technology |
|||
|год = 2007 |
|||
|volume=57 |
|||
|doi = 10.1214/07-AOAS114 |
|||
|issue=5 |
|||
|date=March 2006 |
|||
|doi=10.1002/asi.20342 |
|||
|url=http://www.ics.uci.edu/~newman/pubs/JASIST_Newman.pdf |
|||
|format=PDF |
|||
}} |
}} |
||
* {{статья |
|||
* Блевин, C. 2010. [http://historying.org/2010/04/01/topic-modeling-martha-ballards-diary/ Тематическое моделирование дневника Марты Баллардс] historying. posted 1 April 2010. |
|||
|автор = Д. Мимно |
|||
|заглавие = Вычислительная историография: анализ данных в век классических журналов |
|||
|издание = Journal on Computing and Cultural Heritag |
|||
|тип = журнал |
|||
|ссылка = http://www.perseus.tufts.edu/~amahoney/02-jocch-mimno.pdf |
|||
|год = 2012 |
|||
|doi = 10.1145/2160165.2160168 |
|||
}} |
|||
* {{статья |
|||
|автор = Matthew L. Jockers |
|||
|заглавие = Who's your DH Blog Mate: Match-Making the Day of DH Bloggers with Topic Modeling |
|||
|ссылка = http://www.stanford.edu/~mjockers/cgi-bin/drupal/node/39 |
|||
|тип = web |
|||
|год = 2010 |
|||
}} |
|||
* {{статья |
|||
|автор = E. Микс |
|||
|заглавие = Понимание цифровых гуманитарных наук |
|||
|ссылка = https://dhs.stanford.edu/comprehending-the-digital-humanities/ |
|||
|тип = web |
|||
|год = 2011 |
|||
}} |
|||
* {{статья |
|||
|автор = C. Темплтон |
|||
|заглавие = Тематическое моделирование в гуманитарных науках: обзор. |
|||
|ссылка = http://mith.umd.edu/topic-modeling-in-the-humanities-an-overview/ |
|||
|издание = Maryland Institute for Technology in the Humanities Blog |
|||
|тип = web |
|||
|год = 2011 |
|||
}} |
|||
* {{статья |
|||
|автор = T. Гифитс, M. Steyvers |
|||
|заглавие = Нахождение научных тем |
|||
|издание = Proceedings of the National Academy of Sciences |
|||
|тип = журнал |
|||
|год = 2004 |
|||
|doi = 10.1073/pnas.0307752101 |
|||
|pmid = 14872004 |
|||
}} |
|||
* {{статья |
|||
|автор = T. Янг, A Торгет и Р. Mihalcea |
|||
|заглавие = Тематическое моделирование в исторических газетах |
|||
|ссылка = http://www.aclweb.org/anthology/ruwiki/w/W11/W11-15.pdf#page=108 |
|||
|издание = Proceedings of the 5th ACL-HLT Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities. The Association for Computational Linguistics, Madison |
|||
|тип = журнал |
|||
|год = 2011 |
|||
|страницы = 96–104 |
|||
}} |
|||
* {{статья |
|||
|автор = С. Блок |
|||
|заглавие = Делаем больше с оцифровкой- введение в тематическое моделирование в ранних американских источниках |
|||
|ссылка = http://www.common-place.org/vol-06/no-02/tales/ |
|||
|издание = Common-place The Interactive Journal of Early American Life |
|||
|тип = журнал |
|||
|год = 2006 |
|||
}} |
|||
* {{статья |
|||
|автор = Д. Ньюман, S. Block |
|||
|заглавие = Вероятностное тематическое разложение в газетах 18 века |
|||
|ссылка = http://www.ics.uci.edu/~newman/pubs/JASIST_Newman.pdf |
|||
|издание = Journal of the American Society for Information Science and Technology |
|||
|тип = журнал |
|||
|год = 2006 |
|||
|doi = 10.1002/asi.20342 |
|||
}} |
|||
* {{статья |
|||
|автор = C. Блевин |
|||
|заглавие = Тематическое моделирование дневника Марты Баллардс |
|||
|ссылка = http://historying.org/2010/04/01/topic-modeling-martha-ballards-diary/ |
|||
|издание = historying |
|||
|тип = web |
|||
|год = 2010 |
|||
}} |
|||
==Смотрите также:== |
==Смотрите также:== |
||
Строка 291: | Строка 311: | ||
*{{cite web | title=Полностью разреженные тематические модели (перевод) / Fully Sparse Topic Models | url=http://www.machinelearning.ru/wiki/images/a/ab/FSTM-summary.pdf }} |
*{{cite web | title=Полностью разреженные тематические модели (перевод) / Fully Sparse Topic Models | url=http://www.machinelearning.ru/wiki/images/a/ab/FSTM-summary.pdf }} |
||
*{{cite web | title=Обзор по вероятностным тематическим моделям | url=http://www.machinelearning.ru/wiki/images/9/90/Daud2009survey-rus.pdf }} |
*{{cite web | title=Обзор по вероятностным тематическим моделям | url=http://www.machinelearning.ru/wiki/images/9/90/Daud2009survey-rus.pdf }} |
||
*{{cite web | title=Вероятностное тематическое моделирование К.В. Воронцов 16 октября 2013 | url=http://www.machinelearning.ru/wiki/images/2/22/Voron-2013-ptm.pdf }} |
|||
*{{cite web | title=Вероятностные тематические модели коллекции текстовых документов К.В. Вороноцов Презентация | url=http://www.machinelearning.ru/wiki/images/7/7e/Voron-ML-TopicModels-slides.pdf }} |
|||
*{{cite web | title=Аддитивная регуляризация вероятностных тематических моделей Константин Воронцов Презентация | url=http://www.machinelearning.ru/wiki/images/6/63/Voron13mmro-talk.pdf }} |
|||
*{{cite web | title=Тематические модели для коллекции текстов | url=http://www.machinelearning.ru/wiki/images/8/82/BMMO11_14.pdf }} |
*{{cite web | title=Тематические модели для коллекции текстов | url=http://www.machinelearning.ru/wiki/images/8/82/BMMO11_14.pdf }} |
||
*{{cite web | title=Байесовские методы машинного обучения (курс лекций, Д.П. Ветров, Д.А. Кропотов) | url=http://www.machinelearning.ru/wiki/index.php?title=Bmmo }} |
*{{cite web | title=Байесовские методы машинного обучения (курс лекций, Д.П. Ветров, Д.А. Кропотов) | url=http://www.machinelearning.ru/wiki/index.php?title=Bmmo }} |
Версия от 17:17, 8 ноября 2013
Страницу в данный момент активно редактирует участник [[user:Serg Karpovich|Serg Karpovich]] ([[user talk:Serg Karpovich|обс.]] · [[special:Contributions/Serg Karpovich|вклад]]). |
Serg K 10:29, 30 октября 2013 (UTC)
Тематическое моделирование — это способ построения модели коллекции текстовых документов, которая определяет, к каким темам относится каждый из документов.[1]
Тематическая модель (topic model) коллекции текстовых документов определяет, к каким темам относится каждый документ и какие слова (термины) образуют каждую тему. [2]
Переход из пространства терминов в пространство найденных тематик помогает разрешать синонимию и полисемию терминов, а также эффективнее решать такие задачи, как тематический поиск, классификация, суммаризация и аннотация коллекций документов и новостных потоков.
Тематическое моделирование как вид статистических моделей для нахождения скрытых тем встреченных в коллекции документов, нашло свое применение в таких областях как машинное обучение и обработка естественного языка. Исследователи используют различные тематические модели для анализа текстов, текстовых архивов документов, для анализа изменения тем в наборах документов. Интуитивно понимая, что документ относится к определенной теме, в документах посвященных одной теме можно встретить определенные слова чаще других. Например: «собака» и «кость» встречаются чаще в документах про собак, «кошки» и «молоко» будут встречаться в документах о котятах, предлоги «и» и «в» будут встречаться в обеих тематиках. Обычно документ касается нескольких тем в разных пропорциях, таким образом, документ в котором 10% темы составляют кошки, а 90% темы про собак, можно предположить, что слов про собак в 9 раз больше. Тематическое моделирование отражает эту интуицию в математическую структуру, которая позволяет на основании изучения коллекции документов и исследования частотных характеристик слов в каждом документе, сделать вывод, что каждый документ это некоторый баланс тем.
Наибольшее применение в современных приложениях находят подходы, основанные на Байесовских сетях — ориентированных графических вероятностных моделях. Ориентированные вероятностные тематические модели — это относительно молодая область исследований в теории самообучения (unsupervised learning). Одним из первых был предложен вероятностный латентно-семантический анализ (probabilistic latent semantic analysis, PLSA), основанный на принципе максимума правдоподобия, как альтернатива классическим методам кластеризации, основанным на вычислении функций расстояния. Вслед за PLSA был предложен метод латентного размещения Дирихле (latent Dirichlet allocation, LDA) и его многочисленные обобщения. [3] Вероятностные тематические модели осуществляют «мягкую» кластеризацию, позволяя документу или термину относиться сразу к нескольким темам с различными вероятностями. Вероятностные тематические модели описывает каждую тему дискретным распределением на множестве терминов, каждый документ — дискретным распределением на множестве тем. Предполагается, что коллекция документов — это последовательность терминов, выбранных случайно и независимо из смеси таких распределений, и ставится задача восстановления компонент смеси по выборке. [4]
Хотя тематическое моделирование описывали и применяли в обработке естественного языка, они нашли свое применение и в других областях таких как биоинформатика.
История
Первое описание тематического моделирования было в работе Равана Пападимитр, Томаки и Вемпола 1998 [5]. Томас Хофман в 1999 [6] предложил вероятностное скрытое семантическое индексирование (PLSI). Одна из самых распространенных тематических моделей это Латентное размещение Дирехле (LDA), эта модель является обобщением вероятностного семантического индексирования разработана Девидом Блейем, Эндрю Иг, и Михаэлем Джорданом в 2002 [7]. Другие тематические модели как правило являются расширением LDA, такие как Распределение Пачино, которое улучшает LDA за счет введения дополнительных корреляционных коэффициентов для каждого слова которое составляет тему.
Тематические исследования
Темплтон подготовил обзор предыдущих работ по тематическому моделированию в гуманитарных науках для синхронного и диахронического приближения. Синхронное приближение выделяет темы в определенный момент времени, например, Джокерс использовал тематическую модель для классификации 177 блогеров пишущих в 2010 в День Цифровых Гуманитариев, и выделил, о чем они писали в этот день. Смешанная модель 50 текстов из цифровых гуманитарных науках для выделения и самоопределения научных работ в области цифровых гуманитарных науках и отображения связи исследователей и тем этих текстов. Дроуин проанализировал Пруста для определения тем и демонстрации их как структуры связей. Диахроническое приближение включая Блок и Ньюман определение динамики изменения тем во времени в Пенсельванской газете на протяжении 1728-1800 года. Грифитс и Стейверс использовали тематическое моделирование для обзоров журнала PNAS, определяли популярность тем с 1991 по 2001 год. Нельсон проанализировал изменение тем в Ричмонд Таймс для понимания социальных и политических изменений в Ричмонде во времена Американской Гражданской войны. Ян, Таргет и Михалцея применили тематическое моделирование для газет 1829-2008 годов. Блевинс настроил тематическую модель дневника Марты Балландс, для определения изменения тематических трендов за 27 лет. Мимно использовал тематическое моделирование для анализа 24 журналов по классической филологии и археологии охватывающих 150 лет, чтобы определить изменения тем в журналах за это время, и узнать на сколько журналы стали различными или схожими.
Алгоритмы
В работе Девида Блея «Введение в тематическое моделирование» рассмотрены наиболее популярные наборы алгоритмов [8]. На практике исследователи используют одну из эвристик метода максимального правдоподобия, методы сингулярного разложения (SVD), метод моментов, алгоритм, основанный на неотрицательной матрице факторизации (NMF), вероятностные тематические модели, вероятностный латентно-семантический анализ, латентное размещение Дирехле,.
Вероятностные тематические модели
Вероятностные тематические модели основаны на следующих предположениях [9] [10] [11] [12]:
- Порядок документов в коллекции не имеет значения
- Порядок слов в документе не имеет значения, документ – мешок слов
- Слова, встречающиеся часто в большинстве документов, не важны для определения тематики
- Коллекцию документов можно представить как выборку пар документ-слово , ,
- Каждая тема описывается неизвестным распределением на множестве слов
- Каждый документ описывается неизвестным распределением на множестве тем
- Гипотеза условной независимости
Построить тематическую модель - значит, найти матрицы и по коллекции В более сложных вероятностных тематических моделях некоторые из этих предположений заменяются более реалистичными.
Вероятностный латентно-семантический анализ
Вероятностный латентно-семантический анализ (probabilistic latent semantic analysis, PLSA) предложен Томасом Хофманном в 1999 году. Вероятностная модель появления пары «документ–слово» может быть записана тремя эквивалентными способами:
где - множество тем;
- - неизвестное априорное распределение тем во всей коллекции;
- - априорное распределение на множестве документов, эмпирическая оценка , где — суммарная длина всех документов;
- — априорное распределение на множестве слов, эмпирическая оценка , где — число вхождений слова во все документы;
Искомые условные распределения выражаются через по формуле Байеса:
Для идентификации параметров тематической модели по коллекции документов применяется принцип максимума правдоподобия, который приводит к задаче минимизации функционала
при ограничениях нормировки
где — число вхождений слова в документ . Для решения данной оптимизационной задачи обычно применяется EM-алгоритм.
Основные недостатки PLSA:
- Число параметров растёт линейно по числу документов в коллекции, что может приводить к переобучению модели.
- При добавлении нового документа в коллекцию распределение невозможно вычислить по тем же формулам, что и для остальных документов, не перестраивая всю модель заново.
Латентное размещение Дирихле
Метод латентного размещения Дирихле (latent Dirichlet allocation, LDA) предложен Дэвидом Блеем в 2003 году.
В этом методе устранены основные недостатки PLSA.
Метод LDA основан на той же вероятностной модели
при дополнительных предположениях:
- векторы документов порождаются одним и тем же вероятностным распределением на нормированных -мерных векторах; это распределение удобно взять из параметрического семейства распределений Дирихле ;
- векторы тем порождаются одним и тем же вероятностным распределением на нормированных векторах размерности ; это распределение удобно взять из параметрического семейства распределений Дирихле .
Для идентификации параметров модели LDA по коллекции документов применяется самплирование Гиббса, вариационный байесовский вывод или метод Expectation-Propagation.
Примечания
- ↑ Коршунов, 2012.
- ↑ Воронцов, 2013.
- ↑ Ali10, 2010.
- ↑ Воронцов12, 2012.
- ↑ Пападимитриу, 1998.
- ↑ Хофманн, 1999.
- ↑ Блей2003, 2003.
- ↑ Блей2012, 2012.
- ↑ Коршунов, 2012, с. 229.
- ↑ Воронцов, 2013, с. 6.
- ↑ Воронцов13, 2013, с. 5.
- ↑ ВоронцовМЛ, 2013, с. 5.
Литература
- Коршунов Антон, Гомзин Андрей. Тематическое моделирование текстов на естественном языке // Труды Института системного программирования РАН : журнал. — 2012.
- Воронцов К.В. Вероятностное тематическое моделирование // www.machinelearning.ru : web. — 2013.
- Воронцов К.В., Потапенко А.А. Регуляризация, робастность и разреженность вероятностных тематических моделей // Компьютерные исследования и моделирование : журнал. — 2012. — С. 693-706.
- Воронцов К.В. Аддитивная регуляризация вероятностных тематических моделей Презентация // www.machinelearning.ru : web. — 2013.
- Воронцов К.В. Вероятностные тематические модели коллекции текстовых документов Презентация // www.machinelearning.ru : web. — 2013.
- Марк Стейверс, Tom Griffiths. Вероятностная тематическая модель. // Справочник скрытого семантического анализа / T. Landauer, D. McNamara, S. Dennis, W. Kintsch. — Psychology Press, 2007. — ISBN 978-0-8058-5418-3.
- Daud Ali, Li Juanzi, Zhou Lizhu, Muhammad Faqir. Knowledge discovery through directed probabilistic topic models: a survey. In Proceedings of Frontiers of Computer Science in China. // www.researchgate.net : web. — 2010.
- Пападимитриу Христос, Рагван Прабхакар, Тамаки Хисао, Вемпала Сантос. Скрытое семантическое индексирование вероятностный анализ // Proceedings of ACM PODS : журнал. — 1998.
- Хофманн Томас. Вероятностное скрытое семантическое индексирование // Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval : журнал. — 1999.
- Девид Блей, Андрю Нг, Джордан Михаель, Lafferty John. Латентное размещение Дирихле // Journal of Machine Learning Research : журнал. — 2003.
- Девид Блей, Андрю Нг, Джордан Михаель, Lafferty John. Введение в вероятностное тематическое моделирование. // Comm. ACM : журнал. — 2012. — С. 77–84.
- Девид Блей, J.D. Lafferty. Тематическое моделирование : web. — 2009.
- Девид Блей, John Lafferty. Корреляция тематической модели в науке // Annals of Applied Statistics : журнал. — 2007. — С. 17–35. — doi:10.1214/07-AOAS114.
- Д. Мимно. Вычислительная историография: анализ данных в век классических журналов // Journal on Computing and Cultural Heritag : журнал. — 2012. — doi:10.1145/2160165.2160168.
- Matthew L. Jockers. Who's your DH Blog Mate: Match-Making the Day of DH Bloggers with Topic Modeling : web. — 2010.
- E. Микс. Понимание цифровых гуманитарных наук : web. — 2011.
- C. Темплтон. Тематическое моделирование в гуманитарных науках: обзор. // Maryland Institute for Technology in the Humanities Blog : web. — 2011.
- T. Гифитс, M. Steyvers. Нахождение научных тем // Proceedings of the National Academy of Sciences : журнал. — 2004. — doi:10.1073/pnas.0307752101. — PMID 14872004.
- T. Янг, A Торгет и Р. Mihalcea. Тематическое моделирование в исторических газетах // Proceedings of the 5th ACL-HLT Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities. The Association for Computational Linguistics, Madison : журнал. — 2011. — С. 96–104.
- С. Блок. Делаем больше с оцифровкой- введение в тематическое моделирование в ранних американских источниках // Common-place The Interactive Journal of Early American Life : журнал. — 2006.
- Д. Ньюман, S. Block. Вероятностное тематическое разложение в газетах 18 века // Journal of the American Society for Information Science and Technology : журнал. — 2006. — doi:10.1002/asi.20342.
- C. Блевин. Тематическое моделирование дневника Марты Баллардс // historying : web. — 2010.
Смотрите также:
- не указано название статьи
- Латентно-семантический анализ
- Латентное размещение Дирихле
- не указано название статьи
Программное обеспечение / библиотеки кода
- Малет (программа) (http://mallet.cs.umass.edu/)
- Инструментарий Стендфорда по тематическому моделированию (http://nlp.stanford.edu/software/tmt/tmt-0.4/)
- GenSim – тематическое моделирование для людей (http://radimrehurek.com/gensim/)
Cсылки:
- Лекция: Тематическое моделирование - К.В. Воронцов Видео Лекции Школа анализа данных.
- Лекция 2: Тематическое моделирование - К.В. Воронцов Видео Лекции Школа анализа данных.
- Тематическое моделирование .
- Полностью разреженные тематические модели (перевод) / Fully Sparse Topic Models .
- Обзор по вероятностным тематическим моделям .
- Тематические модели для коллекции текстов .
- Байесовские методы машинного обучения (курс лекций, Д.П. Ветров, Д.А. Кропотов) .
- Тепллтон, Клай Тематическое моделирование в гуманитарных науках. Общий обзор. Maryland Institute for Technology in the Humanities.
- Применение тематического моделирования для анализа новостей и ревю. Video of a Google Tech Talk presentation by Alice Oh on topic modeling with Latent Dirichlet allocation
- Моделирование науки: Динамическое тематическое моделирование научных исследований. Video of a Google Tech Talk presentation by David M. Blei
- Автоматизированная тематическая модель в политической науке. Video of a presentation by Brandon Stewart at the Tools for Text Workshop, 14 June 2010