Обсуждение:Тематическое моделирование: различия между версиями
AKA MBG (обсуждение | вклад) м →Статьи: ++ |
м →Разное |
||
Строка 120: | Строка 120: | ||
== Разное == |
== Разное == |
||
Сейчас переход в преамбуле после слов "unsupervised learning" - не работает. -- [[User:AKA MBG|Andrew Krizhanovsky]] 23:12, 20 декабря 2013 (UTC) |
Сейчас переход в преамбуле после слов "unsupervised learning" - не работает. -- [[User:AKA MBG|Andrew Krizhanovsky]] 23:12, 20 декабря 2013 (UTC) |
||
Спасибо, поправил [[User:Serg Karpovich|Serg K]] 11:46, 29 июля 2014 (UTC) |
|||
== Статьи == |
== Статьи == |
Версия от 11:46, 29 июля 2014
Преамбула
Сергей, если я правильно понимаю, сейчас статья представляет собой перевод en:Topic model.
Прежде чем писать саму статью, предлагаю поработать над преамбулой (см. ВП:Преамбула). У вас сохранились недостатки преамбулы из англовики:
- нет краткого отражения (обобщения) всех разделов статьи;
- нет определения предмета статьи взятого из ВП:АИ, поэтому у читателя возникает закономерный вопрос относительно значимости темы.
Если у вас пока нет кнопки "Переименовать", то я могу перенести статью в основное пространство. Предлагаю это сделать, когда преамбула будет получше.
По поводу алгоритмов (и в целом - что вообще писать в статью) предлагаю вам и себе найти парочку хороших обзорных статей по "Тopic model" и посмотреть, что пишут люди. -- Andrew Krizhanovsky 14:35, 27 октября 2013 (UTC)
- Андрей я внес изменения в статью. Но у меня по прежнему сомнения на счет правильности преамбулы, с одной стороны я должен использовать авторитетные источники, с другой сделать отражение всех разделов статьи. Возможно вы мне посоветуете какую либо хорошую по статью, в качестве примера. Serg K 17:31, 8 ноября 2013 (UTC)
- Сергей, если вы спрашиваете о хорошей статье в Википедии, то такие статьи есть. Много. Уже более шестисот. См. Википедия:Избранные статьи. -- Andrew Krizhanovsky 08:59, 6 ноября 2013 (UTC)
Иллюстрация
Сергей, с иллюстрациями в Википедии всё не так просто, поэтому здесь их так мало.
В описании иллюстрации вы указали, что взяли её из книги Воронцова. Если К.В. Воронцов не дал вам письменного согласия на публикацию иллюстрации с открытой лицензией, то такая публикация вами расценивается в Википедии как плагиат. Админы рано или поздно и так удалят этот рисунок, поэтому лучше если вы сами, как автор файла, поставите в описании иллюстрации шаблон на быстрое удаление рисунка с Викисклада (commons:Template:Speedydelete) и правильно укажите причину удаления как параметр этого шаблона (см. commons:Commons:Criteria for speedy deletion).
Иллюстрации тем не менее нужны в хорошей статье. Один из вариантов - прочитать книгу Воронцова и использовать его текст как основу (как генератор идей) для рисования своей диграммы, графика. В этом случае в разделе источник укажите: "собственная работа на основе идей, взятых из книги ...". Я считаю, что это уже не является плагиатом.
Если у вас есть работающая программа по "тематическому моделированию", написанная вами, то это может быть бесценный источник для иллюстраций.
P.S. Вижу, вы уже освоили шаблон {{cite journal}}, но до шаблона {{sfn}} ещё не добрались. -- Andrew Krizhanovsky 14:46, 31 октября 2013 (UTC)
Вопрос: Подскажите пожалуйста, иллюстрацию я взял из доклада опубликованного на machinelearning.ru, на нем указано: Содержимое доступно в соответствии с Creative Commons Attribution/Share-Alike. с ссылкой на http://creativecommons.org/licenses/by-sa/3.0/. Сама иллюстрация является копией англоязычной версии созданной Девидом Блеем. Дает ли мне это право использовать ее в статье или лучше все таки ее удалить и создать свою собственную? Serg K 19:17, 31 октября 2013 (UTC)
- Под какой лицензией опубликовал работу Девид Блей? Можете дать ссылку на его работу? -- Andrew Krizhanovsky 22:23, 31 октября 2013 (UTC)
- Ссылка на работу Девида Блея есть в англоязычной версии Wikipedia Topic Model, Blei, D.M.; Lafferty, J.D. (2009). "Topic Models" (PDF). http://www.cs.princeton.edu/~blei/papers/Blei2011.pdf (страница 3) И на странице публикаций Девида Блея http://www.cs.princeton.edu/~blei/publications.html . И тут я не знаю под какой лицензией вышла его публикация. Serg K 06:28, 1 ноября 2013 (UTC)
- В публикации Блея нет ни слова о том, что работа в открытом доступе. По умолчанию считается, что обычная закрытая лицензия. Копировать иллюстрации нельзя. Если эта иллюстрация есть на сайте machinelearning.ru, то авторы сайта нарушают закон об авторских правах.
Андрей подскажите пожалуйста можно ли использовать изображения опубликованные на англоязычных страницах Wiki? https://en.wikipedia.org/wiki/File:Plsi_1.svg ? Serg K 06:37, 1 ноября 2013 (UTC)
- Сергей, Английскую Википедию пишут обычные люди, которые ошибаются. Если кто-то загрузил туда иллюстрацию, то это ещё ничего не говорит. В каждом конкретном случае нужно проверять источники.
- Конкретно этот рисунок File:Plsi_1.svg выглядит достаточно тривиально, чтобы могли быть претензии, связанные с плагиатом. Описание выглядит "чисто". Можете его использовать. Из замечаний к иллюстрации только одно - у иллюстрации не указаны категории на Викискладе. -- Andrew Krizhanovsky 08:50, 1 ноября 2013 (UTC)
- Спасибо за ответы. В ближайшие дни постараюсь доделать статью с учетом ваших замечаний. Serg K 10:56, 1 ноября 2013 (UTC)
- Андрей, я подготовил и разместил иллюстрацию, только теперь сомневаюсь в ее необходимости, и в моем выборе текстового документа. И использовал две иллюстрации англоязычной версии Википедии.Serg K 17:31, 8 ноября 2013 (UTC)
- Сергей, иллюстрация мне очень нравится. Появляется ощущение, что простой смертный может понять, что такое ТМ.
- Замечание по категориям у иллюстрации: названия категорий на Викискладе даются только на англ. языке, т.е. не "Тематическое моделирование", а "Topic modelling". И категория не должна быть красной, т.е. несуществующей. Нужно найти на Викискладе - категорию-родителя (или нескольких родителей) и прилепить эту новую категорию "Topic modelling" к ним.
- На иллюстрации не у всех стрелок есть хвостики. Это случайность?
- То, что не ко всем словам идут стрелки - ок, иначе всё слишком будет загромаждено.
- Вы настаиваете на слове "документ"? Если это обработка текста, то может быть "текст"?
- Ни из рисунка, ни из подписи не ясно, что такое w, d, p(t|d), p(w|t).
>> И использовал две иллюстрации англоязычной версии Википедии. Без перевода подрисуночных подписей, я не понял, что изображено. См. ниже замечание по разделу "3.2 Вероятностный латентно-семантический анализ".
- Андрей я обновил изображение, теперь все стрелки видны. Документ - точнее называть именно документом, т.к. в алгоритмах мы используем это понятие. На рисунке добавил формульное обозначение документа.
- Сергей, к рисунку больше замечаний нет. -- Andrew Krizhanovsky 17:24, 10 ноября 2013 (UTC)
Алгоритмы
Я дополнил часть статьи по алгоритмам. Прошу вас проверить правильно ли я сделал.Serg K 17:31, 8 ноября 2013 (UTC)
3.2 Вероятностный латентно-семантический анализ
Этот раздел в вашей статье сейчас превышает по количеству букв и собственно информации саму статью Вероятностный латентно-семантический анализ. Суть и прелесть вики-сайта в том, чтобы не писать всё о ВЛСА в каждой статье, где он упоминается, а дать упоминание и ссылку на статью, где всё про этот алгоритм написано.
Если же совершенно необходимо описать алгоритм (в особенности те его части или особенности, которые имеют непосредственное отношение к TM), то можно использовать шаблон {{main}}, а после него привести краткие сведения об алгоритме. Вот, например, как хорошо использовала этот шаблон студентка в статье "Вычислительные машины и разум", где нельзя не сказать про "Тест Тьюринга", см. Участник:Holly Bellman/Вычислительные машины и разум.
Поэтому сейчас претензия к объёму этого раздела. Предлагаю его по возможности сократить. Использовать шаблон {{main}}. Всё ценное, что жалко выкидывать (+ иллюстрации), перенесите в статью Вероятностный латентно-семантический анализ.
Те же проблемы со статьёй и разделом Латентное размещение Дирихле. -- Andrew Krizhanovsky 09:37, 6 ноября 2013 (UTC)
Вероятностные тематические модели
В раздел "3.1 Вероятностные тематические модели" я добавил запрос на источник. Когда найдёте статью или книгу, где идёт это перечисление предположение, то замените мой запрос источника на ссылку на статью. Сейчас это выглядит как ВП:Орисс, чего нужно по возможности стараться избегать. -- Andrew Krizhanovsky 18:53, 5 ноября 2013 (UTC)
- Андрей здравствуйте. Я добавил ссылку на несколько статей и научных презентаций в которых присутствует перечисление (часть в одном источнике другая часть в другом). Посмотрите пожалуйста. И забыл написать у меня появилась ссылка на переименовать.Serg K 17:31, 8 ноября 2013 (UTC)
- Сергей, вы перемудрили со ссылками. ref и sfn - это взаимоисключающие механизмы. Например, сейчас у вас код в статье:
<ref name="K-TM2012">{{sfn|K-TM2012|2012|с=229}}</ref>
должен остаться только sfn:
{{sfn|K-TM2012|2012|с=229}}
Прочитайте, пожалуйста, внимательно пример в документации: {{sfn}}.
>> И забыл написать у меня появилась ссылка на переименовать.
Понял, отлично! Теперь тогда сами решайте, когда переносить статью в основное пространство.
P.S. Подписывайте, пожалуйста, свои сообщения на страницах обсуждений с пом. четырёх тильд. -- Andrew Krizhanovsky 21:16, 5 ноября 2013 (UTC)
Тематические исследования
Раздел "Тематические исследования" мне сейчас не нравится:
- непонятно назначение раздела. Это история данного научного направления? Тогда в раздел "История". Или ещё что-то?
- упоминание имён учёных и исследователей без ссылок на литературу мне кажется не верным решением. -- Andrew Krizhanovsky 15:13, 9 ноября 2013 (UTC)
Андрей, я отредактировал раздел. По моему мнению он важен для понимания возможностей тематического моделирования. На примере работ западных специалистов, может сформироваться желание провести эксперименты с русскоязычными корпусами. Ссылки на работы я постараюсь найти и добавить. Serg K 18:56, 9 ноября 2013 (UTC)
- Хорошо. Просто сейчас начинаешь читать этот раздел и сразу натыкаешься на вопросы - кто такой Темплтон, Джокерс, Пруст? Если они известны как Эйнштейн, тогда достаточно сделать викификацию и поставить ссылку на статью про Эйнштейна в Википедии. Если они не так сильно известны и про них нет статьи ни у нас, ни в англовики, тогда нужны источники (ссылки на их публикации), подтверждающие значимость работ этих неизвестных (пока) людей. -- Andrew Krizhanovsky 17:14, 10 ноября 2013 (UTC)
Трудности и проблемы
Существуют ли у данного метода (подхода) какие-либо трудности, проблемы, узкие места, ограничение в области, к которой можно приложить ТМ? Скорее всего, да. Если это так, то нужен раздел с описанием этого. -- Andrew Krizhanovsky 15:44, 9 ноября 2013 (UTC)
Андрей: Чтобы грамотно сформулировать такую часть статьи, мне необходимо еще больше узнать о тематическом моделировании. К сожалению литературы по ТМ на русском языке очень мало, научные публикации в области ТМ в большинстве публикуются на английском языке, что делает освоение материала более медленным. Я учел ваши предыдущие замечания, хотел бы выложить статью в общее пространство и продолжить ее редактирование и дополнение согласно вашим рекомендациям. Как вы считаете можно в таком виде статью опубликовать? Serg K 19:09, 9 ноября 2013 (UTC)
Да, статья содержит предостаточное количество авторитетных источников. Переносите.
Если вы решите, что можно двигаться дальше и вам будет мало моих комментариев и замечаний - ставьте статью на ВП:Рецензирование, а после доработки выдвигайте на звание хорошей. -- Andrew Krizhanovsky 17:20, 10 ноября 2013 (UTC)
Компьютерные системы и взаимосвязь с другими задачами АОТ
1) Если это направление достаточно развито, то, вероятно, есть компьютерные системы, в которых реализовано ТМ - отдельно или как часть более общих задач. Было бы интересно узнать об этих системах. Можно кратко, в телеграфном стиле (см. перечисление парсеров со ссылками на литературу в Викисловарь#Применение викисловарей в задачах автоматической обработки текста и речи). Подлиннее: см. Определение плагиата#Обзор существующих систем. Или в виде таблицы: см. w:Comparison of parser generators.
2.1) По поводу взаимосвязи с другими задачами автоматической обработки текста (АОТ). Понятно, что все задачи взаимосвязаны, тем не менее, хотелось увидеть явное указание задач АОТ (и вообще приложений, сейчас куцо указана "биоинформатика" и всё), которые становится реально решить, если мы умеем строить ТМ. Недоделанный пример можно посмотреть в статье студентки: Компьютерная лексикография#Взаимосвязь с задачами автоматической обработки текста.
2.2) И другая сторона - какие задачи необходимо уметь решать (например, уметь выполнять лемматизацию, что ещё?), какие лингвистические ресурсы нужны для ТМ (тезаурусы или что-то ещё?), чтобы успешно решить ТМ. Желательно материал не выдумывать и изобретать, а найти ответ в литературе. -- Andrew Krizhanovsky 15:44, 9 ноября 2013 (UTC)
- Появились системы с открытым исходным кодом для ТМ: simbase, opentopics. Источник: http://lists.wikimedia.org/pipermail/wiki-research-l/2014-March/003339.html -- Andrew Krizhanovsky 09:04, 24 марта 2014 (UTC)
Разное
Сейчас переход в преамбуле после слов "unsupervised learning" - не работает. -- Andrew Krizhanovsky 23:12, 20 декабря 2013 (UTC)
Спасибо, поправил Serg K 11:46, 29 июля 2014 (UTC)
Статьи
Публикации, которые можно было бы использовать для данной статьи:
- Parsimonious Topic Models with Salient Word Discovery - жадное тематическое моделирование для корпуса текстов. Поиск характерных слов для каждой тематики, идентификация нескольких тематик для документа. Эксперименты на трёх корпусах. -- Andrew Krizhanovsky 03:05, 31 января 2014 (UTC)
- Регуляризация вероятностных тематических моделей для повышения интерпретируемости и определения числа тем - статья на Диалоге 2014, даже таки на русском :) -- Andrew Krizhanovsky 11:13, 3 июня 2014 (UTC)