Википедия:Вики-конференция 2007/Программа/Круглые столы/Технологии Википедии

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
Дискуссия продолжалась в кулуарах

Докладчик Mashiah Davidson продолжил изложение идей проекта «Связность». Он высказал идею отметить юбилей 200К лишь тогда, когда этого рубежа достигнет число страниц в основном кластере Википедии (в настоящее время 176 тыс.). Были описаны детали работы бота «Голем». Состоялось активное обсуждение.

Было предложено различать страницы-сироты в узком смысле (вообще не содержащие ни ссылок с них, ни на них, ни категоризации) и сироты в широком смысле (для определения которых некоторые группы ссылок не учитываются).

Для этого было предложено выделить служебные категории из основного пространства категорий, но у участников не было достаточно информации, чтобы принять какое-либо решение.

Было предложено учитывать не только абсолютные показатели (из расчета на 1 статью), но и отношение степени связности статьи с её объёмом.

Так как ссылки на страницы значений считаются нежелательными, было предложено создать бот, который анализировал бы такие ссылки и предлагал участникам, написавшим новые статьи, викифицировать их по этому параметру.

Участникам было предложено всемерно поддержать проект «Связность».

После окончания хронометража основного обсуждения, обсуждение было продолжено в кулуарах, при этом обсуждались вопросы:

Связность Вики как измеримое явление и его оценка.

  • Выявление хабов (узловых точек), хабы как основные понятия, использующиеся в Википедии, применение закона Парето к Википедии.
    • Итог: необходимы дополнительные исследования в этом направлении.

«Хабы» Википедии и перспективность их развития; необходимость работы в этом направлении.

  • Итог: Отдельные хабы необходимо развивать, но на момент проведения конференции распространить этот подход на все хабы преждевременно.
Упоминалось также расширенное толкование закона Парето, эквивалентное лагранжевой оптимизации, в этом толковании закон Парето может применяться для оптимизации направления развития Википедии, то бишь, для выяснения вектора развития, соответствующего максимальному росту качества при минимальных трудозатратах.

Падежи

[править код]

Было высказано предложение создать значительное число перенаправлений с падежных форм названий статей, не встретившее поддержки.

С другой стороны, указано, что викифицированные тексты Википедии представляют собой уникальный источник данных для построения программ лемматизации текста (приведения к нормальной форме). Это может быть дополнением или альтернативой к программам, реализующим алгоритм А.А. Зализняка, к программе Lemmatizer (aot.ru). AKA MBG 19:44, 29 октября 2007 (UTC)[ответить]

Ссылки

[править код]

Ставился вопрос оценки качества статьи с точки зрения достаточности ссылок на другие страницы.

Было решено, что хорошая статья должны содержать некоторое число ссылок трёх типов:

  1. на статьи того же уровня, аналог синонимов (но, конечно, не синонимы, поскольку синонимы - это редиректы, то есть перенаправления);
  2. на более общие статьи (гиперонимы);
  3. на более частные, конкретные, специфические статьи (гипонимы).
Была предложена терминология: «контекст-окружение-частности».

Упомянута интересная эвристика, реализованная в Големе: не учитываются ссылки с годов.

Учитываются ли ссылки на года? AKA MBG 19:44, 29 октября 2007 (UTC)[ответить]
Да, хронологические статьи бывают сиротами, а бывают не сиротами. Это важно в особенности для статей о годах до н. э. Mashiah 22:10, 29 октября 2007 (UTC)[ответить]

Поиск через интервики

[править код]

Предложен поиск близких статей (или категорий) к заданной через интервики. Алгоритм содержит три шага:

  1. Через интервики получили список статей (категорий) в других википедиях;
  2. Получили список ссылающихся на неё статей (категорий) /вероятно, самый сложный шаг/
  3. Вернулись по интервики найденных статей в Русскую Википедию.
Предложение внесено участником AndreyA

Вспомнили проект Common Sense, что-то подобное там было реализовано, вроде бы...

Библиография и проекты

[править код]

Упомянуты такие интересные проекты и страницы, как:

Ещё во время доклада высказывалась идея написания IRC-бота, следящего за последними изменениями и отслеживающего изолированные и тупиковые статьи в реальном времени. Реализация этой идеи может потребовать обращения к текстам статей, которые в базе данных располагаются отдельно и имеют существенный объём. С другой стороны, действительно, объём статей, с которыми боту придётся работать в каждый конкретный момент, сильно сокращается по сравнению с текущей реализацией.

Во время доклада предложен слоган для ПРО:С: «Качество:Связность», илюстрирующий принадлежность проекта «Связность» мета-проекту «Качество».

Поднимался вопрос о возможности применения семантических исследований, сделанных участником AKA MBG для улучшения поискового механизма в Википедии, а также в шаблоне {{сирота}}.

Принято решение о необходимости постановки вопроса о том, являются ли статьями служебные списки для координации работ, следует ли держать их в основном пространстве статей, и следует ли учитывать ссылки из таких списков при анализе связности.

Обсуждался вопрос о переименовании служебных категорий, призванных коллекционировать изолированные статьи. Какими бы неудачными они ни были, было решено, что они, пожалуй не большее зло, чем предложенная альтернатива. Вне контекста они лучше отражают тип изолированной статьи, а посему, пусть остаются как есть.

Обсуждалась возможность добавления в инструмент поиска изолированных статей по категориям навигации в виде удобного дерева категорий. Такое улучшение признано желательным.

Участник:Putnik предположил по итогом доклада Участник:AKA MBG, что в пространстве категорий также могут существовать изолированные категории. Таким образом, интересно попробовать провести анализ связности в дереве категорий.

Обсуждалась необходимость изменять видимость и местоположение в тексте для шаблонов {{сирота}}, {{тупиковая статья}} и {{изолированная статья}}. Принято решение оставить всё как есть, как оптимальное на данный момент решение.

Обсуждался шаблон {{rq}} в контексте необходимости его русификации, а также в контексте разбиения его на {{rq-top}} и {{rq-bottom}}. Состоялся обмен мнениями, решений не принималось.

Обсуждался вопрос о том, что необходимо упорядочивать служебные шаблоны в порядке убывания важности (цветового кода). Применение данного улучшения возможно после отказа от AWB в пользу perlwikipedia, или после добавления такой замечательной возможности в AWB.

Павел Каганер заметил, что у тега REDIRECT есть русскоязычный аналог ПЕРЕНАПРАВЛЕНИЕ, который тоже нужно учитывать при простановке шаблонов.

Обсуждались картинки с шаблонов {{сирота}} и {{Участник проекта:Связность}}. Было предложено изобразить вместо пазлов и лент Мёбиуса (на самом деле очень напоминающих эмблему утиля и вторсырья) нарисовать на шаблонах символ связности двух берегов — мост.

Внедрение анализа связности в других разделах возможно. Исходные тексты скриптов опубликованы и могут адаптироваться под нужды конкретного языкового раздела. Тем не менее, применение в больших разделах ограничивается вычислительными ресурсами сервера и временем работы скрипта. Принимаются любые предложения и идеи по оптимизации и улучшению.

Обсуждалась возможность введения задержки между правкой участника и правками ботов, устанавливающих служебные шаблоны. В изолированных кластерах задержка приводит к конфликту между актуальностью и достоверностью вносимой информации, корректная схема осуществления задержки не ясна. До решения вопроса о задержке запуск бота может проводиться в ночные часы, в этом случае вероятность конфликта правок низка. В настоящий момент задержка между сбором данных и внесением правок - от 15 минут до 2 часов.

Обсуждались возможные причины неполноты служебного списка двойных перенаправлений. Гадали на кофейной гуще.

Ряд правил и руководств подлежит написанию: Википедия:Статья, Википедия:Ссылка (Википедия:Гиперссылка), Википедия:Связи, Википедия:Изолированные статьи.

После кулуаров обсуждение было объединено с обсуждением круглого стола о Сообществе Википедии. Уже в рамках этого стола обсуждалась необходимость документирования шаблонов, в том числе и мета-шаблонов, обсуждалась необходимость улучшения навигации по множеству шаблонов и улучшение справочной информации. Вопрос связности пространства имён «Шаблон» представляет теоретический интерес.