Обсуждение участника:MBH

Материал из Википедии — свободной энциклопедии
Это старая версия этой страницы, сохранённая MBH (обсуждение | вклад) в 12:55, 24 марта 2016 (откат правок 195.16.110.63 (обс) к версии MaxBioHazard). Она может серьёзно отличаться от текущей версии.
Перейти к навигации Перейти к поиску
Пожалуйста, добавляйте новые темы сверху


Categories for random sample

Thanks Max for getting back to me so quickly! As far as getting categories, I'm not sure it can be done by bot. "Вам нужен список категорий рувики, соответствующих определённым категориям анвики?" I would have liked to do this in English, but I found the top categories on enwiki to be pretty odd creatures, and just made my own - which takes some judgement and some time.

For example enwiki has fundamental categories ► Concepts‎ (16 C, 26 P) L ► Life‎ (14 C, 20 P) P ► Physical universe‎ (4 C, 24 P) S ► Society‎

Also on enwiki there are Category:Main topic classifications (which are a bit closer to what I need) C ► Culture‎ (51 C, 64 P) G ► Geography‎ (26 C, 77 P) H ► Health‎ (44 C, 6 P) ► History‎ (36 C, 40 P) ► Humanities‎ (32 C, 49 P) L ► Literature‎ (55 C, 85 P) M ► Mathematics‎ (20 C, 16 P) N ► Nature‎ (25 C, 11 P) P ► People‎ (19 C, 5 P) ► Philosophy‎ (19 C, 44 P) R ► Reference works‎ (31 C, 168 P) S ► Science‎ (38 C, 27 P) ► Society‎ (60 C, 28 P) T ► Technology‎ (40 C, 72 P)


There's still not much I can do with those, in particular since they are difficult to trace back from the several categories in each article.

Instead I set up my own categories, with subcategories: See page en:User:Smallbones/1000_random which I judge in order for each article:

  • Biography (individuals only) - divided by male/female and living/dead
    • BLP, M; BLP, W; BDP, M; BDP, W (also divide by sports, non-sports)
  • geography
    • GEO, W (for Western hemisphere); GEO, E
  • Business, products and services BUS
  • Culture and arts
    • CA, 1990-; and CA, 1991+ ("classical" vs. current)
  • History, politics and government HIST
  • Other society, sports, religion, philosophy and social science SOC
  • Hard sciences, technology, and math SCI
  • Biology, health, and medicine BHM
  • Other/unclassifiable

If you could find a way to do this by bot, I'd be very happy - but also very surprised!

Thanks for any help.

Smallbones 16:51, 27 февраля 2016 (UTC)[ответить]

  • Вы предлагаете написать программу, которая будет классифицировать статьи по этим категориям? Можно попробовать (хотя предвижу некоторые трудности - например, в рувики нет категорий для мужчин и женщин). А как вы делали это для англовики - вручную? MaxBioHazard 17:09, 27 февраля 2016 (UTC)[ответить]
    • Yes, I did it manually - entirely by hand. When you do it by hand, you get exactly what you want, not what the computer wants to give you, e.g. you can identify living sportsmenki. I should say that with such broad categories, it is usually pretty easy - maybe taking 15 seconds or less for 90% or more of the articles, maybe another 15 seconds for another 9% etc. Still for 1,000 articles, that's probably something like 5-10 hours. A lot of work, if you know how to automate it, please let me know. Smallbones 20:18, 27 февраля 2016 (UTC)[ответить]
      • У меня есть идея, не требующая писать никакого распознающего кода. Она навеяна этим сервисом - он показывает статью и просит ответить на простой вопрос о предмете статьи (например, является ли он мужчиной или женщиной) и в случае ответа - заполняет для этого элемента соответствующее свойство на ВД. Можно сделать такой же сервис, который будет показывать случайные статьи, а человек-контролёр должен будет нажать одну из 14 (?) кнопок, классифицирующих статью в одну из ваших категорий. Я почти не умею в веб-программирование, но можно попросить кого-то, чтобы он сделал такой сервис (например, автора Wikidata Game). Возможно, из нашего раздела такое сможет сделать u:Ле Лой - он уже писал на JS интерфейс оценки статей для экзопедических конкурсов. MaxBioHazard 20:36, 27 февраля 2016 (UTC)[ответить]
        • So you suggest contacting Ле Лой and seeing if he could make this into a game? It sound like this would be worth checking out. BTW, I tried some of the other games and found that I could do some even in Arabic, but couldn't figure out how to get only English language articles. Smallbones 20:57, 27 февраля 2016 (UTC)[ответить]
          • Да, спросите его (по идее, ему пришли пинги и он сам здесь ответит). Если он этим заниматься не будет - я сам могу попробовать написать что-то такое в своём аккаунте на лабсе. MaxBioHazard 21:08, 27 февраля 2016 (UTC)[ответить]
  • Sounds good. I'll check back every day for a few days. Smallbones 21:16, 27 февраля 2016 (UTC)[ответить]

Вот как это будет выглядеть: https://tools.wmflabs.org/mbh/smallbones.html После нажатия на кнопку будет загружаться следующая случайная статья. Скорость обработки можно довести до 2-3 секунд на статью. Состав категорий ещё можно изменить. Я пока не написал программу-обработчик, которая будет сохранять ответы и загружать следующую случайную статью, но планирую сделать это сегодня вечером. MaxBioHazard 08:19, 28 февраля 2016 (UTC)[ответить]


Я написал обработчик кнопок. Нажатие кнопок на https://tools.wmflabs.org/mbh/smallbones.html увеличивает счётчики в файле в моей папке на лабсе; в ближайшее время я сделаю вывод текущих значений счётчиков на эту страницу. MaxBioHazard 16:44, 28 февраля 2016 (UTC)[ответить]

  • Wow, that looks like it would work very well. It's so good it brings up multiple new issues. Let me divide them up, answer the most important questions, and suggest a next step.
    • cosmetic issues - e.g. exact wording on the buttons, 4 additional buttons for biographies (sports/non-sports)
    • who, other than me, will use this and how, e.g. should there be a link to a detailed guide to the categories? (Does "Simon & Garfunkel" go in the same category as "Paul Simon"? No)
    • How can I, Smallbones, use this? If we can answer this question, I think that the rest will fall into place with a few tweaks
      • List of button labels
        • Living male (non-sports)
        • Living female (non-sports)
        • Living male (sports)
        • Living female (sports)
        • Deceased male (non-sports)
        • Deceased female (non-sports)
        • Deceased male (sports)
        • Deceased female (sports)
        • Geography (Americas)
        • Geography (non-Americas)
        • Arts & culture 1990-
        • Arts & culture 1991+
        • Science/technology
        • Biology/medicine
        • History/Gov't
        • Society (non-sports)
        • Society (sports)
        • Business
        • Other/pass
      • Output

| ru:МТИС (Минские Телевизионные Информационные Сети) | BUS |-

In which case all I'll have to do is set up the table after the output arrives

        • A place to put the address of your own output page (optional)
        • A way to change language versions, e.g. from ruwiki to svwiki or other language wiki (optional)
        • an extra browser page where the ru article can be translated into English (or any other language) - editor can do it themselves!

A way to say "This session is over - save the data and close" Perhaps just another button "End session/save data"

If I see that this works for me, I'll see what is needed to get everybody else using it!

Ле Лой

Thanks,

Smallbones 20:43, 28 февраля 2016 (UTC)[ответить]

  • С отправкой результатов вам в таблицу есть та проблема, что программа не знает названия текущей статьи. Программа вызывает Special:Random и не знает, какая страница ей пришла (можно генерировать айди страницы вручную и загружать её, попробую так сделать). Состав кнопок изменю, добавлю выбор языкового раздела. О каких сессиях речь - я не понял, программа однократно срабатывает сразу после нажатия кнопки, она не запущена постоянно. MaxBioHazard 07:16, 29 февраля 2016 (UTC)[ответить]

Kuda?

Sorry that I haven't been back for a few days.

I love your program and how it works. It's not exactly what I was looking for, but that really doesn't matter. I roughly mapped out the "book shelves" - if you need help with that I can give a few suggestions.

I was looking for the start of a randomly selected data set, that I could do more work on, e.g. see how articles grow over time and is this related to page views or specific categories. I'll still be doing that, but I have enough work to do with the English language data set that I already have. But I absolutely need the article name to do what I want to do.

But, you've got something that is quite simple to use and, if I am correct, is very fast and people have fun doing it. So this could be something adapted to any Wiki and likely gives us good information and people have fun. That's what Wikipedia is all about.

I worked up some suggestions - while I was still thinking about this much too seriously. Please see https://en.wikipedia.org/wiki/User:Smallbones/random_ru

But please remember that these are only my suggestions. For getting the most out of your program, it is important that editors on that Wiki do this type of category classification system by and for themselves, that they not make it too complicated, and that it addresses "local" concerns - such as a category for Russian or FSU geography if editors want it.

I may submit a poster to Wikimania 2016 in Italy. They have this a poster project, though my poster may not be what they expected for it. If they accept mine, should I suggest that you submit one also?

So I haven't got what I wanted or expected, but we may have something better. I'll probably leave it alone from here, but do please send me final results and a graphic when these are done.

Sincerely, Smallbones 21:36, 2 марта 2016 (UTC)[ответить]

  • Я пытаюсь сделать вывод результатов классификации на вашу страницу, сейчас проблема в том, что правки бота зарезает фильтр правок. Когда эта проблема будет решена, классификатор будет сохранять на ту страницу результат классификации каждой статьи. Рубрикацию я сделал свою, потому что ваша мне кажется в некоторых моментах нелогичной лли недостаточно подробной; могу ответить на вопросы по своей и принимаю предложения об её изменении. Визуализацию результатов классификации можно сделать простым treemap, например в Excel или Google Docs, на картинке - текущие результаты классификации по второй версии. MaxBioHazard 04:41, 5 марта 2016 (UTC)[ответить]

Wow! that was very quick. I would stop, Statistically this should tell you the percentage in each category ±2%, which is probably good enough. To get down to ±1%, you'd need about 4,000 articles categorized. I can do some work on the 1,234, e.g. look at their ages, maybe some quality measures such as simple size (bytes) or https://meta.wikimedia.org/wiki/Objective_Revision_Evaluation_Service. While having a few extra articles to work with is ok - the main use would be for sub-samples. I don't think I'd gather more data on all of them. Could you upload the graphic to Commons? I might show this on https://en.wikipedia.org/wiki/User_talk:Jimbo_Wales and ask people from other language projects if they want to do something similar (Maybe the programmers could ask for a bit of help from you). Thank you very much for everything! Smallbones 22:25, 14 марта 2016 (UTC)[ответить]

Агрегатор

Примет, Макс! Рукоплескаю! А можно попросить вынести в отдельное эссе, а я попробую его немного дополнить? Спасибо! Dr Bug (Владимир² Медейко) 16:21, 19 января 2016 (UTC)[ответить]

Добавляйте новые темы СВЕРХУ