Обсуждение участника:MBH
Categories for random sample
Thanks Max for getting back to me so quickly! As far as getting categories, I'm not sure it can be done by bot. "Вам нужен список категорий рувики, соответствующих определённым категориям анвики?" I would have liked to do this in English, but I found the top categories on enwiki to be pretty odd creatures, and just made my own - which takes some judgement and some time.
For example enwiki has fundamental categories ► Concepts (16 C, 26 P) L ► Life (14 C, 20 P) P ► Physical universe (4 C, 24 P) S ► Society
Also on enwiki there are Category:Main topic classifications (which are a bit closer to what I need) C ► Culture (51 C, 64 P) G ► Geography (26 C, 77 P) H ► Health (44 C, 6 P) ► History (36 C, 40 P) ► Humanities (32 C, 49 P) L ► Literature (55 C, 85 P) M ► Mathematics (20 C, 16 P) N ► Nature (25 C, 11 P) P ► People (19 C, 5 P) ► Philosophy (19 C, 44 P) R ► Reference works (31 C, 168 P) S ► Science (38 C, 27 P) ► Society (60 C, 28 P) T ► Technology (40 C, 72 P)
There's still not much I can do with those, in particular since they are difficult to trace back from the several categories in each article.
Instead I set up my own categories, with subcategories: See page en:User:Smallbones/1000_random which I judge in order for each article:
- Biography (individuals only) - divided by male/female and living/dead
- BLP, M; BLP, W; BDP, M; BDP, W (also divide by sports, non-sports)
- geography
- GEO, W (for Western hemisphere); GEO, E
- Business, products and services BUS
- Culture and arts
- CA, 1990-; and CA, 1991+ ("classical" vs. current)
- History, politics and government HIST
- Other society, sports, religion, philosophy and social science SOC
- Hard sciences, technology, and math SCI
- Biology, health, and medicine BHM
- Other/unclassifiable
If you could find a way to do this by bot, I'd be very happy - but also very surprised!
Thanks for any help.
Smallbones 16:51, 27 февраля 2016 (UTC)
- Вы предлагаете написать программу, которая будет классифицировать статьи по этим категориям? Можно попробовать (хотя предвижу некоторые трудности - например, в рувики нет категорий для мужчин и женщин). А как вы делали это для англовики - вручную? MaxBioHazard 17:09, 27 февраля 2016 (UTC)
- Yes, I did it manually - entirely by hand. When you do it by hand, you get exactly what you want, not what the computer wants to give you, e.g. you can identify living sportsmenki. I should say that with such broad categories, it is usually pretty easy - maybe taking 15 seconds or less for 90% or more of the articles, maybe another 15 seconds for another 9% etc. Still for 1,000 articles, that's probably something like 5-10 hours. A lot of work, if you know how to automate it, please let me know. Smallbones 20:18, 27 февраля 2016 (UTC)
- У меня есть идея, не требующая писать никакого распознающего кода. Она навеяна этим сервисом - он показывает статью и просит ответить на простой вопрос о предмете статьи (например, является ли он мужчиной или женщиной) и в случае ответа - заполняет для этого элемента соответствующее свойство на ВД. Можно сделать такой же сервис, который будет показывать случайные статьи, а человек-контролёр должен будет нажать одну из 14 (?) кнопок, классифицирующих статью в одну из ваших категорий. Я почти не умею в веб-программирование, но можно попросить кого-то, чтобы он сделал такой сервис (например, автора Wikidata Game). Возможно, из нашего раздела такое сможет сделать u:Ле Лой - он уже писал на JS интерфейс оценки статей для экзопедических конкурсов. MaxBioHazard 20:36, 27 февраля 2016 (UTC)
- So you suggest contacting Ле Лой and seeing if he could make this into a game? It sound like this would be worth checking out. BTW, I tried some of the other games and found that I could do some even in Arabic, but couldn't figure out how to get only English language articles. Smallbones 20:57, 27 февраля 2016 (UTC)
- Да, спросите его (по идее, ему пришли пинги и он сам здесь ответит). Если он этим заниматься не будет - я сам могу попробовать написать что-то такое в своём аккаунте на лабсе. MaxBioHazard 21:08, 27 февраля 2016 (UTC)
- So you suggest contacting Ле Лой and seeing if he could make this into a game? It sound like this would be worth checking out. BTW, I tried some of the other games and found that I could do some even in Arabic, but couldn't figure out how to get only English language articles. Smallbones 20:57, 27 февраля 2016 (UTC)
- У меня есть идея, не требующая писать никакого распознающего кода. Она навеяна этим сервисом - он показывает статью и просит ответить на простой вопрос о предмете статьи (например, является ли он мужчиной или женщиной) и в случае ответа - заполняет для этого элемента соответствующее свойство на ВД. Можно сделать такой же сервис, который будет показывать случайные статьи, а человек-контролёр должен будет нажать одну из 14 (?) кнопок, классифицирующих статью в одну из ваших категорий. Я почти не умею в веб-программирование, но можно попросить кого-то, чтобы он сделал такой сервис (например, автора Wikidata Game). Возможно, из нашего раздела такое сможет сделать u:Ле Лой - он уже писал на JS интерфейс оценки статей для экзопедических конкурсов. MaxBioHazard 20:36, 27 февраля 2016 (UTC)
- Yes, I did it manually - entirely by hand. When you do it by hand, you get exactly what you want, not what the computer wants to give you, e.g. you can identify living sportsmenki. I should say that with such broad categories, it is usually pretty easy - maybe taking 15 seconds or less for 90% or more of the articles, maybe another 15 seconds for another 9% etc. Still for 1,000 articles, that's probably something like 5-10 hours. A lot of work, if you know how to automate it, please let me know. Smallbones 20:18, 27 февраля 2016 (UTC)
- Sounds good. I'll check back every day for a few days. Smallbones 21:16, 27 февраля 2016 (UTC)
Вот как это будет выглядеть: https://tools.wmflabs.org/mbh/smallbones.html После нажатия на кнопку будет загружаться следующая случайная статья. Скорость обработки можно довести до 2-3 секунд на статью. Состав категорий ещё можно изменить. Я пока не написал программу-обработчик, которая будет сохранять ответы и загружать следующую случайную статью, но планирую сделать это сегодня вечером. MaxBioHazard 08:19, 28 февраля 2016 (UTC)
Я написал обработчик кнопок. Нажатие кнопок на https://tools.wmflabs.org/mbh/smallbones.html увеличивает счётчики в файле в моей папке на лабсе; в ближайшее время я сделаю вывод текущих значений счётчиков на эту страницу. MaxBioHazard 16:44, 28 февраля 2016 (UTC)
- Wow, that looks like it would work very well. It's so good it brings up multiple new issues. Let me divide them up, answer the most important questions, and suggest a next step.
- cosmetic issues - e.g. exact wording on the buttons, 4 additional buttons for biographies (sports/non-sports)
- who, other than me, will use this and how, e.g. should there be a link to a detailed guide to the categories? (Does "Simon & Garfunkel" go in the same category as "Paul Simon"? No)
- How can I, Smallbones, use this? If we can answer this question, I think that the rest will fall into place with a few tweaks
- List of button labels
- Living male (non-sports)
- Living female (non-sports)
- Living male (sports)
- Living female (sports)
- Deceased male (non-sports)
- Deceased female (non-sports)
- Deceased male (sports)
- Deceased female (sports)
- Geography (Americas)
- Geography (non-Americas)
- Arts & culture 1990-
- Arts & culture 1991+
- Science/technology
- Biology/medicine
- History/Gov't
- Society (non-sports)
- Society (sports)
- Business
- Other/pass
- Output
- Perhaps to the page https://en.wikipedia.org/wiki/User:Smallbones/random_ru
- Formated perhaps as
- List of button labels
| ru:МТИС (Минские Телевизионные Информационные Сети) | BUS |-
In which case all I'll have to do is set up the table after the output arrives
- A place to put the address of your own output page (optional)
- A way to change language versions, e.g. from ruwiki to svwiki or other language wiki (optional)
- an extra browser page where the ru article can be translated into English (or any other language) - editor can do it themselves!
A way to say "This session is over - save the data and close" Perhaps just another button "End session/save data"
If I see that this works for me, I'll see what is needed to get everybody else using it!
Thanks,
Smallbones 20:43, 28 февраля 2016 (UTC)
- С отправкой результатов вам в таблицу есть та проблема, что программа не знает названия текущей статьи. Программа вызывает Special:Random и не знает, какая страница ей пришла (можно генерировать айди страницы вручную и загружать её, попробую так сделать). Состав кнопок изменю, добавлю выбор языкового раздела. О каких сессиях речь - я не понял, программа однократно срабатывает сразу после нажатия кнопки, она не запущена постоянно. MaxBioHazard 07:16, 29 февраля 2016 (UTC)
Kuda?
Sorry that I haven't been back for a few days.
I love your program and how it works. It's not exactly what I was looking for, but that really doesn't matter. I roughly mapped out the "book shelves" - if you need help with that I can give a few suggestions.
I was looking for the start of a randomly selected data set, that I could do more work on, e.g. see how articles grow over time and is this related to page views or specific categories. I'll still be doing that, but I have enough work to do with the English language data set that I already have. But I absolutely need the article name to do what I want to do.
But, you've got something that is quite simple to use and, if I am correct, is very fast and people have fun doing it. So this could be something adapted to any Wiki and likely gives us good information and people have fun. That's what Wikipedia is all about.
I worked up some suggestions - while I was still thinking about this much too seriously. Please see https://en.wikipedia.org/wiki/User:Smallbones/random_ru
But please remember that these are only my suggestions. For getting the most out of your program, it is important that editors on that Wiki do this type of category classification system by and for themselves, that they not make it too complicated, and that it addresses "local" concerns - such as a category for Russian or FSU geography if editors want it.
I may submit a poster to Wikimania 2016 in Italy. They have this a poster project, though my poster may not be what they expected for it. If they accept mine, should I suggest that you submit one also?
So I haven't got what I wanted or expected, but we may have something better. I'll probably leave it alone from here, but do please send me final results and a graphic when these are done.
Sincerely, Smallbones 21:36, 2 марта 2016 (UTC)
- Я пытаюсь сделать вывод результатов классификации на вашу страницу, сейчас проблема в том, что правки бота зарезает фильтр правок. Когда эта проблема будет решена, классификатор будет сохранять на ту страницу результат классификации каждой статьи. Рубрикацию я сделал свою, потому что ваша мне кажется в некоторых моментах нелогичной лли недостаточно подробной; могу ответить на вопросы по своей и принимаю предложения об её изменении. Визуализацию результатов классификации можно сделать простым treemap, например в Excel или Google Docs, на картинке - текущие результаты классификации по второй версии. MaxBioHazard 04:41, 5 марта 2016 (UTC)
- I think the bot editing problem will be taken care of. I've come to realize that the community should decide on the best way to do the categorization. Each community will be different. Smallbones 00:34, 6 марта 2016 (UTC)
- Thanks for updating me on this. I noticed that it was working, then I noticed the clearly delusional classification. So, you will be sending out invitations now to trusted users via e-mail, if I understand correctly. I'll keep my eye on the page. Thanks again. Smallbones 16:47, 14 марта 2016 (UTC)
- Кажется, это был не вандализм, а баг программы. Я поправил, теперь пока правильно отправляет, адрес пока тот же: https://tools.wmflabs.org/mbh/article_classification_enhanced.cgi MaxBioHazard 17:10, 14 марта 2016 (UTC)
- It is working very quickly. I'll check back tonight (in 8 hours or so) and see if it is done! Smallbones 17:26, 14 марта 2016 (UTC)
- В смысле done? Оно запрашивает случайные статьи, оно может работать неограниченно долго. К тому же, я полагал, именно вы будете проводить основную классификацию (сейчас это делаю я, но мне надоест гораздо раньше 1000 статей). Ну и снова вброшу на наш форум, может ещё кто-то займётся. MaxBioHazard 17:40, 14 марта 2016 (UTC)
- It is working very quickly. I'll check back tonight (in 8 hours or so) and see if it is done! Smallbones 17:26, 14 марта 2016 (UTC)
- Кажется, это был не вандализм, а баг программы. Я поправил, теперь пока правильно отправляет, адрес пока тот же: https://tools.wmflabs.org/mbh/article_classification_enhanced.cgi MaxBioHazard 17:10, 14 марта 2016 (UTC)
- Thanks for updating me on this. I noticed that it was working, then I noticed the clearly delusional classification. So, you will be sending out invitations now to trusted users via e-mail, if I understand correctly. I'll keep my eye on the page. Thanks again. Smallbones 16:47, 14 марта 2016 (UTC)
- I think the bot editing problem will be taken care of. I've come to realize that the community should decide on the best way to do the categorization. Each community will be different. Smallbones 00:34, 6 марта 2016 (UTC)
Wow! that was very quick. I would stop, Statistically this should tell you the percentage in each category ±2%, which is probably good enough. To get down to ±1%, you'd need about 4,000 articles categorized. I can do some work on the 1,234, e.g. look at their ages, maybe some quality measures such as simple size (bytes) or https://meta.wikimedia.org/wiki/Objective_Revision_Evaluation_Service. While having a few extra articles to work with is ok - the main use would be for sub-samples. I don't think I'd gather more data on all of them. Could you upload the graphic to Commons? I might show this on https://en.wikipedia.org/wiki/User_talk:Jimbo_Wales and ask people from other language projects if they want to do something similar (Maybe the programmers could ask for a bit of help from you). Thank you very much for everything! Smallbones 22:25, 14 марта 2016 (UTC)
- Max, the English on the graphic looks very good, all native English speakers would understand it. Some polishing follows: "Natural science and technics" should be "Natural science and technology"; perhaps even "Hard science and technology" because "Natural science" would include biology. The "Other" subcategory of the category "Other" could be left out. The "Before 1990" and "Since 1991" technically leaves out 1 year, 1990. Maybe "Before 1991" and "1991 and later". This imprecision in before/after is very common in English, unlike in Russian.
- BTW, over the next few weeks I'm going to do a bit of research on the geography articles in enwiki and may take a quick look at one small aspect of the ruwiki geography articles. Smallbones 15:41, 18 марта 2016 (UTC)
- I mentioned you very briefly at Jimbo's Talk Page Smallbones 01:13, 22 марта 2016 (UTC)
- Да, мне пришло уведомление, спасибо. MaxBioHazard 01:18, 22 марта 2016 (UTC)
- I mentioned you very briefly at Jimbo's Talk Page Smallbones 01:13, 22 марта 2016 (UTC)
- Периодически делаю.--Arbnos 14:41, 22 марта 2016 (UTC)
- И вам спасибо. MaxBioHazard 14:45, 22 марта 2016 (UTC)
Агрегатор
Примет, Макс! Рукоплескаю! А можно попросить вынести в отдельное эссе, а я попробую его немного дополнить? Спасибо! Dr Bug (Владимир² Медейко) 16:21, 19 января 2016 (UTC)
- Ну да. MaxBioHazard 16:43, 19 января 2016 (UTC)
- u:Drbug, в смысле, я сначала так понял - что вы вынесете в эссе. Я не очень понимаю формат такого эссе, но кому захочется - выносите. MaxBioHazard 01:47, 19 марта 2016 (UTC)