Обсуждение:Анализ состояния Википедии

Содержание

Тематические обсуждения

Актуальные

Архивные

  • Завалинка
  • Вандализм (июнь 2004)
  • Викизнание - дискуссия о недостатках и преимуществах лицензии GNU FDL.
  • Август 2004: Ударения, греческие буквы в названиях, годы до нашей эры, реорганизация страниц с длинными списками.
  • Сентябрь 2004: "Википедия не словарь", категории (религии),
  • Октябрь 2004: Иноязычные перенаправления, достоверная статистика (источники)
  • Декабрь 2004, привлечение общественности, фильмы, текущие события, даты по старому и новому стилю
  • Ноябрь 2004: перемещение статей, wikipedia.ru, снова вандализм, древние римляне
  • Январь 2005: обсценная лексика, орфо/гра/мотность, ордена, планка для биографий, контроль качества, вопросы авторского права, голосования, критерии удаления статей
  • Апрель 2005: именование статей, wikipedia.ru, авторское право, категории, планка для биографий, Израиль, перенаправления (падежи), допустимость ссылок на коммерческие ресурсы
  • Июнь-Июль 2005: Викимедия Россия, авторские права, wikizaurus, переход на Mediawiki 1.5, анимация изменений, список статей на главной странице, ссылки на Викитеку
  • Август 2005: Поисковая оптимизация, переводы терминов Википедии, болванка статьи, опять авторские права: Google Earth и БСЭ, межславянская кооперация, категории для умерших и родившихся, RSS-каналы для проектов Википедии, шаблон disambig
  • Сентябрь 2005: Фотографии России, разделение литераторов по культуре, по нации, по половой принадлежности, администраторы online, статистика Википедии, справочник городов, статья в «Новых известиях», форматирование абзацев, панель викификатора и спецсимволов, мусорные статьи, чувашские имена, Брокгауз и Ефрон, Narod.Ru в blacklist, викиглюки, Викитека
  • Октябрь 2005: авторское право, премия Рунета, война правок вокруг Нагорного Карабаха, арбитраж, русская Викитека, порталы, транслитерация и переводы, музыкальные термины, категории, избранные статьи, стиль статей из ЭСБЭ, шаблоны, технические вопросы...
  • Ноябрь 2005: Геринг или Гёринг, голосование по премии Рунета, ссылка в адресной строке по-русски, поиск Яндексом по Википедии, ударения
  • Декабрь 2005: Блокировка анонимов в en:Wiki и скандал с Сейгенталером, заливка 8000 кино-стабов, массовые заливки в русской Вики, «соревнование» с китайцами
  • Январь 2006: будет ли реклама в Википедии; допустимость копипастов; нарушители авторских прав; борьба со злостным вандалом
Цель обсуждения
Хорошо известно, что отображаемое счётчиком статей (118 151) количество явно завышено. Большинство текстов, которые он считает, не имеют никакого отношения к энциклопедическим статьям. Предлагается составить строгие критерии определения качества статьи с тем, чтобы можно было провести полный анализ современного состояния Википедии.

Первоначальный запрос

Я думаю, что ни для кого не секрет, что число, которое показывает счётчик статей (118 151) явно завышено. Большинство текстов, которые он считает, не имеют никакого отношения к энциклопедическим статьям. Хорошо бы сделать такой бот, который раз в сутки бы считал общее количество статей по более строгим правилам и помещал бы это число, к примеру, в Шаблон:Реальное количество статей. Тогда бы можно было бы хоть ориентироваться, сравнивая это число с числом на счётчике, какой процент у нас мусора и увеличивается или же уменьшается этот процент.

Предлагаю считать по следующим критериям:

  • Статья должна находится в основном пространстве имён.
  • Статья должна быть больше 500 байт.
  • Статья должна содержать не менее 3 внутренних ссылок.
  • Статья не должна входить в категории:
    • disambig
    • stub (см. ниже)
    • списки
  • Среди авторов статьи не должны быть только роботы

Какие бы ещё критерии добавить? И насколько реально сделать такого робота? --Ctac (Стас Козловский) 19:12, 29 августа 2006 (UTC)

Еще добавил:

  • Не считать статьи про даты и годы. (За исключением статьи 30 февраля).
  • Не считать статьи про цифры (например, 10 (число)).
  • Статья не должна быть редиректом на другую.
  • Статья не должна иметь в названии «/». Например, Василий Пупкин/Temp.
  • Не считать статьи, в которых стоят шаблоны vfd, delete, cleanup, wikify, POV, орисс, copyvio.
  • Не считать статьи, где не проставлена категория.

--Ctac (Стас Козловский) 20:20, 29 августа 2006 (UTC)

И ещё:

  • Не считать статьи в категории stub, если их объём меньше 1500 байт.

--Ctac (Стас Козловский) 07:48, 30 августа 2006 (UTC)

Обсуждение идеи

  • POV считать. Масса вполне толковых статей содержат этот шаблон, потому что некоторые товарищи на этом настаивают. Например, Гомофобия — я так и не могу добиться понимания — чего там ненейтрального. --Владимир Волохонский 07:01, 31 августа 2006 (UTC)
  • Я бы поставил ограничение не менее 1,5 Kb. Что до робота, то, вероятно, такую работу в любом случае можно будет делать тольк5о по дампу, — так, как делаются страницы статистики. — Это сообщение написал, но не подписался участник Kaganer (обсуждение • вклад) .
  • Насчёт «процента мусора» — не согласен. Дело в том, что дизамбиги и уж тем более списки никак не являются мусором, и увеличение их количества улучшает качество энциклопедии. Стабы у нас стоят далеко не во всех местах, где должны быть, и наоборот — далеко не все статьи, где стоят стабы, являются «мусором» (где-то и снять можно). --AndyVolykhov 19:18, 29 августа 2006 (UTC)
    Если стоит стаб, то автор недоволен текстом. Значит считаем её для простоты недоделанной. Для строго подсчёта этого достаточно. Что касается списков, то они хоть, возможно, кому-то и полезны, но энциклопедическими статьями в полном смысле этого слова не являются. --Ctac (Стас Козловский) 19:35, 29 августа 2006 (UTC)
    Да, но и мусором их считать нельзя! Значит, «процент мусора» — это должно быть отношение числа слишком маленьких незаконченных и залитых статей к общему числу статей, не считая списков и дизамбигов. И то если быть уверенным, что стабы расставлены по-человечески. --AndyVolykhov 19:55, 29 августа 2006 (UTC)
    Ну, хорошо. Не «мусором», а «статьями сомнительного качества». Я просто предлагаю создать предельно жёсткий критерий и посмотреть много ли после этого статей там останется. Если он будет отсекать стабы, то авторы статей будут думать когда их ставить, а когда нет ;)--Ctac (Стас Козловский) 20:20, 29 августа 2006 (UTC)
  • Вполне разумное правило, но для этого надо все стабы и «весёлые» шаблоны свести к одному корню. Ещё не учитывать шалоны «chekup»? «wikify» … И списки все свести к категориям … Ну а стабы — например, при наличии стаба надо чтобы в статье было не менее 1600 знаков, а без стаба — 500… неон 19:23, 29 августа 2006 (UTC)
    Согласен. Так будет логичнее. --Ctac (Стас Козловский) 07:48, 30 августа 2006 (UTC)
  • Чо там считать-то?! У нас в день создается не более 10 сколь-нибудь приличных статей. Умножьте на срок существования проекта в днях и задумайтесь над получившимся результатом. :-) Dart evader (а возможно, Nevermind; а может быть, и ГСБ) 19:28, 29 августа 2006 (UTC)
    Неа. Раньше было гораздо меньше 10. Вопрос в том, увеличивается ли или уменьшается соотношение мусора к относительно нормальным статьям со временем. --Ctac (Стас Козловский) 19:41, 29 августа 2006 (UTC)
    Оно остается неизменно удручающим. Не так давно Максим Разин приводил статистику на страничке АПЭ. Dart evader (а возможно, Nevermind; а может быть, и ГСБ) 19:53, 29 августа 2006 (UTC)
  • Скриптом это подсчитать довольно просто (с точки зрения написания), но полторагигабайтовая БД будет обрабатываться… хм… в общем, на Toolserver за это спасибо не скажут. Сейчас попытаюсь пооптимизировать. — Ed 06:16, 30 августа 2006 (UTC)
    Ура! На повелителя ботов вся наша надежда :) --Ctac (Стас Козловский) 07:48, 30 августа 2006 (UTC)
    Насчёт stub — это неправильно, потому что у нас есть много стабов, которые по качеству далеко не стабы, а очень неплохие (но не очень большие) статьи // vh16 (обс.) 06:47, 30 августа 2006 (UTC)
    В случае, если в статье полностью раскрыта её тема (пусть и без значительных подробностей) пометку стаба нужно убирать, идеальной статья всё равно никогда не станет. MaxiMaxiMax 06:51, 30 августа 2006 (UTC)
    Надо убирание пометки stub сделать работой недели :)) // vh16 (обс.) 06:55, 30 августа 2006 (UTC)
    Не надо! Ну вот Револьвер системы Нагана по объему и охвату нормальная статья, но пока не охвачен спортивный раздел стоит stub. Снимать его не нужно, статья не доведена до конца и нужно указать на это читателю, но и считать сомнительной статьей я бы не стал.--83.102.202.2 06:57, 30 августа 2006 (UTC)
    На мой взгляд, критерий, предложенный Неоном, — считать статьями только те стабы, которые больше 1,5 Кбайт — решит эту проблему.--Ctac (Стас Козловский) 07:53, 30 августа 2006 (UTC)
  • По стабам предлагаю вот что: не учитываются все статьи с пометкой {{бот}}, все статьи о фильмах, имеющие {{film-stub}} и начатые CodeMonkBot (остальные крупные заливки вроде метеоритов и NGC явно помечены), не учитываются статьи, на которых стоит {{ЭСБЕ}} и {{bio-stub}} (второй также может быть {{scientist-stub}}, {{politic-stub}} и прочее), но при этом присутствует « — ?» (это вообще позор! :(). — Ed 07:51, 30 августа 2006 (UTC)
    некоторые bio-stub-ы вполне нормальны, часть брокгаузов дополнена, переработана или изначально адекватна--83.102.202.2 07:56, 30 августа 2006 (UTC)
    Ты не понял. ЭСБЕ-статьи о персоналиях, содержащие « — ?» — это статьи без года смерти. То есть родился известный путешественник в 1870 году и жив и по сей день. Ясно, что эти-то статьи никто не дорабатывал. — Ed 08:12, 30 августа 2006 (UTC)
    Вообще правильнее было бы сначала создать отдельного бота, который бы прошёлся по всем статьям и повставлял бы шаблон бот, в статьи, которые никто кроме ботов не редактировал. Имена ботов, в принципе все известны. Что касается массовой заливки Даексом статей ЭСБЕ, то пометить шаблоном можно все статьи, которые им созданы и у которых лишь одна его правка, а остальные правки сделаны только ботами. Так можно было бы отметить все залитые, но не переработанные статьи из ЭСБЕ, статьи о мобилах, статьи о лекарствах, о фильмах и т. п., чтобы потом их можно было выкинуть из подсчёта --Ctac (Стас Козловский) 08:06, 30 августа 2006 (UTC)
  • Насколько понимаю, редиректы в подсчет и так не входят. А остальное оценить легко: сто раз посмотреть на случайную статью и вручную посчитать, сколько раз внятная статья выпала. С точностью плюс-минус лапоть, конечно, но все равно нечто осмысленное получится. — kcmamu 08:12, 30 августа 2006 (UTC)
    В этом-то как раз вся проблема. Многие уже оценивали количество мусора по нескольким случайным статьям, но у всех получались разные цифры. По разным оценкам, сделанным подобным образом, количество мусора в русской Википедии составляет от 10 до 90 %. Не слабый такой разброс. :) Хотелось бы знать реальное положение дел, а кроме робота, считающего статьи по внятным и всем понятным критериям этого сделать не сможет никто.--Ctac (Стас Козловский) 08:59, 30 августа 2006 (UTC)

Еще раз про списки. Вот такие например списки: ГКЯ, Страны мира — на мой взгляд, суть прекраснейшие статьи. Так что я бы не стал все списке под одну гребенку… --Koryakov Yuri 23:07, 30 августа 2006 (UTC)

  • С слешом аккуратнее, плиз. Есть статьи вида FHS/etc/passwd, которые вполне себе статьи. #George Shuklin
    Разумеется, это будет учитываться, тем более что я и придумал такую схему именования ;) — Ed 13:32, 31 августа 2006 (UTC)
  • Ещё нужно исключить статьи, в которых больше 5 % текста не на русском языке. --SergV 19:22, 1 сентября 2006 (UTC)
  • Статьи без внешних ссылок чаще всего являются ориссами (не удовлетворяют критерию проверяемости). Думаю, что их также следует исключить. MaxiMaxiMax 18:06, 10 сентября 2006 (UTC)
    В статье могут быть ссылки только на печатные источники. --Zserghei 18:49, 10 сентября 2006 (UTC)
    Ну давайте тогда так: либо внешние ссылки, либо ISBN, иначе непонятно есть ли книга или это фантазии автора статьи. MaxiMaxiMax 19:03, 10 сентября 2006 (UTC)
    Только, пожалуйста, не надо перегибов. В огромном количестве старых изданий никакого ISBN и в помине нет, однако это не делает их непригодными для цитирования. А фраза об ориссах в статьях без внешних ссылок выглядит, как минимум, слишком смелой. Solon 19:23, 10 сентября 2006 (UTC)
    Ну, ориссами, разумеется могут быть и статьи с внешними ссылками и литературой, тут не поспоришь. Однако статьи без внешних ссылок явно являются недоделанными - либо автор брал материалы из головы (а голова у всех разная), либо (очень частая ситуация) - источник не называется чтобы скрыть плагиат. В принципе, если неохота исключать их из списка "относительно качественных статей", можно просто дать справосчно как ещё один параметр "В том числе статей без внешних ссылок и литературы (без ISBN)" MaxiMaxiMax 01:33, 11 сентября 2006 (UTC)
    Согласен с Solonом — перегибать с ISBN не стоит: по писателям то и дело сверяю даты жизни и публикаций по биобиблиографическим справочникам, которые до конца 1980-х выходили без ISBN и, как мы понимаем, уж при жизни нынешнего поколения переиздаваться с ISBN не будут (если выйдут при нашей жизни оставшиеся тома «Русские писатели. 1800—1917» — это будет чудом) --Alma Pater 22:10, 11 сентября 2006 (UTC)

Обсуждение вида отчёта

Итак, отчёт от меня требуется в следующей форме (точнее, его ничего не стоит сделать при подробном анализе):

  1. Количество статей, подпадающих под каждый из критериев отфильтровки (иначе говоря, количество мусора по корзинам)
  2. Количество статей, не подпадающих ни под один из критериев отфильтровки (то есть реальное количество статей)

— Ed 09:10, 30 августа 2006 (UTC)

наверное, было бы небесполезным дать поковыряться в содержимом мусорных корзин, список отсеяных по критериям — неплохой стимул для их улучшения.--83.102.202.2 09:14, 30 августа 2006 (UTC)
Можно и так. Сделаем… ;) — Ed 09:20, 30 августа 2006 (UTC)
Ну, ещё можно хранить где-нибудь таблицу с этими цифрами за разные месяцы, чтобы строить графики соотношения мусора к остальным статьям и наблюдать как русская Википедия улучшается/ухудшается со временем.--Ctac (Стас Козловский) 21:00, 30 августа 2006 (UTC)
Для облегчения дальнейшей работы лучше боту сразу проставлять на статьях, которые подпадают под некоторые из критериев (например, про количество знаков), какой-нибудь шаблон. Тогда для следующего обсчёта надо будет анализировать только новые статьи, а остальные просто отнимать от общего количества. --Владимир Волохонский 07:09, 31 августа 2006 (UTC)
А вдруг разростётся? --Koryakov Yuri 17:05, 31 августа 2006 (UTC)
Не думаю что это хорошая идея — лепить в статьи левые пометки. MaxiMaxiMax 17:53, 31 августа 2006 (UTC)
Согласен, помечать статьи не нужно. Хватит и просто списков.--83.102.202.2 06:43, 1 сентября 2006 (UTC)

Сравнительный анализ других википедий и исходный код скрипта

Хотелось бы для сравнения получить те же данные и для других википедий. Кстати, можно ли получить исходный код скрипта, которым производился анализ? Хочется самому попробовать, немного меняя настройки. Wind 21:56, 11 сентября 2006 (UTC)

Народ! Ау! :( Wind 14:32, 12 сентября 2006 (UTC)

Итоговый список критериев

Внимание: этот раздел — не место для обсуждений, для них есть секция #Обсуждение идеи.

Критерии полноценной статьи:

  1. Не является редиректом на другую.
  2. Находится в основном пространстве имён.
  3. Не является статьёй про дату или и год.
  4. Не является статьёй про число.
  5. Не является временной (/Temp).
  6. Не является списком.
  7. Длина статьи больше 500 байтов.
  8. Длина статьи с пометкой {{stub}}, {{film-stub}} и т. п. больше 1500 байтов.
  9. Содержит как минимум 3 внутренних ссылки.
  10. В статье проставлены категории.
  11. В статье нет следующих шаблонов: «{{disambig}}», «{{vfd}}», «{{delete}}», «{{cleanup}}», «{{wikify}}», «{{орисс}}», «{{copyvio}}», «{{cleanup-rewrite}}», «{{бот}}».

Результаты оценки

См. Анализ состояния Википедии/Результаты.

 
Начальная страница  » 
А Б В Г Д Е Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Ы Э Ю Я
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
0 1 2 3 4 5 6 7 8 9 Home