Обсуждение:Популярные статьи о шахматных гроссмейстерах за 2018 год по просмотрам в Википедии

Последнее сообщение: 5 лет назад от Krassotkin в теме «Методика»

Иллюстрация править

Андрей, нужно подобрать какую-то картинку. Мы уже много лет не публикуем без иллюстраций. Да и шарить новости без картинки бесполезная работа: люди не выхватывают их из пёстрого информационного потока. --cаша (krassotkin) 12:56, 3 января 2019 (UTC)Ответить

Будет. И не одна. Новость ещё не готова. =) --Brateevsky {talk} 12:59, 3 января 2019 (UTC)Ответить

Методика править

Ещё по методике хотел бы уточнить. То есть ты суммировал число просмотров страницы и число переходов по редиректам? Но это получается удвоение показов для редиректов, так как тот, кто по нему прошёл один раз засчитался на перенаправлении, а второй собственно на новости, куда он автоматически попадает. То есть по тем позициям, куда чаще заходят по редиректам посещаемость повысится относительно тех, по которым чеща заходят напрямую. Или что я не уловливаю? --cаша (krassotkin) 13:07, 3 января 2019 (UTC)Ответить

Суть такая. Да, помимо основной страницы там надо считать и посещаемость по редиректам. Ну вот, например, по статье Карлсен, Магнус — в 2018 году 212934 просмотров только по основной странице, а с редиректами — уже 245218 (как раз и получается 672 просмотра в день). Берутся все редиректы, как «Карлсен Магнус», «Магнус Карлсен». Я наверно плохой пример привёл, но вот если вбить по второй ссылке в новости, то всё будет понятно. Пример. Это я кстати научился, когда был составлен рейтинг по компьютерным играм. Там в принципе несложно, но очень муторно, затратно по времени. --Brateevsky {talk} 13:25, 3 января 2019 (UTC)Ответить
  • Так это двойной счёт. Допустим, у нас есть два шахматиста. На одного стоит прямая ссылка, а на второго через редирект. По двум этим ссылкам перешли сто раз. У первого по такой методике будет 100 показов, а у второго - 200. Это разве правильно? --cаша (krassotkin) 13:34, 3 января 2019 (UTC)Ответить
  • Нет. У второго будет 0 (цель) и 100 - по редиректам. Вон выше я пример ссылки, там если даты поменять, получится как раз то число просмотров, которое и должно быть - 245218. А первоначальный список, да, он редиректы вообще не учитывает, там 212934 просмотра за год. Этот список быстро формируется, вся проблема как раз с редиректами, некоторые из которых много весят... --Brateevsky {talk} 13:38, 3 января 2019 (UTC)Ответить
    • А мог бы ты авторам этой тулзы написать спросить по примеру выше. Что-то у меня сомнения на этот счёт. Так как при редиректе в браузере в конце концов отражается конечный урл - базовая статья. Например, Карлсен, Магнус. Т. е. это сильно нужно измохриться при создании первичной статистики чтобы при счёте посещаемости страниц не учитывать переходы по редиректам. --cаша (krassotkin) 13:54, 3 января 2019 (UTC)Ответить
  • По компьютерным играм список по той же технологии делался. Может быть не руками конечно, но принцип такой, можно вот здесь посмотреть. =) Вообще я тоже не понимаю, какого хрена ещё и редиректы считать, почему их не считает инструмент. --Brateevsky {talk} 13:41, 3 января 2019 (UTC)Ответить
    • Пригласим Kirilloparma нас почитать. Может у него больше информации. --cаша (krassotkin) 13:56, 3 января 2019 (UTC)Ответить
      Здравствуйте коллеги, итак не много по порядку. Чтобы сделать точный список, необходимо также учитывать все перенаправления статьи, так как с текущим названием будут отображены не все просмотры если статья в течение года хотя бы один раз переименовывалась, поэтому дополнительно учитывается статистика по всем редиректам. Давайте я приведу пример, вот смотрите, к примеру 1 января 2019 года создаётся статья «NNN», потом позже через два месяца 1 марта 2019 года было принято решение переименовать статью в «Nnn». Переименованная статья «NNN», к концу года смогла набрать 218 просмотров в день, а та что сейчас 323 просмотра, то есть что получается в итоге засчитывать только 323 просм. той которой на данный момент? Ну нет конечно, собираются все просмотры, то есть та что на данный момент (цель) + все редиректы, так как по существу получился бы неточный рейтинг. В моём примере если засчитать только 323 просм. актуальной, то она будет находится значительно ниже в итоговом рейтинге если не будут засчитаны перенаправления, а так если учитывать основную и перенаправления выходит 323 + 218 и того 541 ... разница всё таки очень даже приличная. На вопрос, почему инструмент не считает редиректы могу ответить точно что не знаю, скорей всего на данный момент инструмент пока еще не приспособлен к этому, а так пока что, все подсчёты перенаправлений делаются в ручную. Также хочется отдельно отметить некоторые сомнение участника Krassotkin по поводу редиректов. Смотрите, да Вы правильно отметили что при редиректе в браузере в конце концов отражается конечный урл — базовая статья, но всё же просмотр идёт не в базовую статью а именно в редирект. Допустим в Википедии Вы ищете статью «Российская Федерация», основная статья «Россия», а «Российская Федерация» это редирект куда и пойдёт Ваш просмотр, чем больше Вы будете вбивать именно «Российская Федерация», тем больше будет просмотров у данного редиректа, а основная статья «Россия» получит 0 просмотров.
      Что касается подсчётов, тот тут есть свои загвоздки, например как я вижу, участник Brateevsky учёл также дроби, здесь хотелось бы уточнить один момент, как Вы например посчитали точное число с дробью? Вы использовали статистику с 1 января по 31 декабря 2018 года, или же другие даты? Проверьте пожалуйста, так как данный инструмент иногда автоматически сбивает даты и даёт другие. У меня например, Карлсен, Магнус, выдаёт 672 просм. в день с перенаправлениями и 583 просм. основная, я посчитал с дробью у меня выходит 673.6 а у Вас почему то 671.8, я сделал так 672+583/365, может это я не правильно посчитал? Во всяком случае хочется понять немного данный подсчёт, так как я поэтому в случае с рейтингом по компьютерным играм и не поставил дробь чтобы не вызвать путаницу у читателя, и поставил число редиректов и основной статьи см. ниже в итоговом рейтинге для компьютерных игр. С уважением Kirilloparma (обсуждение) 19:44, 3 января 2019 (UTC)Ответить
      • Спасибо большое, Kirilloparma за столь подробный ответ! Нет, на самом деле всё правильно, у меня тоже вышло 245218 просмотров страниц за год. Я потом просто эти просмотры взял и поделил на 365 дней (в 2018 году, если я не ошибся, все же 365 дней было). Результат решил округлять до десятых, так по крайней мере в старых версиях было, а работу за меня сделало приложение типа Excel (OpenOffice). Вот, а 245 218 = 212 934 (основная страница/цель) + 27579 (редирект № 1) + 4070 + ... + 2. Нет, у вас по идея статистика тоже верная, только в комментарии 672 не нужно с 583 складывать, так как 672 включает 583. --Brateevsky {talk} 20:14, 3 января 2019 (UTC)Ответить
      • Kirilloparma, только один вопрос. Откуда взялось утверждение, что «просмотр идёт не в базовую статью а именно в редирект». Его подтверждают разработчики? --cаша (krassotkin) 00:22, 4 января 2019 (UTC)Ответить
Скорей всего, здесь вопрос «А как собственно редирект получает просмотр?». В прошлом году я создал данную статью, здесь помимо основной имеется вот этот редирект, как видно на нём только 3 просмотра за всё время, на деле все эти 3 просмотра были сделаны мной, первый просм. соответственно в момент создания, второй в момент проверки, и третий когда вбил его в поиске на Википедии, то есть Википедия > поиск > и «PGW». Попробуйте сегодня на примере статьи которой я привёл, вбить в поиске «PGW» то есть редирект, запомните просмотры основной и редиректа, и на завтрашний день ближе к ночи1, Вы увидите что там в редиректе 4, 5, 6 просмотров (или больше) будут Ваши, а на основной соответственно будут те кто её посмотрят. На вопрос подтверждают ли разработчики, не знаю если Вы имеете в виду разработчиков вики-движка, во всяком случае внизу данного инструмента, отмечено что tool был создан следующими участниками: MusikAnimal, Kaldari и Marcel Ruiz Forns, если Вам интересно можете попробовать у них уточнить насчёт инструмента. Kirilloparma (обсуждение) 23:21, 4 января 2019 (UTC)Ответить
1: Сбор данных для просмотров страниц в проектах Викимедиа занимает полные сутки, иногда дольше. В некоторых ситуациях Вы можете увидеть отсутствие данных для вчерашней даты — такие фрагменты будут оставлены пустыми, а не заполнены нулевыми значениями. См. здесь Kirilloparma (обсуждение) 23:21, 4 января 2019 (UTC)Ответить
  • Сейчас посмотрел логику работы на указанном примере. Когда запрашиваешь https://ru.wikipedia.org/wiki/PGW (GET запрос без параметров) то движок возвращает 200 OK и контент страницы Paris Games Week, после чего JavaScript неявно заменяет URL в адресной строке на https://ru.wikipedia.org/wiki/Paris_Games_Week. Причём повторного запроса к каноническому адресу не происходит — то есть физического редиректа не происходит (это видно при переходе по адресу редиректа при выключенном JavaScript). Таким образом в логи сервера будет однозначно записан запрос "GET /wiki/PGW", но статистика по редиректу это не подтверждает (хотя бы случайные заходы но должны быть). То есть статистику они формируют программно только по им известной логике. Возможно они в счёт редиректа записывают только запросы типа https://ru.wikipedia.org/w/index.php?title=PGW&redirect=no — но это технические запросы и по ним юзер на целевую страницу не попадает, тогда их тем более нельзя учитывать в просмотры целевой страницы. Глядя на этот бардак можно сказать, что внутри счёт может быть реализовано любым способом и никакой однозначной логики в пользу одного или другого варианта придумать нельзя. В общем стоит задать разработчикам статистики прямой вопрос к какой странице добавляется просмотр при запросе https://ru.wikipedia.org/wiki/PGW (к PGW или Paris Games Week или к обоим). На мой взгляд, нам не стоит тут дальше продолжать гадать и имеет смысл задать им этот вопрос прямо. Именно разработчикам статистики, а не инструмента, так как последние лишь суммируют то, что там статистики первично насчитали. Я как-то переписывался с их руководительницей, она оперативно и вежливо отвечала. Надеюсь и ваш запрос не оставит без внимания, но разобраться нужно, иначе тут серьёзные перекосы могут произойти. --cаша (krassotkin) 00:19, 5 января 2019 (UTC)Ответить
  • Кстати, есть же ещё такие совершенно каноничные запросы указанной статьи: https://ru.wikipedia.org/?curid=7664789, https://ru.wikipedia.org/w/index.php?curid=7664810, кроме того, целая куча неканонических — вызовы старых версий, диффов, редактирования и т. п. Все они тем или иным образом вызывают эту страницу, но куда они зачисляются и зачисляются ли вообще неведомо. Тоже можно спросить заодно. --cаша (krassotkin) 00:19, 5 января 2019 (UTC)Ответить
  • Оффтопиком. У них совершенный бардак со статистикой. Все наши тесты в Викиновостях не смогли установить прозрачной логики между количеством вызова страницы и числом в статистике. Вплоть до того, что сырой дамп старой статистики не коррелирует с новой статистикой — может быть больше, а может меньше. Однажды даже обнаружили потерю 30% просмотров на протяжении нескольких месяце из-за ошибки при очередном обновлении, им пришлось поправлять после долгой переписки на эту тему. Так что эту статистику мы пока воспринимаем как неплохой инструмент для определения относительной популярности статей. Но к конкретным числам пока доверия нет. --cаша (krassotkin) 00:19, 5 января 2019 (UTC)Ответить
Кстати, я обновил список для рейтинга компьютерных игр (см. ниже в таблице), теперь он тоже с дробными величинами, существенных обновлений по списку не нашлось (кроме некоторых допущенных ошибок при подсчёте), так что если делать подсчёт без или с дробными величинами, фактически существенных изменений не будет, и рейтинг при этом остаётся верным. Сейчас поскольку долго думал, всё таки мне кажется лучше добавить дробные величины, так как в случае рейтинга для компьютерных игр имеются некоторые из игр на одинаковой позиции, поэтому для уточнения всё таки лучше их добавить, если не будут возражений обновлю также в основном пространстве. Kirilloparma (обсуждение) 23:21, 4 января 2019 (UTC)Ответить
  • В ВН опубликованные статьи по существу не правятся, но тут, насколько понял, принципиальных серьёзных подвижек не будет. Так что будем считать, что это косметические правки, а у нас не бюрократия, обновляйте. Единственный момент, нужно будет поставить внизу шаблон {{Обновлено}} и под ним написать какие изменения произошли: СМИ — первичный источник и в них изменения после публикации делаются явно. --cаша (krassotkin) 00:19, 5 января 2019 (UTC)Ответить

Статистика к обсуждению править

Вернуться на страницу «Популярные статьи о шахматных гроссмейстерах за 2018 год по просмотрам в Википедии».