schegloff (![]() @ 2006-12-04 22:56:00 |
Entry tags: | СГО |
Яндекс-рейтинг: некоторые итоги ноября
Рейтинг авторитетности блогов рунета был запущен Яндексом в начале октября 2006 года. К 31 октября я написал и стал ежедневно запускать программку lj_yandtop.py, сохранявшую рейтинги ЖЖ-юзеров - сначала по первым 20 страницам рейтинга ЖЖ, а после прошлонедельного "р-разоблачения" - по первым 25 страницам общего рейтинга блогов. В результате за ноябрь у меня накопилась вполне репрезентативная статистика, которой я и хочу поделится с читателями.
Начну с подвисшей ранее темы о трудовых правах робота. Они по-прежнему соблюдаются: рейтинги 2 и 3 декабря (субботний и воскресный) одинаковы :)
Теперь о более серьезных вещах. Зачем я вообще мониторю динамику "авторитетности"? Затем, чтобы не пропустить интересного автора. Предполагается, что такого автора остальные ЖЖ-юзеры заметят, начнут его рекомендовать друг другу (как galkovsky -
salery), в результате "авторитетность" автора начнет быстро расти, и он попадет в "первые тысячу сто" (примерно столько ЖЖ-юзеров считывается с 25 страниц рейтинга блогов). Вот таких-то авторов я и планировал разыскать.
Прошел ноябрь, "сбылась мечта идиота" - на диск легли 25 файлов ежедневных рейтингов, в которые вошли в общей сложности 1253 ЖЖ-юзера. Несложная программка построила по каждому из них динамику рейтинга, наложила на эту динамику линейную регрессию, и выдала мне таблицу результатов. Итак, результаты чемпионата ноября по относительной динамике яндекс-рейтинга:
№ ЖЖ-юзер средний прирост, %/день
1 reinardine 11,3
2 real_rykov 10,3
3 mq 9,5
4 texconten 8,9
5 rdp4v 8,8
6 rykov 8,4
7 irdr 8,2
8 popunder 7,8
9 mirro 7,6
10 aluette_blondy 7,5
11 dedushka_jo 7,4
12 poslan_za_elkoy 7,3
13 uskov 7,3
14 shlangman 7,1
15 kattrend 7,1
16 mike67 7
17 tupikin 7
18 ka3ahoba_lt 6,9
19 _bme_ 6,9
20 chert999 6,8
Разумеется, я сразу же принялся открывать журналы победителей. Ткнулся в один, ткнулся в другой - ничего особенного. Ничего такого, чтобы сразу читать журнал "от корки до корки", как это было при обнаружении galkovsky или
asterrot или (еще два года назад)
krylov. Такова горькая доля исследователя - тратить массу времени на "убийство прекрасной теории грубым фактом". Яндекс-рейтинг в его теперешнем виде не дает возможности автоматически вычислить наиболее интересных для меня пользователей. Но для тех ЖЖ-юзеров, вкусы которых примерно совпадают со средними, подобный "чемпионат" может представлять интерес. Покликайте, глядишь, понравится.
По-видимому, следующей задачей будет формирование на основе lj_archiver и lj_rate некоего аналога яндекс-рейтинга, составляемого только по ссылкам из ЖЖ специально отобранных пользователей. Задача остается прежней - весь инструментарий сетевого анализа должен быть под рукой у каждого пользователя, которому такой анализ интересен. СГО, однако.
Замечания и предложения, как обычно, приветствуются!
![]() | ![]() 2006-12-04 06:15 pm UTC (link) |
фигня этот ваш блогорейтинг. Я уже второй месяц пытаюсь добиться, чтобы меня включили - дудки. Видать цензура не пропускает |
![]() | ![]() 2006-12-04 06:54 pm UTC (link) |
Кстати да, "авторитетность" совершенно не равняется интересности, ИМХО. |
![]() | ![]() 2006-12-04 08:56 pm UTC (link) |
Я где-то читал, не так давно, что простым юзверям с финансируемыми Комитетом ЖиЖами конкурировать непросто. Не у Вас, часом? ;) (Reply to this) (Thread) |
![]() | Я, конечно, параноик, ![]() 2006-12-05 03:07 am UTC (link) |
но так прямо вроде не писал, все больше намеками да обиняками ("полонием потравят" и т.д.). Сейчас в рейтинге наметилась тенденция "богатые станут еще богаче, бедные - еще беднее" - кривая распределения авторитетности постепенно выгибается вниз, т.е. круче снижается, чем в начале ноября. Впрочем, об этом, а также о "глюке" рейтинга 4 ноября, нужно отдельно написать. (Reply to this) (Parent) (Thread) |
![]() | ![]() 2006-12-05 07:05 am UTC (link) |
вот вот, есть в авторитетности степенная зависимость или нет? (Reply to this) (Parent) (Thread) |
![]() | Тут я в затруднении ![]() 2006-12-05 07:58 am UTC (link) |
Матстатистике не обучался, как одно распределение от другого отличить, не знаю. Подскажите простой способ, в книжках наскоро не нашел (точнее, один способ нашел, по средним арифметическому-геометрическому-гипербол Если брать ra(n) = ra(1)*1/n^x, то x получается от 0.38 (зачет по первой сотне) до 0.5 (по первой тысяче), соответственно при 0.38 фактические рейтинги "аутсайдеров" оказываются меньше, чем "по теории", а при 0.5 - уже рейтинги "середняков" больше, чем по теории. То есть характер вроде как степенной, но с изменяющимся показателем степени. (Reply to this) (Parent) (Thread) |
![]() | ![]() 2006-12-05 08:53 am UTC (link) |
Разделите всю шкалу рейтингов на равные (для начала) сегменты, штук на сто. Потом пробегите по всем юзерам и считайте сколько юзеров попадает в тот или иной сегмент. Потом постройте количество попаданий как функцию среднего значения авторитетности в сегменте (или просто номера сегмента) в двойных логарифмических координатах. Если там видна прямая - значит степенная зависимость. Может со мной исходными данными поделитесь? Просто списком всех значений рейтинга (Reply to this) (Parent) (Thread) |
![]() | Тут я уже просто в панике :) ![]() 2006-12-05 09:54 am UTC (link) |
Как только дошло до двойных логарифмических, я вырубился. Куда скинуть исходные данные (CSV)? (Reply to this) (Parent) (Thread) |
![]() | ![]() 2006-12-05 12:29 pm UTC (link) |
Много там? Если порядка нескольких мегов - сюда (Reply to this) (Parent) (Thread) |
![]() | Там считаные килобайты :) ![]() 2006-12-05 02:09 pm UTC (link) |
Сейчас зарисую сегодняшний рейтинг по первым 100 страницам и скину. (Reply to this) (Parent) (Thread) |
![]() | ![]() 2006-12-06 09:50 am UTC (link) |
давно не видел такого выразительного степенного распределения, подробности позже, давайте побольше страниц.![]() (Reply to this) (Parent) |
![]() | ![]() 2006-12-05 06:52 pm UTC (link) |
"полонием потравят" - ну, зачем так грубо? ;) Просто, если на поиски "интересностей" работает, хоть по часу в день, целый аналитический отдел, имеющий доступ к данным разведки... :) Прокол, пока, заметил лишь один - зато - немаленький. Говорить, на Руси, что Комитета нет - это всё равно, что в Италии говорить, что нет мафии. Это стопроцентное пусть не юридическое, но "бытовое" доказательство принадлежности к ней. Сразу вспомнилась сказка про курицу, которая хотела вступить в мафию :-) (Reply to this) (Parent) |
![]() | ![]() 2006-12-04 09:06 pm UTC (link) |
Смотри-ка, я тут ;) Вот если бы деньги мои росли по 8% в день. А рейтинг яндексовский - бред по определению, мой рейтинг тому доказательство ;) (Reply to this) (Thread) |
![]() | Вовсе не бред ![]() 2006-12-05 03:15 am UTC (link) |
Просто (как кстати и первые версии PageRank) он считает что-то не совсем то, что интуитивно понимается под "рейтингом" или "авторитетностью". Ваш "взлет" в рейтинге объясняется просто - огромным количеством ссылок на Ваши программки навигации во френд-пространстве (сам давал!). То есть общее количество ссылок, взвешенное по внутренним соображениям Яндекса, рейтинг считает довольно точно. Но вот вот насколько (и как!) оно соотносится с "авторитетностью" - большой вопрос. Поэтому я и поставил задачу - сделать собственный вариант рейтинга, который интересность-для-меня считал бы. (Reply to this) (Parent) (Thread) |
![]() | ![]() 2006-12-05 07:03 am UTC (link) |
я о том речь и виду, что подобный рейтинг, да еще без грамотной нормализации (чем пользуются тем пресловутые nakrutшики) скорее сбивает с толку, чем реально позволяет оценить авторитетность. PageRank изначально задуман так, чтобы избежать накруток. Кроме того любой общеЖЖ рейтинг приводит к тому что популярные журналы становятся еще более популярными, а журналы нормальных юзеров так и остаются в ... конце. Кстати, в ваших данный было бы интересно посмотреть распределение частоты рейтинга. И кстати странно вы меряете скорость роста рейтинга - относительно, или это рост авторитетности? (Reply to this) (Parent) (Thread) |
![]() | Да, рост авторитетности ![]() 2006-12-05 07:48 am UTC (link) |
Не места же в рейтинге сравнивать - они и вовсе непонятно как меняются. Динамика считается по этой самой загадочной "авторитетности" (взвешенному количеству ссылок). Насчет эффекта "опускания нормальных ЖЖ-юзеров" в следующей записи дам график, он уже проявился. Уточните - что есть "распределение частоты рейтинга"? (Reply to this) (Parent) |
![]() | ![]() 2006-12-04 09:54 pm UTC (link) |
Это я значит на 7% расту? Интересно. (Reply to this) (Thread) |
![]() | Придется френдить :) ![]() 2006-12-05 03:17 am UTC (link) |
Как раз в Вашем случае метод сработал - рост рейтинга указал на интересный для меня ЖЖ. Растите дальше! (Reply to this) (Parent) |
![]() | № 15 ![]() 2006-12-05 12:24 am UTC (link) |
kattrend -- это ж Птица Си она дивные песни поёт а в жж она так, пробегом -- но любители и сюда подтягиваются |
![]() | ![]() 2006-12-05 12:41 am UTC (link) |
Это наводит на мысль - вот человек N открыл Галковского 2 года назад, а совсем недавно asterrot-а. Как сделать движок, куда человек занесет этих двух пользователей, чтобы движок выдал что-то типа: "Если вам нравится читать X и Y, то посмотрите также на Z1, Z2 и Z3". Человек посмотрит, Z1 - оценит, а Z2 и Z3 не оценит, но зато теперь в движок можно занести уже 3-х - X, Y, и Z1 и начать новый поиск. Одна возможность - это отследить интересы X и Y (причем не по friends, поскольку политика френдования у каждого своя) а реальные интересы - такие как и где человек оставляет следы, количество виртуалов, где следят виртуалы. Вторая возможность - если пользователей X и Y высоко оценивают пользователи A и B, то пользователю C, который высоко ценит пользователя X, но не знаком c Y помог бы рейтинг, составленный для пользователей A и B. (Reply to this) (Thread) |
![]() | Re: О рейтинге ![]() 2006-12-05 03:19 am UTC (link) |
То есть персональный рейтинг-лист должен составляться на основе выставленного каждому из своих френдов "веса интересности", а то и "вектора тематической интересности", и быть доступен для других ЖЖ-юзеров. Подумаю. (Reply to this) (Parent) (Thread) |
![]() | ![]() 2006-12-05 07:56 am UTC (link) |
По возможности на основе именно вектора тематической интересности, поскольку в разных вопросах разные юзеры ведут себя по разному. У меня в ленте полно таких людей, которых я обожаю читать, но только когда они пишут на какие-то определенные темы и которых я быстро пролистываю когда они пишут о чем-то еще. (Reply to this) (Parent) (Thread) |
![]() | Ну вот, масштабы поперли :) ![]() 2006-12-05 08:03 am UTC (link) |
Получилась как раз задача, которую решает в том числе и в ![]() ![]() Я не скрываю, что одной из моих задач в 21 веке является создание такого ИИ - но это задача несколько следующего этапа :) (Reply to this) (Parent) (Thread) |
![]() | ![]() 2006-12-05 08:16 am UTC (link) |
Масштабы нужны для того, чтобы четко ориентировать вектор своего движения, так что думается ничего страшного - если осознавать, конечно, что это именно масштабы, а не план на следующую неделю. Определение "о чем" возможно при условии если каждый читатель имеет возможность выставлять тэги в френдленте на посты своих френдов. Тогда совокупный анализ тэгов автора и тэгов его френдов даст определенное представление а) о том, что в этом посте, б) что подразумевает человек выставляя определенный авторский тэг, в) что подразумевает человек выставляя определенный читательский тэг. Разумеется, даже эта система не идеальна, но - при определенной тех.поддержке и должной сознательности читателей и она способна заработать. (Reply to this) (Parent) |
![]() | ![]() 2006-12-05 09:34 am UTC (link) |
Ничего не понял, если честно. Рейтинг говорит о количестве ссылок на автора. Это (количество ссылок), по моему мнению, является показателем. А средний прирост - это какой-то странный определитель популярности. Конкретно мой пример - провёл конкурс детских фотографий. Появились ссылки, поднялся рейтинг. При чём здесь интересность моего журнала - я, откровенно говоря, не очень понимаю. К тому же, удивился, увидев себя в этом списке. (Reply to this) (Thread) |
![]() | Вот средний прирост и показал, ![]() 2006-12-05 09:56 am UTC (link) |
что проведенный Вами конкурс получил больший отклик, чем мероприятия 300000 с гаком остальных пользователей :) Спасибо за отклик, Вы и другие "чемпионы" убедили меня, что динамика рейтинга - хороший показатель. Буду пользоваться. (Reply to this) (Parent) (Thread) |
![]() | ![]() 2006-12-05 09:57 am UTC (link) |
успокоил =) (Reply to this) (Parent) |
![]() | ![]() 2006-12-05 11:04 am UTC (link) |
Интересно. А я-то тут при чём? (Reply to this) (Thread) |
![]() | Тоже видно что-то хорошее сделали, ![]() 2006-12-05 12:06 pm UTC (link) |
что на Вас в ноябре много ЖЖ-юзеров ссылаться стали. Покопайтесь в памяти :) (Reply to this) (Parent) |
![]() | ![]() 2006-12-27 02:23 pm UTC (link) |
Для меня это тоже, кстати, большая проблема. Очень сложно выискивать людей, которые: 1) если пишут, то грамотно, 2) если комментируют, то подумав, 3) приятны и ненапряжны в витруальном и личном общении, 4) отвечают другим мне одному известным требованиям. Яндекс в этом, к сожалению, совсем не помощник. |