schegloff ([info]schegloff) wrote,
@ 2006-12-04 22:56:00


30 replies, 12 authors
Entry tags:СГО

Яндекс-рейтинг: некоторые итоги ноября
Рейтинг авторитетности блогов рунета был запущен Яндексом в начале октября 2006 года. К 31 октября я написал и стал ежедневно запускать программку lj_yandtop.py, сохранявшую рейтинги ЖЖ-юзеров - сначала по первым 20 страницам рейтинга ЖЖ, а после прошлонедельного "р-разоблачения" - по первым 25 страницам общего рейтинга блогов. В результате за ноябрь у меня накопилась вполне репрезентативная статистика, которой я и хочу поделится с читателями.

Начну с подвисшей ранее темы о трудовых правах робота. Они по-прежнему соблюдаются: рейтинги 2 и 3 декабря (субботний и воскресный) одинаковы :)

Теперь о более серьезных вещах. Зачем я вообще мониторю динамику "авторитетности"? Затем, чтобы не пропустить интересного автора. Предполагается, что такого автора остальные ЖЖ-юзеры заметят, начнут его рекомендовать друг другу (как [info]galkovsky - [info]salery), в результате "авторитетность" автора начнет быстро расти, и он попадет в "первые тысячу сто" (примерно столько ЖЖ-юзеров считывается с 25 страниц рейтинга блогов). Вот таких-то авторов я и планировал разыскать.

Прошел ноябрь, "сбылась мечта идиота" - на диск легли 25 файлов ежедневных рейтингов, в которые вошли в общей сложности 1253 ЖЖ-юзера. Несложная программка построила по каждому из них динамику рейтинга, наложила на эту динамику линейную регрессию, и выдала мне таблицу результатов. Итак, результаты чемпионата ноября по относительной динамике яндекс-рейтинга:

№ ЖЖ-юзер средний прирост, %/день
1 [info]reinardine 11,3
2 [info]real_rykov 10,3
3 [info]mq 9,5
4 [info]texconten 8,9
5 [info]rdp4v 8,8
6 [info]rykov 8,4
7 [info]irdr 8,2
8 [info]popunder 7,8
9 [info]mirro 7,6
10 [info]aluette_blondy 7,5
11 [info]dedushka_jo 7,4
12 [info]poslan_za_elkoy 7,3
13 [info]uskov 7,3
14 [info]shlangman 7,1
15 [info]kattrend 7,1
16 [info]mike67 7
17 [info]tupikin 7
18 [info]ka3ahoba_lt 6,9
19 [info]_bme_ 6,9
20 [info]chert999 6,8

Разумеется, я сразу же принялся открывать журналы победителей. Ткнулся в один, ткнулся в другой - ничего особенного. Ничего такого, чтобы сразу читать журнал "от корки до корки", как это было при обнаружении [info]galkovsky или [info]asterrot или (еще два года назад) [info]krylov. Такова горькая доля исследователя - тратить массу времени на "убийство прекрасной теории грубым фактом". Яндекс-рейтинг в его теперешнем виде не дает возможности автоматически вычислить наиболее интересных для меня пользователей. Но для тех ЖЖ-юзеров, вкусы которых примерно совпадают со средними, подобный "чемпионат" может представлять интерес. Покликайте, глядишь, понравится.

По-видимому, следующей задачей будет формирование на основе lj_archiver и lj_rate некоего аналога яндекс-рейтинга, составляемого только по ссылкам из ЖЖ специально отобранных пользователей. Задача остается прежней - весь инструментарий сетевого анализа должен быть под рукой у каждого пользователя, которому такой анализ интересен. СГО, однако.

Замечания и предложения, как обычно, приветствуются!




[info]paulus
2006-12-04 06:15 pm UTC (link)
фигня этот ваш блогорейтинг. Я уже второй месяц пытаюсь добиться, чтобы меня включили - дудки. Видать цензура не пропускает

(Reply to this)


[info]i_grappa
2006-12-04 06:54 pm UTC (link)
Кстати да, "авторитетность" совершенно не равняется интересности, ИМХО.

(Reply to this)


[info]mat33
2006-12-04 08:56 pm UTC (link)
Я где-то читал, не так давно, что простым юзверям с финансируемыми Комитетом ЖиЖами конкурировать непросто. Не у Вас, часом? ;)

(Reply to this) (Thread)

Я, конечно, параноик,
[info]schegloff
2006-12-05 03:07 am UTC (link)
но так прямо вроде не писал, все больше намеками да обиняками ("полонием потравят" и т.д.).

Сейчас в рейтинге наметилась тенденция "богатые станут еще богаче, бедные - еще беднее" - кривая распределения авторитетности постепенно выгибается вниз, т.е. круче снижается, чем в начале ноября. Впрочем, об этом, а также о "глюке" рейтинга 4 ноября, нужно отдельно написать.

(Reply to this) (Parent) (Thread)

Re: Я, конечно, параноик,
[info]popunder
2006-12-05 07:05 am UTC (link)
вот вот, есть в авторитетности степенная зависимость или нет?

(Reply to this) (Parent) (Thread)

Тут я в затруднении
[info]schegloff
2006-12-05 07:58 am UTC (link)
Матстатистике не обучался, как одно распределение от другого отличить, не знаю. Подскажите простой способ, в книжках наскоро не нашел (точнее, один способ нашел, по средним арифметическому-геометрическому-гиперболическому, но очень уж он мне показался экзотичным).

Если брать ra(n) = ra(1)*1/n^x, то x получается от 0.38 (зачет по первой сотне) до 0.5 (по первой тысяче), соответственно при 0.38 фактические рейтинги "аутсайдеров" оказываются меньше, чем "по теории", а при 0.5 - уже рейтинги "середняков" больше, чем по теории. То есть характер вроде как степенной, но с изменяющимся показателем степени.

(Reply to this) (Parent) (Thread)

Re: Тут я в затруднении
[info]popunder
2006-12-05 08:53 am UTC (link)
Разделите всю шкалу рейтингов на равные (для начала) сегменты, штук на сто. Потом пробегите по всем юзерам и считайте сколько юзеров попадает в тот или иной сегмент. Потом постройте количество попаданий как функцию среднего значения авторитетности в сегменте (или просто номера сегмента) в двойных логарифмических координатах. Если там видна прямая - значит степенная зависимость. Может со мной исходными данными поделитесь? Просто списком всех значений рейтинга

(Reply to this) (Parent) (Thread)

Тут я уже просто в панике :)
[info]schegloff
2006-12-05 09:54 am UTC (link)
Как только дошло до двойных логарифмических, я вырубился. Куда скинуть исходные данные (CSV)?

(Reply to this) (Parent) (Thread)

Re: Тут я уже просто в панике :)
[info]popunder
2006-12-05 12:29 pm UTC (link)
Много там? Если порядка нескольких мегов - сюда , иначе выложите куда-нить.

(Reply to this) (Parent) (Thread)

Там считаные килобайты :)
[info]schegloff
2006-12-05 02:09 pm UTC (link)
Сейчас зарисую сегодняшний рейтинг по первым 100 страницам и скину.

(Reply to this) (Parent) (Thread)

Re: Там считаные килобайты :)
[info]popunder
2006-12-06 09:50 am UTC (link)
давно не видел такого выразительного степенного распределения, подробности позже, давайте побольше страниц.

(Reply to this) (Parent)

Re: Я, конечно, параноик,
[info]mat33
2006-12-05 06:52 pm UTC (link)
"полонием потравят" - ну, зачем так грубо? ;) Просто, если на поиски "интересностей" работает, хоть по часу в день, целый аналитический отдел, имеющий доступ к данным разведки... :)


Прокол, пока, заметил лишь один - зато - немаленький. Говорить, на Руси, что Комитета нет - это всё равно, что в Италии говорить, что нет мафии. Это стопроцентное пусть не юридическое, но "бытовое" доказательство принадлежности к ней. Сразу вспомнилась сказка про курицу, которая хотела вступить в мафию :-)

(Reply to this) (Parent)


[info]popunder
2006-12-04 09:06 pm UTC (link)
Смотри-ка, я тут ;) Вот если бы деньги мои росли по 8% в день. А рейтинг яндексовский - бред по определению, мой рейтинг тому доказательство ;)

(Reply to this) (Thread)

Вовсе не бред
[info]schegloff
2006-12-05 03:15 am UTC (link)
Просто (как кстати и первые версии PageRank) он считает что-то не совсем то, что интуитивно понимается под "рейтингом" или "авторитетностью". Ваш "взлет" в рейтинге объясняется просто - огромным количеством ссылок на Ваши программки навигации во френд-пространстве (сам давал!). То есть общее количество ссылок, взвешенное по внутренним соображениям Яндекса, рейтинг считает довольно точно. Но вот вот насколько (и как!) оно соотносится с "авторитетностью" - большой вопрос. Поэтому я и поставил задачу - сделать собственный вариант рейтинга, который интересность-для-меня считал бы.

(Reply to this) (Parent) (Thread)

Re: Вовсе не бред
[info]popunder
2006-12-05 07:03 am UTC (link)
я о том речь и виду, что подобный рейтинг, да еще без грамотной нормализации (чем пользуются тем пресловутые nakrutшики) скорее сбивает с толку, чем реально позволяет оценить авторитетность. PageRank изначально задуман так, чтобы избежать накруток. Кроме того любой общеЖЖ рейтинг приводит к тому что популярные журналы становятся еще более популярными, а журналы нормальных юзеров так и остаются в ... конце. Кстати, в ваших данный было бы интересно посмотреть распределение частоты рейтинга. И кстати странно вы меряете скорость роста рейтинга - относительно, или это рост авторитетности?

(Reply to this) (Parent) (Thread)

Да, рост авторитетности
[info]schegloff
2006-12-05 07:48 am UTC (link)
Не места же в рейтинге сравнивать - они и вовсе непонятно как меняются. Динамика считается по этой самой загадочной "авторитетности" (взвешенному количеству ссылок).

Насчет эффекта "опускания нормальных ЖЖ-юзеров" в следующей записи дам график, он уже проявился.

Уточните - что есть "распределение частоты рейтинга"?

(Reply to this) (Parent)


[info]mike67
2006-12-04 09:54 pm UTC (link)
Это я значит на 7% расту? Интересно.

(Reply to this) (Thread)

Придется френдить :)
[info]schegloff
2006-12-05 03:17 am UTC (link)
Как раз в Вашем случае метод сработал - рост рейтинга указал на интересный для меня ЖЖ.
Растите дальше!

(Reply to this) (Parent)

№ 15
[info]gekkkon
2006-12-05 12:24 am UTC (link)
kattrend -- это ж Птица Си
она дивные песни поёт
а в жж она так, пробегом -- но любители и сюда подтягиваются

(Reply to this)

О рейтинге
[info]vnst
2006-12-05 12:41 am UTC (link)
Это наводит на мысль - вот человек N открыл Галковского 2 года назад, а совсем недавно asterrot-а. Как сделать движок, куда человек занесет этих двух пользователей, чтобы движок выдал что-то типа: "Если вам нравится читать X и Y, то посмотрите также на Z1, Z2 и Z3". Человек посмотрит, Z1 - оценит, а Z2 и Z3 не оценит, но зато теперь в движок можно занести уже 3-х -
X, Y, и Z1 и начать новый поиск.

Одна возможность - это отследить интересы X и Y (причем не по friends, поскольку политика френдования у каждого своя) а реальные интересы - такие как и где человек оставляет следы, количество виртуалов, где следят виртуалы.

Вторая возможность - если пользователей X и Y высоко оценивают пользователи A и B, то пользователю C, который высоко ценит пользователя X, но не знаком c Y помог бы рейтинг, составленный для пользователей A и B.

(Reply to this) (Thread)

Re: О рейтинге
[info]schegloff
2006-12-05 03:19 am UTC (link)
То есть персональный рейтинг-лист должен составляться на основе выставленного каждому из своих френдов "веса интересности", а то и "вектора тематической интересности", и быть доступен для других ЖЖ-юзеров. Подумаю.

(Reply to this) (Parent) (Thread)

Re: О рейтинге
[info]sabaytis
2006-12-05 07:56 am UTC (link)
По возможности на основе именно вектора тематической интересности, поскольку в разных вопросах разные юзеры ведут себя по разному. У меня в ленте полно таких людей, которых я обожаю читать, но только когда они пишут на какие-то определенные темы и которых я быстро пролистываю когда они пишут о чем-то еще.

(Reply to this) (Parent) (Thread)

Ну вот, масштабы поперли :)
[info]schegloff
2006-12-05 08:03 am UTC (link)
Получилась как раз задача, которую решает в том числе и в [info]f2f_blogs [info]kormitigrov - тематически-авторская фильтрация новостных лент. Проблема в том, что если автора определить довольно просто (если только соавторство не появляется), то определить, о чем это, неспособен ни сам автор, ни его читатели. Вы небось в голове нейросеть построили, для тематизации по ключевым словам, - а вот в код ее, держу пари, перенести не сумеете. Т.е. решение этой задачи равносильно созданию ИИ, который за Вас будет френд-ленту читать :)

Я не скрываю, что одной из моих задач в 21 веке является создание такого ИИ - но это задача несколько следующего этапа :)

(Reply to this) (Parent) (Thread)

Масштабы
[info]sabaytis
2006-12-05 08:16 am UTC (link)
Масштабы нужны для того, чтобы четко ориентировать вектор своего движения, так что думается ничего страшного - если осознавать, конечно, что это именно масштабы, а не план на следующую неделю.
Определение "о чем" возможно при условии если каждый читатель имеет возможность выставлять тэги в френдленте на посты своих френдов. Тогда совокупный анализ тэгов автора и тэгов его френдов даст определенное представление а) о том, что в этом посте, б) что подразумевает человек выставляя определенный авторский тэг, в) что подразумевает человек выставляя определенный читательский тэг.
Разумеется, даже эта система не идеальна, но - при определенной тех.поддержке и должной сознательности читателей и она способна заработать.

(Reply to this) (Parent)


[info]shlangman
2006-12-05 09:34 am UTC (link)
Ничего не понял, если честно. Рейтинг говорит о количестве ссылок на автора. Это (количество ссылок), по моему мнению, является показателем. А средний прирост - это какой-то странный определитель популярности. Конкретно мой пример - провёл конкурс детских фотографий. Появились ссылки, поднялся рейтинг. При чём здесь интересность моего журнала - я, откровенно говоря, не очень понимаю. К тому же, удивился, увидев себя в этом списке.

(Reply to this) (Thread)

Вот средний прирост и показал,
[info]schegloff
2006-12-05 09:56 am UTC (link)
что проведенный Вами конкурс получил больший отклик, чем мероприятия 300000 с гаком остальных пользователей :) Спасибо за отклик, Вы и другие "чемпионы" убедили меня, что динамика рейтинга - хороший показатель. Буду пользоваться.

(Reply to this) (Parent) (Thread)

Re: Вот средний прирост и показал,
[info]shlangman
2006-12-05 09:57 am UTC (link)
успокоил =)

(Reply to this) (Parent)


[info]dedushka_jo
2006-12-05 11:04 am UTC (link)
Интересно. А я-то тут при чём?

(Reply to this) (Thread)

Тоже видно что-то хорошее сделали,
[info]schegloff
2006-12-05 12:06 pm UTC (link)
что на Вас в ноябре много ЖЖ-юзеров ссылаться стали. Покопайтесь в памяти :)

(Reply to this) (Parent)


[info]night_traveller
2006-12-27 02:23 pm UTC (link)
Для меня это тоже, кстати, большая проблема.

Очень сложно выискивать людей, которые:
1) если пишут, то грамотно,
2) если комментируют, то подумав,
3) приятны и ненапряжны в витруальном и личном общении,
4) отвечают другим мне одному известным требованиям.

Яндекс в этом, к сожалению, совсем не помощник.

(Reply to this)