schegloff ([info]schegloff) wrote,
@ 2006-10-23 17:07:00


6 replies, 5 authors
Entry tags:полезняшки

А все-таки они разворачиваются!
Историю своих бедствий как исследователя ЖЖ-контента я уже описывал: и LJArchive у меня не работает, и LJSM длинные обсуждения не раскрывает, и AVThreader, как недавно выяснилось, дальше первых 2-х страниц эти самые Thread выдавать не хочет. А тут [info]ipch организовал одну из самых удачных провокаций последнего времени - Если бы Вы жили во время II мiровой, на чьей стороне Вы бы пошли воевать?. На сейчас там уже 17 страниц комментариев общим числом более 3200 (до заветных 5000 - уже рукой подать). Такой материал для исследования - а вытянуть нечем...

Так вот, нечем было до сегодняшнего вечера. А теперь я таки написал на любимом python самую пока что большую свою программку (192 строчки) - lj_readpost.py - и она мне только что вытащила и развернула в один файл 3233 комментария из этого супер-треда. Таким образом, проблема полного бэкапа публичных записей любого ЖЖ в принципе решена - осталось довести программку до ума, т.е. до распространимой версии. Ближайшая задача - сделать сортировку записей по ЖЖ-юзерам, чтобы посмотреть, кто за кого был во II мировой (на первый взгляд, там все отметились).



[info]svjatoy
2006-10-23 06:13 pm UTC (link)
Ждём-с...

(Reply to this)

+
[info]ipch
2006-10-23 07:28 pm UTC (link)
Простите, можно вопрос?
"Заветные 5000" - это некая психологическая планка, или же какой-то лимит комментов?

(Reply to this) (Thread)

Re: +
[info]reeders
2006-10-23 08:00 pm UTC (link)
в прошлом годе был лимит на 5000 комментов. больше добавить не получалось.
где то у Лукьяненко в ЖЖ я видел. видимо остался до сих пор.

(Reply to this) (Parent)

Это предел возможного :)
[info]schegloff
2006-10-24 03:02 am UTC (link)
Насколько мне известно, в движке livejournal используется несколько ограничений:
- максимум 50 развернутых комментариев к записи, начиная с 51 часть из них сворачиваются
- максимум 750 френдов
- максимум 5000 комментариев к записи, больше уже не добавляется

Вообще-то, 5000 комментариев - это выдающееся достижение, я такое только один раз видел, на анти-оранжевой записи Лукьяненко времен Майдана. К сожалению, единственным рецептом собрать такую толпу пока остается провокация (дать повод публике поделиться на "своих" и "чужих"). У Вас получилось, по хорошему завидую...

Любопытно, что даже при таких ограничениях, обслуживание 11 млн. журналов требует супер-дупер кластера из компов и нещадно тормозит. Все-таки софт нужно периодически рефакторить, а не переносить немасштабируемые решения из младенческого возраста во взрослый.

(Reply to this) (Parent)


[info]pomidorich
2006-10-23 11:31 pm UTC (link)
А варианты ответов какие? И их вообще сколько? (самый интересный вопрос, не правда-ли?)
Опроса-то не было - была дискуссия!
И еще - боюсь сортировку сделать все равно что создать искусственный интеллект. Задача минимум - распознавание речи, и смысла в нее заложенного - то есть работа с Абстрактными идеями/синонимами/иронией/юмором и прочая и прочая. Наверняка мне достоверно известен только один вид живых существ способных на такое - Хомо Сапиенс. Сомневаюсь что програмка на Python сможет догнать и перегнать :)

(Reply to this) (Thread)

В том-то и проблема, что вопрос ОТКРЫТЫЙ
[info]schegloff
2006-10-24 03:08 am UTC (link)
"На чьей стороне", при том что в WWII принимало участие чуть ли не 100 государств, - это Вам не опрос про СУП, где всего 4 варианта. Так что обработку пока будет делать хомо сапиенс, а программка на питоне - только рассортирует комментарии по авторам да посчитает их общее количество (принявших участие в опросе). Но и то плюс, по сравнению с ручным пролистыванием нескольких сотен ветвей.

(Reply to this) (Parent)