Рейтинг блогосферы - пост 2

Сегодня я вернусь к вопросу правильности выбора параметров, от которых строится функция F(comms,visits,commenters,links) - входящая в композицию веса поста.
Первый вопрос, почему я отбросил другие параметры, кроме перечисленных четырех, такие как "число комментариев/ссылок/комментаторов за последние 24 часа", а также "вес ссылок - linksweight". Ответ: Я достаточно долго работал с данными, собираемыми распределенной системой по всему миру и убедился, что такой параметр как время становится более чем относительной характеристикой. В этот параметр вкладывается и задержка поступления данных с разного индексирующего кластера, и месторасположение блогплатформы, у которой серверное время может выдаваться со сдвигом и прочее и прочее. Однако, стоит заметить, что параметр linksweight в алгоритме учитывается. Так как в старом алгоритме придавалась большая значимость количеству ссылок, которые делаются на запись, и кроме того есть механизмы обнаружения спамерских ссылок, то в новом алгоритме я оставляю требование на наличии хотя бы одной неспамерской по версии Яндекса ссылки.

Второй вопрос, почему четыре параметра входят в функцию с одинаковыми весами. Ответ: При построении интегрального коэффициента глупо было бы отдавать предпочтение одному из параметров. Записи должны отсеиваться на основании тех параметров, которые определяют текущее состояние экспертной системы, а следовательно базируются на выборке из всех записей блогосферы, а не одной конкретной, о которой накрутчикам известно все и они могут подкрутить любой из параметров. С такой точки зрения, все четыре параметра равноценны, однако, у меня есть большое недоверие к параметру посещений, так как он весьма условный и вероятно считается некорректно. Но это не так важно, так как наш интегральный параметр задает лишь критерии сортировки записей перед выборкой и не является определяющим при помещении записи в ТОП.

В заключение отмечу, что в единицу времени в ТОП помещается только одна запись, так как эта операция меняет основные параметры экспертной системы и следовательно дискретна. За день в ТОП может попасть не более 70 записей. Если этого будет много, то я уменьшу этот параметр.

В следующий раз я затрону тему фильтров 1)по темам дня 2) отсеивание ссылок на плохие сайты 3) отсеивание дублей методов сравнения слов-низкочастотников в постах находящихся в ТОПе. А пока, результат работы нового алгоритма формирование рейтинга популярных тем блогосферы публикуется на сайте beta.topbot.ru. Присылайте вопросы на topbot@ya.ru.

Тэги: Blogs | Yandex


Добавить комментарий




biuquote
Loading



Кто я?

Программист. Я слежу за блогосферой и знаю, как будет развиваться интернет. Когда у меня есть время я даже прилагаю для этого усилия. Подробнее

Последние комментарии

  • Seaswarm against Mexican oil (3)
    V.exeR написал(а): Так вот откуда потом появятся водные роботы, как в� [Ещё]
  • Seaswarm against Mexican oil (3)
    Flashr написал(а): Видимо бактерии оказались не настолько хороши. Их � [Ещё]
  • Seaswarm against Mexican oil (3)
    aingerlj написал(а): Там же всё бактерии захавают, бложики так говорят. [Ещё]
  • Dubai - LiRu (3)
    Flashr написал(а): Официальное лицо уже подтвердило, что часть страни� [Ещё]
  • Dubai - LiRu (3)
    Егор написал(а): И кстати не только в Дубае, в Шарджи тоже... Подоз� [Ещё]
  • Dubai - LiRu (3)
    Егор написал(а): В марте такая же фигня показывалась и на вконтакте [Ещё]
  • deep-water.ru (20)
    Прохожий написал(а): Я не особо понял в чем там обвиняют, но сделал бы � [Ещё]
  • deep-water.ru (20)
    flashr написал(а): Проблем с хостингом теперь нет. Переехали уже. [Ещё]
  • deep-water.ru (20)
    Sivka написал(а): Если стоит проблема с хостингом, то отпиши в почту� [Ещё]
  • deep-water.ru (20)
    Flashr написал(а): Отмечу, что на странице детальной статистики - htt� [Ещё]
Topbot at FeedsBurner

Копирайт

Все мысли, высказанные в блоге, являются моим мнением и за это мнение меня никто не забанит! Кроме того, никто не имеет право копировать материалы блога без использования ctrl+C/V!

© Copyright 2008