Рейтинг блогосферы - пост 6 (жизнь поста в блогосфере)

Продолжаю рассказывать о том, как работает рейтинг постов блогов(он же topbot.ru) и публикую диаграмму, на которой я показываю важность фильтра постов, помещаемых в ТОП по темам дня. Основная мысль, которая демонстрируется в том, что в ТОП должны попадать те записи, которые не были в новостях или были написаны раньше новостей. Так как ТОП30 должен формировать новости, а не новости ТОП30. И только в такой постановке можно сделать топ30 гласом народа - местом для высказывания новых мыслей, а не тех, что были пропущены через спамеров и СМИ.

На диаграмме синим квадратиком обозначена наша экспертная система - топ30. Зеленые фигуры - это те посты в блогосфере, попадание которых в топ желательно. Красные - нежелательно. Желтым обозначены СМИ, которые не рассматриваются нашей экспертной системой, но которые влияют на наши входные данные. Почти все комментарии я написал на диаграмме, поэтому все остальное должно быть понятно.

Free Image Hosting at www.ImageShack.us

Тэги: Blogs | topbot


два антона и про топ30

На россия.ру появилось видео, которое я бы озаглавил грубо: "Два Антона и те, кто дрочил на топ, но не смог создать свой". Вся передача в основном является повторением уже сказанных мыслей про топ яндекса и рекламой понятно какого ресурса, иначе бы Носик не сидел.

Добавлю свои комментарии.
Во-первых, почитайте историю топа глазами топбота в РусскомПионере, которую я написал - http://www.ruspioner.ru/ru.php?id_art=1045 . Во вторых, ТОП появился прежде всего из аналитики. Когда у людей нет времени читать все - они хотят читать самое главное. Они хотят это читать регулярно и особо не затрачивая усилия на нажатие дополнительных кнопок. Если топ не обновляется - ты чувствуешь, что теряется что-то. Если в топе слишком много вариантов и настроек - то нет желания пытаться настраивать. Топ должен быть таким, чтобы в любой момент, хоть посреди ночи, ты мог войти в интернет и увидеть все темы, которые актуальны для обсуждения, чтобы моментально стать "вкурсе событий". Поэтому тематическое нормирование делается таким, чтобы максимально охватить все тематические максимумы, даже если это рекламный пост математически попадает в топ - то он должен быть в топе, чтобы ты соседу сказал "какую отвратительную рекламу Макдональса в блогах устроили".
Далее, нужно понимать, что для ТОПа то, что было неделю назад - уже неинтересно. Когда-нить я нарисую диаграмму того как первые сутки живет новость в блогосфере, чтобы наглядно обозначить место топа в этой жизни и то, где появляются спамеры и накрутчики.
И последнее - появление YandexAPI - я считаю шагом назад. Так как в некоторых топах мы перешли назад от автоматического топа к полуручному (слон.ру). Во-вторых, все работают с одинаковым векторынм пространством, поэтому с точностью до конформного сдвига автоматические топы будут находить максимумы одни и теже, только в разной последовательности. Также опасения вызывает координата отвечающая за кол-во ссылок, ибо постов в блогосфере с хорошими ссылками у нас настолько мало, что не хватит и на 2 топа, поэтому можно видеть, что в топ попадают записи и без ссылок, но сильно обсуждаемые.

Вообщем читайте ТОП30 от топбота, который в блогосфере уже 4 года. На днях уже пробили 3000 просмотров в день на ТОП30, а если учесть 2тыс просмотров у topbloger.livejournal.com - то это уже 5 тыс просмотров в день.

Тэги: Blogs | life


- yandex.blogs

Вот и убрали с главной Яндекса рейтинг блог постов блогосферы, теперь у нас более 20 рейтингов. Также добавили новый раздел "новости в блогах" - почти тоже самое, что и темы дня - польза нулевая, зато новая возможность для спамеров нагнать себе трафик. Вообще если приглядеться, то треть топов сделана сеошниками для нагона трафика, треть - скучающими фрилансерами, а треть - новостными порталами и пиарщиками. Все они на перебой говорят об своей уникальности - которая на самом деле позаимствована с других; о своих гиганских планах - когда нет честной монетизации; и а своих крутых алгоритмах - хотя у некоторых в итоге будут сидеть модераторы или топ составляться по спискам бана и разрешенным блогером.
И только топ30 для топбота - белая ворона, был сделан только потому, что, блять, 4 года уже занимается сбором популярных записей и глупо сейчас все бросать. По случаю обновил дизайн на ТОП30 - стало лучше =).

А самое интересное, что ни пользователи, ни блогеры, ни инвесторы, ни рекламщики - не хотят иметь 20 топов, все хотят иметь 2-3, а для этого придется ждать где-то 2 года, пока все вымрут, а там глядишь и блоги никому уже нужны не будут - все будем сидеть в Фейсбуке =).

Тэги: Blogs | life | Yandex


noindex - Неиндексируемый контент

Еще одна актуальная проблема создания ТОПа, с которой придется столкнуться всем - когда сам автор не хочет попадать в ТОП. Для этого ему логичнее всего поставить настройку в ЖЖ "не учавствовать в индексации". Технически это выражается в добавлении тэга noindex. Но ЖЖ такой нехороший, что продолжает выдавать данные по RSS, что позволяет все равно попадать в ТОП, а вот Яндекс, с другой стороны, поступает честно и не индексирует записи, что заметно усложняет анализ "топовости" поста. Но с другой стороны, если автор не захотел поисковой популярности, почему бы нам не пойти ему на уступку и отбрасывать запись.

И более сложный вопрос, а что если модераторы сообщества запретили индексацию, а автор и не знал об этом, как это случилось с популярной записью в следующем сообществе - http://community.livejournal.com/positive_adopt/117852.html. Вроде бы автор не виноват, писал хороший текст, старался, а тут облом и не пришла популярность. Видимо именно для таких случаев придется сделать исключение. А Вы что думаете?

Тэги: Blogs | Yandex


Рейтинг блогосферы - пост 5 (алгоритм сортировки)

За прошедшую неделю я успел пообщаться с нашим патентным ведомством, которое сказало мне, что алгоритмы не патентуют, патентуют готовые прототипы. Предложили подогнать мою заявку под "Программу для базы данных для ЭВМ", но я не стал тратить время. Таким образом продолжаю серию постов, кратко рассказывающих как формируется ТОП30.
Содержание уже опубликованных заметок


Сегодня я приведу алгоритм первичной сортировки и объясню некоторые моменты. Если Вы читали предыдущие заметки, то должны знать, что алгоритм первичной сортировки нужен только для того, чтобы выбрать порядок в котором записи будут анализироваться на предмет прохождения через фильтры. Собственно сам package первичной сортировки:
Ещё...

Тэги: Blogs | Code | topbot | Yandex


Ретинг блогосферы - пост 3

Провел небольшой эксперимент, имея на руках 4 параметра (visits24, links, comments, commenters), базу из 1000 постов за 3 дня, а также историю ТОПа с 40 постами за сутки, а попытался методом перебора коэффициентов найти наиболее подходящий вектор, на который делается проекция, как было описано в первом посте, чтобы после сортировки всех записей по величине этой проекции, в первых 100 оказывалось максимальное число постов, которые попали в топ, построенный по старому алгоритму.
Результатом стал вектор (10,9,12,12) с результатом в 25 постов из 40. Это прежде всего говорит о том, что в текущем алгоритме есть явная завышенная зависимость от числа различных русскоязычных комментаторов к посту (commenters). Я же для сортировки записей беру вектор с равными весами = (1,1,1,1). Кроме того, стоит отметить два выявленных особенностей
1) В блогах на YaRu - внутренняя ссылка является также комментарием, поэтому важно уменьшать кисло комментариев на число ссылок. Иначе получается завышенное число ярушных блогов с высокими значениями.
2) Нормировка происходит не только в группах по типу блогплатформы, но и по типу блога или сообщества. То есть для блогов и сообществ максимумы значений считаются отдельно.

После того, как записи в текущей куче постов за 3 дня отсортированы применяются фильтры. Их много, я их кратко перечислю по ходу применения:

Ещё...

Тэги: Blogs


Рейтинг блогосферы - А что всем нужно?

В рамках открытого обсуждения нового алгоритма ранжирования записей блогосферы собраны следующие пожелания к обновленному топу. Эти условия необходимо выполнить, чтобы ТОП блогов, как социальное явление не был полностью дискредитирован теми, кто хочет на нем лишь заработать:

  • Сводный рейтинг записей, который было бы интересно читать.
  • Сводный рейтинг записей, в который при необходимости можно было бы попасть.
  • Несколько разных страниц с разным дизайном, но одинаковым содержанием, чтобы не винить одну сторону во всем.
  • Достаточную посещаемость у рейтинга, чтобы рекламодателям было бы интересно.
  • Единую систему ценностей, чтобы попадание в ТОП – что-то значило как достижение.

Тэги: Blogs | idea


GoogleDevDeay 2009

Пару слов о . План минимум выполнен - попили, поели, футболку получили. В остальном же не был особо поражен наработками гугла, такое чувство, что переделываются в Open Source все наработки Микрософта. Только для бизнеса Open Source не вариант - ибо если что-то непонятно или не работает, то кто должен отвечать или чинить? Вот на той же схеме с синхронизированными данными сервер-сервер в GoogleWave мне бы обязательно задали вопрос - а что будет, если один из серверов вырубиться в процесе такого обмена... как будет реагировать второй.

Посмотрел еще раз на моего любимого Chrisa Chabota (любимый, так как похож на Гомера Симпсона), занимающегося http://ActivityStrea.ms, правда он до сих пор пребывает в заблуждениях, разбивая социально значимый объект на 3 части, а не на пять, как я рекомендую, забывая о еще не созданном 8м семантическом инварианте - мониторинге. То есть "социально значимый объект" в сети должен состоять из "Idendity"(я-вася), "Relations"(знаю Петю), "CurrentState"(часто меняющиеся переменные, такие как локация или список используемых приложений), "Activities"(список посещенных мероприятий, сделанных постов), "Statistic" (например, блог ведется 2 года, запощено 100 постов).

Далее подловил главного по GoogleWave - спросил, собираются ли они делать из WaveID распределенный идентификатор, чтобы я мой шарить не только личные данные, но и текущие активные вавлеты, через которые со мною можно было бы связаться. Он сказал, что не думал еще про это, но идея очень интересная.

И в дополнение, на
ugotrade вышла очередная большая статья, рассказывающая про будущее Дополненной реальности и создание так называемого OuterNet'a - то что прийдет на смену InterNet'u.

Тэги: Blogs | Google | trend


F5 today

Почитал сегодняшний номер журнала F5. В целом как обычно - отсутствие собственных мыслей и куча копипастов из интернета дополненных развлекательными картинками. Хочу прокомментировать историю про черно-белые мультики Mr.Freeman. Примерно 2 года назад в сети появилась книга, которую можно было бесплатно скачать и активно распространялась среди разных вирусмейкеров рунета. Книга называлась "Войны креатива" и как раз повествовала о русском креативщике, который анонимно завел блог в интернете и постил креативы. Его целью было активизация российских умов с целью создания нового товара экспортируемого на запад - креатива. Российского креатива, который бы составил конкуренцию западному креативу, какой-то там фирмы. Вообщем тым была долгая история, но можель исполнения и ключевые фразы совпадают. Помню еще тогда мне говорили, что типа - давай организуем блог креатива, сделаем революцию в умах... но я не ведусь на подобный бред.

Примечательно также, что из газеты убрали небольшой блог с самыми интересными блогпостами за неделю, хотя и топ яндекса еще жив и мой deep-water.ru (на который они ссылались, но данные которого не релевантны) тоже еще жив.

Тэги: Blogs | news


Рейтинг блогосферы - пост 2

Сегодня я вернусь к вопросу правильности выбора параметров, от которых строится функция F(comms,visits,commenters,links) - входящая в композицию веса поста.
Первый вопрос, почему я отбросил другие параметры, кроме перечисленных четырех, такие как "число комментариев/ссылок/комментаторов за последние 24 часа", а также "вес ссылок - linksweight". Ответ: Я достаточно долго работал с данными, собираемыми распределенной системой по всему миру и убедился, что такой параметр как время становится более чем относительной характеристикой. В этот параметр вкладывается и задержка поступления данных с разного индексирующего кластера, и месторасположение блогплатформы, у которой серверное время может выдаваться со сдвигом и прочее и прочее. Однако, стоит заметить, что параметр linksweight в алгоритме учитывается. Так как в старом алгоритме придавалась большая значимость количеству ссылок, которые делаются на запись, и кроме того есть механизмы обнаружения спамерских ссылок, то в новом алгоритме я оставляю требование на наличии хотя бы одной неспамерской по версии Яндекса ссылки.

Второй вопрос, почему четыре параметра входят в функцию с одинаковыми весами. Ответ: При построении интегрального коэффициента глупо было бы отдавать предпочтение одному из параметров. Записи должны отсеиваться на основании тех параметров, которые определяют текущее состояние экспертной системы, а следовательно базируются на выборке из всех записей блогосферы, а не одной конкретной, о которой накрутчикам известно все и они могут подкрутить любой из параметров. С такой точки зрения, все четыре параметра равноценны, однако, у меня есть большое недоверие к параметру посещений, так как он весьма условный и вероятно считается некорректно. Но это не так важно, так как наш интегральный параметр задает лишь критерии сортировки записей перед выборкой и не является определяющим при помещении записи в ТОП.

В заключение отмечу, что в единицу времени в ТОП помещается только одна запись, так как эта операция меняет основные параметры экспертной системы и следовательно дискретна. За день в ТОП может попасть не более 70 записей. Если этого будет много, то я уменьшу этот параметр.

В следующий раз я затрону тему фильтров 1)по темам дня 2) отсеивание ссылок на плохие сайты 3) отсеивание дублей методов сравнения слов-низкочастотников в постах находящихся в ТОПе. А пока, результат работы нового алгоритма формирование рейтинга популярных тем блогосферы публикуется на сайте beta.topbot.ru. Присылайте вопросы на topbot@ya.ru.

Тэги: Blogs | Yandex


Новости в IT

Привлекла мое внимание новость об открытии технологического центра в Москве от Микрософта - стоимостью аж 300 млн.руб, причем крупнейший в Европе, неужели больше ни одной стране не нужен? Центр создан с целью тестирования крупно масштабных IT-решений российских компаний. И вот тут мне режет глаз цифра в 300 млн. - ведь именно такой бюджетный расход у нашего МВД за последние 3 года на технологическое обеспечение от Микрософта. Это не только "лицензионная винда", но и услуги консультантов, mssql сервера, biztalk сервера, сертификационные курсы админов - как раз все то, что покупалось для создания "крупно масштабного IT-решения". И для чего центр - чтобы дальше доить дойную корову. С других стран Восточной Европы видимо нет такого хорошего удоя.
В итоге хороший, хоть и не совсем корректный, пример того, как деньги от глупых перетекают к умным.

Кроме того, меня порадовала фантазия журналистов про яндекс топ, которая не имеет под собою фактов, и все утверждения в ней можно доказательно опровергнуть, но я не буду себя утруждать.

Тэги: Blogs | idea | news | Yandex


Рейтинг Блогосферы - ОБНОВЛЕНИЕ

На днях в СМИ появились непонятные статьи о том, что рейтинг русскоязычных блогов закрывается. Тут стоило прояснить, что ничего не закрывается, а произойдет лишь обновление алгоритма ранжирования записей и то, в декабре этого года. Все самые обсуждаемые темы по прежнему будут доступны через сеть блогов topbot.ru и вся статистика будет доступна все там же - topbloger.ru. Необходимость обновления алгоритмов работы ТОПа обусловлена большим числом рекламных сообщений, которые стали попадать в ТОП. Последней каплей стало попадание 31 октября 4х записей одинакового содержания "МВД РАЗГОНЯЕТ ПЕНСИОНЕРОВ". Найти эти записи можно на странице, введя в поиск по названию указанную выше фразу (После того как мне позвонили с требованием убрать их - я стер часть копий).


Перейдем теперь к рассмотрению алгоритма ранжирования самых обсуждаемых тем русскоязычной блогосферы. Новой его особенностью будет то, что алгоритм помещения записи в ТОП будет публиковаться открыто в моих блогах. До момента обновления я буду результаты работы нового алгоритма доступны на странице beta.topbot.ru

Итак, как же работает ТОП? Имеется еженедельная куча всех стоящих для прочтения постов. Для каждой записи строится оценочная функция. Исходя общей теории экспертных оценок имеем, что вес записи в блоге равен композиции трех функций BlogPost(n) = F(comms,views,commenters,links)*H(comms,views,commenters,links)*C(theme,copies,time) - функции состояния объекта, истории объекта и функции коррекции от связей объекта с экспертной системой.Ещё...

Тэги: Blogs | topbot | Yandex


Yandex: Экстрасенсы и кривые алгоритмы.

С каждым днем все больше поражаюсь тому, что происходит на страницах Яндекс поиска по блогам. Сегодняшний день не стал исключением. Сегодня в десятку самых популярных блогеров вошел некто Мехди Вафа с блогом на майл.ру. Историю его роста можно увидеть на топблогере. И если год назад нахождение в 10-ке рейтинга одного дневника с майл.ру было уже чем-то подозрительным, то сейчас там "висят" целых 2.
Итак, Мехди Вафа возглавляет центр экстрасенсов (боюсь назвать их шарлотанами, а то мало ли что наколдуют), поэтому выбор площадки майл.ру для ведения дневника - вполне обоснован. Далее, как говорит нам Yandex, у дневника аж 75тыс друзей, в то время как сам mail.ru показывает только 10тыс читателей(ps: на этой странице переключение вкладок под оперой не пашет). А 100тыс - это число тех, кто имеет доступ к его записям, но не читает регулярно в ленте. Это известное искажение понятия "дружбы" на mail.ru, помогающей ей строить красивые рекламные отчеты о раскрутке брэндов.
Странности добавляет то, что уважаемый Вафа день назад закрыл дневник ото всех, кроме друзей, и теперь мы имеем один из самых популярных дневников по версии Яндекса закрытым. В любом случае будем надеется, что такая ошибка рейтинга - следствие африкаского аутсорсинга у наших чернокожих братьев(а не желание отдельных личностей творить кривой рейтинг) - будет исправлена в кратчайшие сроки и все виновные будут скормлены акулам.


Ещё...

Тэги: Blogs | bugs | Yandex


Spam at Blogs.Yandex page

На днях обнаружил, что спамеры успешно порвали рейтинг Яндекса по блогам. Удалось им это сделать с помощью рейтинга по посещениям. Если его открыть, то там все записи копируют друг друга и содержат рекламу. При этом цифры показывающие число просмотров у записей просто зашкаливают, вероятно спамеры просто покупают порнотрафик или трафик с маркетгрида. Вариант, что Яндекс криво считает посещения - отпадает, так как если взглянуть на сообщения в сообществе talking_room, то они все до единого попали в ТОП по посещениям, при этом вначале делался пост, а потом накручивался трафик. Также это доказывает, что кривой алгоритм Яндекса не ищет дублирующие сообщения в ТОПе.

Разобраться с этой ситуацией в интересах не только Яндексу, но и блогохостингам (ЖЖ в частности), так как эти посты содержат рекламу, с которой ЖЖ ничего не получает.

Тэги: Blogs | bugs | Yandex


Inside: Яндекс у берегов Африки

Анализируя выдачу Яндекса случайно наткнулся на ссылку на домен YANDEX.ST, где лежала картинка http://yandex.st/ppb/2.5/i/lj_community.gif. Зачем вдруг Яндекс решил мне выдать картинку с далекого сервера - загадка. Как оказалось домен действительно принадлежит Яндексу и был заведен всего МЕСЯЦ НАЗАД одним из его сотрудников. Если расшифровывать ссылку на картинку, то "PPB" - это "Поиск по блогам", "2.5" - версия. Если предположить, что на основной странице по блогам находится версия 2.0, то неисключено, что кто-то разрабатывает и/или тестирует систему мирового охвата.

PS: Доменная зона .ST принадлежит "Демократической Республике Сан-Томе и Принсипи" у восточного побережья Африки на островах с населением 160тыс. чернокожих потенциальных сотрудников Яндекса.

Тэги: Blogs | idea | Yandex


Statistics of Blogs.Yandex

Прошло ровно 5 месяцев с того момента как Яндекс поменял страницу с ТОПами по блогам, заменив ее на 4 рейтинга: сводный, комментарии, ссылки, посещения.
За эти месяцы во все четыре рейтинга попало примерно 13500 уникальных постов. Это 2700 постов в месяц или 90 постов в день. Примечательно, что 389 поста сумели засветиться во всех четырех рейтингах 1191 в трех из четырех и 9222 - в двух. Таким образом, с вероятностью 70% пост, попадающий в один из ТОПов, попадет в еще один ТОП. И можно сделать вывод, что это неспроста и рейтинги взаимозависимы и ТОП Яндекса по блогам, как система оценки качества поста, реализован коряво. Как следствие мы наблюдаем посты одних и тех же личностей на всех 4х страницах и только иногда проскакивают никому неизвестные блогеры.

Тэги: Analytics | Blogs | Yandex


TheNextWeb.com

Один из моих любимых для чтения блогов - TheNextWeb.com - теперь ведется на десятке языков мира. В том числе и на русском. За рускоязычную версию отвечает некто Сергей Беганский. Лично для себя, я не вижу смысла в запоздалом русском переводе того, что можно прочесть на английском, однако, подобные шаги могут уменьшить количество тех, кто тупо делает переводы западных статей и выкладывает себе в блог.

Еще рекомендую посмотреть свежее интервью с Бернстом Ли, где он говорит, в частности, что двойной слэш после http: было ошибочно, стоило ограничиться один.

Тэги: Blogs | news | Semantic Web


social project

Интересный конкурс проводит Комменрсант. Отобрано 22 компании, которые будут рассказывать о том, как они используют социальные сети для продвижения своих продуктов. Иными словами, о своих вложениях и успехах в социальной рекламе. Пока в опубликованных материалах я не нашел ничего интересного, но надеюсь со временем появится.

Тэги: Blogs


BlogsAPI published-FOAF-parser

После некоторых раздумий выложил исходники BlogsAPI в опен сорс. Мне не жалко, если кто будет их использовать для своих проектов, ведь главное, что они будут написаны на .Net.
Большую часть Юнит-тестов я исключил из проекта, чтобы не палить пароли от реальных аккаунтов.

Отдельно обращаю внимание на то, как с помощью библиотеки парсить FOAF файлы:

Ещё...

Тэги: Blogs | Code | Twitter | Yandex


RDF/FOAF: Start point

На днях сделал реализацию .Net парсера различных FOAF файлов публикуемых блогхостерами на базе простой XML сериализации в рамках библиотеки BlogsAPI. Планирую в ближайшее время выложить для всех. Надеюсь это упростит для многих понимание и использование информации публикуемой в RDF формате. Пока изучал различные модификации FOAF в рунете, составил следующий список некорректных на мой взгляд моментов:

FOAF (http://xmlns.com/foaf/spec/)
1) Тэг foaf:Person может содержать вложенный тэг foaf:Person. Это пережиток прошлого и может вносить путаницу в виде рекурсии.
2) Часто встречается неправильное использование тэгов "dc:*" как аттрибутов, вместо тэгов.
3) Много "мертвых" элементов в статусе "unstable" и "testing", а также многочисленные поля единого семантического свойства, но не объединенные единым тэгом. Например, yahooID, openid.
4) Формат разработывался с 2004года, и многие примеры в спецификации устарели, либо имеют неправильную запись. Однако, люди которые впервые знакомятся с RDF/FOAF принимают их как эталон и продолжают пложить ошибки.
5) Раздражает и усложняет сериализацию необходимость указывания тэга foaf:knows, вместо того, чтобы одним тэгом окаймить весь массив связей.


YaFoaf (http://api.yandex.ru/blogs/doc/indexation/appendices/foaf-profile-sample.xml)
1) Неправильная запись "<foaf:img>http://img.ya.ru/userpic/1051645/90316</foaf:img>",
правильно: <foaf:img rdf:resource="http://img.ya.ru/userpic/1051645/90316" />
либо: "<foaf:image>http://img.ya.ru/userpic/1051645/90316</foaf:image>"
2) Аналогично для тэга foaf:homepage
3) ya:firstNode, ya:middleName, ya:secondName - выглядят как тавталогия, если учесть что их аналоги есть в "foaf:"
4) "foaf:dateOfBirth" - такого тэга нет, правильно "foaf:birthday"
5) ya:blogActivity - идиотизм задавать его для каждого из 4х параметров, нет чтобы один тэг, а внутри 4 различных подкласса для постов, комментов, ссылок и читателей. Видно, что копировали форму записи с foaf:knows


FOAF на li.ru
1) Ya:RSS - удобная замена для ya:feed, Но не документирована
2) ya:location - тоже какая-то самодеятельность от лени.
3) foaf:name и foaf:nick заполнены как-то странно, в итоге в поле name всегда пишеться номер блогера в базе дынных


FOAF на livejournal.com
1) общая неточность с foaf:dateOfBirth вместо foaf:birthday
2) Вводится дополнительное пространство имен LJ, но можно было бы обойтись dc:title и dc:description, как аттрибуты foaf:Document.
FOAF на ya.ru
1) Нигде не заполнен "реальный" ник пользователя, придется его извлекать из урла.


Выводы:
1) Я бы пересмотрел бы весь формат и задал бы новый исходя из теории "Социально Значимых Объектов", разбив весь RDF файл на 4 секции, но это мечты.
2) Видно, что нет единства в формировании FOAF файлов и все относятся к этому спустя рукова, так как пользу это дает только примитивному поисковику по профилям блогеров.

Тэги: Blogs | Semantic Web | Yandex


Кто я?

Программист. Я слежу за блогосферой и знаю, как будет развиваться интернет. Когда у меня есть время я даже прилагаю для этого усилия. Подробнее

Последние комментарии

  • Seaswarm against Mexican oil (3)
    V.exeR написал(а): Так вот откуда потом появятся водные роботы, как в� [Ещё]
  • Seaswarm against Mexican oil (3)
    Flashr написал(а): Видимо бактерии оказались не настолько хороши. Их � [Ещё]
  • Seaswarm against Mexican oil (3)
    aingerlj написал(а): Там же всё бактерии захавают, бложики так говорят. [Ещё]
  • Dubai - LiRu (3)
    Flashr написал(а): Официальное лицо уже подтвердило, что часть страни� [Ещё]
  • Dubai - LiRu (3)
    Егор написал(а): И кстати не только в Дубае, в Шарджи тоже... Подоз� [Ещё]
  • Dubai - LiRu (3)
    Егор написал(а): В марте такая же фигня показывалась и на вконтакте [Ещё]
  • deep-water.ru (20)
    Прохожий написал(а): Я не особо понял в чем там обвиняют, но сделал бы � [Ещё]
  • deep-water.ru (20)
    flashr написал(а): Проблем с хостингом теперь нет. Переехали уже. [Ещё]
  • deep-water.ru (20)
    Sivka написал(а): Если стоит проблема с хостингом, то отпиши в почту� [Ещё]
  • deep-water.ru (20)
    Flashr написал(а): Отмечу, что на странице детальной статистики - htt� [Ещё]
Topbot at FeedsBurner

Копирайт

Все мысли, высказанные в блоге, являются моим мнением и за это мнение меня никто не забанит! Кроме того, никто не имеет право копировать материалы блога без использования ctrl+C/V!

© Copyright 2008