- Автор flashr ноября 30, 2009
За прошедшую неделю я успел пообщаться с нашим патентным ведомством, которое сказало мне, что алгоритмы не патентуют, патентуют готовые прототипы. Предложили подогнать мою заявку под "Программу для базы данных для ЭВМ", но я не стал тратить время. Таким образом
продолжаю серию постов, кратко рассказывающих как формируется
ТОП30.
Содержание уже опубликованных заметок
Сегодня я приведу алгоритм первичной сортировки и объясню некоторые моменты. Если Вы читали предыдущие заметки, то должны знать, что алгоритм первичной сортировки нужен только для того, чтобы выбрать порядок в котором записи будут анализироваться на предмет прохождения через фильтры. Собственно сам package первичной сортировки:
[Далее]
Метки: Blogs | Code | topbot | Yandex
- Автор flashr ноября 27, 2009
utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+TheNextWeb+%28The+Next+Web%29">TheNextWeb и т.д. Кто-то сравнивает wave с очередной аськой, которой еще никто не пользуется, кто-то сравнивает с новой социальной сетью, в которой лень регистрироваться. Но лично мне видится явная задача, которую wave сможет скоро решить - это "комментарии, как источник новостей". Действительно, сейчас всех журналистов волнуют только посты, которые они перепечатывают получая новости, но очень часто в комментариях появляются не менее важная информация, которая достойна стать отдельной новостью. Но, увы, нигде нет нормальных средств для распространения комемнтариев - "цитирования", "ретвитинга", или иными словами "распространения в контексте обсуждения". Есть много систем пытавшихся унифицировать комментарии к новостям - это и Disqus, и IntenseDebate. Но все они пытались лишь привлечь пользователя со стороннего ресурса для обсуждения новости у себя.
[Далее]
Метки: Google | idea
- Автор flashr ноября 26, 2009
С грустью обнаружил, что и среди перспективных проектов до сих пор случаются проблемы с регистрацией доменных имен. Так сегодня стал недоступен стартап с многотысячной аудиторийей http://rss2email.ru, о котором так много писала UNOVA и презентацию которого можно
увидеть по ссылке. Кроме того я и сам планировал им пользоваться. Ребята то ли забыли продлить доменное имя, то ли не нашли инвестиций и решили закрыть "перспективный" проект. В любом случае доменное имя можно будет купить послезавтра, тогда же мы и узнаем ответ на столь волнующий вопрос.
[Далее]
Метки: bugs | life
- Автор flashr ноября 24, 2009
Многие знают как создавать виртуальные сидиромы, чтобы устанавливать игрушки и пиратский софт, но не многие знают как эмулировать USB-ключ, который обычно поставляется с серьезными программными решениями. То есть чтобы запустить программу нужно предварительно вставить ключ и только тогда программа запустится. На западе такое устройство называется Dongle, у нас, кроме как USB-ключ, существует название "Шипка". Важно отметить, что устройство не обнаруживается как простой USB-ключ, тем самым вы его просто так не скопируете. Доступ к нему даже самой прогой осуществляется через специальный драйвер (Alladin и т.д.).
Программ по обходу такой защиты и эмуляции, если поискать, то можно найти массу, и 98% из них будут разводиловом. Поэтому для тех кто найдет этот пост через поиск я выложил архивчик, в котором есть все что надо для устройств типа Hardlock.
[Далее]
Метки: life | trend
- Автор flashr ноября 24, 2009
Мало освященной в рунете оказалась новость, что некие
ребята планируют запустить сервис автоматического парсинга страниц по словам и тематике. То есть на вход дает ссылку на текст, а на выходе получает набор основных слов и название тематики поста. Очень удобно и всем необходимо, жаль, что пока закрытое тестирование идет. В целом, такой сервис без труда могли бы поднять как Гугл, так и Яндекс. В последнем случая у нас были бы просто космические возможности по созданию тематического ТОПа...
[Далее]
Метки: news
- Автор flashr ноября 21, 2009
Яндекс наконец-то выкинул
мертвяков (их нельзя было читать) из blogs.mail.ru с верхних строчек рейтинга. Теперь вопросы вызывает нахождение там "блога картинок" - уровень заметно ниже тех же фишек, да и посещаемость накручена, да и комментариев относительно немного.
Будем ждать.
[Далее]
Метки: news | Yandex
- Автор flashr ноября 20, 2009
самые интересные технический новости:
1) Tish -
выложила презентацию про следующий этап развития Интернета - Outernet , а также про необходимость использования Google Wave в AR приложениях. В общем все уныло, если бы не мысль, что "
А.Everyone here will make money, B.Everyone not here can go fuck themselves" или по русски, "кто успеет - тот и папка"
2)
AOL продает ICQ - дада, ту самую ICQ, через которую вы общаетесь с друзьями. Теперь вашу переписку будет мониторить не только ЦРУ, но и любая фирма за символические 300млн.у.е. Такая дешевизна продажи может быть связана либо с кризисом, либо с тем, что все боятся выхода Google Wave - нового слова в коммуникациях.
3) Состоялся показ GoogleOS - он запускается за 7 секунд! - почти также быстро как винда выходит из спящего режима!
[Далее]
Метки: news
- Автор flashr ноября 20, 2009
Посетила меня мысль, что каптча в современном мире бесполезна, однако ее продолжают применять, так как несколько сот миллионов пользователей интернет уже привыкли к тому, что это защищает сайт от роботов и пользователи на дрессировались распознавать хитро-зашумленные буквы и цифры, поэтому грех этим не воспользоваться. А в итоге только тратиться впустую время всей планеты. Сегодня, когда Микрософт и Гугл тратят немало усилий, вплоть до пересмотра базовых протоколов, чтобы сделать интернет быстрее, когда лучшие умы планеты думают, чтобы ускорить загрузку на сотую секунды, и все это напрасно, ибо после нескольких миллисекунд вам грузится капча и вы тратите несколько минут пытаясь угадать, что же там нарисовано. А между тем роботы, которых все якобы боятся, делают стартап популярным в глазах статистики, а уже на популярный ресурс в итоге заглядывают реальные пользователи, делая посещаемость.
Таким образом, мысль моя приходит к тому, что в у нас должна быть капча, где пользователям предлагают ввести не просто слово, а имя бренда, одного из тех, что рекламируется. То есть создается банерная сеть из каптча вводов. А рядом еще кнопка подсказка, где вам тупо зачитывают основной рекламный лозунг этого бренда, про отбеливание и чистую одежду, чтобы вы уж точно вспомнили, что это "VANISH" закодирован в каптче.
[Далее]
Метки: idea
- Автор flashr ноября 18, 2009
Примечательно, что с каким бы программистом я не начинал обсуждать алгоритм составления ТОПа, в итоге каждый говорил, что вот он сейчас пойдет создаст сайт, выложит там новый ТОП и станет популярным. Это с одной стороны хорошо, так как показывает, что программисты - люди дела и любители играть в разные алгоритмы, а также мечтают стать знаменитыми. Но с другой стороны показывает, что они не понимают
1) Как работать в команде,
2) Что так как все работают с одним векторным пространством и одинаковыми сырыми данными, то в итоге рейтинг у всех будет совпадать в значительной степени.(~20%)
3) Самая сложность не в первоначальной сортировке, а в последующих фильтрах, которые должны отсеять спамерские посты. А спамерские посты чаще всего имеют ссылки как входящие, на сам пост, так и исходящие - на рекламу - которые нужно уметь определять и фильтровать. Вот об этом алгоритме
работы нового ТОПа и поговорим.
[Далее]
Метки: Analytics | topbot
- Автор flashr ноября 16, 2009
В сеть выложено еще 13 тыс. взломанных аккаунтов от вконтакта - http://habrahabr.ru/blogs/virus/75345/. Проверил - подходят. Такая регулярность с паролями в открытом виде наводит на мысль, что взлом осуществляется не просто троянами, а с помощью популярных социальных игр число которых растет постоянно, где участникам предлагается залогиниться, введя мыло и пароль, что наивные пользователи и делают.
Спокойной ночи.
[Далее]
Метки: bugs
- Автор flashr ноября 15, 2009
Свежая наклейка на ноуте с надписью "Go Code" заставила меня поразмышлять о новом языке программирования,
который предлагает Google. Во-первых, уже полно языков программирования и трудно придумать что-то, чтобы всех заставило разом перейти на него. Во-вторых, пошла шутка, что "В ответ Yahoo запустил язык программирования YO! А мы теперь ждем языка YA!". Но если подумать, то можно вспомнить, что сейчас идет бета тестирование GoogleWave, которое в следующем году станет доступно всем, а также появится маркет, на подобии AppStore, где девелоперы смогут продавать, написанные ими снипеты для GoogleWave. Это программы, с помощью которых пользователи смогут взаимодействовать друг с другом, например, игры в социальных сетях. Но если мы возьмем OpenSocial платформу, то даже в ней для создания какой-то простой игры потребуется дополнительно изучать форматы сообщений, представления данных, почти как изучить новый язык. Не исключено, что Гугл захочет заставить прогеров писать снипеты, а также федеративные сервера, для GoogleWave на собственном языке.
[Далее]
Метки: Code | Google
- Автор flashr ноября 12, 2009
Провел небольшой эксперимент, имея на руках 4 параметра (visits24, links, comments, commenters), базу из 1000 постов за 3 дня, а также историю ТОПа с 40 постами за сутки, а попытался методом перебора коэффициентов найти наиболее подходящий вектор, на который делается проекция, как было описано в первом посте, чтобы после сортировки всех записей по величине этой проекции, в первых 100 оказывалось максимальное число постов, которые попали в топ, построенный по старому алгоритму.
Результатом стал вектор (10,9,12,12) с результатом в 25 постов из 40. Это прежде всего говорит о том, что в текущем алгоритме есть явная завышенная зависимость от числа различных русскоязычных комментаторов к посту (commenters). Я же для сортировки записей беру вектор с равными весами = (1,1,1,1). Кроме того, стоит отметить два выявленных особенностей
1) В блогах на YaRu - внутренняя ссылка является также комментарием, поэтому важно уменьшать кисло комментариев на число ссылок. Иначе получается завышенное число ярушных блогов с высокими значениями.
2) Нормировка происходит не только в группах по типу блогплатформы, но и по типу блога или сообщества. То есть для блогов и сообществ максимумы значений считаются отдельно.
После того, как записи в текущей куче постов за 3 дня отсортированы применяются фильтры. Их много, я их кратко перечислю по ходу применения:
[Далее]
Метки: Blogs
- Автор flashr ноября 11, 2009
В
рамках открытого обсуждения нового алгоритма ранжирования записей блогосферы собраны следующие пожелания к обновленному топу:
- Сводный рейтинг записей, который было бы интересно читать.
- Сводный рейтинг записей, в который при необходимости можно было бы попасть.
- Несколько разных страниц с разным дизайном, но одинаковым содержанием, чтобы не винить одну сторону во всем.
- Достаточную посещаемость у рейтинга, чтобы рекламодателям было бы интересно.
- Единую систему ценностей, чтобы попадание в ТОП – что-то значило как достижение.
[Далее]
Метки: Blogs | idea
- Автор flashr ноября 11, 2009
Пару слов о . План минимум выполнен - попили, поели, футболку получили. В остальном же не был особо поражен наработками гугла, такое чувство, что переделываются в Open Source все наработки Микрософта. Только для бизнеса Open Source не вариант - ибо если что-то непонятно или не работает, то кто должен отвечать или чинить? Вот на той же схеме с синхронизированными данными сервер-сервер в GoogleWave мне бы обязательно задали вопрос - а что будет, если один из серверов вырубиться в процесе такого обмена... как будет реагировать второй.
Посмотрел еще раз на моего любимого Chrisa Chabota (любимый, так как похож на Гомера Симпсона), занимающегося http://ActivityStrea.ms, правда он до сих пор пребывает в заблуждениях, разбивая социально значимый объект на 3 части, а не на пять, как я рекомендую, забывая о еще не созданном 8м семантическом инварианте - мониторинге. То есть "социально значимый объект" в сети должен состоять из "Idendity"(я-вася), "Relations"(знаю Петю), "CurrentState"(часто меняющиеся переменные, такие как локация или список используемых приложений), "Activities"(список посещенных мероприятий, сделанных постов), "Statistic" (например, блог ведется 2 года, запощено 100 постов).
Далее подловил главного по GoogleWave - спросил, собираются ли они делать из WaveID распределенный идентификатор, чтобы я мой шарить не только личные данные, но и текущие активные вавлеты, через которые со мною можно было бы связаться. Он сказал, что не думал еще про это, но идея очень интересная.
И в дополнение, на ugotrade вышла очередная большая статья, рассказывающая про будущее Дополненной реальности и создание так называемого OuterNet'a - то что прийдет на смену InterNet'u.
Метки: Blogs | Google | trend
- Автор flashr ноября 9, 2009
Почитал сегодняшний номер
журнала F5. В целом как обычно - отсутствие собственных мыслей и куча копипастов из интернета дополненных развлекательными картинками. Хочу прокомментировать историю про черно-белые мультики Mr.Freeman. Примерно 2 года назад в сети появилась книга, которую можно было бесплатно скачать и активно распространялась среди разных вирусмейкеров рунета. Книга называлась "Войны креатива" и как раз повествовала о русском креативщике, который анонимно завел блог в интернете и постил креативы. Его целью было активизация российских умов с целью создания нового товара экспортируемого на запад - креатива. Российского креатива, который бы составил конкуренцию западному креативу, какой-то там фирмы. Вообщем тым была долгая история, но можель исполнения и ключевые фразы совпадают. Помню еще тогда мне говорили, что типа - давай организуем блог креатива, сделаем революцию в умах... но я не ведусь на подобный бред.
Примечательно также, что из газеты убрали небольшой блог с самыми интересными блогпостами за неделю, хотя и топ яндекса еще жив и мой deep-water.ru (на который они ссылались, но данные которого не релевантны) тоже еще жив.
[Далее]
Метки: Blogs | news
- Автор flashr ноября 8, 2009
Сегодня я вернусь к вопросу правильности выбора параметров, от которых строится функция F(comms,visits,commenters,links) - входящая в композицию веса поста.
Первый вопрос, почему я отбросил другие параметры, кроме перечисленных четырех, такие как "число комментариев/ссылок/комментаторов за последние 24 часа", а также "вес ссылок - linksweight".
Ответ: Я достаточно долго работал с данными, собираемыми распределенной системой по всему миру и убедился, что такой параметр как время становится более чем относительной характеристикой. В этот параметр вкладывается и задержка поступления данных с разного индексирующего кластера, и месторасположение блогплатформы, у которой серверное время может выдаваться со сдвигом и прочее и прочее. Однако, стоит заметить, что параметр linksweight в алгоритме учитывается. Так как в старом алгоритме придавалась большая значимость количеству ссылок, которые делаются на запись, и кроме того есть механизмы обнаружения спамерских ссылок, то в новом алгоритме я оставляю требование на наличии хотя бы одной неспамерской по версии Яндекса ссылки.
Второй вопрос, почему четыре параметра входят в функцию с одинаковыми весами.
Ответ: При построении интегрального коэффициента глупо было бы отдавать предпочтение одному из параметров. Записи должны отсеиваться на основании тех параметров, которые определяют текущее состояние экспертной системы, а следовательно базируются на выборке из всех записей блогосферы, а не одной конкретной, о которой накрутчикам известно все и они могут подкрутить любой из параметров. С такой точки зрения, все четыре параметра равноценны, однако, у меня есть большое недоверие к параметру посещений, так как он весьма условный и вероятно считается некорректно. Но это не так важно, так как наш интегральный параметр задает лишь критерии сортировки записей перед выборкой и не является определяющим при помещении записи в ТОП.
В заключение отмечу, что в единицу времени в ТОП помещается только одна запись, так как эта операция меняет основные параметры экспертной системы и следовательно дискретна. За день в ТОП может попасть не более 70 записей. Если этого будет много, то я уменьшу этот параметр.
В следующий раз я затрону тему фильтров 1)по темам дня 2) отсеивание ссылок на плохие сайты 3) отсеивание дублей методов сравнения слов-низкочастотников в постах находящихся в ТОПе. А пока, результат работы нового алгоритма формирование рейтинга популярных тем блогосферы публикуется на сайте
beta.topbot.ru. Присылайте вопросы на topbot@ya.ru.
[Далее]
Метки: Blogs | Yandex
- Автор flashr ноября 6, 2009
Привлекла мое внимание новость об открытии
технологического центра в Москве от Микрософта - стоимостью аж 300 млн.руб, причем крупнейший в Европе, неужели больше ни одной стране не нужен? Центр создан с целью тестирования крупно масштабных IT-решений российских компаний. И вот тут мне режет глаз цифра в 300 млн. - ведь именно такой бюджетный расход у нашего МВД за последние 3 года на технологическое обеспечение от Микрософта. Это не только "лицензионная винда", но и услуги консультантов, mssql сервера, biztalk сервера, сертификационные курсы админов - как раз все то, что покупалось для создания "крупно масштабного IT-решения". И для чего центр - чтобы дальше доить дойную корову. С других стран Восточной Европы видимо нет такого хорошего удоя.
В итоге хороший, хоть и не совсем корректный, пример того, как деньги от глупых перетекают к умным.
Кроме того, меня порадовала
фантазия журналистов про яндекс топ, которая не имеет под собою фактов, и все утверждения в ней можно доказательно опровергнуть, но я не буду себя утруждать.
[Далее]
Метки: Blogs | idea | news | Yandex
- Автор flashr ноября 5, 2009
На днях в СМИ появились непонятные статьи о том, что рейтинг русскоязычных блогов закрывается. Тут стоило прояснить, что ничего не закрывается, а произойдет лишь
обновление алгоритма ранжирования записей и то, в декабре этого года. Все самые обсуждаемые темы по прежнему будут доступны через сеть блогов
topbot.ru. Необходимость обновления алгоритмов работы ТОПа обусловлена большим числом рекламных сообщений, которые стали попадать в ТОП. Последней каплей стало попадание 31 октября 4х записей одинакового содержания "
МВД РАЗГОНЯЕТ ПЕНСИОНЕРОВ". Найти эти записи можно
на странице, введя в поиск по названию указанную выше фразу (После того как мне позвонили с требованием убрать их - я стер часть копий).
Перейдем теперь к рассмотрению алгоритма ранжирования самых обсуждаемых тем рускоязычной блогосферы. Новой его особенностью будет то, что алгоритм помещения
записи в ТОП будет публиковаться открыто в моих блогах. До момента обновления я буду результаты работы нового алгоритма доступны на странице
beta.topbot.ruИтак, как же работает ТОП? Имеется еженедельная куча всех стоящих для прочтения постов. Для каждой записи строится оценочная функция. Исходя общей теории экспертных оценок имеем, что вес записи в блоге равен копозиции трех функций BlogPost(1) = F(x,y,z)*H(author,weekly,links)*C(theme,copies) - функции состояния объекта, истории объекта и функции коррекции от связей объекта с экспертной системой.
[Далее]
Метки: Blogs | topbot | Yandex
- Автор flashr ноября 1, 2009
Ситуация вокруг признания независимости Абхазии и Южной Осетии наводит меня на мысль, что в современном мире, чтобы страна считалась признанной, необходимо две вещи. 1)
Нарисовать страну на карте гугла. 2)
Нарисовать страну на карте гугла. И неисключено, что это обойдется заметно дешевле, чем
раздача многомиллиардных кредитов военизированным странам, которые их не вернут.
А пока же, наши южные соседи отмечены лишь
на Яндекс картах.
[Далее]
Метки: idea | news