Posts belonging to Category Поисковики



Быстроробот — что это такое

Поисковый робот
Столкнулся с удивительным (для меня) феноменом — некоторые страницы блога в отчёте биржи GoGetLinks об индексации Яндексом оказывались помеченными, как проиндексированные быстророботом. Стал разбираться, что это такое этот быстроробот и чем он полезен. Что удалось понять — изложено ниже.

Быстроробот — что это?

Быстроробот (быстробот) — отдельный поисковый робот Яндекса, работает с 2005 года и используется для ускоренной индексации страниц между обновлениями выдачи проиндексированного основным поисковым роботом. Таким образом, быстроробот призван индексировать актуальную на данный момент информацию — различные новости — и в силу этого он является «постоянным посетителем» часто обновляющихся сайтов (сервисы блогов и микроблогов, новостные ленты и т.п.). Можно сделать вывод, что часто обновляющийся сайт, особенно с RSS-лентой, не будет обойдён вниманием быстроробота.

Принцип работы быстроробота

Страница, проиндексированная быстророботом, моментально попадает в результаты выдачи, однако она не присутствует в основном индексе Яндекса и её релевантность относительно поисковых запросов вычисляется но основе внутренних факторов. В индексе такая страница находится двое суток, после чего происходит её перенос в общую базу проиндексированных страниц, её релевантность пересчитывается с использованием обычных показателей и она попадает в выдачу на общих основаниях. Соответственно, наличие страницы в индексе быстроробота позволяет утверждать, что и в основной индекс Яндекса она попадёт во время ближайшего апдейта.

Как узнать, что страница проиндексирована быстророботом

Основной признак того, что страница была проиндексирована быстророботом Яндекса — наличие под ней времени индексации: позавчера, вчера или N часов назад. Такие страницы могут быть найдены через расширенный поиск Яндекса
Естественно, что можно посмотреть дату последнего апдейта выдачи яндекса, и если целевая страница была проиндексирована позже этой даты, но присутствует в результатах поиска — она была проиндексирована быстророботом. Для проверки наличия страницы в индексе удобно использовать запрос вида

http://yandex.ru/yandsearch?text=url:http://адрес_целевой_страницы&lr=2

Вот так, например, выглядит в поисковой выдаче Яндекса эта страница, проиндексированная быстророботом:
быстроробот Яндекса

Анонимайзер как замена прокси. Проверка анонимайзеров на валидность

Скрипт для составления и проверки списка веб-прокси

Наткнулся на любопытную заметку под названием «И еще немного про Google Hack«, в которой автор описывает использование анонимайзеров (пример анонимайзера — сайт Anonymouse) вместо публичных прокси для обхода капчи в Google.
Такой способ использования анонимайзеров мне тоже приглянулся и я решил написать свой скрипт для сбора и проверки на валидность списка публичных веб-прокси.

(далее…)