Какую работу выполняют роботы пауки поисковых систем. Что такое роботы поисковики Яндекса и Google простыми словами. Поисковые роботы G o o g l e

Его работа заключается в тщательном анализе содержимого страниц представленных в Интернете сайтов и отправке результатов анализа в поисковой системы.

Новые страницы поисковый робот некоторое время обходит, но в дальнейшем они индексируются и при отсутствии каких-либо санкций со стороны поисковых систем могут отображаться в результатах поиска.

Принцип действия

Действие поисковых роботов основано на том же принципе, что и работа обыкновенного браузера. Посещая тот или иной сайт, они обходят часть его страниц или все страницы без исключения. Полученную информацию о сайте они отправляют в поисковый индекс. Эта информация появляется в поисковой выдаче, соответствующей тому или иному запросу.

Из-за того, что поисковые роботы могут посещать только часть страниц, с индексацией больших сайтов могут возникать проблемы. Такие же точно проблемы могут возникать из-за низкого качества .

Перебои в его работе делают часть страниц недоступными для анализа. Важную роль в оценке сайта поисковыми роботами играет правильно составленная и грамотно настроенный файл robots.txt.

Глубина сканирования ресурса и периодичность обхода сайтов поисковыми роботами зависит от:

  • Алгоритмов работы поисковых систем.
  • Частоты обновления сайтов.
  • Структуры сайтов.

Поисковый индекс

База данных с информацией, которую собирают поисковые роботы, называется поисковым индексом. Эта база используется поисковыми системами для формирования результатов выдачи по конкретным .

В индекс заносится не только информация о сайтах: поисковые роботы способны распознавать изображения, мультимедиа файлы и документы в различных электронных форматах (.docx, .pdf и др).

Один из самых активных поисковых роботов системы Яндекс – быстробот. Он постоянно сканирует новостные ресурсы и другие часто обновляемые сайты. , который не замечен быстроботом, не имеет смысла.

Привлечь его можно с помощью специальных инструментов, причем действенны они для сайтов самого разного назначения. Для проверки сайтов на доступность, для анализа отдельных их характеристик, для индексации картинок и документов в поисковых системах есть отдельные роботы.

Поисковый робот (бот, паук, spider, crawler) — это специальная программа поисковика, предназначенная для сканирования сайтов в сети Интернет.

Многие не знают, что сканирующие боты просто собирают и сохраняют информацию. Они не занимаются ее обработкой. Это делают другие программы.

Если у вас есть желание посмотреть на сайт глазами поискового робота, то можно это сделать через панель вебмастера.

Посмотреть как Google можно через панель вебмастера. Там нужно добавить свой сайт и потом можно будет посмотреть на странице:

https://www.google.com/webmasters/tools/googlebot-fetch?hl=ru

Посмотреть как Яндекс можно через сохраненную копию страницы. Для этого находим нужную страницу в поиске Яндекса, жмем «сохраненная копия» и дальше «посмотреть текстовую версию».

Ниже приведу список поисковых роботов, которые ходят по нашим с вами сайтам. Одни из них индексируют сайты , другие следят за контекстной рекламой. Есть специализированные роботы, которые занимаются определенными узкими задачами. Например, индексируют картинки или новости.

Зная «в лицо» робота, можно запретить или разрешить ему ползать по сайту, тем самым можно снизить нагрузку на сервер. Ну или защитить свою информацию от попадания в сеть.

Поисковые роботы Яндекса

У поисковой системы Яндекс десятка полтора известных нам поисковых роботов. Список ботов, который мне удалось раскопать, в том числе и из официального хелпа, ниже.

YandexBot — основной индексирующий робот;
YandexMedia — робот, индексирующий мультимедийные данные;
YandexImages — индексатор Яндекс.Картинок;
YandexCatalog — «простукивалка» Яндекс.Каталога, используется для временного снятия с публикации недоступных сайтов в Каталоге;
YaDirectFetcher — робот Яндекс.Директа;
YandexBlogs — робот поиска по блогам, индексирующий посты и комментарии;
YandexNews — робот Яндекс.Новостей;
YandexWebmaster – приходит придобавлении сайта через форума AddURL;
YandexPagechecker — валидатор микроразметки;
YandexFavicons — индексатор фавиконок
YandexMetrika — робот Яндекс.Метрики;
YandexMarket — робот Яндекс.Маркета;
YandexCalendar — робот Яндекс.Календаря.

Поисковые роботы (боты) Google

Googlebot — основной индексирующий робот;
Googlebot Nes — индексатор новостей;
Googlebot Images — индексатор картинок;
Googlebot Video — робот для видео данных;
Google Mobile — индексатор мобильного контента;
Google Mobile AdSense — робот мобильного AdSense
Google AdSense — робот AdSense
Google AdsBot – бот проверки качества целевой страницы
Mediapartners-Google — робот AdSense

Роботы других поисковых систем

Так же, в логах своего сайта, вы можете наткнуться на некоторых роботов других поисковиков.

Рамблер — StackRambler
Мэйл.ру — Mail.Ru
Yahoo! — Slurp (или Yahoo! Slurp)
AOL — Slurp
MSN — MSNBot
Live — MSNBot
Ask — Teoma
Alexa — ia_archiver
Lycos — Lycos
Aport — Aport
Вебальта — WebAlta (WebAlta Crawler/2.0)

Кроме ботов поисковиков, по сайтам бегает огромная армия всяких левых пауков. Это различные парсеры, которые собирают информацию с сайтов, как правило, в корыстных целях их создателей.

Одни воруют контент, другие картинки, третьи взламывают сайты и расставляют втихаря ссылки. Если вы заметили, что подобный парсер присосался к вашему сайту — закройте ему доступ всеми возможными способами, в том числе и через файл robots.txt .

Как правило, поисковая машина представляет собой сайт, специализирующийся на поиске информации, соответствующей критериям запроса пользователя. Основная задача таких сайтов заключается в упорядочивании и структурировании информации в сети.

Большинство людей, пользуясь услугами поисковой системы, никогда не задаются вопросом как именно действует машина, отыскивая необходимую информацию из глубин Интернета.

Для рядового пользователя сети, само понятие принципов работы поисковых машин не является критичным, так как алгоритмы, которыми руководствуется система, способны удовлетворить запросы человека, который не знает как составлять оптимизированный запрос при поиске необходимой информации. Но для веб-разработчика и специалистов занимающихся оптимизацией сайтов, просто необходимо обладать, как минимум, начальными понятиями о структуре и принципах работы поисковых систем.

Каждая поисковая машина работает по точным алгоритмам, которые держатся под строжайшим секретом и известны лишь небольшому кругу сотрудников. Но при проектировании сайта или его оптимизации, обязательно нужно учитывать общие правила функционирования поисковых систем, которые рассматриваются в предлагаемой статье.

Невзирая на то, что каждая ПС имеет свою собственную структуру, после тщательного их изучения можно объединить в основные, обобщающие компоненты:

Модуль индексирования

Модуль индексирования — этот элемент включает три дополнительных компонента (программы-роботы):

1. Spider (робот-паук) — скачивает страницы, фильтрует текстовый поток извлекая из него все внутренние гиперссылки. Кроме того, Spider сохраняет дату скачивания и заголовок ответа сервера, а также URL — адрес страницы.

2. Crawler (ползающий робот-паук) — осуществляет анализ всех ссылок на странице, и на основе этого анализа, определяет какую страницу посещать, а какую не стоит. Таким же образом краулер находит новые ресурсы, которые должны быть обработаны ПС.

3. Indexer (Робот-индексатор) – занимается анализом скачанных пауком интернет-страниц. При этом сама страница разбивается на блоки и анализируется индексатором с помощью морфологических и лексических алгоритмов. Под разбор индексатора попадают различные части веб-страницы: заголовки, тексты и другая служебная информация.

Все документы, прошедшие обработку этим модулем, хранятся в базе данных поисковика, называемой индексом системы. Кроме самих документов, база данных содержит необходимые служебные данные – результат тщательной обработки этих документов, руководствуясь которыми, поисковая система выполняет запросы пользователя.

Поисковый сервер

Следующий, очень важный компонент системы – поисковый сервер, задача которого заключается в обработке запроса пользователя и генерации страницы результатов поиска.

Обрабатывая запрос пользователя, поисковый сервер рассчитывает рейтинг релевантности отобранных документов запросу пользователя. От этого рейтинга зависит позиция, которую займет веб-страница при выдаче поисковых результатов. Каждый документ, удовлетворяющий условиям поиска, отображается на странице выдачи результатов в виде сниппета.

Сниппет – это краткое описание страницы, включающее заголовок, ссылку, ключевые слова и краткую текстовую информацию. По сниппету пользователь может оценить релевантность отобранных поисковой машиной страниц своему запросу.

Важнейшим критерием, которым руководствуется поисковый сервер при ранжировании результатов запроса – является уже знакомый нам показатель тИЦ ().

Все описанные компоненты ПС требуют больших затрат и очень ресурсоемкие. Результативность поисковой системы напрямую зависит от эффективности взаимодействия этих компонентов.

Понравилась статья? Подпишитесь на новости блога или поделитесь в социальных сетях, а я отвечу вам


6 комментариев к посту “Поисковые системы их роботы и пауки”

    Давно искала эту информацию, спасибо.

    Ответить

    Радует, что ваш блог постоянно развивается. Такие посты только прибавляют популярности.

    Ответить

    Кое что понял. Вопрос, PR как-то зависит от ТИЦ?

    Роботы-пауки у поисковых машин - это интернет-боты, в задачу которых входит систематический просмотр страниц в World Wide Web для обеспечения веб-индексации. Традиционно сканирование WWW-пространства осуществляется для того, чтобы обновить информацию о размещенном в сети контенте с целью предоставления пользователям актуальных данных о содержимом того или иного ресурса. О типах поисковых роботов и их особенностях и будет идти речь в данной статье.

    Поисковые пауки могут именоваться еще и по-другому: роботы, веб-пауки, краулеры. Однако независимо от названия, все они заняты постоянным и непрерывным изучением содержимого виртуального пространства. Робот сохраняет список URL-адресов, документы по которым загружаются на регулярной основе. Если в процессе индексации паук находит новую ссылку, она добавляется в этот список.

    Таким образом, действия краулера можно сравнить с обычным человеком за браузером. С тем лишь отличием, что мы открываем только интересные нам ссылки, а робот - все, о которых имеет информацию. Кроме того, робот, ознакомившись с содержимым проиндексированной страницы, передает данные о ней в специальном виде на сервера поисковой машины для хранения до момента запроса со стороны пользователя.

    При этом каждый робот выполняет свою определенную задачу: какие-то индексируют текстовое содержимое, какие-то - графику, а третьи сохраняют контент в архиве и т.д.

    Главная задача поисковых систем - создание алгоритма, который позволит получать информацию о быстро и наиболее полно, ведь даже у гигантов поиска нет возможностей обеспечить всеобъемлющий процесс сканирования. Поэтому каждая компания предлагает роботам уникальные математические формулы, повинуясь которым бот и выбирает страницу для посещения на следующем шаге. Это, вкупе с алгоритмами ранжирования, является одним из важнейших критериев по которым пользователи выбирают поисковую систему: где информация о сайтах более полная, свежая и полезная.

    Робот-поисковик может не узнать о вашем сайте, если на него не ведут ссылки (что возможно редко - сегодня уже после регистрации доменного имени упоминания о нем обнаруживаются в сети). Если же ссылок нет, необходимо рассказать о нем поисковой системе. Для этого, как правило, используются «личные кабинеты» веб-мастеров.

    Какая главная задача поисковых роботов

    Как бы нам ни хотелось, но главная задача поискового робота состоит совсем не в том, чтобы рассказать миру о существовании нашего сайта. Сформулировать ее сложно, но все же, исходя из того, что поисковые системы работают лишь благодаря своим клиентам, то есть пользователям, робот должен обеспечить оперативный поиск и индексацию размещенных в сети данных . Только это позволяет ПС удовлетворить потребность аудитории в актуальной и релевантной запросам выдаче.

    Конечно, роботы не могут проиндексировать 100% веб-сайтов. Согласно исследованиям, количество загруженных лидерами поиска страниц не превышает 70% от общего числа URL, размещенных в интернете. Однако то, насколько полно ваш ресурс изучен ботом, повлияет и на количество пользователей, перешедших по запросам из поиска. Поэтому и мучаются оптимизаторы в попытках «прикормить» робота, чтобы как можно быстрее знакомить его с изменениями.

    В Рунете Яндекс лишь в 2016 году подвинулся на вторую строчку по охвату месячной аудитории, уступив Google. Поэтому не удивительно, что у него наибольшее количество пауков, изучающих пространство, среди отечественных ПС. Перечислять их полный список бессмысленно: его можно увидеть в разделе «Помощь вебмастеру» > Управление поисковым роботом > Как проверить, что робот принадлежит Яндексу.

    Все краулеры поисковика обладают строго регламентированным user-agent. Среди тех, с которыми обязательно придется встретиться сайтостроителю:

    • Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) - основной индексирующий бот;
    • Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexBot/3.0; +http://yandex.com/bots) - индексирующий паук;
    • Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots) - бот Яндекс.Картинок;
    • Mozilla/5.0 (compatible; YandexMedia/3.0; +http://yandex.com/bots) - индексирует мультимедийные материалы;
    • Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots) - индексирует иконки сайтов.

    Чтобы привлечь на свой сайт пауков Яндекса, рекомендуется выполнить несколько простых действий:

    • правильно настроить robots.txt;
    • создать RSS-фид;
    • разместить sitemap с полным списком индексируемых страниц;
    • создать страницу (или страницы), которые будут содержать ссылки на все документы ресурса;
    • настроить HTTP-статусы;
    • обеспечить социальную активность после публикации материалов (причем не только комментарии, а расшаривание документа);
    • интенсивное размещение новых уникальных текстов.

    В пользу последнего аргумента говорит способность ботов запоминать скорость обновления контента и приходить на сайт с обнаруженной периодичностью добавления новых материалов.

    Если же вы хотели бы запретить доступ краулерам Яндекса к страницам (например, к техническим разделам), требуется настроить файл robots.txt. Пауки ПС способны понимать стандарт исключений для ботов, поэтому сложностей при создании файла обычно не появляется.

    User-agent: Yandex

    Disallow: /

    запретит ПС индексировать весь сайт.

    Кроме того, роботы Яндекса умеют учитывать рекомендации, указанные в мета-тегах. Пример: запретит демонстрацию в выдаче ссылки на копию документа из архива. А добавление в код страницы тега укажет на то, что данный документ не нужно индексировать.

    Полный список допустимых значений можно найти в разделе «Использование HTML-элементов» Помощи вебмастеру.

    Роботы поисковики Google

    Основной механизм индексации контента WWW у Google носит название Googlebot. Его механизм настроен так, чтобы ежедневно изучать миллиарды страниц с целью поиска новых или измененных документов. При этом бот сам определяет, какие страницы сканировать, а какие - игнорировать.

    Для этого краулера важное значение имеет наличие на сайте файла Sitemap, предоставляемого владельцем ресурса. Сеть компьютеров, обеспечивающая его функционирование настолько мощна, что бот может делать запросы к страницам вашего сайта раз в пару секунд. А настроен бот так, чтобы за один заход проанализировать большее количество страниц, чтобы не вызывать нагрузку на сервер. Если работа сайта замедляется от частых запросов паука, скорость сканирования можно изменить, настроив в Search Console. При этом повысить скорость сканирования, к сожалению, нельзя.

    Бота Google можно попросить повторно просканировать сайт. Для этого необходимо открыть Search Console и найти функцию Добавить в индекс, которая доступна пользователям инструмента Просмотреть как Googlebot. После сканирования появится кнопка Добавить в индекс. При этом Google не гарантирует индексацию всех изменений, поскольку процесс связан с работой «сложных алгоритмов».

    Полезные инструменты

    Перечислить все инструменты, которые помогают оптимизаторам работать с ботами, достаточно сложно, поскольку их масса. Кроме упомянутого выше «Посмотреть как Googlebot», стоит отметить анализаторы файлов robots.txt Google и Яндекса, анализаторы файлов Sitemap, сервис «Проверка ответа сервера» от российской ПС. Благодаря их возможностям, вы будете представлять, как выглядит ваш сайт в глазах паука, что поможет избежать ошибок и обеспечить наиболее быстрое сканирование сайта.

    Просматривая логи сервера, иногда можно наблюдать чрезмерный интерес к сайтам со стороны поисковых роботов. Если боты полезные (например, индексирующие боты ПС) — остается лишь наблюдать, даже если увеличивается нагрузка на сервер. Но есть еще масса второстепенных роботов, доступ которых к сайту не обязателен. Для себя и для вас, дорогой читатель, я собрал информацию и переделал ее в удобную табличку.

    Кто такие поисковые роботы

    Поисковый бот , или как еще их называют, робот, краулер, паук — ни что иное, как программа, которая осуществляет поиск и сканирование содержимого сайтов, переходя по ссылкам на страницах. Поисковые роботы есть не только у поисковиков. Например, сервис Ahrefs использует пауков, чтобы улучшить данные по обратным ссылкам, Facebook осуществляет веб-скраппинг кода страниц для отображения репостов ссылок с заголовками, картинкой, описанием. Веб-скраппинг — это сбор информации с различных ресурсов.

    Использование имен пауков в robots.txt

    Как видим, любой серьезный проект, связанный с поиском контента, имеет своих пауков. И иногда остро стоит задача ограничить доступ некоторым паукам к сайту или его отдельным разделам. Это можно сделать через файл robots.txt в корневой директории сайта. Подробнее про настройку роботса я писал ранее, рекомендую ознакомиться.

    Обратите внимание — файл robots.txt и его директивы могут быть проигнорированы поисковыми роботами. Директивы являются лишь рекомендациями для ботов.

    Задать директиву для поискового робота можно, используя секцию — обращение к юзер-агенту этого робота. Секции для разных пауков разделяются одной пустой строкой.

    User-agent: Googlebot Allow: /

    User - agent : Googlebot

    Allow : /

    Выше приведен пример обращения к основному поисковому роботу Google.

    Изначально я планировал добавить в таблицу записи о том, как идентифицируют себя поисковые боты в логах сервера. Но так как для SEO эти данные имеют мало значения и для каждого токена агента может быть несколько видов записей, было решено обойтись только названием ботов и их предназначением.

    Поисковые роботы G o o g l e

    User-agent Функции
    Googlebot Основной краулер-индексатор страниц для ПК и оптимизированных для смартфонов
    Mediapartners-Google Робот рекламной сети AdSense
    APIs-Google Агент пользователя APIs-Google
    AdsBot-Google Проверяет качество рекламы на веб-страницах, предназначенных для ПК
    AdsBot-Google-Mobile Проверяет качество рекламы на веб-страницах, предназначенных для мобильных устройств
    Googlebot-Image (Googlebot) Индексирует изображения на страницах сайта
    Googlebot-News (Googlebot) Ищет страницы для добавления в Google Новости
    Googlebot-Video (Googlebot) Индексирует видеоматериалы
    AdsBot-Google-Mobile-Apps Проверяет качество рекламы в приложениях для устройств Android, работает по тем же принципам, что и обычный AdsBot

    Поисковые роботы Я ндекс

    User-agent Функции
    Yandex При указании данного токена агента в robots.txt, обращение идет ко всем ботам Яндекса
    YandexBot Основной индексирующий робот
    YandexDirect Скачивает информацию о контенте сайтов-партнеров РСЯ
    YandexImages Индексирует изображения сайтов
    YandexMetrika Робот Яндекс.Метрики
    YandexMobileBot Скачивает документы для анализа на наличие верстки под мобильные устройства
    YandexMedia Робот, индексирующий мультимедийные данные
    YandexNews Индексатор Яндекс.Новостей
    YandexPagechecker Валидатор микроразметки
    YandexMarket Робот Яндекс.Маркета;
    YandexCalenda Робот Яндекс.Календаря
    YandexDirectDyn Генерирует динамические баннеры (Директ)
    YaDirectFetcher Скачивает страницы с рекламными объявлениями для проверки их доступности и уточнения тематики (РСЯ)
    YandexAccessibilityBot Cкачивает страницы для проверки их доступности пользователям
    YandexScreenshotBot Делает снимок (скриншот) страницы
    YandexVideoParser Паук сервиса Яндекс.Видео
    YandexSearchShop Скачивает YML-файлы каталогов товаров
    YandexOntoDBAPI Робот объектного ответа, скачивающий динамические данные

    Другие популярные поисковые боты

    User-agent Функции
    Baiduspider Спайдер китайского поисковика Baidu
    Cliqzbot Робот анонимной поисковой системы Cliqz
    AhrefsBot Поисковый бот сервиса Ahrefs (ссылочный анализ)
    Genieo Робот сервиса Genieo
    Bingbot Краулер поисковой системы Bing
    Slurp Краулер поисковой системы Yahoo
    DuckDuckBot Веб-краулер ПС DuckDuckGo
    facebot Робот Facebook для веб-краулинга
    WebAlta (WebAlta Crawler/2.0) Поисковый краулер ПС WebAlta
    BomboraBot Сканирует страницы, задействованные в проекте Bombora
    CCBot Краулер на основе Nutch, который использует проект Apache Hadoop
    MSNBot Бот ПС MSN
    Mail.Ru Краулер поисковой системы Mail.Ru
    ia_archiver Скраппит данные для сервиса Alexa
    Teoma Бот сервиса Ask

    Поисковых ботов очень много, я отобрал только самых популярных и известных. Если есть боты, с которыми вы сталкивались по причине агрессивного и настойчивого сканирования сайтов, прошу в комментариях указать это, я добавлю их также в таблицу.