Поисковый робот: различия между версиями

Интерактивная навигация по истории

(Показать все непатрулированные изменения)

[отпатрулированная версия]

← Предыдущая правка Следующая правка →

Содержимое удалено Содержимое добавлено

ВизуальныйВики-текст

Линейный

Версия от 18:12, 28 мая 2019

Поиско́вый ро́бот («веб-пау́к», «веб-краулер» [wɛb-krɔːlə], бот ) — программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика.

По принципу действия, паук напоминает обычный браузер. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, и отправляется по ссылкам на следующие страницы.

Владельцы поисковых машин нередко ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «дятлы» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он доступен.

Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения значимой информации определяются алгоритмами информационного поиска.

В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах.

Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для индексирования. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается практически единственной возможностью указать на его существование. Ещё одним способом быстрой индексации сайта является добавление на сайт систем веб-аналитики, принадлежащих поисковым сервисам. Например, таких как Google Analytics, Яндекс.Метрика и Рейтинг@Mail.ru от Google, Яндекса и Mail.Ru соответственно.

Ограничить индексацию сайта можно с помощью файла robots.txt. Полная защита от индексации может быть обеспечена другими механизмами, например установкой пароля на странице либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому.

Робот не анализирует найденный контент, он только передает его на сервера поисковой системы, где уже происходит его обработка.

См. также

Ссылки

Яндекс.Вебмастер: Как работает робот (рус.). Яндекс. Дата обращения: 25 апреля 2009. Архивировано 23 августа 2011 года.
Googlebot: Google's Web Crawler (рус.). Google. Дата обращения: 25 апреля 2009. Архивировано 23 августа 2011 года.

@@ Строка 23: / Строка 23: @@
 == Ссылки ==
 * {{cite web
- | author        =
+ |author        =
- | authorlink    =
+ |authorlink    =
- | datepublished =
+ |datepublished =
- | url           = http://help.yandex.ru/webmaster/?id=995296
+ |url           = http://help.yandex.ru/webmaster/?id=995296
- | title         = Яндекс.Вебмастер: Как работает робот
+ |title         = Яндекс.Вебмастер: Как работает робот
- | format        =
+ |format        =
- | work          =
+ |work          =
- | publisher     = Яндекс
+ |publisher     = Яндекс
- | accessdate    = 2009-04-25
+ |accessdate    = 2009-04-25
- | lang          = ru
+ |lang          = ru
- | description   =
+ |description   =
- | archiveurl    = https://www.webcitation.org/619VqleX7
+ |archiveurl    = https://www.webcitation.org/619VqleX7?url=http://help.yandex.ru/webmaster/?id=995324
- | archivedate   = 2011-08-23
+ |archivedate   = 2011-08-23
+ |deadlink      = no
 }}
 * {{cite web
- | author        =
+ |author        =
- | authorlink    =
+ |authorlink    =
- | datepublished =
+ |datepublished =
- | url           = http://www.google.ru/intl/ru/webmasters/bot.html
+ |url           = http://www.google.ru/intl/ru/webmasters/bot.html
- | title         = Googlebot: Google's Web Crawler
+ |title         = Googlebot: Google's Web Crawler
- | format        =
+ |format        =
- | work          =
+ |work          =
- | publisher     = Google
+ |publisher     = Google
- | accessdate    = 2009-04-25
+ |accessdate    = 2009-04-25
- | lang          = ru
+ |lang          = ru
- | description   =
+ |description   =
- | archiveurl    = https://www.webcitation.org/619VtPx7c
+ |archiveurl    = https://www.webcitation.org/619VtPx7c?url=http://www.google.com/support/webmasters/bin/answer.py?hl=en-GB
- | archivedate   = 2011-08-23
+ |archivedate   = 2011-08-23
+ |deadlink      = no
 }}

Поисковый робот: различия между версиями

Версия от 18:12, 28 мая 2019

См. также

Ссылки

Навигация

Поиск