Поисковый робот: различия между версиями
[отпатрулированная версия] | [отпатрулированная версия] |
Mmrraa (обсуждение | вклад) отмена правки 99017368 участника 109.63.225.221 (обс.) Метка: отмена |
м Спасено источников — 2, отмечено мёртвыми — 0. Сообщить об ошибке. См. FAQ. #IABot (v2.0beta15) |
||
Строка 23: | Строка 23: | ||
== Ссылки == |
== Ссылки == |
||
* {{cite web |
* {{cite web |
||
| |
|author = |
||
| |
|authorlink = |
||
| |
|datepublished = |
||
| |
|url = http://help.yandex.ru/webmaster/?id=995296 |
||
| |
|title = Яндекс.Вебмастер: Как работает робот |
||
| |
|format = |
||
| |
|work = |
||
| |
|publisher = Яндекс |
||
| |
|accessdate = 2009-04-25 |
||
| |
|lang = ru |
||
| |
|description = |
||
| |
|archiveurl = https://www.webcitation.org/619VqleX7?url=http://help.yandex.ru/webmaster/?id=995324 |
||
| |
|archivedate = 2011-08-23 |
||
|deadlink = no |
|||
}} |
}} |
||
* {{cite web |
* {{cite web |
||
| |
|author = |
||
| |
|authorlink = |
||
| |
|datepublished = |
||
| |
|url = http://www.google.ru/intl/ru/webmasters/bot.html |
||
| |
|title = Googlebot: Google's Web Crawler |
||
| |
|format = |
||
| |
|work = |
||
| |
|publisher = Google |
||
| |
|accessdate = 2009-04-25 |
||
| |
|lang = ru |
||
| |
|description = |
||
| |
|archiveurl = https://www.webcitation.org/619VtPx7c?url=http://www.google.com/support/webmasters/bin/answer.py?hl=en-GB |
||
| |
|archivedate = 2011-08-23 |
||
|deadlink = no |
|||
}} |
}} |
||
Версия от 18:12, 28 мая 2019
Поиско́вый ро́бот («веб-пау́к», «веб-краулер» [wɛb-krɔːlə], бот ) — программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика.
По принципу действия, паук напоминает обычный браузер. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, и отправляется по ссылкам на следующие страницы.
Владельцы поисковых машин нередко ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «дятлы» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он доступен.
Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения значимой информации определяются алгоритмами информационного поиска.
В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах.
Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для индексирования. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается практически единственной возможностью указать на его существование. Ещё одним способом быстрой индексации сайта является добавление на сайт систем веб-аналитики, принадлежащих поисковым сервисам. Например, таких как Google Analytics, Яндекс.Метрика и Рейтинг@Mail.ru от Google, Яндекса и Mail.Ru соответственно.
Ограничить индексацию сайта можно с помощью файла robots.txt. Полная защита от индексации может быть обеспечена другими механизмами, например установкой пароля на странице либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому.
Робот не анализирует найденный контент, он только передает его на сервера поисковой системы, где уже происходит его обработка.
См. также
Ссылки
- Яндекс.Вебмастер: Как работает робот . Яндекс. Дата обращения: 25 апреля 2009. Архивировано 23 августа 2011 года.
- Googlebot: Google's Web Crawler . Google. Дата обращения: 25 апреля 2009. Архивировано 23 августа 2011 года.
Для улучшения этой статьи желательно:
|
Это заготовка статьи об Интернете. Помогите Википедии, дополнив её. |