Поисковый робот: различия между версиями
[непроверенная версия] | [непроверенная версия] |
Нет описания правки |
Нет описания правки |
||
Строка 1: | Строка 1: | ||
'''Поиско́вый ро́бот''' («веб-пау́к», краулер) — [[компьютерная программа|программа]], являющаяся составной частью [[поисковая система|поисковой системы]] и предназначенная для обхода страниц [[Интернет]]а с целью занесения информации о них в базу данных поисковика. По принципу действия паук напоминает обычный браузер. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, которой принадлежит, и отправляется по ссылкам на следующие страницы. Владельцы поисковых машин нередко ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «''дятлы''» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он подключен к [[Интернет]]у. |
'''Поиско́вый ро́бот''' («веб-пау́к», краулер) — [[компьютерная программа|программа]], являющаяся составной частью [[поисковая система|поисковой системы]] и предназначенная для обхода страниц [[Интернет]]а с целью занесения информации о них в базу данных поисковика. По принципу действия паук напоминает обычный браузер. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, которой принадлежит, и отправляется по ссылкам на следующие страницы. Владельцы поисковых машин нередко ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «''дятлы''» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он подключен к [[Интернет]]у. |
||
Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения значимой информации определяется [[ |
Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения значимой информации определяется [[Поисковый_алгоритм|поисковыми алгоритмами]]. |
||
В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах. |
В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах. |
Версия от 18:33, 18 мая 2009
Поиско́вый ро́бот («веб-пау́к», краулер) — программа, являющаяся составной частью поисковой системы и предназначенная для обхода страниц Интернета с целью занесения информации о них в базу данных поисковика. По принципу действия паук напоминает обычный браузер. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, которой принадлежит, и отправляется по ссылкам на следующие страницы. Владельцы поисковых машин нередко ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «дятлы» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он подключен к Интернету.
Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения значимой информации определяется поисковыми алгоритмами.
В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах.
Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для индексирования. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается единственной возможностью заявить о его существовании.
Ограничить индексацию сайта можно с помощью файла robots.txt, однако некоторые недобросовестные боты могут игнорировать наличие этого файла. Полная защита от индексации может быть обеспечена другими механизмами, например установкой пароля на странице либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому.
См. также
Ссылки
- Яндекс.Вебмастер: Как работает робот . Яндекс. Дата обращения: 25 апреля 2009.
- Googlebot: Google's Web Crawler (англ.). Google. Дата обращения: 25 апреля 2009.
Для улучшения этой статьи желательно:
|
Это заготовка статьи об Интернете. Помогите Википедии, дополнив её. |